文献紹介 5月16日

文献紹介(2016/05/16) 長岡技術科学大学 B4 桾澤優希カテゴリ間の兄弟を活用した集合拡張

文献 ▪ 論文 ▪ 高瀬翔, 岡崎直観, 乾健太郎,
カテゴリ間の兄弟を活用した集合拡張.自然言語処理, Vol. 20 (2013) No. 2 p. 273-296 ▪ キーワード ▪ Wikipedia, 知識獲得, 集合拡張 2

概要 ▪ 意味カテゴリに属する固有表現の集合拡張 ▪ wikipediaのカテゴリの兄弟関係を事前知識として利用する手法の提案 ▪ 既存手法に比べ適合率が向上 3

導入 ▪ 自然言語の理解には常識的知識の獲得が重要 ▪ 意味カテゴリに属する固有名詞リストは様々なタスクで利用される ▪ 例) 質問応答 , 情報抽出
, 文書分類 ▪ 人手での構築はコストがかかる → (半)自動的に獲得する方法が研究されてきた 4

導入 ▪ 集合拡張 ▪ ある意味カテゴリに属する既知の固有表現の集合を入力、そのカテゴリに属する未知の固有表現を獲得するタスク ▪ 「プリウス」「レクサス」「インサイト」のような自動車カテゴリの固有表現から、「カローラ」「シビック」「フィット」のようなものを新たに獲得する ▪
既存手法ではシードインスタンス集合と無関係なインスタンスを獲得してしまう場合がある ▪ 「プリウス」「レクサス」から「iPad」「ThinkPad」のようなものを取得 ▪ Wikipediaの兄弟関係を用いてこれらの間違いを減らす 5

理論 ▪ Espressoアルゴリズム ▪ パターンの取得とインスタンスの取得の2つを反復する集合拡張アルゴリズム ▪ 「新型のX」「Xの性能」といった多くのカテゴリのインスタンスと共起するパーンが得られてしまうため、「プリウス」から「iPad」のようなインスタンスが出され得る
6

理論 ▪ 同一の兄弟グループに含まれるインスタンスは共通の特徴を保有していると仮定 ▪ 自動車、自動二輪の兄弟グループに含まれるインスタンスは「乗る」や「燃費」などの語と係り受け関係を持ちやすい ▪ これらの特徴を取得しインスタンスが特徴を保有しているか否かで誤ったインスタンスの獲得を防ぐ
7

理論 8

理論 9

理論 ▪ フィルタパターンの取得 ▪ 候補の抽出 ▪ 係り先や係り元の関係は考慮しない ▪ 名詞と動詞を対象にする。 ▪
例) 「乗る」、「エンジン」、「愛車」 ▪ ランキング ▪ 最適なフィルタパターンを選択する ▪ 網羅性と平等性の2つでランキング 10

実験 ▪ カテゴリ間の兄弟関係を事前知識として使用することの効果を検証する。 ▪ ベースラインはEspressoアルゴリズム、Espressoアルゴリズムに排他制約を加えたものなどを使用 ▪ 同じ数のインスタンスを取得した際の適合率を比較することで評価
11

実験 ▪ シードインスタンスをWikipediaから取得 ▪ 41個のカテゴリに対して15個ずつインスタンスを用意 ▪ 実験には1億1千万の日本語ウェブページをコーパスとして使用 ▪ KNPによって係り受け構造を解析
12

結果 13

結果 14

実験 15

まとめ ▪ 一既存手法に対してカテゴリ間の兄弟関係を事前知識として利用する手法を提案した ▪ ベースラインであるEspressoアルゴリズムに比べ適合率を最大で4.4%向上させた 16

文献紹介 5月16日

文献紹介 5月16日

gumigumi7

More Decks by gumigumi7

Featured

Transcript

文献紹介(2016/05/16) 長岡技術科学大学 B4 桾澤優希カテゴリ間の兄弟を活用した集合拡張

文献 ▪ 論文 ▪ 高瀬翔, 岡崎直観, 乾健太郎,

概要 ▪ 意味カテゴリに属する固有表現の集合拡張 ▪ wikipediaのカテゴリの兄弟関係を事前知識として利用する手法の提案 ▪ 既存手法に比べ適合率が向上 3

導入 ▪ 自然言語の理解には常識的知識の獲得が重要 ▪ 意味カテゴリに属する固有名詞リストは様々なタスクで利用される ▪ 例) 質問応答 , 情報抽出

理論 8

理論 9

理論 ▪ フィルタパターンの取得 ▪ 候補の抽出 ▪ 係り先や係り元の関係は考慮しない ▪ 名詞と動詞を対象にする。 ▪

実験 ▪ シードインスタンスをWikipediaから取得 ▪ 41個のカテゴリに対して15個ずつインスタンスを用意 ▪ 実験には1億1千万の日本語ウェブページをコーパスとして使用 ▪ KNPによって係り受け構造を解析

結果 13

結果 14

実験 15

まとめ ▪ 一既存手法に対してカテゴリ間の兄弟関係を事前知識として利用する手法を提案した ▪ ベースラインであるEspressoアルゴリズムに比べ適合率を最大で4.4%向上させた 16