10gatu

文献紹介ゼミ長岡技術科学大学山本研究室 M1 宮西由貴 1

著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s
Categories Trained on Large Corpora • 著者: David Yarowsky • COLING-92 p454-460 2

概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92％の正解率 3

背景 • 語義曖昧性に統計を利用するボトルネック – 大量のタグ付きコーパスを使用 – 人手での処理→コスト高 • 上記問題の解決策 –
人手の加わったコーパスを使わないシステム – 多量の平文コーパスを使用 4

システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ
• 使用するモデル – カテゴリの中で一番確率が高いものを選択 • 入出力 – 入力：文 – 出力：カテゴリ名 5

提案手法：３つの仮定 • 異なる概念集合は異なる文脈で使われる • 異なる語義は異なる概念集合に属する • 概念集合用の文脈識別器が存在する場合 →多義性解消のための文脈識別器と同等 Roget’sのカテゴリを概念集合とみなす 6

提案手法：３つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定＆語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 7

contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索
– その周辺語100語の用語索引を引く • ノイズ除去 – 同じカテゴリにおいての多義性→許容 – その他→コーパス内の出現頻度の逆数を重みに 9

重要語の重み付け • 単純なイメージ – 重要語＝そのカテゴリの文脈に頻繁に出る語！ • 上記のイメージを式で表現 – 相互情報量:Pr⁡ (|)
Pr⁡ () RCat= Roget’sカテゴリ Pr :単語の出現頻度 Pr⁡ (|):単語とカテゴリの条件付き確率 • 相互情報量のlogを重みとして付与 11

カテゴリ推定手法 • 入力文中から対象語の前後10語を取得 • 取得したすべての語wに対して以下を計算 argmax log⁡ ( Pr ×
Pr⁡ () Pr⁡ () ) • 重みの総和が一番大きいカテゴリを選択 13

実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,
taste, interest, issue, duty, sentence, slug 単語語義 RCat 頻度正解率平均正解率 space object UNIVERSE 1422 96% celebrity ENTERTAINER 222 95% star-shaoed object INSIGNIA 56 82% star 96% 14

実験結果 • 全体として – 平均92％ – 著者の予想より高い • 他手法との結果比較 –
今までのWSD：50～85％ – この著者の別論文:92％単語正解率 star 96% mole 99% galley 95% cone 77% bass 99% bow 91% taste 93% interest 72% issue 94% duty 96% sentence 98% slug 97% 平均 92% 15

概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92％の正解率 – 他手法より有利な結果 16

10gatu

10gatu

miyanishi

More Decks by miyanishi

Featured

Transcript

文献紹介ゼミ長岡技術科学大学山本研究室 M1 宮西由貴 1

著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s

概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ

背景 • 語義曖昧性に統計を利用するボトルネック – 大量のタグ付きコーパスを使用 – 人手での処理→コスト高 • 上記問題の解決策 –

システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ

提案手法：３つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定＆語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 7

提案手法：３つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定＆語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 8

contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索

提案手法：３つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定＆語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 10

重要語の重み付け • 単純なイメージ – 重要語＝そのカテゴリの文脈に頻繁に出る語！ • 上記のイメージを式で表現 – 相互情報量:Pr⁡ (|)

提案手法：３つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定＆語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 12

カテゴリ推定手法 • 入力文中から対象語の前後10語を取得 • 取得したすべての語wに対して以下を計算 argmax log⁡ ( Pr ×

実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,

実験結果 • 全体として – 平均92％ – 著者の予想より高い • 他手法との結果比較 –

概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ