Word Relatives om Context for Word Semse Disambiguation

文献紹介 WORD RELATIVES IN CONTEXT FOR WORD SENSE DISAMBIGUATION 自然言語処理研究室
修士１年宮西由貴

論文情報  Martinez David, Eneko Agirre, and Xinglong Wang. “Word
relatives in context for word sense disambiguation.” Proceedings of the 2006 Australasian Language Technology Workshop (ALTW2006), p42-50 １

背景 -曖昧性解消-  語義曖昧性解消  文中の語の意味を一意に特定するタスク  他のNLPタスクのための中間作業  Senseval
 語義曖昧性解消に関するコンテスト  このタスクとしては最高水準３

背景 - Sensevalでの流行-  Sensevalの現状  教師あり学習が優勢  ベースラインを少し超える程度の精度 
原因：訓練データ(＝タグ付きコーパス)が足りない  タグ付きコーパス構築の問題点  コストが高い(人手でのアノテーション)  分野に依存している ⇒knowledge acquisition bottleneck (知識獲得に関するボトルネック) ４

目的  具体的には･･･  教師なしシステムを構築  語義と語を関連付けたシソーラスとコーパスのみを使用 WSDタスクの精度向上知識獲得ボトルネックを解消
５

関連研究 - 「一義の類似語」を用いる手法 (Leacock et al.,1998)-  特徴  Machine
Learning(ML)を使用  ML用のトレーニング用の例は自動的に作成  ステップ ①目標語に類似する語の中で一義のものを選択 ②①で取得した類似語をネットで検索して例を取得 ③目標語と取得した例から訓練データを作成 ④MLに入れて学習「目標語と同義」かつ「一義の語」は少ない６

提案手法 -概要-  関連研究との違い  類似語として多義の語も使用  MLを使用しない  大まかなステップ
 類似語を集める  類似語で置き換えたトークン列を検索する  検索で得た文をランク付け  ランクが高い類似語の語義が選択される７

提案手法 -詳細１-  類似語を集める  WordNet中の同義語・下位語・上位語を収集  類似語で置き換えたトークン列を検索する (１)入力文をトークン化 (２)N個のトークンをまとめる(N≦6)
(３)目標語を類似語に置き換えてネットで検索８

提案手法 -詳細２-  検索で得た文をランク付け  含まれるトークンの数  多ければ多いほどランクが高い  「類似語」の種類
 同義語＞直近の下位語＞直近の上位語＞その他  ヒット数  多くの文がヒットすればランクが高い  ランクが高い類似語の語義が選択される９

具体例（１）  “church”の意味意味① キリスト教徒意味② 教会(建築物) 意味③ 教会・教派(グループ) The
church was rebuild in the 13th century and further modifications and restoration were carried out in the 15th century. 10

具体例（２）  “church”の同義語・上位語・下位語を取得  トークン列を検索  ランクが高かった意味を選択  ②身廊(nave)・修道院(abbey）・大聖堂(cathedral) 
含まれるトークン：多いヒット数：多い 11 意味別クエリ数 ①：２ ②：３ ③：２

実験設定  データセット  Senseval-2(S2LS)･･･WordNet1.7 29個の名詞  Senseval-3(S3LS)･･･WordNet1.71 20個の名詞 
評価方法  Sensevalが提供している評価用ソフトを使用  Recallで評価(必ず答えを返すのでPrecision=Recall)  表記  MR：関連研究(一義の語を用いたWSD)  RC：提案手法 12

実験結果  実験結果の一部  平均 13

考察  平均としては提案手法が良い  ただし、全テストセットに効果がある訳ではない  MRの手法：トレーニングデータに雑音あり  正しい連語を取って来れない 
bag-of-words に頼るしかない 14

他システムとの比較 -実験-  他システムの表記：  RK:自動ランキング(McCarthy et al, 2004) 
MT:機械翻訳タスクの一部(Wang and Martinez,2006)  NR:類似語の数で評価  上記とMR＆CRを比較  結果 15

他システムとの比較 -結果と考察-  RKの結果が一番良い  どのアルゴリズムも良いとは言えない結果  組み合わせて使ってみるのが良い？ ⇒カッパ値を見てみる 
似ている：組み合わせても意味がない  似ていない：組み合わせることで結果が変わる可能性有  全数値が１未満であり、互いに似ていないと判断 S2LS S3LS 16

所感  評価されたのであろう点  教師あり学習を用いない手法  様々な種類の手法との比較  名詞の曖昧性解消としては面白い手法 
精度が出ていないのが難点  対象がネット＝雑音が多い？ 17

Word Relatives om Context for Word Semse Disamb...

Word Relatives om Context for Word Semse Disambiguation

miyanishi

More Decks by miyanishi

Featured

Transcript

文献紹介 WORD RELATIVES IN CONTEXT FOR WORD SENSE DISAMBIGUATION 自然言語処理研究室

論文情報  Martinez David, Eneko Agirre, and Xinglong Wang. “Word

背景 -曖昧性解消-  語義曖昧性解消  文中の語の意味を一意に特定するタスク  他のNLPタスクのための中間作業  Senseval

背景 - Sensevalでの流行-  Sensevalの現状  教師あり学習が優勢  ベースラインを少し超える程度の精度 

目的  具体的には･･･  教師なしシステムを構築  語義と語を関連付けたシソーラスとコーパスのみを使用 WSDタスクの精度向上知識獲得ボトルネックを解消

関連研究 - 「一義の類似語」を用いる手法 (Leacock et al.,1998)-  特徴  Machine

提案手法 -概要-  関連研究との違い  類似語として多義の語も使用  MLを使用しない  大まかなステップ

提案手法 -詳細１-  類似語を集める  WordNet中の同義語・下位語・上位語を収集  類似語で置き換えたトークン列を検索する (１)入力文をトークン化 (２)N個のトークンをまとめる(N≦6)

提案手法 -詳細２-  検索で得た文をランク付け  含まれるトークンの数  多ければ多いほどランクが高い  「類似語」の種類

具体例（１）  “church”の意味意味① キリスト教徒意味② 教会(建築物) 意味③ 教会・教派(グループ) The

具体例（２）  “church”の同義語・上位語・下位語を取得  トークン列を検索  ランクが高かった意味を選択  ②身廊(nave)・修道院(abbey）・大聖堂(cathedral) 

実験設定  データセット  Senseval-2(S2LS)･･･WordNet1.7 29個の名詞  Senseval-3(S3LS)･･･WordNet1.71 20個の名詞 

実験結果  実験結果の一部  平均 13

考察  平均としては提案手法が良い  ただし、全テストセットに効果がある訳ではない  MRの手法：トレーニングデータに雑音あり  正しい連語を取って来れない 

他システムとの比較 -実験-  他システムの表記：  RK:自動ランキング(McCarthy et al, 2004) 

他システムとの比較 -結果と考察-  RKの結果が一番良い  どのアルゴリズムも良いとは言えない結果  組み合わせて使ってみるのが良い？ ⇒カッパ値を見てみる 

所感  評価されたのであろう点  教師あり学習を用いない手法  様々な種類の手法との比較  名詞の曖昧性解消としては面白い手法 