Upgrade to Pro — share decks privately, control downloads, hide ads and more …

共起要素のクラスタリングを用いた分布類似度計算

 共起要素のクラスタリングを用いた分布類似度計算

大平 真一, 山本 和英. 共起要素のクラスタリングを用いた分布類似度計算. 言語処理学会第17回年次大会, pp.292-295 (2011.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 単語類似度とは  意味が近い語同士を類似する単語とする  『そば』 と 『うどん』 は共通点が多い→類似度が高い  『そば』

    と 『缶』 は性質など全く異なる→類似度が低い  コーパスを用いた類似度計算  類似した文脈の語同士は似ている:分布仮説  コーパス内での単語の使われ方を比較 →分布類似度 ①
  2. 分布類似度とは 単語と素性の例 (共起要素を素性とした場合)  『そば』 「を,打つ」 「を,食べる」 「の,原料」  『うどん』

    「を,打つ」 「を,食べる」 「の,原料」  『缶』 「を,蹴る」 「を,あける」 「の,ふた」 共通する素性が多い → 類似度が高い 共通する素性が少ない → 類似度が低い ②
  3. 既存研究  [相澤, 08] - 特徴を強く表す素性のみを使用  [柴田ら, 09] -

    類似度計算に用いる式の検討  [Maayan Zhitomirsky-Geffet and Dagan, 09] - ブートストラップ法を用いての素性選択  [朝倉ら, 10] - 重みの相対性を用いた素性選択 ③
  4. 提案手法  計算に用いる共起要素をクラスタリングする  人名などの単語に依存する素性が有効となる 『単語 w』 : 「共起要素」 =

    「格要素r,係り先の語w’」 『ドイツ』 : 「の,ビール」 「の,首相」 「の,州」 『フランス』 : 「の,人々」 「の,大統領」 「の,地域圏」 等価な意味の共起要素が 有効な素性となる 例 ④
  5. システム全体の流れ 1. 共起要素の自動獲得  単語と共起要素の対を獲得[Lin, 98] 2. 共起要素のクラスタリング  クラスタリングツールbayonを用いる

    3. 関数を用いた類似度計算  Weight 関数によるノイズ低減と Measure 関数による類似度計算 [柴田ら, 09] ⑤
  6. クラスタリング 『ドイツ』 : 「の,ビール」 「の,首相」 「の,州」 『フランス』 : 「の,人々」 「の,大統領」

    「の,地域圏」 ↓ 『ドイツ』 : 「クラスタa」 「クラスタx」 「クラスタy」 『フランス』 : 「クラスタb」 「クラスタx」 「クラスタy」 例  共起要素をクラスタリング結果に置き換える ⑥
  7.  『強』類義語ペア→フランス:ドイツ  『中』類義語ペア→フランス:欧州  『弱』類義語ペア→フランス:日本人  『非』類義語ペア→フランス:建物 評価手法 

    シソーラスから類義語ペアを自動生成  『強』や『弱』など段階を設定する[朝倉ら, 10]  各段階ごとに800セットをランダムで使用 例 ⑦
  8. 実験条件  使用したコーパス  日本経済新聞全記事データベース 1990~2004年度版  単語のユニーク数 : 145,057

    個  共起要素のユニーク数 : 158,057 個  クラスタ数  12,500,2万5千,5万,7万5千,10万,12万5千 ⑨
  9. 結果 : 評価セット『強+中』 550 560 570 580 590 10000 30000

    50000 70000 90000 110000 130000 判定誤り数 クラスタ数 提案手法 柴田らの手法