共起要素のクラスタリングを用いた分布類似度計算

共起要素のクラスタリングを用いた分布類似度計算長岡技術科学大学電気系山本研究室大平真一，山本和英

単語類似度とは  意味が近い語同士を類似する単語とする  『そば』と『うどん』は共通点が多い→類似度が高い  『そば』
と『缶』は性質など全く異なる→類似度が低い  コーパスを用いた類似度計算  類似した文脈の語同士は似ている:分布仮説  コーパス内での単語の使われ方を比較 →分布類似度 ①

分布類似度とは単語と素性の例 (共起要素を素性とした場合)  『そば』「を,打つ」「を,食べる」「の,原料」  『うどん』
「を,打つ」「を,食べる」「の,原料」  『缶』「を,蹴る」「を,あける」「の,ふた」共通する素性が多い → 類似度が高い共通する素性が少ない → 類似度が低い ②

既存研究  [相澤, 08] - 特徴を強く表す素性のみを使用  [柴田ら, 09] -
類似度計算に用いる式の検討  [Maayan Zhitomirsky-Geffet and Dagan, 09] - ブートストラップ法を用いての素性選択  [朝倉ら, 10] - 重みの相対性を用いた素性選択 ③

提案手法  計算に用いる共起要素をクラスタリングする  人名などの単語に依存する素性が有効となる 『単語 w』 : 「共起要素」 =
「格要素r,係り先の語w’」 『ドイツ』 : 「の,ビール」「の,首相」「の,州」 『フランス』 : 「の,人々」「の,大統領」「の,地域圏」等価な意味の共起要素が有効な素性となる例 ④

システム全体の流れ 1. 共起要素の自動獲得  単語と共起要素の対を獲得[Lin, 98] 2. 共起要素のクラスタリング  クラスタリングツールbayonを用いる
3. 関数を用いた類似度計算  Weight 関数によるノイズ低減と Measure 関数による類似度計算 [柴田ら, 09] ⑤

クラスタリング 『ドイツ』 : 「の,ビール」「の,首相」「の,州」 『フランス』 : 「の,人々」「の,大統領」
「の,地域圏」 ↓ 『ドイツ』 : 「クラスタa」「クラスタx」「クラスタy」 『フランス』 : 「クラスタb」「クラスタx」「クラスタy」例  共起要素をクラスタリング結果に置き換える ⑥

クラスタリング : 手法  bayonによる共起要素のクラスタリング  共起要素の特徴量として単語と共起回数を使用する『の:銀閣寺』: 京都(5)，都市左京区(3)，東山(4) クラスタa
→ 「の:南禅寺」，「の:銀閣寺」出力例入力例

 『強』類義語ペア→フランス:ドイツ  『中』類義語ペア→フランス:欧州  『弱』類義語ペア→フランス:日本人  『非』類義語ペア→フランス:建物評価手法 
シソーラスから類義語ペアを自動生成  『強』や『弱』など段階を設定する[朝倉ら, 10]  各段階ごとに800セットをランダムで使用例 ⑦

 対象コーパス中の「AやB」という表現から『A:B』を候補とする  分類語彙表の階層を用いて類義語の強度を設定物品人間活動の主体家屋建物固有地名人種・民族
フランスドイツ欧州日本人評価セットの作成

評価手法イメージ  段階の異なる類義語ペアを類似度計算  800ペアずつ判定したときの誤り数を求める『強』類義語ペア 800対『弱』類義語ペア 800対 1
800 801 1600 類似度 [順位] 判定誤り ⑧

実験条件  使用したコーパス  日本経済新聞全記事データベース 1990~2004年度版  単語のユニーク数 : 145,057
個  共起要素のユニーク数 : 158,057 個  クラスタ数  12,500，2万5千，5万，7万5千，10万，12万5千 ⑨

結果  全ての評価セットにおいて誤り数の減少が見られた →手法は有効であるといえる評価セット柴田らの手法提案手法クラスタ数『強＋中』
582 554 50,000 『中＋弱』 440 418 50,000 『弱＋非』 192 190 75,000 ⑩

結果 : 評価セット『強＋中』 550 560 570 580 590 10000 30000
50000 70000 90000 110000 130000 判定誤り数クラスタ数提案手法柴田らの手法

考察  クラスタリングが原因の判定誤りがあった →精度向上に寄与するクラスタを選択する手法が求められる  改善例には国名・地域名が多く見られた  特に『強＋中』のセットにおいては39%を占めた →人名などのクラスタリングの効果が強く表れた
⑪

まとめ  クラスタリングを行うことで等価な意味を持つ共起要素をまとめることを狙った  既存手法に対して誤り数の減少を確認し、有効性を示した  国名・地域名に対して特に効果が確認された ⑫

共起要素のクラスタリングを用いた分布類似度計算

共起要素のクラスタリングを用いた分布類似度計算

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

共起要素のクラスタリングを用いた分布類似度計算長岡技術科学大学電気系山本研究室大平真一，山本和英

単語類似度とは  意味が近い語同士を類似する単語とする  『そば』と『うどん』は共通点が多い→類似度が高い  『そば』

分布類似度とは単語と素性の例 (共起要素を素性とした場合)  『そば』「を,打つ」「を,食べる」「の,原料」  『うどん』

既存研究  [相澤, 08] - 特徴を強く表す素性のみを使用  [柴田ら, 09] -

提案手法  計算に用いる共起要素をクラスタリングする  人名などの単語に依存する素性が有効となる 『単語 w』 : 「共起要素」 =

システム全体の流れ 1. 共起要素の自動獲得  単語と共起要素の対を獲得[Lin, 98] 2. 共起要素のクラスタリング  クラスタリングツールbayonを用いる

クラスタリング 『ドイツ』 : 「の,ビール」「の,首相」「の,州」 『フランス』 : 「の,人々」「の,大統領」

クラスタリング : 手法  bayonによる共起要素のクラスタリング  共起要素の特徴量として単語と共起回数を使用する『の:銀閣寺』: 京都(5)，都市左京区(3)，東山(4) クラスタa

 『強』類義語ペア→フランス:ドイツ  『中』類義語ペア→フランス:欧州  『弱』類義語ペア→フランス:日本人  『非』類義語ペア→フランス:建物評価手法 

 対象コーパス中の「AやB」という表現から『A:B』を候補とする  分類語彙表の階層を用いて類義語の強度を設定物品人間活動の主体家屋建物固有地名人種・民族

評価手法イメージ  段階の異なる類義語ペアを類似度計算  800ペアずつ判定したときの誤り数を求める『強』類義語ペア 800対『弱』類義語ペア 800対 1

実験条件  使用したコーパス  日本経済新聞全記事データベース 1990~2004年度版  単語のユニーク数 : 145,057

結果  全ての評価セットにおいて誤り数の減少が見られた →手法は有効であるといえる評価セット柴田らの手法提案手法クラスタ数『強＋中』

結果 : 評価セット『強＋中』 550 560 570 580 590 10000 30000

まとめ  クラスタリングを行うことで等価な意味を持つ共起要素をまとめることを狙った  既存手法に対して誤り数の減少を確認し、有効性を示した  国名・地域名に対して特に効果が確認された ⑫