素性の相対性による分布類似度計算

素性の相対性による分布類似度計算長岡技術科学大学朝倉剛史　山本和英１

発表の流れ２１．研究の背景２．既存研究とその問題３．提案手法の説明４．実験及び考察５．まとめ

研究の背景電子文書の増加に伴い、　　　　　機械処理の必要性が高まっている。文書の分類、話題抽出などのため、　　　　　　　　　　　　単語の類似性を求めたい。単語の類似度計算の必要性が高まっている。３１．研究の背景

類似度計算（１）シソーラスを用いた手法（２）コーパスを用いた手法　　　→近年コーパスを用いた手法に注目　　　　　　　　　⇒分布類似度『醤油』　『味噌』　⇒　類似度高い『醤油』　　『石』　⇒　類似度低い
意味的な類似性を求める４１．研究の背景

分布類似度とは？　文書内での単語の使われ方を比較　５単語の係り先などを素性とする。 ▪『醤油』　　「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』　「の：香り」「の：原料」「を：製造」
「から：行く」「を：投げる」・・・ ▪『石』　「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・１．研究の背景素性選択の必要性！

発表の流れ　６１．研究の背景２．既存研究とその問題３．提案手法の説明４．実験及び考察５．まとめ

▪『醤油』　　「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』　「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』　「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・既存研究の素性選択
　７２．既存研究とその問題　各単語の素性について、単語の特徴を強く表している要素以外は一律に除外[相澤(08)]。

問題点 ▪『醤油』　　「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』　「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』　「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・
　２単語間で共通して特徴を強く表さない要素　　　　　　　　　　　　 ⇒類似度計算に有効　８２．既存研究とその問題除外される有効な情報まで除外されてしまう

　既存手法：単語の特徴を強く表すかどうか　提案手法：特徴を表す度合いが近いかどうか提案手法　　比較対象の単語の素性を用いて　　　　　　　　相対的に素性を取捨選択する。　９２．既存研究とその問題　２単語間で共通して特徴を強く表さない要素の獲得が可能。

発表の流れ１．研究の背景２．既存研究とその問題３．提案手法の説明４．実験及び考察５．まとめ１０

システム全体の流れ１１３．提案手法の説明コーパス単語とその素性単語の素性を自動収集集めた素性の足切り
素性の特徴量を求めるシソーラス単語とその素性特徴量を考慮した素性選択類義語集合関数を用いた類似度計算 1 2 3 4 5

例）「お金が必要」　「ＥＵに加盟」（１）単語の素性を自動収集　　コーパスより収集した、以下のような定型表現を用いる[Lin(98)]。１２３．提案手法の説明例えば、『お金』の共起要素として「が:必要」が得られる。全ての単語wについて、共起要素を収集し、素性を作成する。

（２）集めた素性の足切り　　あきらかなノイズなどは、足切りしておく。　　共起要素の出現頻度を用いて、相互情報量（ＭＩ）が閾値βに満たないものは、除外する。１３３．提案手法の説明閾値βは評価セットによって異なり、経験的に決める[相澤(08)]。

（３）素性の特徴量を求める　　特徴量＝共起要素が単語wの特徴を表す度合い　単語wの類義語集合を使用する。　　▪例：『少年』の類義語集合　　　　　　→「子供」「少女」「児童」「女の子」「青少年」　　その類義語集合の中で共通する共起要素ほど、特徴量を高くする[Ｚｈｉｔｏｍｉｒｓｋｙ-ＧｅｆｆｅｔａｎｄＤａｇａｎ(09)]。１４
３．提案手法の説明

（４）特徴量を考慮した素性選択 ▪『醤油』　　「の：香り（1.0）」「の：原料(0.9)」「を：製造(0.8)」　　「の：道（0.4）」「を：投げる(0.1)」・・・ ▪『味噌』　　「の：香り（1.0）」「の：原料(0.8)」「を：製造(0.7)」　　「から：行く(0.4)」「を：投げる(0.1)」・・・１５３．提案手法の説明　共通している要素について特徴量の差が大き
ければ除外し、小さければ除外しない。 ※数字は特徴量

（５）関数を用いた類似度計算　　素性の重なりを見る関数である以下の関数を使用する。　　これらの関数を相加平均した値を類似度とする[柴田ら(09)]。１６３．提案手法の説明

発表の流れ１．研究の背景２．既存研究とその問題３．提案手法の説明４．実験及び考察５．まとめ１７

評価方法４．実験及び考察１８「強」類義語「中」類義語「弱」類義語「非」類義語ＩＣ：ＬＳＩＩＣ：太陽電池ＩＣ：カード
ＩＣ：国土庁アジア：ヨーロッパアジア：アメリカアジア：我が国アジア：システム居酒屋：パブ居酒屋：コンビニ居酒屋：駅居酒屋：地名高低２組の類義語ペア（「強＋中」「中＋弱」「弱＋非」）　　　　　を類似度計算した結果で２値分類する。

「強」評価方法イメージ｢強｣類義語ペア
　　　集合｢中｣類義語ペア　　　集合判定閾値高低１９４．実験及び考察類義語ペア類似度「強＋中」の２値分類「中」

実験（１）柴田らの手法　　　相互情報量による足切りのみ（２）Ｚｈｉｔｏｍｉｒｓｋｙ-ＧｅｆｆｅｔａｎｄＤａｇａｎの手法　　　特徴量を求め、その値で一律に除外（３）本手法　　　特徴量を用いて素性を相対的に取捨選択４．実験及び考察
２０実験は３手法を比較した。

実験条件 • 使用したコーパス　　　日本経済新聞全記事データーベース　　　１９９０－２００４年度版 • 使用した単語数 ※共起要素数が20以上　　　４０,６７８語２１
４．実験及び考察

実験結果評価セット柴田ら Z-G & D 本手法「強＋中」 0.702 0.791
0.797 「中＋弱」 0.748 0.771 0.773 「弱＋非」 0.838 0.789 0.840 すべての評価セットにおいて、比較手法の精度を上回った。　　　　→有効性を確認４．実験及び考察２２ ※数値はＦ値

改善例「強」類義語ペア『鉄板：鉄筋』「中」類義語ペア『合成樹脂：セメント』柴田ら 0.103 0.265 Z-G &
D 0.096 0.111 本手法 0.216 0.143 ４．実験及び考察２３本手法では適正な類似度水準を実現できた。 ※数値は類似度評価セット「強＋中」での一例

考察 • 低頻度ペアが誤りの中に多く分布していた。　　　⇒超大規模コーパスを用いたり、素性を　　補完するような手法が求められる。４．実験及び考察２４今回用いた特徴量では、精度を維持しながら削減できる量は、最大約98％に上った。　　　⇒類似度計算に必要な素性は非常に限ら
　　れている。

今後の課題　 • ２単語間の素性の共通していない部分においては、相対性を用いた素性選択が行えていない。　→２単語間のみならず、対象の類義語集合の素性と比べるなどの工夫が求められる。４．実験及び考察２５
対象とする単語の範囲を広くする。

発表の流れ１．研究の背景２．既存研究とその問題３．提案手法の説明４．実験及び考察５．まとめ２６

まとめ • 分布類似度における従来の素性選択では、必要な素性まで除外されてしまう可能性がある。 • 素性の相対性を考慮した、新しい素性選択手法を提案した。 • 比較対象の単語の素性と共通する要素について特徴量の差を考慮した。
• 既存手法を上回る精度であり、有効性を示した。５．まとめ２７

　発表は以上です。ありがとうございました。２８

評価セットのイメージ

各類義語ペアの例「強」類義語「中」類義語「弱」類義語「非」類義語ＪＡＬ：ＮＴＴＮＴＴ：銀行ＮＴＴ：国立大学ＮＴＴ：導入ＩＣ：ＬＳＩ
ＩＣ：太陽電池ＩＣ：カードＩＣ：国土庁アジア：ヨーロッパアジア：アメリカアジア：我が国アジア：システムアニメ：映画アニメ：紙芝居アニメ：ＳＦアニメ：清酒居酒屋：パブ居酒屋：コンビニ居酒屋：駅居酒屋：地名関西：四国関西：アジア関西：首都圏関西：事前生活費：交際費生活費：物価生活費：家賃生活費：東日本米国：イギリス米国：アフリカ米国：フランス人米国：企業

足切りのための閾値 • 相互情報量で足切りをする場合、閾値は経験的に決める。　閾値を変化させながら　　　　足切り後の精度を測る。　各評価セットにおいて、　　最適な閾値を求める

本手法の実験結果（１/３）　「強＋中」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

本手法の実験結果（２/３）　「中＋弱」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

本手法の実験結果（３/３）　「弱＋非」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

改善例「強」類義語ペア『鉄板：鉄筋』「中」類義語ペア『合成樹脂：セメント』柴田ら 0.1031 0.2652 Z-G &
D 0.0958 0.1111 本手法 0.2160 0.1430 ４．実験及び考察２３本手法では適正な類似度水準を実現できた。 ※数値は類似度評価セット「強＋中」での一例

改善例「強」類義語単語（共起要素数）ペア共通する要素数類似度足切り無し鉄板（112）：鉄筋（96） 15 0.1170 柴田ら
鉄板（106）：鉄筋（86） 12 0.1031 Z-G & D 鉄板（8）：鉄筋（8） 1 0.0958 本手法鉄板（26）：鉄筋（21） 6 0.2160 「中」類義語単語（共起要素数）ペア共通する要素数類似度足切り無し合成樹脂（156）：セメント（238） 71 0.3375 柴田ら合成樹脂（120）：セメント（173） 43 0.2652 Z-G & D 合成樹脂（13）：セメント（6） 1 0.1111 本手法合成樹脂（61）：セメント（40） 8 0.1430

Ｆ値の計算式

素性の相対性による分布類似度計算

素性の相対性による分布類似度計算

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript