素性の相対性による分布類似度計算

素性の相対性による分布類似度計算長岡技術科学大学電気電子情報工学課程山本研究室０７３１０５８６朝倉剛史１

発表の流れ１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ２

発表の流れ３１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ

背景電子文書の増加に伴い、機械処理の必要性が高まっている。自動言い換え、テキスト分類などのため、類似する単語を求めたい。単語の類似度計算の必要性が高まっている。４１．研究の背景

類似する単語とは？類似する単語は意味的に近いことを表す。例えるならば、『醤油』と『味噌』は、調味料の仲間であり、意味的に近い。 →類似度は高いしかし、『醤油』と『石』は、全く意味が違うものであり、意味的に遠い。 →類似度は低い５１．研究の背景

類似度計算シソーラスを用いた手法単語の関係を人手で構築したシソーラスから、単語同士の関係を導き出す。コーパスを用いた手法単語のコーパスでの使われ方を比較して、自動で単語同士の関係を導き出す。 →近年コーパスを用いた手法に注目 ⇒分布類似度６
１．研究の背景

発表の流れ７１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ

分布類似度とは？「類似した文脈を持つ語は似ている」という『分布仮説』に基づいた考え方。単語が出現する文脈がどれだけ似ているかで、単語の類似度を計算する。文脈を表す要素を素性として使用する → 単語の係り先など８２．分布類似度とは

分布類似度～例１～ある単語と、その素性が以下の通りとする『醤油』「の：香り」「の：原料」「を：製造」・・・『味噌』「の：香り」「の：原料」「を：製造」・・・ →単語の係り先で共通する部分が多い類似度が高い！９２．分布類似度とは

分布類似度～例２～ある単語と、その素性が以下の通りとする『醤油』「の：香り」「の：原料」「を：製造」・・・『石』「を:投げる」「を:蹴る」「の:色」・・・ →単語の係り先で共通する部分が少ない類似度が低い！１０２．分布類似度とは

▪『醤油』「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・素性の問題
類似度計算に悪影響を及ぼすものも多い！ →素性選択の必要性１１２．分布類似度とは

発表の流れ１２１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ

▪『醤油』「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・既存研究の素性選択
１３３．既存研究とその問題各単語の素性について、単語の特徴を強く表している要素以外は一律に除外[相澤(08)]。

問題点 ▪『醤油』「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・
単語の特徴を強く表さない要素が共通している場合、２単語間の類似度計算に有効であると考える。 →除外されることで精度に影響を与える。１４３．既存研究とその問題

提案手法比較対象の単語の素性を用いて相対的に素性を取捨選択する素性の各要素について、比較対象の単語と共通している要素に関して、既存手法：特徴を強く表すかどうか提案手法：特徴を表す度合いが近いかどうかで取捨選択を行う。１５３．既存研究とその問題

予想される効果１６３．既存研究とその問題 ▪『醤油』「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・
▪『石』「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・例えば『醤油』と『味噌』の時は「を：投げる」を除外しないため、有効な要素を残すことが可能どちらも特徴を表していないが、その度合いが近いので有効

予想される効果 ▪『醤油』「の：香り」「の：原料」「を：製造」「の:道」「を：投げる」・・・ ▪『味噌』「の：香り」「の：原料」「を：製造」「から：行く」「を：投げる」・・・ ▪『石』「を:投げる」「を:蹴る」「の:色」「の：紙」「を：ゴミ」・・・
例えば『醤油』と『石』の時は「を：投げる」を除外するため、不要な要素を除外することが可能３．既存研究とその問題１７『石』では特徴を強く表しているが、その度合いが遠いので無効

発表の流れ１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ１８

手法の流れ (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性の特徴量を求める (4) 特徴量を考慮した素性選択（←本手法）
(5) 関数を用いた類似度計算１９４．提案手法の説明

手法の流れ（１/５） (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性の特徴量を求める (4) 特徴量を考慮した素性選択 (5)
関数を用いた類似度計算２０４．提案手法の説明

単語の素性を自動収集コーパスより、ある単語wとw’が格要素rで繋がっている三つ組（w,r,w’）を収集する[Lin98]。例）「お金,が,必要」「ＥＵ,に,加盟」例えば、『お金』の共起要素を「が:必要」とし、全ての単語wについて、共起要素を収集し、素性を作成する。２１
４．提案手法の説明

手法の流れ（２/５） (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性に特徴量を求める (4) 特徴量を考慮した素性選択 (5)
関数を用いた類似度計算２２４．提案手法の説明

集めた素性の足切りあきらかにノイズと判断されるようなものは、あらかじめ足切りしておく。共起要素の出現頻度を用いて、相互情報量（ＭＩ）が閾値βに満たないものは、除外する。閾値βは評価セットによって異なり、経験的に決める[相澤(08)]。２３４．提案手法の説明

手法の流れ（３/５） (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性の特徴量を求める (4) 特徴量を考慮した素性選択 (5)
関数を用いた類似度計算２４４．提案手法の説明

素性の特徴量を求める特徴量＝共起要素が単語wの特徴を表す度合い分類語彙表を用いて単語wの類義語集合を作成する。 ▪例：『少年』の類義語 →「子供」「少女」「児童」「女の子」「青少年」その類義語集合の中で共通する共起要素ほど、特徴量を高くする[Ｚｈｉｔｏｍｉｒｉｓｋｙ-ＧｅｆｆｅｔａｎｄＤａｇａｎ(09)]。２５

特徴量の計算例『少年』と類義語集合の各語と類似度を求める。「子供（0.13）」「少女（0.27）」「児童（0.14）」「女の子（0.14）」「青少年（0.15）」『少年』の共起要素「を：保護」が、『子供』『少女』『児童』に含まれる場合、「を：保護」の『少年』における特徴量は特徴量＝0.13＋0.27＋0.14＝0.54 単語ごとに、最大値を１として正規化する。２６

手法の流れ（４/５） (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性の特徴量を求める (4) 特徴量を考慮した素性選択 (5)
関数を用いた類似度計算２７４．提案手法の説明

特徴量を考慮した素性選択 ▪『醤油』「の：香り（1.0）」「の：原料(0.9)」「を：製造(0.8)」「の：道（0.4）」「を：投げる(0.1)」・・・ ▪『味噌』「の：香り（1.0）」「の：原料(0.8)」「を：製造(0.7)」「から：行く(0.4)」「を：投げる(0.1)」・・・２８４．提案手法の説明比較対象の単語の素性と比較する。
共通している要素について特徴量の差が大きければ除外し、小さければ除外しない。特徴量が小さくても差も小さいため除外しない ※数字は特徴量

手法の流れ（５/５） (1) 単語の素性を自動収集 (2) 集めた素性の足切り (3) 素性の特徴量を求める (4) 特徴量を考慮した素性選択 (5)
関数を用いた類似度計算２９４．提案手法の説明

関数を用いた類似度計算素性の重なりを見る関数である以下の関数を使用する。これらの関数を相加平均した値を類似度とする[柴田ら(09)]。３０４．提案手法の説明

発表の流れ１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ３１

実験条件使用したコーパス日本経済新聞全記事データーベース１９９０－２００４年度版使用した単語数 ※共起要素数が20以上４０,６７８語平均共起要素数１１４．２個（最小２０、最大２０,２０５）３２
５．実験及び考察

評価セットの自動作成コーパスから「ＡやＢ」という定型表現を収集、「Ａ：Ｂ」を類義語候補にする[相澤（08）]。「Ａ：Ｂ」より、分類語彙表を用いて「強」「中」「弱」「非」類義語ペアを作成し、各800ペアづつランダムにサンプリングする。各ペアを「強＋中」「中＋弱」「弱＋非」で組み合わせ、評価セットとする。５．実験及び考察３３

評価方法類似度水準の違う類義語ペアを、類似度計算した結果で２値分類する。｢強｣類義語ペ
ア集合｢中｣類義語ペア集合判定閾値類似度高類似度低３４５．実験及び考察類義語ペア類似度「強」「中」

実験実験は３手法を比較した。（１）柴田らの手法相互情報量による足切りのみ行い類似度計算（２）Ｚｈｉｔｏｍｉｒｉｓｋｙ-ＧｅｆｆｅｔａｎｄＤａｇａｎの手法特徴量を求め、その値で一律に除外（３）本手法特徴量を、比較対象と共通部分について値の差
を見ることで、素性を相対的に取捨選択５．実験及び考察３５

実験結果評価セット柴田ら Z-G & D 本手法「強＋中」 0.7015 0.7908
0.7965（+0.0057）「中＋弱」 0.7474 0.7708 0.7727（+0.0019）「弱＋非」 0.8383 0.7890 0.8395（+0.0013）すべての評価セットにおいて、比較手法の精度を上回った。 →有効性を確認５．実験及び考察３６ ※数値はＦ値

改善例（１/２）「強＋中」セットを例に挙げる「強」類義語ペア → 『鉄板：鉄筋』「中」類義語ペア → 『合成樹脂：セメント』比較手法では『合成樹脂：セメント』の方が類似度が高くなってしまった。
本手法では適正な類似度水準を実現できた。５．実験及び考察３７

改善例（２/２）「強」類義語ペア『鉄板：鉄筋』類似度「中」類義語ペア『合成樹脂：セメント』類似度足切り無し 0.1170 0.3375
柴田ら 0.1031 0.2652 Z-G & D 0.0958 0.1111 本手法 0.2160 0.1430 それぞれの手法における類似度の比較５．実験及び考察３８

考察（１/３）類似度が高い水準の評価セット（「強＋中」）ほど精度が低く、適性な特徴量の差の閾値は小さくなった。 →類似度が高い領域の評価セットの方が、分類が難しい。 →特徴量の度合いが近いものを使用することが有効。５．実験及び考察３９

考察（２/３）低頻度ペアは誤りの中に多く分布していた。 →本手法は共起要素を除外するのみであり、元々含まれなかったが本来あるべき共起要素をカバーできない。 ⇒超大規模コーパスを用いたり、素性を補間するような手法が求められる。５．実験及び考察４０

考察（３/３）今回用いた特徴量では、精度を維持しながら削減できる量は、最大約98％に上った。 →類似度計算に必要な素性は非常に限られている５．実験及び考察４１

今後の課題対象とする単語の範囲を広くする。つまり、低頻度問題や多義性問題に踏み込んだ手法へと工夫が必要。２単語間の素性の共通していない部分においては、相対性を用いた素性選択が行えていない。 →２単語間のみならず、対象の類義語集合の素性と比べるなどの工夫が求められる。５．実験及び考察
４２

発表の流れ１．研究の背景２．分布類似度とは３．既存研究とその問題４．提案手法の説明５．実験及び考察６．まとめ４３

まとめ素性の相対性を考慮した、分布類似度計算の新しい素性選択手法を提案した。比較対象の単語の素性と共通する要素について、特徴量の差を考慮した。既存手法を上回る精度であり、有効性を示した。６．まとめ４４

発表は以上です。ありがとうございました。４５

評価セットのイメージ

各類義語ペアの例「強」類義語「中」類義語「弱」類義語「非」類義語ＪＡＬ：ＮＴＴＮＴＴ：銀行ＮＴＴ：国立大学ＮＴＴ：導入ＩＣ：ＬＳＩ
ＩＣ：太陽電池ＩＣ：カードＩＣ：国土庁アジア：ヨーロッパアジア：アメリカアジア：我が国アジア：システムアニメ：映画アニメ：紙芝居アニメ：ＳＦアニメ：清酒居酒屋：パブ居酒屋：コンビニ居酒屋：駅居酒屋：地名関西：四国関西：アジア関西：首都圏関西：事前生活費：交際費生活費：物価生活費：家賃生活費：東日本米国：イギリス米国：アフリカ米国：フランス人米国：企業

足切りのための閾値相互情報量で足切りをする場合、閾値は経験的に決める。閾値を変化させなが足切り後の精度を測る。各評価セットにおいて、最適な閾値を求める

本手法の実験結果（１/３）「強＋中」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

本手法の実験結果（２/３）「中＋弱」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

本手法の実験結果（３/３）「弱＋非」セットにおける閾値とＦ値の関係。重みとは特徴量を指す

改善例「強」類義語単語（共起要素数）ペア共通する要素数類似度足切り無し鉄板（112）：鉄筋（96） 15 0.1170 柴田ら
鉄板（106）：鉄筋（86） 12 0.1031 Z-G & D 鉄板（8）：鉄筋（8） 1 0.0958 本手法鉄板（26）：鉄筋（21） 6 0.2160 「中」類義語単語（共起要素数）ペア共通する要素数類似度足切り無し合成樹脂（156）：セメント（238） 71 0.3375 柴田ら合成樹脂（120）：セメント（173） 43 0.2652 Z-G & D 合成樹脂（13）：セメント（6） 1 0.1111 本手法合成樹脂（61）：セメント（40） 8 0.1430

素性の相対性による分布類似度計算

素性の相対性による分布類似度計算

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript