文献紹介_9_コーパスに基づく動詞の多義解消

長岡技術科学大学 B4 三上侑城文献紹介 2015年12月24日コーパスに基づく動詞の多義解消自然言語処理研究室 1

出典コーパスに基づく動詞の多義解消福本文代, 辻井潤一自然言語処理 Vol. 4 (1997)
No. 2 P21-39 2

概要 言語処理における問題の一つに、言語に関する様々な曖昧性の問題がある。 動詞の語義情報を利用し、文中に含まれる多義語の曖昧性を解消する。 本手法では71.1%の正解率が得られた。 3

情報の抽出 意味的に近い動詞は同じ名詞と共起して出現する。 s1,s1’ においてtakeとbuyはstakeと共起して現れ、ほぼ同じ意味をもつ。 4

情報の抽出 s1,s2両方に表れるtakeは多義語であり、動詞buy, spendと共起して表れる名詞stake, timeと特徴付けができる。 多義語の動詞を含む文において、意味を特徴づける名詞があれば、動詞の意味を同定することができる。 5

仮想動詞 多義語の意味を特徴づける名詞の集合を抽出する。 多義語に対し、一つ一つの意味に対応させた要素(仮想動詞ベクトル)に分解し、クラスタを生成。 6

仮想動詞 7

クラスタリング手法 手法として、overlappingクラスタリングアルゴリズムを使用した。 手法として例えば、takeがbuyとspend の意味を持つかどうかを判断するために、 {take1, buy}と{take2,spend}の偏差を比較して決定する。 8

相互情報量 9

相互情報量 クラスタリングの結果から得られたこのテーブルをpvnテーブルと呼ぶ。 複数の集合に属する名詞は、相互情報量が一番大きい値の仮想動詞とする。 10

多義語の解消 多義語の後方５字以内に出現する名詞がpvnテーブルに存在するときに、その仮想動詞の意味とする。 ２つ以上存在する場合は、相互情報量が一番高いものをその意味とする。 11

多義語の解消 名詞がpvnテーブルに存在しない場合は、その名詞と各仮想動詞を以下の式で計算し、最大になったものの意味とする。 Mu:相互情報量 , Dis:偏差 12

実験 コーパスはタグ付けされたWall Street Journal(182,992文)を使用した。 そこから動詞と名詞の組を5,940,193 組(異なり組:2,743,974)を取得した。 13

実験 異なり組:2,743,974に対して、相互情報量を計算し、共起頻度の閾値が５、相互情報量の閾値が３以上である動詞と名詞、動詞と副詞の組を抽出した。 結果、名詞が6768組、副詞が1200組を得た。 14

実験 実験にはその中から、14種類の多義語を用い、テスト文として、各多義語に対してランダムに100文、合計1,400文を抽出した。 この中で、人間が一意に決定できないものは除き、1,226文を対象に実験を行った。 15

実験結果 16

実験結果 17

実験結果 18 pvnテーブルにある方の正解は、総数606文の内、539文であり、正解率は88.9%に達している。

実験(他手法との比較) 既存の手法であった、文脈ベクトルを用いた名詞の多義解消手法を動詞に適用した結果と比較した。 文脈サイズ(対象語の前後何語を文脈としたか)には5語と10語を用いた。 19

実験結果 20

まとめ コーパスから抽出した動詞の語義情報を利用し、曖昧性を解消する手法を提案。 14種類の多義語動詞1226文に対し、 71.1%の正解率が得られた。 pvnテーブルにあるもののみの場合では 88.9%の正解率が得られた。 21

ご視聴ありがとうございました 22

文献紹介_9_コーパスに基づく動詞の多義解消

文献紹介_9_コーパスに基づく動詞の多義解消

MIKAMI-YUKI

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

長岡技術科学大学 B4 三上侑城文献紹介 2015年12月24日コーパスに基づく動詞の多義解消自然言語処理研究室 1

出典コーパスに基づく動詞の多義解消福本文代, 辻井潤一自然言語処理 Vol. 4 (1997)

概要 言語処理における問題の一つに、言語に関する様々な曖昧性の問題がある。 動詞の語義情報を利用し、文中に含まれる多義語の曖昧性を解消する。 本手法では71.1%の正解率が得られた。 3

情報の抽出 意味的に近い動詞は同じ名詞と共起して出現する。 s1,s1’ においてtakeとbuyはstakeと共起して現れ、ほぼ同じ意味をもつ。 4

仮想動詞 多義語の意味を特徴づける名詞の集合を抽出する。 多義語に対し、一つ一つの意味に対応させた要素(仮想動詞ベクトル)に分解し、クラスタを生成。 6

仮想動詞 7

クラスタリング手法 手法として、overlappingクラスタリングアルゴリズムを使用した。 手法として例えば、takeがbuyとspend の意味を持つかどうかを判断するために、 {take1, buy}と{take2,spend}の偏差を比較して決定する。 8

相互情報量 9

相互情報量 クラスタリングの結果から得られたこのテーブルをpvnテーブルと呼ぶ。 複数の集合に属する名詞は、相互情報量が一番大きい値の仮想動詞とする。 10

多義語の解消 多義語の後方５字以内に出現する名詞がpvnテーブルに存在するときに、その仮想動詞の意味とする。 ２つ以上存在する場合は、相互情報量が一番高いものをその意味とする。 11

多義語の解消 名詞がpvnテーブルに存在しない場合は、その名詞と各仮想動詞を以下の式で計算し、最大になったものの意味とする。 Mu:相互情報量 , Dis:偏差 12

実験 コーパスはタグ付けされたWall Street Journal(182,992文)を使用した。 そこから動詞と名詞の組を5,940,193 組(異なり組:2,743,974)を取得した。 13

実験 異なり組:2,743,974に対して、相互情報量を計算し、共起頻度の閾値が５、相互情報量の閾値が３以上である動詞と名詞、動詞と副詞の組を抽出した。 結果、名詞が6768組、副詞が1200組を得た。 14

実験 実験にはその中から、14種類の多義語を用い、テスト文として、各多義語に対してランダムに100文、合計1,400文を抽出した。 この中で、人間が一意に決定できないものは除き、1,226文を対象に実験を行った。 15

実験結果 16

実験結果 17

実験結果 18 pvnテーブルにある方の正解は、総数606文の内、539文であり、正解率は88.9%に達している。

実験(他手法との比較) 既存の手法であった、文脈ベクトルを用いた名詞の多義解消手法を動詞に適用した結果と比較した。 文脈サイズ(対象語の前後何語を文脈としたか)には5語と10語を用いた。 19

実験結果 20

まとめ コーパスから抽出した動詞の語義情報を利用し、曖昧性を解消する手法を提案。 14種類の多義語動詞1226文に対し、 71.1%の正解率が得られた。 pvnテーブルにあるもののみの場合では 88.9%の正解率が得られた。 21

ご視聴ありがとうございました 22