長岡技術科学大学 B4 三上侑城文献紹介 2015年12月24日コーパスに基づく動詞の多義解消自然言語処理研究室1
View Slide
出典コーパスに基づく動詞の多義解消福本 文代, 辻井 潤一自然言語処理 Vol. 4 (1997)No. 2 P21-392
概要言語処理における問題の一つに、言語に関する様々な曖昧性の問題がある。動詞の語義情報を利用し、文中に含まれる多義語の曖昧性を解消する。本手法では71.1%の正解率が得られた。3
情報の抽出意味的に近い動詞は同じ名詞と共起して出現する。s1,s1’ においてtakeとbuyはstakeと共起して現れ、ほぼ同じ意味をもつ。4
情報の抽出s1,s2両方に表れるtakeは多義語であり、動詞buy, spendと共起して表れる名詞stake, timeと特徴付けができる。多義語の動詞を含む文において、意味を特徴づける名詞があれば、動詞の意味を同定することができる。5
仮想動詞多義語の意味を特徴づける名詞の集合を抽出する。多義語に対し、一つ一つの意味に対応させた要素(仮想動詞ベクトル)に分解し、クラスタを生成。6
仮想動詞7
クラスタリング手法手法として、overlappingクラスタリングアルゴリズムを使用した。手法として例えば、takeがbuyとspendの意味を持つかどうかを判断するために、{take1, buy}と{take2,spend}の偏差を比較して決定する。8
相互情報量9
相互情報量クラスタリングの結果から得られたこのテーブルをpvnテーブルと呼ぶ。複数の集合に属する名詞は、相互情報量が一番大きい値の仮想動詞とする。10
多義語の解消多義語の後方5字以内に出現する名詞がpvnテーブルに存在するときに、その仮想動詞の意味とする。2つ以上存在する場合は、相互情報量が一番高いものをその意味とする。11
多義語の解消名詞がpvnテーブルに存在しない場合は、その名詞と各仮想動詞を以下の式で計算し、最大になったものの意味とする。Mu:相互情報量 , Dis:偏差12
実験コーパスはタグ付けされたWall StreetJournal(182,992文)を使用した。そこから動詞と名詞の組を5,940,193組(異なり組:2,743,974)を取得した。13
実験異なり組:2,743,974に対して、相互情報量を計算し、共起頻度の閾値が5、相互情報量の閾値が3以上である動詞と名詞、動詞と副詞の組を抽出した。結果、名詞が6768組、副詞が1200組を得た。14
実験実験にはその中から、14種類の多義語を用い、テスト文として、各多義語に対してランダムに100文、合計1,400文を抽出した。この中で、人間が一意に決定できないものは除き、1,226文を対象に実験を行った。15
実験結果16
実験結果17
実験結果18pvnテーブルにある方の正解は、総数606文の内、539文であり、正解率は88.9%に達している。
実験(他手法との比較)既存の手法であった、文脈ベクトルを用いた名詞の多義解消手法を動詞に適用した結果と比較した。文脈サイズ(対象語の前後何語を文脈としたか)には5語と10語を用いた。19
実験結果20
まとめコーパスから抽出した動詞の語義情報を利用し、曖昧性を解消する手法を提案。14種類の多義語動詞1226文に対し、71.1%の正解率が得られた。pvnテーブルにあるもののみの場合では88.9%の正解率が得られた。21
ご視聴ありがとうございました22