2015年1月　文献紹介ゼミ

文献紹介ゼミ自然言語処理研究室Ｍ１宮西由貴

文献情報 • タイトル – Naïve Bayes Word Sense Induction •
著者 – Du Kook Choe – Engene Charniak • 発表学会 – EMNLP2013(p1433-1437)

概要 • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利

語義推定 (Word Sense Induction：WSI) • どういったタスクなのか？ – 平文中から対象語と同じ意味の語集合を探す – 語義というものは定義されていない
crane chicken bulldozer

語義推定 (Word Sense Induction：WSI) • 語義曖昧性解消(WSD)より優れている？ – WSIの方が新語や新語義に強い – ある特定の領域に使われる語にも強い
– WSDは使用するリソースのボトルネックがある – 現在の精度WSD＞WSI

関連研究 • Yarowsky(1995) – 半教師ありブートストラップアルゴリズムを提唱 – 2つの仮定も提唱 • One-Sense-per-Collocation •
One-Sense-per-discource • 上記アルゴリズムでは不十分 – 新語に対応する際は人手での情報が必要

提案したモデルについて • Yarowskyの仮説に沿って・・・ – One-Sense-per-document – 複数の語が同じ文書に出現→同じコンセプト • 文書はひとつのトピックを持つ –
トピックを使って曖昧な語義を決定

ナイーブベイズを使ったモデル

モデルの拡張 • 語が遠い→単語の意味も遠い – 対象語と他の語の距離を考慮したシステム

実験 • データ – ＳｅｍＥｖａｌ2010のＷＳＩタスクのものを使用 • ＳｅｍＥｖａｌ2010のＷＳＩタスク – 資源としてＮＬＰツール以外使用付加 •
POS-Tagger • Parser • Lemmatizer など – パラメータの調整などはトレーニング中のみ可

詳細な手法 • 文脈は50語とする – Bag-of-wordsを構築 • 文書中に複数回同じ語が出現した場合は・・・ – 語の遠さを測定 –
(例)shiningと一番近いのは2番目のchip

比較手法 • MFS – ベースライン – 一番頻度の高い語義を使用 • UoY –
クラスタリングアルゴリズム – グラフを用いたもの(単語と共起頻度)

比較手法 • Hermit – K-means法を改良したアルゴリズム – 階層的な集合のクラスタリングを行うもの • NMFlib –
マトリックスを用いたクラスタリングアルゴリズム – 他の手法より新しいもの(2011)

結果 • V-Measureで比較 – V-Measure:クラスタのクオリティを測定

結果 • Paired F-scoreで比較

結果 • Supervised Recallで比較

まとめ • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利

miyanishi