Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介ゼミ(6月分)

miyanishi
June 26, 2014
360

 文献紹介ゼミ(6月分)

miyanishi

June 26, 2014
Tweet

Transcript

  1.  タイトル: ParaSense or How to Parallel Corpora for Word

    Sense Disambiguation  著者: Els Lefever Veronique Hoste Martine De Cock  Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
  2.  対訳コーパスを用いた多義性解消  対訳コーパスさえあれば言語非依存  全自動  タグ付きコーパスのボトルネック解消  調査したこと

     5つの言語の対訳コーパスで比較  従来手法と比較  手動アライメントの有無による結果の比較 02
  3.  対訳コーパスを用いた多義性解消  対訳コーパスさえあれば言語非依存  全自動  タグ付きコーパスのボトルネック解消  調査したこと

     5つの言語の対訳コーパスで比較  従来手法と比較  アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
  4.  入力言語:英語  使用言語:5つの言語を使用  フランス語  イタリア語  スペイン語

     ドイツ語  オランダ語  使用コーパス: Europarlコーパス  英語とヨーロッパ諸国語の対訳コーパス 05
  5.  Europarlコーパス(※) のアライメント  入力・使用言語についてアライメント  GIZA++を使用  分類器を5種類用意 

    使用言語に対して1つずつ分類器を用意  Memory-based learning(MBL)を使用  Jefferey-Divergence距離でパラメータ決定 06
  6.  英文(入力文)に対する素性  対象語自身の表層形・品詞・チャンク情報  対象語周辺の表層形・品詞・チャンク情報  モノリンガル素性(bag-of-words)  英文以外の5ヵ国語の素性

     文中に対象語が存在する/しないの二値  対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
  7.  提案システムの素性は3種類  1:full feature vector  2:Translation feature 

    3:Local context feature  比較するシステム  Baseline:高頻度語義を選択  T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
  8.  テストセット  SemEval”CLWSD”のテストセットを使用  テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel

    Corpus ▪ BNC  評価  Precision:SemEvalで使われた精度  Accuracy:正解数をテスト文数で割った値 11
  9.  スペイン語以外では圧倒的に良い結果  自動アライメントでも従来手法に勝利  対訳コーパスの乏しさについて  現在手に入る量は乏しい  今後

    大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
  10.  提案手法の効果  従来手法と同等もしくはそれ以上の結果  素性が単純なので改善の余地あり  アライメント方法について  自動でも手動と大差ない結果

     言語による結果の比較  英語-スペイン語間では従来手法が上  従来手法より言語による差が少ない 16