Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介ゼミ(6月分)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
June 26, 2014
380

 文献紹介ゼミ(6月分)

Avatar for miyanishi

miyanishi

June 26, 2014
Tweet

Transcript

  1.  タイトル: ParaSense or How to Parallel Corpora for Word

    Sense Disambiguation  著者: Els Lefever Veronique Hoste Martine De Cock  Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
  2.  対訳コーパスを用いた多義性解消  対訳コーパスさえあれば言語非依存  全自動  タグ付きコーパスのボトルネック解消  調査したこと

     5つの言語の対訳コーパスで比較  従来手法と比較  手動アライメントの有無による結果の比較 02
  3.  対訳コーパスを用いた多義性解消  対訳コーパスさえあれば言語非依存  全自動  タグ付きコーパスのボトルネック解消  調査したこと

     5つの言語の対訳コーパスで比較  従来手法と比較  アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
  4.  入力言語:英語  使用言語:5つの言語を使用  フランス語  イタリア語  スペイン語

     ドイツ語  オランダ語  使用コーパス: Europarlコーパス  英語とヨーロッパ諸国語の対訳コーパス 05
  5.  Europarlコーパス(※) のアライメント  入力・使用言語についてアライメント  GIZA++を使用  分類器を5種類用意 

    使用言語に対して1つずつ分類器を用意  Memory-based learning(MBL)を使用  Jefferey-Divergence距離でパラメータ決定 06
  6.  英文(入力文)に対する素性  対象語自身の表層形・品詞・チャンク情報  対象語周辺の表層形・品詞・チャンク情報  モノリンガル素性(bag-of-words)  英文以外の5ヵ国語の素性

     文中に対象語が存在する/しないの二値  対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
  7.  提案システムの素性は3種類  1:full feature vector  2:Translation feature 

    3:Local context feature  比較するシステム  Baseline:高頻度語義を選択  T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
  8.  テストセット  SemEval”CLWSD”のテストセットを使用  テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel

    Corpus ▪ BNC  評価  Precision:SemEvalで使われた精度  Accuracy:正解数をテスト文数で割った値 11
  9.  スペイン語以外では圧倒的に良い結果  自動アライメントでも従来手法に勝利  対訳コーパスの乏しさについて  現在手に入る量は乏しい  今後

    大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
  10.  提案手法の効果  従来手法と同等もしくはそれ以上の結果  素性が単純なので改善の余地あり  アライメント方法について  自動でも手動と大差ない結果

     言語による結果の比較  英語-スペイン語間では従来手法が上  従来手法より言語による差が少ない 16