Save 37% off PRO during our Black Friday Sale! »

20160422 文献紹介

A2b9d309de966b5b7609727d60058ee2?s=47 Yuta
April 22, 2016

20160422 文献紹介

A2b9d309de966b5b7609727d60058ee2?s=128

Yuta

April 22, 2016
Tweet

Transcript

  1. 文献紹介 長岡技術科学大学 自然言語処理研究室 須戸 悠太 1

  2. 紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet

    • LINA: Identifying Comparable Documents from Wikipedia • Proceedings of the Eighth Workshop on Building and Using Comparable Corpora – PP.88-91 2
  3. 概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等 の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて,

    上記の方法を拡張 – 約60%の精度で同等の文書が特定できた 3
  4. 導入 • 統計的機械翻訳において重要なパラレル コーパス • 同等のリソースを識別するための既存のアプ ローチの評価 – Wikipedia等 •

    言語にとらわれないアプローチ 4
  5. 基本的な手法 • 文書内で1度しか出現しないかつ4文字以上 の単語(hapax words)を含む文書をbags of words で索引付けする • hapax

    wordsを最も多く共有する文書は並列 であると考えられる. – Wikipediaで並列文書を検出する際に非常によく 機能する. 5
  6. hapax words の例 • Hapax words の ほとんどは固有 名詞や数値に 関係するもの

    – 今回はURLや 特殊文字も保 持 6
  7. 文書のペアの選択 • ソース-ターゲット文書のペアを検索するた めに,ソース言語(EN)の文書ごとにhapax wordsの最大数を共有するターゲット言語(FR, DE)の文書を20文ずつ選択する(baseline) 7

  8. 分類棚の利用 • 多重に割り当てられたソース文書が多いため, 削っていく必要がある.(baseline) • 共有の単語(以下分類棚)の最大数と文書の ペアを保持することによって潜在的な複数の ソースドキュメントを削除する. – 60%→10%と激減した.(+pigeonhole)

    8
  9. クロスリンガル情報の利用 • ソース-ターゲット言語と異なる言語でソース 言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比 較し最大となるターゲット文書を選択する. •

    多重に割り当てられたソース文書は10% →4%未満に減少(cross-lingual) 9
  10. クロスリンガル情報の利用 10 ←ソース言語 ターゲット言語1→ ターゲット言語2→

  11. 実験 • フランス語-英語、ドイツ語―英語のペアで 実験 • 以下の3つの尺度で評価 – 平均精度(MAP) – 正解率(Succ)

    – 上位5文の精度(P@5) 11
  12. 実験結果 • 分類棚を利用することで精度が大きく改善 12