20160422 文献紹介

文献紹介長岡技術科学大学自然言語処理研究室須戸悠太 1

紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet
• LINA: Identifying Comparable Documents from Wikipedia • Proceedings of the Eighth Workshop on Building and Using Comparable Corpora – PP.88-91 2

概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて，
上記の方法を拡張 – 約60％の精度で同等の文書が特定できた 3

導入 • 統計的機械翻訳において重要なパラレルコーパス • 同等のリソースを識別するための既存のアプローチの評価 – Wikipedia等 •
言語にとらわれないアプローチ 4

基本的な手法 • 文書内で1度しか出現しないかつ4文字以上の単語（hapax words）を含む文書をbags of words で索引付けする • hapax
wordsを最も多く共有する文書は並列であると考えられる． – Wikipediaで並列文書を検出する際に非常によく機能する． 5

hapax words の例 • Hapax words のほとんどは固有名詞や数値に関係するもの
– 今回はURLや特殊文字も保持 6

文書のペアの選択 • ソース－ターゲット文書のペアを検索するために，ソース言語（EN）の文書ごとにhapax wordsの最大数を共有するターゲット言語（FR, DE）の文書を20文ずつ選択する（baseline） 7

分類棚の利用 • 多重に割り当てられたソース文書が多いため，削っていく必要がある．（baseline） • 共有の単語（以下分類棚）の最大数と文書のペアを保持することによって潜在的な複数のソースドキュメントを削除する． – 60％→10％と激減した．（+pigeonhole）
8

クロスリンガル情報の利用 • ソース－ターゲット言語と異なる言語でソース言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比較し最大となるターゲット文書を選択する． •
多重に割り当てられたソース文書は10％ →4％未満に減少（cross-lingual） 9

クロスリンガル情報の利用 10 ←ソース言語ターゲット言語1→ ターゲット言語2→

実験 • フランス語－英語、ドイツ語―英語のペアで実験 • 以下の3つの尺度で評価 – 平均精度（MAP） – 正解率（Succ）
– 上位5文の精度（P@5） 11

実験結果 • 分類棚を利用することで精度が大きく改善 12

20160422 文献紹介

20160422 文献紹介

Yuta

More Decks by Yuta

Other Decks in Education

Featured

Transcript

文献紹介長岡技術科学大学自然言語処理研究室須戸悠太 1

紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet

概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて，

導入 • 統計的機械翻訳において重要なパラレルコーパス • 同等のリソースを識別するための既存のアプローチの評価 – Wikipedia等 •

基本的な手法 • 文書内で1度しか出現しないかつ4文字以上の単語（hapax words）を含む文書をbags of words で索引付けする • hapax

hapax words の例 • Hapax words のほとんどは固有名詞や数値に関係するもの

文書のペアの選択 • ソース－ターゲット文書のペアを検索するために，ソース言語（EN）の文書ごとにhapax wordsの最大数を共有するターゲット言語（FR, DE）の文書を20文ずつ選択する（baseline） 7

クロスリンガル情報の利用 • ソース－ターゲット言語と異なる言語でソース言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比較し最大となるターゲット文書を選択する． •

クロスリンガル情報の利用 10 ←ソース言語ターゲット言語1→ ターゲット言語2→

実験 • フランス語－英語、ドイツ語―英語のペアで実験 • 以下の3つの尺度で評価 – 平均精度（MAP） – 正解率（Succ）

実験結果 • 分類棚を利用することで精度が大きく改善 12