文献紹介 4月4日

文献紹介(2016/04/04) 長岡技術科学大学 B4 桾澤優希 Microblogs as Parallel Corpora

文献 ▪ Wang Ling, Guang Xiang, Chris Dyer, Alan Black.
Microblogs as Parallel Corpora. In proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp.176–186)

概要 ▪ マイクロブログ(Twitterみたいなもの)からパラレルコーパスを作成する試み ▪ 一部のユーザーが2種類の言語で情報を発信することを利用 ▪ マイクロブログ翻訳時に現存するパラレルコーパスと併用することで精度を向上

導入 ▪ Twitterやフェイスブックのようなマイクロブログでの文書スタイルは様々 ▪ 口でしゃべる時のような表現 ▪ 例) R U
still with me or what? ▪ R → are , U → you ▪ 省略 ▪ 例) idk! , smh ▪ Idk → I don’t know, smh → shaking my head ▪ これらは機械翻訳などで問題となる ▪ それらに対応するためのデータが必要

導入 ▪ マイクロブログから自然発生したこれらの見つけ、抽出し、それらに活用する ▪ ツイートが複数の言語を持っているか、それらが複数言語感で対応が取れているかをチェックする手法の提案

理論 ▪ 一つ一つの文章に対して処理を行いスコアリング ▪ 以下の様なタプルを考える ▪ [p,q] , [u,v] は文字のインデックス
▪ l,r はそれぞれの言語 ▪ a は左と右のセグメントの単語アライメント

理論 ▪ モデルを3つに大雑把に分けて考える

理論 ▪ スパンスコア Ss ▪ セグメントが大きければ大きいほど大きな値を返す ▪ 変なところで区切る場合は Φ=0 とする

理論 ▪ スパンを変えるたびに計算しなおしになり、計算量が多い ▪ 特にビタビモデル(ワードアライメント) での計算量が O(n^6) → スパンを1ずつしか変えないことを利用して計算量を改善
→ O(n^3) から O(n^4) にすることが可能に

準備 ▪ TwitterとSinaWeibo(中国版Twitter)からツイートを抽出 ▪ Twitterでは16億ツイート取得 ▪ SinaWeiboでは直近100ツイート中10ツイートが2種の言語を持つツイートをしているユーザーに関して6500万ツイートを取得 ▪
どちらの場合もユニコードの数字を用いて予めフィルタリング ▪ 例) ツイート中に3文字以上ラテン文字が含まれ、3文字以上中国語が含まれる場合抽出

実験 ▪ 提案手法によってどれくらいのパラレルコーパスを取得できるか ▪ フィルタリングしたSinaWeiboのツイートをランダムで2000 件抽出、スコアを計算する。 ▪ 上位n%を取った時の適合率、再現率、精度をグラフ化

結果

実験 ▪ 抽出したパラレルコーパスがどのくらい機械翻訳の性能向上に寄与するか ▪ Project Syndicateから新たに作成したテストセットと Weiboから抽出したツイートをテストセットとして使用 ▪ ベースラインとしてNIST,FBISのデータセットを使用
▪ 抽出したデータセット単体と、それぞれを組み合わせて実験 ▪ BLEU値で比較

結果

まとめ ▪ 一文章から複数言語になっている部分を見つけ、抽出する手法を提案した ▪ 機械翻訳のタスクに於いて既存のものにプラスして使用することで翻訳の性能向上できることを確認した。

文献紹介 4月4日

文献紹介 4月4日

gumigumi7

More Decks by gumigumi7

Featured

Transcript

文献紹介(2016/04/04) 長岡技術科学大学 B4 桾澤優希 Microblogs as Parallel Corpora

文献 ▪ Wang Ling, Guang Xiang, Chris Dyer, Alan Black.

導入 ▪ Twitterやフェイスブックのようなマイクロブログでの文書スタイルは様々 ▪ 口でしゃべる時のような表現 ▪ 例) R U

導入 ▪ マイクロブログから自然発生したこれらの見つけ、抽出し、それらに活用する ▪ ツイートが複数の言語を持っているか、それらが複数言語感で対応が取れているかをチェックする手法の提案

理論 ▪ 一つ一つの文章に対して処理を行いスコアリング ▪ 以下の様なタプルを考える ▪ [p,q] , [u,v] は文字のインデックス

理論 ▪ モデルを3つに大雑把に分けて考える

理論 ▪ スパンスコア Ss ▪ セグメントが大きければ大きいほど大きな値を返す ▪ 変なところで区切る場合は Φ=0 とする

理論 ▪ スパンを変えるたびに計算しなおしになり、計算量が多い ▪ 特にビタビモデル(ワードアライメント) での計算量が O(n^6) → スパンを1ずつしか変えないことを利用して計算量を改善

準備 ▪ TwitterとSinaWeibo(中国版Twitter)からツイートを抽出 ▪ Twitterでは16億ツイート取得 ▪ SinaWeiboでは直近100ツイート中10ツイートが2種の言語を持つツイートをしているユーザーに関して6500万ツイートを取得 ▪

実験 ▪ 提案手法によってどれくらいのパラレルコーパスを取得できるか ▪ フィルタリングしたSinaWeiboのツイートをランダムで2000 件抽出、スコアを計算する。 ▪ 上位n%を取った時の適合率、再現率、精度をグラフ化

結果

結果

結果

まとめ ▪ 一文章から複数言語になっている部分を見つけ、抽出する手法を提案した ▪ 機械翻訳のタスクに於いて既存のものにプラスして使用することで翻訳の性能向上できることを確認した。