Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 4月4日
Search
gumigumi7
April 03, 2016
0
140
文献紹介 4月4日
gumigumi7
April 03, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
230
文献紹介 11月7日
gumigumi7
0
130
文献紹介 10月3日
gumigumi7
0
320
文献紹介 9月3日
gumigumi7
0
250
文献紹介 8月10日
gumigumi7
0
120
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
180
文献紹介 4月18日
gumigumi7
0
140
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
67
14k
How to Ace a Technical Interview
jacobian
273
22k
Facilitating Awesome Meetings
lara
43
5.6k
Building Your Own Lightsaber
phodgson
100
5.7k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
Bash Introduction
62gerente
605
210k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
GraphQLの誤解/rethinking-graphql
sonatard
56
9.3k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
The Invisible Customer
myddelton
114
12k
Happy Clients
brianwarren
92
6.4k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Transcript
文献紹介(2016/04/04) 長岡技術科学大学 B4 桾澤 優希 Microblogs as Parallel Corpora
文献 ▪ Wang Ling, Guang Xiang, Chris Dyer, Alan Black.
Microblogs as Parallel Corpora. In proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp.176–186)
概要 ▪ マイクロブログ(Twitterみたいなもの)からパラレルコーパス を作成する試み ▪ 一部のユーザーが2種類の言語で情報を発信することを 利用 ▪ マイクロブログ翻訳時に現存するパラレルコーパスと併用す ることで精度を向上
導入 ▪ Twitterやフェイスブックのようなマイクロブログでの文書スタ イルは様々 ▪ 口でしゃべる時のような表現 ▪ 例) R U
still with me or what? ▪ R → are , U → you ▪ 省略 ▪ 例) idk! , smh ▪ Idk → I don’t know, smh → shaking my head ▪ これらは機械翻訳などで問題となる ▪ それらに対応するためのデータが必要
導入 ▪ マイクロブログから自然発生したこれらの見つけ、抽出し、 それらに活用する ▪ ツイートが複数の言語を持っているか、それらが複数言語 感で対応が取れているかをチェックする手法の提案
理論 ▪ 一つ一つの文章に対して処理を行いスコアリング ▪ 以下の様なタプルを考える ▪ [p,q] , [u,v] は文字のインデックス
▪ l,r はそれぞれの言語 ▪ a は左と右のセグメントの単語アライメント
理論 ▪ モデルを3つに大雑把に分けて考える
理論 ▪ スパンスコア Ss ▪ セグメントが大きければ大きいほど大きな値を返す ▪ 変なところで区切る場合は Φ=0 とする
理論 ▪ スパンを変えるたびに計算しなおしになり、計算量が多い ▪ 特にビタビモデル(ワードアライメント) での計算量が O(n^6) → スパンを1ずつしか変えない ことを利用して計算量を改善
→ O(n^3) から O(n^4) にする ことが可能に
準備 ▪ TwitterとSinaWeibo(中国版Twitter)からツイートを 抽出 ▪ Twitterでは16億ツイート取得 ▪ SinaWeiboでは直近100ツイート中10ツイートが2種の言語を持つ ツイートをしているユーザーに関して6500万ツイートを取得 ▪
どちらの場合もユニコードの数字を用いて予めフィルタリング ▪ 例) ツイート中に3文字以上ラテン文字が含まれ、3文字以上中国語が 含まれる場合抽出
実験 ▪ 提案手法によってどれくらいのパラレルコーパスを取得でき るか ▪ フィルタリングしたSinaWeiboのツイートをランダムで2000 件抽出、スコアを計算する。 ▪ 上位n%を取った時の適合率、再現率、精度をグラフ化
結果
結果
実験 ▪ 抽出したパラレルコーパスがどのくらい機械翻訳の性能向 上に寄与するか ▪ Project Syndicateから新たに作成したテストセットと Weiboから抽出したツイートをテストセットとして使用 ▪ ベースラインとしてNIST,FBISのデータセットを使用
▪ 抽出したデータセット単体と、それぞれを組み合わせて実験 ▪ BLEU値で比較
結果
まとめ ▪ 一文章から複数言語になっている部分を見つけ、抽出す る手法を提案した ▪ 機械翻訳のタスクに於いて既存のものにプラスして使用す ることで翻訳の性能向上できることを確認した。