Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 4月4日

gumigumi7
April 03, 2016
140

文献紹介 4月4日

gumigumi7

April 03, 2016
Tweet

Transcript

  1. 文献 ▪ Wang Ling, Guang Xiang, Chris Dyer, Alan Black.

    Microblogs as Parallel Corpora. In proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp.176–186)
  2. 導入 ▪ Twitterやフェイスブックのようなマイクロブログでの文書スタ イルは様々 ▪ 口でしゃべる時のような表現 ▪ 例) R U

    still with me or what? ▪ R → are , U → you ▪ 省略 ▪ 例) idk! , smh ▪ Idk → I don’t know, smh → shaking my head ▪ これらは機械翻訳などで問題となる ▪ それらに対応するためのデータが必要
  3. 準備 ▪ TwitterとSinaWeibo(中国版Twitter)からツイートを 抽出 ▪ Twitterでは16億ツイート取得 ▪ SinaWeiboでは直近100ツイート中10ツイートが2種の言語を持つ ツイートをしているユーザーに関して6500万ツイートを取得 ▪

    どちらの場合もユニコードの数字を用いて予めフィルタリング ▪ 例) ツイート中に3文字以上ラテン文字が含まれ、3文字以上中国語が 含まれる場合抽出