Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Language Demographics of Amazon Mechanical Turk

katsutan
August 29, 2017

The Language Demographics of Amazon Mechanical Turk

文献紹介

katsutan

August 29, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. The Language Demographics of Amazon Mechanical Turk Ellie Pavlick, Matt

    Post, Ann Irvine, Dmitry Kachaev, and Chris Callison-Burch Transactions of the Association for Computational Linguistics, 2 (2014) 79–92. Action Editor: Mirella Lapata. Submitted 12/2013; Published 2/2014. 自然言語処理研究室 B4 勝田 哲弘 2017/8/29 1 図、表などは論文中から引用しています。
  2. 概要 • MTurk( Mechanical Turk )の翻訳者が話す言 語について大規模な調査を行った。 ▫ 100言語の単語を翻訳 ▫

    バイリンガル辞書の作成、MTurkの国勢調査 • データの価値の実証 ▫ 6つの言語と英語のパラレルコーパスを作成 ▫ SMTのトレーニングに使用 2
  3. 依頼 • 100言語に対して1000件 -1件当たり10個の単語 を英語に翻訳 ▫ その内2個は既知の単語  Gold Standard

    Translations • Gold Standard Translationsの評価 ▫ 不一致のものに対して同義語であるかを人目で判 断 • 6つの言語の100以上のWikiの記事を英語に翻 訳 3
  4. 依頼 • 100言語に対して1000件 -1件当たり10個の単語 を英語に翻訳 ▫ その内2個は既知の単語  Gold Standard

    Translations • Gold Standard Translationsの評価 ▫ 不一致のものに対して同義語であるかを人目で判 断 • 6つの言語の100以上のWikiの記事を英語に翻 訳 4
  5. 依頼 • 100言語に対して1000件 -1件当たり10個の単語 を英語に翻訳 ▫ その内2個は既知の単語  Gold Standard

    Translations • Gold Standard Translationsの評価 ▫ 不一致のものに対して同義語であるかを人目で判 断 • Wikipediaで最も頻度の高い単語 5
  6. 依頼 • 100言語に対して1000件 -1件当たり10個の単語 を英語に翻訳 ▫ その内2個は既知の単語  Gold standard

    translations • Gold standard translationsの評価 ▫ 不一致のものに対して同義語であるかを人目で判 断 • 6つの言語の100以上のWikiの記事を英語に翻 訳 14
  7. 文の翻訳 • six Indian languages ▫ Bengali, Hindi, Malayalam, Tamil,

    Telugu, Urdu • 1つの文に対して4人が翻訳を行う ▫ 参照文が4つ出来る • 記事はWikipediaから 15