Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介12月

miyanishi
December 19, 2014
310

 文献紹介12月

miyanishi

December 19, 2014
Tweet

Transcript

  1. 文献情報  Morphological Analysis and Disambiguarion for Dialectal Arabic 

    Nizar Habash et. al.  Proceedings of NAACL-HLT2013(p426-432)
  2. 背景(Arabicの基礎)  Arabicは大きく2種類に分別可能  Modern Standard Arabic(MSA):標準のArabic  Dialectal Arabic(DA):各地の方言入りのArabic

     Egyptian Arabic(ARZ)←一番喋られているDA  Levantine Arabic  Moroccan Arabic  MSAとDAの違い  音韻論・形態論・語彙においても違う  DAはスタンダードがない
  3. 実験1(形態素解析精度):設定  二つのデータセット(LDコーパス内)を用いる  ATB-123:MSA Penn Treebank  ATB-ARZ:Egyptian Arabic

    Treebank  この二つをトレーニング&評価データに使用  トレーニングデータ  Morph Tag : CALIMAタグ  ATB Seg : 単語の割合(ATBのセグメンテーション)
  4. 実験1(形態素解析精度):結果 TrainData MADA MSA MADA-ARZ ARZ ALL Morph Tag 35.7

    84.5 75.5 Menn POS 79 90 90.1 MADA POS 82.1 91.1 91.4 Diacritic 32.2 83.2 72.2 Lemma 67.1 86.3 82.8 Full 27 75.4 64.7 ATB Seg 90.5 97.4 97.5
  5. 実験1(機械翻訳へ応用):設定  Egyptian Arabic to English  機械翻訳ツール:Moses  アライメントツール:MGIZA++

     評価:BLEU,METEOR,TER,OOV  DA(Egyptian,Levantine)-Engパラレルコーパス使用  比較するトークン化システム  Punct:句読点のみを見て行った場合  MADA ATB  MADA-ARZ ATB
  6. 実験1(機械翻訳へ応用):精度 Tokenization BLEU METEOR TER Punct 22.1 27.2 63.2 MADA

    ATB 24.4 29.6 60.5 MADA-ARZ ATB 25.2 29.9 59.4 Tokenization OOV Punct 9.2 MADA ATB 5.8 MADA-ARZ ATB 4.9