Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介12月
Search
miyanishi
December 19, 2014
0
310
文献紹介12月
miyanishi
December 19, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
66
14k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
21
1.9k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
8
3.4k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
How GitHub (no longer) Works
holman
305
140k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Building Flexible Design Systems
yeseniaperezcruz
320
37k
Build your cross-platform service in a week with App Engine
jlugia
226
17k
Transcript
文献紹介ゼミ 山本研 修士1年 宮西 由貴
文献情報 Morphological Analysis and Disambiguarion for Dialectal Arabic
Nizar Habash et. al. Proceedings of NAACL-HLT2013(p426-432)
概要 Arabicの中でもDA(特にARZ)に着目 MSAのためのツールをDAに適応させる コーパスの形式を適応させる 英語との機械翻訳精度が向上
トークン化が正しく出来る=精度向上に寄与 OOVが減少
背景(Arabicの基礎) Arabicは大きく2種類に分別可能 Modern Standard Arabic(MSA):標準のArabic Dialectal Arabic(DA):各地の方言入りのArabic
Egyptian Arabic(ARZ)←一番喋られているDA Levantine Arabic Moroccan Arabic MSAとDAの違い 音韻論・形態論・語彙においても違う DAはスタンダードがない
背景(ArabicとNLP) NLPのツールやリソースはほとんどがMSA用 形態素解析もその一つ MSA用の形態素解析はDAには今一つ(約60%) 最近ARZのコーパスと形態素解析器が完成
形態素解析器:CALIMA-ARZ LDCコーパス:Linguistic Data Consortium
目的と実験概要 最先端のMSA形態素解析器をDAに拡張 最先端のMSA形態素解析器:MADA 特にARZに拡張 LDCコーパスの適応
二種類の実験を用意 形態素解析の精度を見る実験 機械翻訳へ応用した際の効果を見る実験
Arabic NLPの難しいところ MSA・DA共通の難点 語形変化する形態素が多い 接語の数が多い スペリングの曖昧性が大きい
DAのみの難点 異形がたくさん存在する スタンダードのつづりがない
MADAのアプローチ 人手でアノテートしたリソースを使用 素性:音韻,品詞,見出し語,13の語形変化,接語) 出力:品詞,表層形,性別,人称 モデルに適応
SVM N-gram language model スコア付けてスコアが高い物を選択
拡張MADAのアプローチ LDコーパスの問題点と解決策 数々のアノテートの不一致 CALIMAの形式との不一致 ↓ 最新のCALIMAの形式に適合
素性について 格やモード,クエスチョンマークなどは使用しない
実験1(形態素解析精度):設定 二つのデータセット(LDコーパス内)を用いる ATB-123:MSA Penn Treebank ATB-ARZ:Egyptian Arabic
Treebank この二つをトレーニング&評価データに使用 トレーニングデータ Morph Tag : CALIMAタグ ATB Seg : 単語の割合(ATBのセグメンテーション)
実験1(形態素解析精度):結果 TrainData MADA MSA MADA-ARZ ARZ ALL Morph Tag 35.7
84.5 75.5 Menn POS 79 90 90.1 MADA POS 82.1 91.1 91.4 Diacritic 32.2 83.2 72.2 Lemma 67.1 86.3 82.8 Full 27 75.4 64.7 ATB Seg 90.5 97.4 97.5
実験1(機械翻訳へ応用):設定 Egyptian Arabic to English 機械翻訳ツール:Moses アライメントツール:MGIZA++
評価:BLEU,METEOR,TER,OOV DA(Egyptian,Levantine)-Engパラレルコーパス使用 比較するトークン化システム Punct:句読点のみを見て行った場合 MADA ATB MADA-ARZ ATB
実験1(機械翻訳へ応用):精度 Tokenization BLEU METEOR TER Punct 22.1 27.2 63.2 MADA
ATB 24.4 29.6 60.5 MADA-ARZ ATB 25.2 29.9 59.4 Tokenization OOV Punct 9.2 MADA ATB 5.8 MADA-ARZ ATB 4.9
まとめ Arabicの中でもDA(特にARZ)に着目 MSAのためのツールをDAに適応させる コーパスの形式を適応させる 英語との機械翻訳精度が向上
トークン化が正しく出来る=精度向上に寄与 OOVが減少