Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介12月
Search
miyanishi
December 19, 2014
0
330
文献紹介12月
miyanishi
December 19, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Context Engineering - Making Every Token Count
addyosmani
8
330
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Side Projects
sachag
455
43k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.5k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
640
Why Our Code Smells
bkeepers
PRO
340
57k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Building Adaptive Systems
keathley
44
2.8k
Making Projects Easy
brettharned
120
6.4k
Transcript
文献紹介ゼミ 山本研 修士1年 宮西 由貴
文献情報 Morphological Analysis and Disambiguarion for Dialectal Arabic
Nizar Habash et. al. Proceedings of NAACL-HLT2013(p426-432)
概要 Arabicの中でもDA(特にARZ)に着目 MSAのためのツールをDAに適応させる コーパスの形式を適応させる 英語との機械翻訳精度が向上
トークン化が正しく出来る=精度向上に寄与 OOVが減少
背景(Arabicの基礎) Arabicは大きく2種類に分別可能 Modern Standard Arabic(MSA):標準のArabic Dialectal Arabic(DA):各地の方言入りのArabic
Egyptian Arabic(ARZ)←一番喋られているDA Levantine Arabic Moroccan Arabic MSAとDAの違い 音韻論・形態論・語彙においても違う DAはスタンダードがない
背景(ArabicとNLP) NLPのツールやリソースはほとんどがMSA用 形態素解析もその一つ MSA用の形態素解析はDAには今一つ(約60%) 最近ARZのコーパスと形態素解析器が完成
形態素解析器:CALIMA-ARZ LDCコーパス:Linguistic Data Consortium
目的と実験概要 最先端のMSA形態素解析器をDAに拡張 最先端のMSA形態素解析器:MADA 特にARZに拡張 LDCコーパスの適応
二種類の実験を用意 形態素解析の精度を見る実験 機械翻訳へ応用した際の効果を見る実験
Arabic NLPの難しいところ MSA・DA共通の難点 語形変化する形態素が多い 接語の数が多い スペリングの曖昧性が大きい
DAのみの難点 異形がたくさん存在する スタンダードのつづりがない
MADAのアプローチ 人手でアノテートしたリソースを使用 素性:音韻,品詞,見出し語,13の語形変化,接語) 出力:品詞,表層形,性別,人称 モデルに適応
SVM N-gram language model スコア付けてスコアが高い物を選択
拡張MADAのアプローチ LDコーパスの問題点と解決策 数々のアノテートの不一致 CALIMAの形式との不一致 ↓ 最新のCALIMAの形式に適合
素性について 格やモード,クエスチョンマークなどは使用しない
実験1(形態素解析精度):設定 二つのデータセット(LDコーパス内)を用いる ATB-123:MSA Penn Treebank ATB-ARZ:Egyptian Arabic
Treebank この二つをトレーニング&評価データに使用 トレーニングデータ Morph Tag : CALIMAタグ ATB Seg : 単語の割合(ATBのセグメンテーション)
実験1(形態素解析精度):結果 TrainData MADA MSA MADA-ARZ ARZ ALL Morph Tag 35.7
84.5 75.5 Menn POS 79 90 90.1 MADA POS 82.1 91.1 91.4 Diacritic 32.2 83.2 72.2 Lemma 67.1 86.3 82.8 Full 27 75.4 64.7 ATB Seg 90.5 97.4 97.5
実験1(機械翻訳へ応用):設定 Egyptian Arabic to English 機械翻訳ツール:Moses アライメントツール:MGIZA++
評価:BLEU,METEOR,TER,OOV DA(Egyptian,Levantine)-Engパラレルコーパス使用 比較するトークン化システム Punct:句読点のみを見て行った場合 MADA ATB MADA-ARZ ATB
実験1(機械翻訳へ応用):精度 Tokenization BLEU METEOR TER Punct 22.1 27.2 63.2 MADA
ATB 24.4 29.6 60.5 MADA-ARZ ATB 25.2 29.9 59.4 Tokenization OOV Punct 9.2 MADA ATB 5.8 MADA-ARZ ATB 4.9
まとめ Arabicの中でもDA(特にARZ)に着目 MSAのためのツールをDAに適応させる コーパスの形式を適応させる 英語との機械翻訳精度が向上
トークン化が正しく出来る=精度向上に寄与 OOVが減少