Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介12月
Search
miyanishi
December 10, 2015
0
210
文献紹介12月
miyanishi
December 10, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
345
19k
Clear Off the Table
cherdarchuk
85
310k
Web development in the modern age
philhawksworth
203
10k
Practical Orchestrator
shlominoach
183
9.7k
Design by the Numbers
sachag
274
18k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Writing Fast Ruby
sferik
622
60k
BBQ
matthewcrist
80
8.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
21
1.9k
The Cost Of JavaScript in 2023
addyosmani
18
3.9k
Infographics Made Easy
chrislema
238
18k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
19
6.9k
Transcript
1 文献紹介 山本研究室 M2 宮西 由貴
2 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較
3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas
Muller and Hinrich Schutze • Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL • Pages: 526–536
4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •
Morphological Taggingの問題点 – POS Taggingより研究が少ない – トレーニングデータの分野に依存する
5 本論文の貢献 • Test suiteの作成(今回話しません) – 分野にまたがったアノテーション済コーパス – 6言語(チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン)対応 •
Word Representationの使用 – 4種類の手法を比較実験 • 既存のモデルの使用 – モデルの比較実験
6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –
特徴語のようなものを使って表現するため、 次元縮小やスパースネスの減少が期待できる – 高速で効率がよい • Accumulated tag counts(ACT) – タスクに特化したスパースな表現方法 – アノテーションされていないコーパスにタグを付与 – ↑の結果からタグの確率を推定
7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似
– Brownアルゴリズムが有名 – Martinのモデル(MarLin)の方が効率も結果も良い? (MarLinはk-means法と類似した手法) • CW embedding – ニューラルネットワークを用いて学習したembedding – 周辺語(文脈)の素性を使用 – 語の順序も考慮
8 実験1:ベースラインシステムの比較 • ベースラインとしてMarMoTを使用 →妥当性を検証 • SVM-Tool & Morfette:有名なTagger との性能を比較
• MarMoTは次数を変化させて実験
9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R
P H ID OOD ID OOD ID OOD ID OOD ID OOD cs 93.27 77.83 93.89 78.52 93.86 78.55 91.48 76.56 91.06 75.41 de 88.90 82.74 90.26 84.19 90.54 * 84.30 85.89 80.28 85.98 78.08 es 98.21 93.24 98.22 93.62 98.16 93.42 97.95 93.97 * 97.96 91.36 hu 96.11 89.78 96.07 89.83 95.92 89.70 95.47 89.18 94.72 88.44 la 86.09 67.90 * 86.44 67.47 86.47 67.40 83.68 65.06 84.09 65.65
10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown
clusteringは一番有名なLM-basedモデル – Brown_path: クラスタサイズを1000に固定 pathのサイズを4,6,10,20に変更 – Brown_flat: クラスタサイズを100,200,500,1000に変更 • 結果 – POSではmkclsが良い – MORPHではMarLiNが良い
11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD
ID OOD ID OOD P O S cs 99.19 97.25 99.18 97.21 99.19 97.26 99.21 97.26 de 98.08 93.42 98.07 93.47 98.10 93.44 98.11 93.64* en 96.99 91.67 97.02 91.71 97.01 91.71 97.03 91.86* es 98.84 97.91 98.84 97.97 98.87 97.97 98.84 97.90 hu 97.95 93.40 97.89 93.39 97.98 93.36 97.99 93.42 la 96.78 86.49 96.62 86.60 96.91 87.24 96.95 87.19 M O R P H cs 94.20 78.95 94.23 79.01 94.35 79.14 94.32 79.11 de 90.71 85.39 90.75 85.44 90.78 85.58 90.68 85.47 es 98.47 95.08 98.47 95.12 98.48 95.15 98.48 95.13 hu 96.60 90.57 96.52 90.54 96.60 90.64 96.61 90.66 la 87.53 71.69 87.44 71.60 87.87 72.08 87.67 71.88
12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用
– 頻出語100,000語のみを使用(次元数64) • 結果 – MarLiN,CWともにベースラインよりは良い – MarLiNの方がCWよりも良い
13 実験3:CW embeddingとの比較
14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –
次元数は50,100,200,500 • ACTの設定 – コーパスアノテーションはベースラインを使用 • 結果 – SVD > ACT – MarLiN,MA > SVD
15 実験4: SVD、ACTとの比較
16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較 • LM-basedモデルのMarLiNの性能を確認