Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介12月
Search
miyanishi
December 10, 2015
0
240
文献紹介12月
miyanishi
December 10, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
2.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Visualization
eitanlees
150
16k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Building Applications with DynamoDB
mza
96
6.7k
Writing Fast Ruby
sferik
630
62k
Building Adaptive Systems
keathley
44
2.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Speed Design
sergeychernyshev
32
1.2k
Transcript
1 文献紹介 山本研究室 M2 宮西 由貴
2 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較
3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas
Muller and Hinrich Schutze • Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL • Pages: 526–536
4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •
Morphological Taggingの問題点 – POS Taggingより研究が少ない – トレーニングデータの分野に依存する
5 本論文の貢献 • Test suiteの作成(今回話しません) – 分野にまたがったアノテーション済コーパス – 6言語(チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン)対応 •
Word Representationの使用 – 4種類の手法を比較実験 • 既存のモデルの使用 – モデルの比較実験
6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –
特徴語のようなものを使って表現するため、 次元縮小やスパースネスの減少が期待できる – 高速で効率がよい • Accumulated tag counts(ACT) – タスクに特化したスパースな表現方法 – アノテーションされていないコーパスにタグを付与 – ↑の結果からタグの確率を推定
7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似
– Brownアルゴリズムが有名 – Martinのモデル(MarLin)の方が効率も結果も良い? (MarLinはk-means法と類似した手法) • CW embedding – ニューラルネットワークを用いて学習したembedding – 周辺語(文脈)の素性を使用 – 語の順序も考慮
8 実験1:ベースラインシステムの比較 • ベースラインとしてMarMoTを使用 →妥当性を検証 • SVM-Tool & Morfette:有名なTagger との性能を比較
• MarMoTは次数を変化させて実験
9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R
P H ID OOD ID OOD ID OOD ID OOD ID OOD cs 93.27 77.83 93.89 78.52 93.86 78.55 91.48 76.56 91.06 75.41 de 88.90 82.74 90.26 84.19 90.54 * 84.30 85.89 80.28 85.98 78.08 es 98.21 93.24 98.22 93.62 98.16 93.42 97.95 93.97 * 97.96 91.36 hu 96.11 89.78 96.07 89.83 95.92 89.70 95.47 89.18 94.72 88.44 la 86.09 67.90 * 86.44 67.47 86.47 67.40 83.68 65.06 84.09 65.65
10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown
clusteringは一番有名なLM-basedモデル – Brown_path: クラスタサイズを1000に固定 pathのサイズを4,6,10,20に変更 – Brown_flat: クラスタサイズを100,200,500,1000に変更 • 結果 – POSではmkclsが良い – MORPHではMarLiNが良い
11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD
ID OOD ID OOD P O S cs 99.19 97.25 99.18 97.21 99.19 97.26 99.21 97.26 de 98.08 93.42 98.07 93.47 98.10 93.44 98.11 93.64* en 96.99 91.67 97.02 91.71 97.01 91.71 97.03 91.86* es 98.84 97.91 98.84 97.97 98.87 97.97 98.84 97.90 hu 97.95 93.40 97.89 93.39 97.98 93.36 97.99 93.42 la 96.78 86.49 96.62 86.60 96.91 87.24 96.95 87.19 M O R P H cs 94.20 78.95 94.23 79.01 94.35 79.14 94.32 79.11 de 90.71 85.39 90.75 85.44 90.78 85.58 90.68 85.47 es 98.47 95.08 98.47 95.12 98.48 95.15 98.48 95.13 hu 96.60 90.57 96.52 90.54 96.60 90.64 96.61 90.66 la 87.53 71.69 87.44 71.60 87.87 72.08 87.67 71.88
12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用
– 頻出語100,000語のみを使用(次元数64) • 結果 – MarLiN,CWともにベースラインよりは良い – MarLiNの方がCWよりも良い
13 実験3:CW embeddingとの比較
14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –
次元数は50,100,200,500 • ACTの設定 – コーパスアノテーションはベースラインを使用 • 結果 – SVD > ACT – MarLiN,MA > SVD
15 実験4: SVD、ACTとの比較
16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較 • LM-basedモデルのMarLiNの性能を確認