文献紹介12月

1 文献紹介山本研究室 M2　宮西　由貴

2 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は３つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較

3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas
Muller and Hinrich Schutze • Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL • Pages: 526–536

4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •
Morphological Taggingの問題点 – POS Taggingより研究が少ない – トレーニングデータの分野に依存する

5 本論文の貢献 • Test suiteの作成(今回話しません) – 分野にまたがったアノテーション済コーパス – 6言語(チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン)対応 •
Word Representationの使用 – 4種類の手法を比較実験 • 既存のモデルの使用 – モデルの比較実験

6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –
特徴語のようなものを使って表現するため、次元縮小やスパースネスの減少が期待できる – 高速で効率がよい • Accumulated tag counts(ACT) – タスクに特化したスパースな表現方法 – アノテーションされていないコーパスにタグを付与 – ↑の結果からタグの確率を推定

7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似
– Brownアルゴリズムが有名 – Martinのモデル(MarLin)の方が効率も結果も良い？ (MarLinはk-means法と類似した手法) • CW embedding – ニューラルネットワークを用いて学習したembedding – 周辺語(文脈)の素性を使用 – 語の順序も考慮

8 実験1:ベースラインシステムの比較 • ベースラインとしてMarMoTを使用 →妥当性を検証 • SVM-Tool & Morfette:有名なTagger との性能を比較
• MarMoTは次数を変化させて実験

9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R
P H ID OOD ID OOD ID OOD ID OOD ID OOD cs 93.27 77.83 93.89 78.52 93.86 78.55 91.48 76.56 91.06 75.41 de 88.90 82.74 90.26 84.19 90.54 * 84.30 85.89 80.28 85.98 78.08 es 98.21 93.24 98.22 93.62 98.16 93.42 97.95 93.97 * 97.96 91.36 hu 96.11 89.78 96.07 89.83 95.92 89.70 95.47 89.18 94.72 88.44 la 86.09 67.90 * 86.44 67.47 86.47 67.40 83.68 65.06 84.09 65.65

10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown
clusteringは一番有名なLM-basedモデル – Brown_path: クラスタサイズを1000に固定 pathのサイズを4,6,10,20に変更 – Brown_flat: クラスタサイズを100,200,500,1000に変更 • 結果 – POSではmkclsが良い – MORPHではMarLiNが良い

11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD
ID OOD ID OOD P O S cs 99.19 97.25 99.18 97.21 99.19 97.26 99.21 97.26 de 98.08 93.42 98.07 93.47 98.10 93.44 98.11 93.64* en 96.99 91.67 97.02 91.71 97.01 91.71 97.03 91.86* es 98.84 97.91 98.84 97.97 98.87 97.97 98.84 97.90 hu 97.95 93.40 97.89 93.39 97.98 93.36 97.99 93.42 la 96.78 86.49 96.62 86.60 96.91 87.24 96.95 87.19 M O R P H cs 94.20 78.95 94.23 79.01 94.35 79.14 94.32 79.11 de 90.71 85.39 90.75 85.44 90.78 85.58 90.68 85.47 es 98.47 95.08 98.47 95.12 98.48 95.15 98.48 95.13 hu 96.60 90.57 96.52 90.54 96.60 90.64 96.61 90.66 la 87.53 71.69 87.44 71.60 87.87 72.08 87.67 71.88

12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用
– 頻出語100,000語のみを使用(次元数64) • 結果 – MarLiN,CWともにベースラインよりは良い – MarLiNの方がCWよりも良い

13 実験3:CW embeddingとの比較

14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –
次元数は50,100,200,500 • ACTの設定 – コーパスアノテーションはベースラインを使用 • 結果 – SVD > ACT – MarLiN,MA > SVD

15 実験4: SVD、ACTとの比較

16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は３つ
– Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較 • LM-basedモデルのMarLiNの性能を確認

文献紹介12月

文献紹介12月

miyanishi

More Decks by miyanishi

Featured

Transcript

1 文献紹介山本研究室 M2　宮西　由貴

2 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は３つ

3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas

4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •

5 本論文の貢献 • Test suiteの作成(今回話しません) – 分野にまたがったアノテーション済コーパス – 6言語(チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン)対応 •

6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –

7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似

8 実験1:ベースラインシステムの比較 • ベースラインとしてMarMoTを使用 →妥当性を検証 • SVM-Tool & Morfette:有名なTagger との性能を比較

9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R

10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown

11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD

12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用

13 実験3:CW embeddingとの比較

14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –

15 実験4: SVD、ACTとの比較

16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は３つ