Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介12月

miyanishi
December 10, 2015
210

 文献紹介12月

miyanishi

December 10, 2015
Tweet

Transcript

  1. 3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas

    Muller and Hinrich Schutze • Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL • Pages: 526–536
  2. 4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •

    Morphological Taggingの問題点 – POS Taggingより研究が少ない – トレーニングデータの分野に依存する
  3. 6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –

    特徴語のようなものを使って表現するため、 次元縮小やスパースネスの減少が期待できる – 高速で効率がよい • Accumulated tag counts(ACT) – タスクに特化したスパースな表現方法 – アノテーションされていないコーパスにタグを付与 – ↑の結果からタグの確率を推定
  4. 7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似

    – Brownアルゴリズムが有名 – Martinのモデル(MarLin)の方が効率も結果も良い? (MarLinはk-means法と類似した手法) • CW embedding – ニューラルネットワークを用いて学習したembedding – 周辺語(文脈)の素性を使用 – 語の順序も考慮
  5. 9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R

    P H ID OOD ID OOD ID OOD ID OOD ID OOD cs 93.27 77.83 93.89 78.52 93.86 78.55 91.48 76.56 91.06 75.41 de 88.90 82.74 90.26 84.19 90.54 * 84.30 85.89 80.28 85.98 78.08 es 98.21 93.24 98.22 93.62 98.16 93.42 97.95 93.97 * 97.96 91.36 hu 96.11 89.78 96.07 89.83 95.92 89.70 95.47 89.18 94.72 88.44 la 86.09 67.90 * 86.44 67.47 86.47 67.40 83.68 65.06 84.09 65.65
  6. 10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown

    clusteringは一番有名なLM-basedモデル – Brown_path: クラスタサイズを1000に固定 pathのサイズを4,6,10,20に変更 – Brown_flat: クラスタサイズを100,200,500,1000に変更 • 結果 – POSではmkclsが良い – MORPHではMarLiNが良い
  7. 11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD

    ID OOD ID OOD P O S cs 99.19 97.25 99.18 97.21 99.19 97.26 99.21 97.26 de 98.08 93.42 98.07 93.47 98.10 93.44 98.11 93.64* en 96.99 91.67 97.02 91.71 97.01 91.71 97.03 91.86* es 98.84 97.91 98.84 97.97 98.87 97.97 98.84 97.90 hu 97.95 93.40 97.89 93.39 97.98 93.36 97.99 93.42 la 96.78 86.49 96.62 86.60 96.91 87.24 96.95 87.19 M O R P H cs 94.20 78.95 94.23 79.01 94.35 79.14 94.32 79.11 de 90.71 85.39 90.75 85.44 90.78 85.58 90.68 85.47 es 98.47 95.08 98.47 95.12 98.48 95.15 98.48 95.13 hu 96.60 90.57 96.52 90.54 96.60 90.64 96.61 90.66 la 87.53 71.69 87.44 71.60 87.87 72.08 87.67 71.88
  8. 12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用

    – 頻出語100,000語のみを使用(次元数64) • 結果 – MarLiN,CWともにベースラインよりは良い – MarLiNの方がCWよりも良い
  9. 14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –

    次元数は50,100,200,500 • ACTの設定 – コーパスアノテーションはベースラインを使用 • 結果 – SVD > ACT – MarLiN,MA > SVD
  10. 16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ

    – Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較 • LM-basedモデルのMarLiNの性能を確認