Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介12月

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
December 10, 2015
250

 文献紹介12月

Avatar for miyanishi

miyanishi

December 10, 2015
Tweet

Transcript

  1. 3 文献情報 Robust Morphological Tagging with Word Representations • 著者:Thomas

    Muller and Hinrich Schutze • Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL • Pages: 526–536
  2. 4 はじめに • Morphological Tagging – POSだけでなく、性や時制、人称のタグを付与 – 今回はPOS以外のタグ付与を指す •

    Morphological Taggingの問題点 – POS Taggingより研究が少ない – トレーニングデータの分野に依存する
  3. 6 Word Representationの種類 • Singular value decomposition(SVD) – 共起頻度を素性に用いる –

    特徴語のようなものを使って表現するため、 次元縮小やスパースネスの減少が期待できる – 高速で効率がよい • Accumulated tag counts(ACT) – タスクに特化したスパースな表現方法 – アノテーションされていないコーパスにタグを付与 – ↑の結果からタグの確率を推定
  4. 7 Word Representationの種類 • Language Model-based word cluster(LM-based) – 尤度を使った考え方と類似

    – Brownアルゴリズムが有名 – Martinのモデル(MarLin)の方が効率も結果も良い? (MarLinはk-means法と類似した手法) • CW embedding – ニューラルネットワークを用いて学習したembedding – 周辺語(文脈)の素性を使用 – 語の順序も考慮
  5. 9 実験1:ベースラインシステムの比較 MarMoT1 MarMoT2 MarMoT3 Morfette SVMTool M O R

    P H ID OOD ID OOD ID OOD ID OOD ID OOD cs 93.27 77.83 93.89 78.52 93.86 78.55 91.48 76.56 91.06 75.41 de 88.90 82.74 90.26 84.19 90.54 * 84.30 85.89 80.28 85.98 78.08 es 98.21 93.24 98.22 93.62 98.16 93.42 97.95 93.97 * 97.96 91.36 hu 96.11 89.78 96.07 89.83 95.92 89.70 95.47 89.18 94.72 88.44 la 86.09 67.90 * 86.44 67.47 86.47 67.40 83.68 65.06 84.09 65.65
  6. 10 実験2:LM-basedモデルの比較 • LM-basedモデル3種類: Brown clustering, MarLiN, mkcls – Brown

    clusteringは一番有名なLM-basedモデル – Brown_path: クラスタサイズを1000に固定 pathのサイズを4,6,10,20に変更 – Brown_flat: クラスタサイズを100,200,500,1000に変更 • 結果 – POSではmkclsが良い – MORPHではMarLiNが良い
  7. 11 実験2:LM-basedモデルの比較 Brown_path Brown_flat MarLiN mkcls ID OOD ID OOD

    ID OOD ID OOD P O S cs 99.19 97.25 99.18 97.21 99.19 97.26 99.21 97.26 de 98.08 93.42 98.07 93.47 98.10 93.44 98.11 93.64* en 96.99 91.67 97.02 91.71 97.01 91.71 97.03 91.86* es 98.84 97.91 98.84 97.97 98.87 97.97 98.84 97.90 hu 97.95 93.40 97.89 93.39 97.98 93.36 97.99 93.42 la 96.78 86.49 96.62 86.60 96.91 87.24 96.95 87.19 M O R P H cs 94.20 78.95 94.23 79.01 94.35 79.14 94.32 79.11 de 90.71 85.39 90.75 85.44 90.78 85.58 90.68 85.47 es 98.47 95.08 98.47 95.12 98.48 95.15 98.48 95.13 hu 96.60 90.57 96.52 90.54 96.60 90.64 96.61 90.66 la 87.53 71.69 87.44 71.60 87.87 72.08 87.67 71.88
  8. 12 実験3:CW embeddingとの比較 • ベースライン(MarMoT)とMarLiNとCWを比較 • CWの設定 – Wikipediaを学習したAl-Rfou et.al.(2013)を使用

    – 頻出語100,000語のみを使用(次元数64) • 結果 – MarLiN,CWともにベースラインよりは良い – MarLiNの方がCWよりも良い
  9. 14 実験4: SVD、ACTとの比較 • ベースライン、MarTiN、MAs,SVD、ACTを比較 • SVDの設定 – 素性ランクは500,1000 –

    次元数は50,100,200,500 • ACTの設定 – コーパスアノテーションはベースラインを使用 • 結果 – SVD > ACT – MarLiN,MA > SVD
  10. 16 概要 • 分野や言語に対して頑健なmorphological tagging – 6種類の言語 (チェコ・ドイツ・ハンガリー・英語・ラテン・スペイン) • 貢献は3つ

    – Test suiteの作成 – Word Representation4種類の効果を比較 – 既存のモデルを比較 • LM-basedモデルのMarLiNの性能を確認