Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Segmentation-Free Word Embedding for Unsegmented Languages ∗

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
August 27, 2018

Segmentation-Free Word Embedding for Unsegmented Languages ∗

文献紹介 勝田 哲弘
http://aclweb.org/anthology/D17-1080

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

August 27, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings

    of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学 自然言語処理研究室 修士1年 勝田 哲弘
  2. Abstract • 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベ クトルの獲得方法の提案 ◦ segmentation-free word embedding • 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割

    が必要になるが、人手によるリソースが必要になる。 • 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの 名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されていま す。
  3. Introduction • NLPでは大規模なコーパスから単語ベクトルを獲得するword embeddingが注目さ れている。前処理としてセグメントが必要。 ◦ 英語やスペイン語などの言語では、単純なルールベースと共起ベースのアプローチがとられる。 ◦ 中国語、日本語、タイ語などのセグメント化されていない言語では、機械学習ベースのアプローチ がNLPで広く使用されています。(

    Kudo et al。、2004; Tseng et al。、2005) ▪ 辞書が必要、固有名詞が苦手 • 文字nグラムに基づいて可能なすべてのセグメント化を列挙し、共起頻度からnグラ ム・ベクトルを学習する 枠組みを提案
  4. Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et

    al. (2016) • learns n-gram vectors from the corpus that segmented randomly ◦ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。
  5. Conventional Approaches to Word Embeddings skip-gram model with negative sampling

    (SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。
  6. Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格

    子を構築する。(ラティス構造) • 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。
  7. Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価す る。 • Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese),

    and Weibo (Chinese) • ngram = 1-8 for Japanese • ngram = 1-7 for Chinese • C-SVM(Hastie et al., 2009)
  8. Results

  9. Conclusion • 人手でアノテーションされたリソースに依存しない手法でその リソースに依存する手法を上回った。 • 将来的には別の手法を活用する ◦ the Stanford Word

    Segmenter (Tseng et al., 2005) with k-best segmentations