Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Segmentation-Free Word Embedding for Unsegmented Languages ∗

katsutan
August 27, 2018

Segmentation-Free Word Embedding for Unsegmented Languages ∗

文献紹介 勝田 哲弘
http://aclweb.org/anthology/D17-1080

katsutan

August 27, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings

    of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学 自然言語処理研究室 修士1年 勝田 哲弘
  2. Abstract • 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベ クトルの獲得方法の提案 ◦ segmentation-free word embedding • 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割

    が必要になるが、人手によるリソースが必要になる。 • 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの 名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されていま す。
  3. Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et

    al. (2016) • learns n-gram vectors from the corpus that segmented randomly ◦ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。
  4. Conventional Approaches to Word Embeddings skip-gram model with negative sampling

    (SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。
  5. Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格

    子を構築する。(ラティス構造) • 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。