Slide 1

Slide 1 text

Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学 自然言語処理研究室 修士1年 勝田 哲弘

Slide 2

Slide 2 text

Abstract ● 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベ クトルの獲得方法の提案 ○ segmentation-free word embedding ● 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割 が必要になるが、人手によるリソースが必要になる。 ● 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの 名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されていま す。

Slide 3

Slide 3 text

Introduction ● NLPでは大規模なコーパスから単語ベクトルを獲得するword embeddingが注目さ れている。前処理としてセグメントが必要。 ○ 英語やスペイン語などの言語では、単純なルールベースと共起ベースのアプローチがとられる。 ○ 中国語、日本語、タイ語などのセグメント化されていない言語では、機械学習ベースのアプローチ がNLPで広く使用されています。( Kudo et al。、2004; Tseng et al。、2005) ■ 辞書が必要、固有名詞が苦手 ● 文字nグラムに基づいて可能なすべてのセグメント化を列挙し、共起頻度からnグラ ム・ベクトルを学習する 枠組みを提案

Slide 4

Slide 4 text

Related Work セグメントに依存しないモデル ● character-based RNN model ○ Dhingra et al. (2016) ● learns n-gram vectors from the corpus that segmented randomly ○ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。

Slide 5

Slide 5 text

Conventional Approaches to Word Embeddings skip-gram model with negative sampling (SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。

Slide 6

Slide 6 text

Segmentation-Free Word Embeddings segmentation-free version of the SGNS ● コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格 子を構築する。(ラティス構造) ● 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。

Slide 7

Slide 7 text

Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価す る。 ● Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese), and Weibo (Chinese) ● ngram = 1-8 for Japanese ● ngram = 1-7 for Chinese ● C-SVM(Hastie et al., 2009)

Slide 8

Slide 8 text

Results

Slide 9

Slide 9 text

Conclusion ● 人手でアノテーションされたリソースに依存しない手法でその リソースに依存する手法を上回った。 ● 将来的には別の手法を活用する ○ the Stanford Word Segmenter (Tseng et al., 2005) with k-best segmentations