Segmentation-Free Word Embedding for Unsegmented Languages ∗

Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings
of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学自然言語処理研究室修士1年　勝田哲弘

Abstract • 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベクトルの獲得方法の提案 ◦ segmentation-free word embedding • 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割
が必要になるが、人手によるリソースが必要になる。 • 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されています。

Introduction • NLPでは大規模なコーパスから単語ベクトルを獲得するword embeddingが注目されている。前処理としてセグメントが必要。 ◦ 英語やスペイン語などの言語では、単純なルールベースと共起ベースのアプローチがとられる。 ◦ 中国語、日本語、タイ語などのセグメント化されていない言語では、機械学習ベースのアプローチがNLPで広く使用されています。（
Kudo et al。、2004; Tseng et al。、2005） ▪ 辞書が必要、固有名詞が苦手 • 文字nグラムに基づいて可能なすべてのセグメント化を列挙し、共起頻度からnグラム・ベクトルを学習する枠組みを提案

Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et
al. (2016) • learns n-gram vectors from the corpus that segmented randomly ◦ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。

Conventional Approaches to Word Embeddings skip-gram model with negative sampling
(SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。

Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格
子を構築する。（ラティス構造） • 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。

Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価する。 • Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese),
and Weibo (Chinese) • ngram = 1-8 for Japanese • ngram = 1-7 for Chinese • C-SVM(Hastie et al., 2009)

Results

Conclusion • 人手でアノテーションされたリソースに依存しない手法でそのリソースに依存する手法を上回った。 • 将来的には別の手法を活用する ◦ the Stanford Word
Segmenter (Tseng et al., 2005) with k-best segmentations

Segmentation-Free Word Embedding for Unsegmente...

Segmentation-Free Word Embedding for Unsegmented Languages ∗

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript

Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings

Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et

Conventional Approaches to Word Embeddings skip-gram model with negative sampling

Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格

Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価する。 • Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese),

Results

Conclusion • 人手でアノテーションされたリソースに依存しない手法でそのリソースに依存する手法を上回った。 • 将来的には別の手法を活用する ◦ the Stanford Word