chiVe: Japanese word embedding with Sudachi and NWJC 🌿
https://github.com/WorksApplications/chiVe
第16回テキストアナリティクス・シンポジウム
http://www.ieice.org/~nlc/tm16p.html
***
chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて ~ 形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良 ~
事前学習された単語分散表現(単語埋め込み、単語ベクトル)は、自然言語処理において重要な言語資源である。しかし特に日本語では、実用において使い勝手の良いリソースは少ない。我々の取り組む chiVe(チャイブ)は、形態素解析器 Sudachi による複数粒度分割を活用し、100 億語規模コーパス NWJC をもとに学習した単語分散表現である。この資源は商用利用可能なライセンスのもと一般公開している。本稿ではその概要と、その改良へ向けた取り組み、特に、未知語対応、同義語辞書の活用、そしてドメイン適用について解説する。
***
chiVe: Towards Industrial-strength Japanese Word Vector Resources -Constructing and Improving Embedding with Tokenizer "Sudachi" and Ultra-large-scale Web-based Corpus "NWJC"-
Pretrained word embeddings (word vectors, distributed representations) are fundamental and important components for recent neural network based natural language processing. However, there are not many resources available for Japanese language that is useful for the practical purpose. “chiVe” is our attempt to construct useful word embedding resource, using morphological analyzer “Sudachi” that provides multi-granular tokenization results, and 10 billion words scale corpus “NWJC”. We made this resource publicly available under Apache 2.0 license that allows commercial usage. In this article, we describe the overview of the project, and introduce our ongoing work to further improve the resources which includes handling Out-of-Vocabulary words, utilizing the synonym resources, and adapting to specific domains.