Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Segmentation-Free Word Embedding for Unsegmente...
Search
katsutan
August 27, 2018
Technology
1
120
Segmentation-Free Word Embedding for Unsegmented Languages ∗
文献紹介 勝田 哲弘
http://aclweb.org/anthology/D17-1080
katsutan
August 27, 2018
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
OCI技術資料 : OS管理ハブ 概要
ocise
2
4.1k
ソフトとハード両方いけるデータ人材の育て方
waiwai2111
1
510
Web Intelligence and Visual Media Analytics
weblyzard
PRO
1
6.8k
習慣とAIと環境 — 技術探求を続ける3つの鍵
azukiazusa1
2
660
形式手法特論:コンパイラの「正しさ」は証明できるか? #burikaigi / BuriKaigi 2026
ytaka23
17
6.3k
「違う現場で格闘する二人」——社内コミュニティがつないだトヨタ流アジャイルの実践とその先
shinichitakeuchi
0
490
Node vs Deno vs Bun 〜推しランタイムを見つけよう〜
kamekyame
1
530
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
2
950
Security Hub と出会ってから 1年半が過ぎました
rch850
0
160
AI に「学ばせ、調べさせ、作らせる」。Auth0 開発を加速させる7つの実践的アプローチ
scova0731
0
330
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
3
1.5k
ドメイン駆動セキュリティへの道しるべ
pandayumi
0
130
Featured
See All Featured
Building Applications with DynamoDB
mza
96
6.9k
Practical Orchestrator
shlominoach
190
11k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
110
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
370
It's Worth the Effort
3n
188
29k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
91
Transcript
Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings
of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学 自然言語処理研究室 修士1年 勝田 哲弘
Abstract • 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベ クトルの獲得方法の提案 ◦ segmentation-free word embedding • 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割
が必要になるが、人手によるリソースが必要になる。 • 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの 名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されていま す。
Introduction • NLPでは大規模なコーパスから単語ベクトルを獲得するword embeddingが注目さ れている。前処理としてセグメントが必要。 ◦ 英語やスペイン語などの言語では、単純なルールベースと共起ベースのアプローチがとられる。 ◦ 中国語、日本語、タイ語などのセグメント化されていない言語では、機械学習ベースのアプローチ がNLPで広く使用されています。(
Kudo et al。、2004; Tseng et al。、2005) ▪ 辞書が必要、固有名詞が苦手 • 文字nグラムに基づいて可能なすべてのセグメント化を列挙し、共起頻度からnグラ ム・ベクトルを学習する 枠組みを提案
Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et
al. (2016) • learns n-gram vectors from the corpus that segmented randomly ◦ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。
Conventional Approaches to Word Embeddings skip-gram model with negative sampling
(SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。
Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格
子を構築する。(ラティス構造) • 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。
Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価す る。 • Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese),
and Weibo (Chinese) • ngram = 1-8 for Japanese • ngram = 1-7 for Chinese • C-SVM(Hastie et al., 2009)
Results
Conclusion • 人手でアノテーションされたリソースに依存しない手法でその リソースに依存する手法を上回った。 • 将来的には別の手法を活用する ◦ the Stanford Word
Segmenter (Tseng et al., 2005) with k-best segmentations