Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Segmentation-Free Word Embedding for Unsegmente...
Search
katsutan
August 27, 2018
Technology
130
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Segmentation-Free Word Embedding for Unsegmented Languages ∗
文献紹介 勝田 哲弘
http://aclweb.org/anthology/D17-1080
katsutan
August 27, 2018
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
260
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
230
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
280
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
230
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
340
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
1
160
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
120
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
400
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
130
AIのReact習熟度を測る
uhyo
2
620
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
150
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
120
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
0
120
自宅LLMの話
jacopen
1
600
マルチアカウント環境での コーディングエージェントを使った障害調査が大変なので AIエージェントにReadOnly権限を付与してみた / ReadOnly AI Agents for Multi-Account AWS Incident Response
yamaguchitk333
2
110
攻撃者視点で考えるDetection Engineering
cryptopeg
3
1.9k
LLMにもCAP定理があるという話
harukasakihara
0
400
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Visualization
eitanlees
152
17k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Being A Developer After 40
akosma
91
590k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
170
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
290
4 Signs Your Business is Dying
shpigford
187
22k
Transcript
Segmentation-Free Word Embedding for Unsegmented Languages ∗ Takamasa Oshikiri Proceedings
of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 767–772 長岡技術科学大学 自然言語処理研究室 修士1年 勝田 哲弘
Abstract • 単語分割されていない言語に対して、前処理として単語分割を必要としない単語ベ クトルの獲得方法の提案 ◦ segmentation-free word embedding • 基本的に、中国語や日本語のようにスペースで区切られない言語では単語の分割
が必要になるが、人手によるリソースが必要になる。 • 文字ngramによる共起情報をもとに分割を行い、Twitter、Weibo、Wikipediaでの 名詞カテゴリ予測タスクでは、従来のアプローチより優れていることが示されていま す。
Introduction • NLPでは大規模なコーパスから単語ベクトルを獲得するword embeddingが注目さ れている。前処理としてセグメントが必要。 ◦ 英語やスペイン語などの言語では、単純なルールベースと共起ベースのアプローチがとられる。 ◦ 中国語、日本語、タイ語などのセグメント化されていない言語では、機械学習ベースのアプローチ がNLPで広く使用されています。(
Kudo et al。、2004; Tseng et al。、2005) ▪ 辞書が必要、固有名詞が苦手 • 文字nグラムに基づいて可能なすべてのセグメント化を列挙し、共起頻度からnグラ ム・ベクトルを学習する 枠組みを提案
Related Work セグメントに依存しないモデル • character-based RNN model ◦ Dhingra et
al. (2016) • learns n-gram vectors from the corpus that segmented randomly ◦ Schütze (2017) これらの手法は、テキストまたは系列のベクトル表現を学習することを目的としている。
Conventional Approaches to Word Embeddings skip-gram model with negative sampling
(SGNS) (Mikolov et al., 2013) 以下の単語、コンテキストの目的関数を最小にするベクトルの学習を行う。
Segmentation-Free Word Embeddings segmentation-free version of the SGNS • コーパスの頻繁な文字nグラムに基づくすべての可能なセグメントを表すnグラム格
子を構築する。(ラティス構造) • 頻繁なnグラム格子上の共起統計を用いてnグラムベクトルを学習する。
Experiment Twitter、Weibo、Wikipediaのコーパスにおける名詞カテゴリ予測タスクを用いて評価す る。 • Wikipedia (Japanese), Wikipedia (Chinese), Twitter (Japanese),
and Weibo (Chinese) • ngram = 1-8 for Japanese • ngram = 1-7 for Chinese • C-SVM(Hastie et al., 2009)
Results
Conclusion • 人手でアノテーションされたリソースに依存しない手法でその リソースに依存する手法を上回った。 • 将来的には別の手法を活用する ◦ the Stanford Word
Segmenter (Tseng et al., 2005) with k-best segmentations