Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Generalizing Word Embeddings using Bag of Subwords
Search
Yumeto Inaoka
September 26, 2018
Research
0
190
文献紹介: Generalizing Word Embeddings using Bag of Subwords
2018/09/26の文献紹介で発表
Yumeto Inaoka
September 26, 2018
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
110
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
150
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
110
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
110
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
78
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
200
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
250
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
170
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
160
Other Decks in Research
See All in Research
Generative AI - practice and theory
gpeyre
1
560
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
言語間転移学習で大規模言語モデルを賢くする
ikuyamada
6
2.2k
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
5
2.7k
SSII2023 医療支援における画像処理研究の動向と展望
moda0
0
110
フルリモートワークでのスクラムのスケール
kmorita1111
2
1k
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
520
LLMマルチエージェントを俯瞰する
masatoto
26
16k
精神疾患患者のアクティビティデータを利用したリハビリテーションのためのシステムに関する研究
comfortdesignlab
0
140
Azure Arc-enabled Serversを利用した ハイブリッド・マルチクラウド環境の管理 / Managing Hybrid Multi-cloud Environments with Azure Arc-enabled Servers
nttcom
0
210
論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
nttcom
0
110
生成AIを用いたText to SQLの最前線
masatoto
1
2.2k
Featured
See All Featured
The Brand Is Dead. Long Live the Brand.
mthomps
49
28k
Faster Mobile Websites
deanohume
299
30k
GraphQLとの向き合い方2022年版
quramy
32
12k
Code Reviewing Like a Champion
maltzj
514
39k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
Facilitating Awesome Meetings
lara
42
5.6k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
How to train your dragon (web standard)
notwaldorf
73
5.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
274
13k
Product Roadmaps are Hard
iamctodd
44
9.7k
Gamification - CAS2011
davidbonilla
76
4.6k
Transcript
Generalizing Word Embeddings using Bag of Subwords 文献紹介 ( 2018
/ 09 / 26 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature Jinman Zhao and Sidharth Mudgal and Yingyu Liang. Proceedings
of the 2018 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/1809.04259 2
Abstract • 文脈情報を用いずに語彙を超えて事前学習済みの Word Embeddingを汎化 • 単語をBag-of-Substringsと見做して subwordレベルの単語ベクトル生成モデルを提案 • 英単語類似度タスクでSOTAを達成
3
Word Embeddings in OOV ➔ 従来のWord Embeddingsは高頻度な単語にのみ 単語ベクトルを生成し、低頻度語をOOVとする ➔ 低頻度語には単語ベクトルを生成できない
➔ 下流のタスクで特徴が補足できず困難 4
Word Vectors for OOV words • 単語は語幹, 接辞, 修飾語など形態素に分割できる •
人間は例えば“preEMNLP”の意味を推察できる ➔ 形態素からベクトルを推測できる可能性を示唆 ➔ OOV wordsでも単語以下の単位で解析すれば 単語ベクトルを推測できる可能性がある 5
Related Works • fastText char n-gramを用いてOOVの単語のベクトルを生成 学習には大規模なコーパスが必要 (今回はenwiki) • Mimick
Char-level Bi-LSTMでChar Embeddingから Word Embeddingを推測 6
Proposed Model • 単語をBag-of-Substringsとみなす • 単語ベクトルは全部分文字列のベクトルの平均 • それを事前学習されたベクトルと一致させる学習 ➔ 文脈予測を介さずにsubwordsを学習させる
fastTextと似ているようで異なる 7
Substring Σ is the finite set of characters in the
language. 8
“<s>” = ‘<’ + s + ‘>’ Substring 9 are
hyperparameters.
Substring (example) 10 { <in, <inf, inf, infi, nfi, nfix,
fix, fix>, ix> }
Bag-of-Substring 11
Target vectors Training 12
Experiment (Word Similarity) • 単語ベクトルの類似度と、ラベル付けされた 単語類似度の相関によって評価 • 類似度は単語ベクトル間のコサイン類似度で計算 • 相関はスピアマンの順位相関係数ρで計算
13
Datasets (Word Similarity) • Polyglot, Googleは学習済み単語ベクトル • Stanford RareWord(RW)とWordSim353(WS)で評価 RWは低頻度語が多く、WSは一般的な語が多い
14
Results (Word Similarity) • BoSはEditDist, MIMICKよりも相関が強い • Googleのベクトルを用いたときにfastTextと同等 15
BoS vs. fastText • BoSの方が少ないデータ、訓練で実現 • Intel Core i7-6700 (3.4GHz)
において、 BoSはシングルスレッドのPythonで352秒 fastTextはマルチスレッドのC++で数時間 16
Expt. (syntax, semantics) • POS tags, Morphosyntactic Attributesを予測するタ スクでベクトルを評価 →
構文的、意味的特徴の補足を確認 • データセットはUniversal Dependencies (UD) • Bi-LSTMで予測 17
Result (syntax, semantics) • すべての言語で 安定して有意な 結果 • 膠着語で特に 差が大きい
18
Conclusion • 事前学習済みのWord Embeddingを拡張してOOV単 語のWord Embeddingを推定するモデルを提案 • 単語類似度タスクとPOSタグ付けタスクによって形態 論的知識の補足、より良いOOV単語の単語 ベクトルの生成を確認
19