Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会@PFI “How to make words with vectors: Phr...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuya Unno
July 12, 2014
Research
0
21
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributional semantics”
Yuya Unno
July 12, 2014
Tweet
Share
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
22
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
45
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
45
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
14
進化するChainer @JSAI2017
unnonouno
0
21
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
21
深層学習フレームワーク Chainerとその進化
unnonouno
0
20
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
30
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
15
Other Decks in Research
See All in Research
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
190
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1k
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
980
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
290
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
570
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
120
R&Dチームを起ち上げる
shibuiwilliam
1
190
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.9k
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
610
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
940
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
420
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
340
Featured
See All Featured
Music & Morning Musume
bryan
47
7.1k
Rails Girls Zürich Keynote
gr2m
96
14k
The agentic SEO stack - context over prompts
schlessera
0
690
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
130
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
210
Building a Scalable Design System with Sketch
lauravandoore
463
34k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
190
How GitHub (no longer) Works
holman
316
140k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
660
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.5k
Transcript
ACL読み会@PFI “How to make words with vectors: Phrase generation in
distributional semantics” 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno) 2014/07/12 ACL読み会@PFI
要旨 l 複合語の合成・分解過程を学習する l 学習された合成・分解過程によって、既存の単語や複合 語から、新規の複合語を⽣生成できるようにする l 学習は既知のベクトル表現を⽣生成できるような⾏行行列列を計 算するだけ(簡単) l
⾔言語横断の実験もしている 2
フレーズベクトルの⽣生成 l 前提として単語やフレーズにはベクトルが割り当てられ るとする l 単語uと単語vのベクトルから、フレーズuvのベクトルp を⽣生成する関数 f comp を考える
l uとvを並べた2d次元のベクトルに、⾏行行列列Wをかけたらp ができることにする 3
4 u v W p = X
⽣生成関数の学習 l 単語uと単語vと、フレーズpのベクトルが沢⼭山わかって るとする l 学習データ中で誤差が最⼩小になるような⾏行行列列Wを求める l 全体を⾏行行列列で書くと上の式 5 簡単!
フレーズベクトルの分解 l ベクトルpを持つ2単語からなるフレーズから、単語uと 単語vのベクトルに分解する関数f decomp を考える l pに⾏行行列列W’をかけたらuとvをつなげたベクトルができる とかんがえる 6
分解⾏行行列列の学習 l 同じように、学習事例例中での誤差が最⼩小になるように W’を解く (2)式 l フレーズのベクトルPがなくても、WからW’を学習する こともできる (3)式 l Wの学習にPが必要だから、これは意味あるのか? 7
簡単!
再帰的なフレーズの処理理 l フレーズは段階的に合成関数を適⽤用する l このとき、品詞対毎に合成関数は⽤用意する l 後の実験で出る通り、今回扱うのは名詞:N、形容詞:A、前置 詞:Pの3つ 8 big
red car =
実験 l 学習した関数(⾏行行列列)を使って、フレーズの分解と合成 を⾏行行う l 単語とフレーズのベクトルは2種類を⽐比較する l cbow: Mikolovのword2vecを使って作ったベクトル l
count: 出現頻度度で作ったナイーブなベクトル l 名詞(N)と形容詞(A)は2万個、前置詞(P)は25個使う 9
⽣生成と分解の実験 l 数字は正解単語のランクの中央値 l 上:A+NàNは合成の予備実験 l 下:NàA+Nは分解の実験 l いずれもcbowの結果が劇的に良良い 10
⼤大体11番⽬目に正解が来る ということ
実例例 l 間違いではないものも多い l religious religionのように、同じ意味の語の繰り返しに なることも・・・ 11
複合語から複合語を⽣生成する実験 l ANからNPNを⽣生成する l やはり意味的に正しいものは多い l 評価⽅方法の限界? 12
英伊で⾔言語横断の複合語作成 l ⾔言語間のベクトルの写像は、少数の既知単語対から学習 l 同⼀一品詞間なので正解率率率は⾼高め 13
まとめ l 意味の合成・分解を単純な⾏行行列列の掛け算でモデル化 l 既知ベクトルから、合成・分解過程を学習する l ⽅方法は簡単だが、結果を⾒見見ると⽅方針としては筋が良良さそ う 感想 l
簡単なので実装しようと思ったが時間なかった l 単語ベクトルが意味の合成・分解に有⽤用そうなことを⽰示 しているが、⼿手法が安易易なのでもう少し⼯工夫したい 14