Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会@PFI “How to make words with vectors: Phr...
Search
Yuya Unno
July 12, 2014
Research
0
16
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributional semantics”
Yuya Unno
July 12, 2014
Tweet
Share
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
17
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
38
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
34
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
9
進化するChainer @JSAI2017
unnonouno
0
17
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
11
深層学習フレームワーク Chainerとその進化
unnonouno
0
16
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
24
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
12
Other Decks in Research
See All in Research
IMC の細かすぎる話 2025
smly
2
630
数理最適化に基づく制御
mickey_kubo
6
730
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
270
電通総研の生成AI・エージェントの取り組みエンジニアリング業務向けAI活用事例紹介
isidaitc
1
950
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
280
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
0
170
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
1.5k
集合間Bregmanダイバージェンスと置換不変NNによるその学習
wasyro
0
140
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
520
数理最適化と機械学習の融合
mickey_kubo
16
9.3k
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
110
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
550
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
139
34k
Fireside Chat
paigeccino
39
3.6k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
How GitHub (no longer) Works
holman
315
140k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Optimizing for Happiness
mojombo
379
70k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
188
55k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Thoughts on Productivity
jonyablonski
70
4.8k
Transcript
ACL読み会@PFI “How to make words with vectors: Phrase generation in
distributional semantics” 株式会社Preferred Infrastructure 海野 裕也 (@unnonouno) 2014/07/12 ACL読み会@PFI
要旨 l 複合語の合成・分解過程を学習する l 学習された合成・分解過程によって、既存の単語や複合 語から、新規の複合語を⽣生成できるようにする l 学習は既知のベクトル表現を⽣生成できるような⾏行行列列を計 算するだけ(簡単) l
⾔言語横断の実験もしている 2
フレーズベクトルの⽣生成 l 前提として単語やフレーズにはベクトルが割り当てられ るとする l 単語uと単語vのベクトルから、フレーズuvのベクトルp を⽣生成する関数 f comp を考える
l uとvを並べた2d次元のベクトルに、⾏行行列列Wをかけたらp ができることにする 3
4 u v W p = X
⽣生成関数の学習 l 単語uと単語vと、フレーズpのベクトルが沢⼭山わかって るとする l 学習データ中で誤差が最⼩小になるような⾏行行列列Wを求める l 全体を⾏行行列列で書くと上の式 5 簡単!
フレーズベクトルの分解 l ベクトルpを持つ2単語からなるフレーズから、単語uと 単語vのベクトルに分解する関数f decomp を考える l pに⾏行行列列W’をかけたらuとvをつなげたベクトルができる とかんがえる 6
分解⾏行行列列の学習 l 同じように、学習事例例中での誤差が最⼩小になるように W’を解く (2)式 l フレーズのベクトルPがなくても、WからW’を学習する こともできる (3)式 l Wの学習にPが必要だから、これは意味あるのか? 7
簡単!
再帰的なフレーズの処理理 l フレーズは段階的に合成関数を適⽤用する l このとき、品詞対毎に合成関数は⽤用意する l 後の実験で出る通り、今回扱うのは名詞:N、形容詞:A、前置 詞:Pの3つ 8 big
red car =
実験 l 学習した関数(⾏行行列列)を使って、フレーズの分解と合成 を⾏行行う l 単語とフレーズのベクトルは2種類を⽐比較する l cbow: Mikolovのword2vecを使って作ったベクトル l
count: 出現頻度度で作ったナイーブなベクトル l 名詞(N)と形容詞(A)は2万個、前置詞(P)は25個使う 9
⽣生成と分解の実験 l 数字は正解単語のランクの中央値 l 上:A+NàNは合成の予備実験 l 下:NàA+Nは分解の実験 l いずれもcbowの結果が劇的に良良い 10
⼤大体11番⽬目に正解が来る ということ
実例例 l 間違いではないものも多い l religious religionのように、同じ意味の語の繰り返しに なることも・・・ 11
複合語から複合語を⽣生成する実験 l ANからNPNを⽣生成する l やはり意味的に正しいものは多い l 評価⽅方法の限界? 12
英伊で⾔言語横断の複合語作成 l ⾔言語間のベクトルの写像は、少数の既知単語対から学習 l 同⼀一品詞間なので正解率率率は⾼高め 13
まとめ l 意味の合成・分解を単純な⾏行行列列の掛け算でモデル化 l 既知ベクトルから、合成・分解過程を学習する l ⽅方法は簡単だが、結果を⾒見見ると⽅方針としては筋が良良さそ う 感想 l
簡単なので実装しようと思ったが時間なかった l 単語ベクトルが意味の合成・分解に有⽤用そうなことを⽰示 しているが、⼿手法が安易易なのでもう少し⼯工夫したい 14