Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
word2vecで女性向けQ&Aサイトを解析してみた
Search
tatsushim
June 17, 2015
Research
0
6.3k
word2vecで女性向けQ&Aサイトを解析してみた
2015/06/10
IVS CTO NightのLTで発表したプレゼン資料です。
word2vecにmamariQ内のテキストを使用してみました。
tatsushim
June 17, 2015
Tweet
Share
More Decks by tatsushim
See All by tatsushim
DockerとAmazon SageMakerで実現した機械学習システムのプロダクション移行
tatsushim
0
27k
コミュニティサービスにおける機械学習のためのアノテーション
tatsushim
0
2.2k
日本のママをコンテナで支える
tatsushim
1
3.1k
コネヒトが考える技術選択の仕方について
tatsushim
0
22k
コネヒトが考えるサービスづくりに必要な技術とその考え方について
tatsushim
2
3.2k
独身男性のためのデータドリブン講座
tatsushim
0
6.9k
Other Decks in Research
See All in Research
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
220
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
140
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
440
湯村研究室の紹介2025 / yumulab2025
yumulab
0
270
CoRL2025速報
rpc
3
3.6k
財務諸表監査のための逐次検定
masakat0
0
210
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
180
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.3k
思いつきが武器になる:研究というゲームを始めよう / Ideas Are Your Equipments : Let the Game of Research Begin!
ks91
PRO
0
110
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
360
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
4
2.2k
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.2k
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
GitHub's CSS Performance
jonrohan
1032
470k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Site-Speed That Sticks
csswizardry
13
1k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
200
How to Think Like a Performance Engineer
csswizardry
28
2.4k
YesSQL, Process and Tooling at Scale
rocio
174
15k
New Earth Scene 8
popppiees
0
1.2k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
160
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
88
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Transcript
word2vecͰঁੑ͚QˍA αΠτΛղੳͯ͠Έͨ Tatsuro Shimada <
[email protected]
> tatsushim @ Connehito, Inc
Connehito Inc. ౡాୡ࿕ʢ͠·ͩͨͭΖ͏ʣ • Connehito, Inc CTO • Πϯϑϥ͔Βϑϩϯτ·Ͱ •
͋ͱ͓՛ࢠͷങ͍ग़͠ PROFILE @tatsushim 2
ϚϚϦͱʁ Connehito Inc. 3
Connehito Inc. ϚϚϦjp (❨web)❩ ϚϚϦ2 (❨ΞϓϦ)❩ ϚϚϦKQ / ϚϚϦ2 ϝσΟΞ
ίϛϡχςΟ 4
Connehito Inc. ࣭ͷճ ˋ ճ͕ͭ͘·Ͱ ҎԼ ΞϓϦͷࡏ࣌ؒ Ҏ্ ѹతͳαʔϏεͷ
+VO +VM "VH 4FQ 0DU /PW %FD +BO 'FC લ݄ൺˋ ྦྷܭߘ ৷ɾग़࢈ͰΉਓͷ ਓʹਓ͕݄̍ΞΫηε 5
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 6 λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 7 ঁੑ λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 8 ঁੑ ϚϚ λʔήοτ ࢲ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 9 ঁੑ ϚϚ λʔήοτ ࢲ
৷ ग़࢈
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 10 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ৷ ग़࢈
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 11 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ৷ ग़࢈ ಠΓ
Connehito Inc. ϚϚϦKQ / ϚϚϦ2 12 ঁੑ ϚϚ λʔήοτ ࢲ
உੑ ಠΓ ৷ ग़࢈ Ͱ͖ͳ͍
ʘ(^o^)ʗ
ʘ(^o^)ʗ Ϣʔβʔͷ͜ͱཧղ͍ͨ͠ʂ
15
16 word2vec
None
Connehito Inc. • Tomas Mikolovࢯ (࣌Google, ݱFacebook)͕ఏҊ • ୯ޠಉ࢜ͷؔੑΛϕΫτϧͱͯ͠දݱ •
୯ޠͷྨࣅͷܭࢉ͠Ҿ͖͕Մೳ word2vecͱʁ 18
19
20 ۩ମྫΛݟͯΈΑ͏
word2vecͷදతͳ2ͭͷ͍ํ Connehito Inc. 21
Display similar words Connehito Inc. 22
None
ྨٛޠ
Interesting properties of the word vectors Connehito Inc. 25
Connehito Inc. 26 word2vecͷྫ vector(‘France')
Connehito Inc. 27 word2vecͷྫ - vector(‘Paris') vector(‘France')
Connehito Inc. 28 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) vector(‘France')
Connehito Inc. 29 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')
Connehito Inc. 30 word2vecͷྫ vector(‘Paris')
Connehito Inc. 31 word2vecͷྫ - vector(‘France') vector(‘Paris')
Connehito Inc. 32 word2vecͷྫ - vector(‘France') + vector(‘Italy’) vector(‘Paris')
Connehito Inc. 33 word2vecͷྫ - vector(‘France') + vector(‘Italy’) = vector('Rome')
vector(‘Paris')
Connehito Inc. 34 word2vecͷྫ vector(‘king')
Connehito Inc. 35 word2vecͷྫ - vector(‘man') vector(‘king')
Connehito Inc. 36 word2vecͷྫ - vector(‘man') + vector(‘woman’) vector(‘king')
Connehito Inc. 37 word2vecͷྫ - vector(‘man') + vector(‘woman’) = vector('queen')
vector(‘king')
ཧͯ͠ΈΔ Connehito Inc. 38
Connehito Inc. 39 word2vecͷྫ - vector(‘Paris') vector(‘France')
Connehito Inc. 40 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) vector(‘France')
Connehito Inc. 41 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')
Connehito Inc. 42 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France')}
Connehito Inc. 43 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ }
Connehito Inc. 44 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } +
Connehito Inc. 45 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } +
Connehito Inc. 46 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ +
Connehito Inc. 47 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + =
Connehito Inc. 48 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + = }
Connehito Inc. 49 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')
vector(‘France') ͋ΔࢢΛटͱ͢Δࠃ } } ౦ژ + = }౦ژΛटͱ͢Δࠃ
50
51 mamariQͰword2vecͯ͠ΈΔ
None
୯ޠͷҙຯΛද͢୯ޠ Connehito Inc. 53
Connehito Inc. 54 ʮಈʯin mamariQ Word: ಈ Word Cosine distance
------------------------------------------------------------------------ ҙ 0.527825 ϙίϙί 0.516658 ҧײ 0.432082 ಈ͖ 0.430563 ͠Όͬ͘Γ 0.406297 ͙͍ͬͨ͘͢ 0.386457 ಈ͍ 0.383030 ى෬ 0.381906 ϙίο 0.377959
Connehito Inc. 55 ʮυΫϯυΫϯʯin mamariQ Word: υΫϯυΫϯ Word Cosine distance
------------------------------------------------------------------------ ຺ଧͭ 0.454460 ϙίο 0.425674 Ͳ͘Ͳ͘ 0.425287 ϐΫο 0.418931 ಥͬுΔ 0.417948 ϐΫϐΫ 0.415464 લଆ 0.413287 ͭͬͺΔ 0.412516
Connehito Inc. 56 ʮೕ৯ʯin mamariQ Word: ೕ৯ Word Cosine distance
------------------------------------------------------------------------ ख͔ͮΈ 0.472250 ͔ͭΈ 0.445568 ॏ౬ 0.432616 ͓͔Ώ 0.425068 τΠτϨ 0.415463 ͨΜͺ࣭͘ 0.412253 ϕϏʔμϊϯ 0.393488 λϯύΫ࣭ 0.392157 ৯ࡐ 0.390477
୯ޠͱ୯ޠͷؔੑ Connehito Inc. 57
Connehito Inc. 58 vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 59 - vector(‘ଉࢠ') vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 60 - vector(‘ଉࢠ') + vector(‘່’) vector(‘ެཱ') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 61 - vector(‘ଉࢠ') + vector(‘່’) = vector('ࢲཱ') vector(‘ެཱ')
୯ޠͷ໘ന͍ؔੑ in mamariQ
62
63 ঁͷࢠͷํ͕ࢲཱΛݕ౼͢Δʁ
Connehito Inc. 64 vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 65 - vector(‘͓͞Μ') vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 66 - vector(‘͓͞Μ') + vector(‘͓͞Μ’) vector(‘νϡʔϋΠ') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 67 - vector(‘͓͞Μ') + vector(‘͓͞Μ’) = vector('Ϗʔϧ') vector(‘νϡʔϋΠ')
୯ޠͷ໘ന͍ؔੑ in mamariQ
68
69 உੑͷํ͕Ϗʔϧ͖ʁ
Connehito Inc. 70 vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 71 - vector(‘ଉࢠ') vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 72 - vector(‘ଉࢠ') + vector(‘່’) vector(‘ՄѪ͍') ୯ޠͷ໘ന͍ؔੑ in
mamariQ
Connehito Inc. 73 - vector(‘ଉࢠ') + vector(‘່’) = vector('ՄѪ͍') vector(‘ՄѪ͍')
୯ޠͷ໘ന͍ؔੑ in mamariQ
Connehito Inc. 74 - vector(‘ଉࢠ') + vector(‘່’) = vector('ՄѪ͍') vector(‘ՄѪ͍')
୯ޠͷ໘ന͍ؔੑ in mamariQ ʊਓਓਓਓਓʊ ʼɹՄѪ͍ɹʻ ʉY^Y^Y^Y
None
ͨͩͷόΧ
ຊޠʹword2vecదԠ͢ΔࡍͷTips Connehito Inc. 77
Connehito Inc. 78 ຊޠʹword2vecదԠ͢ΔࡍͷTips
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 79 ຊޠʹword2vecదԠ͢ΔࡍͷTips
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 80 ຊޠʹword2vecదԠ͢ΔࡍͷTips • ۀքݻ༗ͷϫʔυͪΌΜͱొ͢Δ
- Ex. 24w3d = ৷͔Β24िͱ3
Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ͏ - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 81 ຊޠʹword2vecదԠ͢ΔࡍͷTips • ύϥϝʔλௐ
- Ex. αʔϏεʹ߹Θͤͨwindow sizeΛ • ۀքݻ༗ͷϫʔυͪΌΜͱొ͢Δ - Ex. 24w3d = ৷͔Β24िͱ3
82
83 ݁ہԿʹ͑Δͷ͔ʁ
Connehito Inc. 84 Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 85 Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 86 • QˍAίϛχϡχςΟͰQʹରͯ͠࠷ྑ ͍ճΛܾΊΔͱ͖ͷfeatureʹ͏ͱ͔(࣮ ࡍԠ༻ͨ͠จ͕͋Δ) Ԡ༻ઌ
Connehito Inc. • ྨٛޠݕग़ 87 • QˍAίϛχϡχςΟͰQʹରͯ͠࠷ྑ ͍ճΛܾΊΔͱ͖ͷfeatureʹ͏ͱ͔(࣮ ࡍԠ༻ͨ͠จ͕͋Δ) •
͍͔ͭ͘Ծઆ͕͋ΔͷͰɺ্ख͘ߦͬͨΒ จʹͯ͠ൃ৴͍͖ͯ͠·͢ Ԡ༻ઌ
͜͜·Ͱ͕word2vecͷ͓ Connehito Inc. 88
Connehito Inc. • Ҏ্͕ɺword2vecΛͬͯΈ͓ͨͰ͢ 89 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •
͜͏͍͏RˍDΛΈΜͳ͍ͭͬͯɺͲ͏ औΓೖΕͯΔͷ͔Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ
Connehito Inc. • Ҏ্͕ɺword2vecΛͬͯΈ͓ͨͰ͢ 90 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •
͜͏͍͏RˍDΛΈΜͳ͍ͭͬͯɺͲ͏ औΓೖΕͯΔͷ͔Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ ͝ਗ਼ௌ༗͏͍͟͝·ͨ͠ʂ