Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
読み手の印象推定に基づくツイートのフィルタリングに関する研究 / A Study on Fil...
Search
mogumogu mogumi
March 07, 2017
Technology
0
150
読み手の印象推定に基づくツイートのフィルタリングに関する研究 / A Study on Filtering Tweet based on Impression Estimation of Reading
読み手の印象推定に基づくツイートのフィルタリングに関する研究
DEIM Forum 2017 D5-1
http://db-event.jpn.org/deim2017/papers/126.pdf
mogumogu mogumi
March 07, 2017
Tweet
Share
More Decks by mogumogu mogumi
See All by mogumogu mogumi
9/13 九州大学OB企業訪問資料[パーソンリンク]
mgmgmogumi
0
95
ツールで見るフロント界のトレンド
mgmgmogumi
0
79
機械学習APIの紹介とデモ.pdf
mgmgmogumi
0
37
エンジニアの日常
mgmgmogumi
0
220
Security course
mgmgmogumi
0
120
読み手の印象推定に基づくツイートのフィルタリングに関する研究 ポスター / A Study on Filtering Tweet based on Impression Estimation of Reading (Poster)
mgmgmogumi
0
26
kurogi kurumi student work
mgmgmogumi
0
290
ここからうまれたぼくたち酵母~pao
mgmgmogumi
0
34
Other Decks in Technology
See All in Technology
Pandocでmd→pptx便利すぎワロタwww
meow_noisy
2
1k
私も懇親会は苦手でした ~苦手だからこそ懇親会を楽しむ方法~ / 20251127 Masaki Okuda
shift_evolve
PRO
4
190
Excelデータ分析で学ぶディメンショナルモデリング ~アジャイルデータモデリングへ向けて~ by @Kazaneya_PR / 20251126
kazaneya
PRO
3
620
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
15k
Digital omtanke på Internetdagarna 2025
axbom
PRO
0
140
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
170
TypeScript 6.0で非推奨化されるオプションたち
uhyo
15
5.5k
AS59105におけるFreeBSD EtherIPの運用と課題
x86taka
0
300
【ASW21-02】STAMP/CAST分析における生成AIの支援 ~羽田空港航空機衝突事故を題材として (Support of Generative AI in STAMP/CAST Analysis - A Case Study Based on the Haneda Airport Aircraft Accident -)
hianraku9498
1
260
プラットフォームエンジニアリングとは何であり、なぜプラットフォームエンジニアリングなのか
doublemarket
0
310
Codeer.LowCode.Blazor 紹介と成長録
wadawada
0
100
AIで加速する次世代のBill Oneアーキテクチャ〜成長の先にある軌道修正〜
sansantech
PRO
1
140
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Docker and Python
trallard
46
3.7k
Building Applications with DynamoDB
mza
96
6.8k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.1k
Done Done
chrislema
186
16k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Context Engineering - Making Every Token Count
addyosmani
9
430
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
67k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Faster Mobile Websites
deanohume
310
31k
Transcript
ಡΈखͷҹਪఆʹجͮ͘ πΠʔτͷϑΟϧλϦϯάʹؔ͢Δݚڀ भେֶܳज़ֶ෦ܳज़ใઃܭֶՊɹࠇΫϧϛ भେֶେֶӃܳज़ֶݚڀӃɹڇೌ߶૱ D5-1
എܠ Twitte r ࠃ݄ؒར༻ऀ4000ສҎ্ͷࣾձΠϯϑϥ ڵຯ͕͋ΔͷΛϑΥϩʔͰ͖Δ τϐοΫͰݕࡧͰ͖Δ 2 ใൃ৴ ίϛϡχ έʔγϣϯ
ใऩू ՋͭͿ͠ ଉൈ͖
ՋͭͿ͠ʹԿ͕༗ޮ͔ ՋͭͿ͠ΛతʹTwitterΛ͏ͱ͖ɺϢʔβʮͳΓ͍ͨ ؾʹͳΔ͜ͱʯΛٻΊ͍ͯΔ 3 Ϣʔβ Կָ͔͍͠ ͜ͱͳ͍͔ͳ Կ͔໘ന͍ ͜ͱͳ͍͔ ͳ
ָ͍͠ؾʹͳΓ͍ͨ ໘ന͍ؾ࣋ͪʹͳΓ͍ͨ Ϣʔβ͕ر͢Δҹ͕ಘΒΕΔπΠʔτΛಘΒΕΔ͜ͱ͕Ͱ͖Ε Ϣʔβͷຬ͕ߴ͘ͳΔͱظͰ͖Δ
త ଉൈ͖ͷࡍʹʮϢʔβ͕ͳΓ͍ͨؾ࣋ͪʯʹͳΔπΠʔτΛ ఏڙ 4 πΠʔτ ҹ πΠʔτͷҹͷਪఆ͕ඞཁ ϑΟϧλ πΠʔτ πΠʔτ
πΠʔτ πΠʔτͷϑΟϧλϦϯά͕ඞཁ Ϣʔβ
ΩʔϫʔυͰҹΛݕࡧ͢Δͷ ͍͠ ྫ͑ʮস͑Δʯͱ͍͏ΩʔϫʔυͰݕࡧ ͯ͠ɺߘऀ͕ʮস͑Δʯͱײͨ͡ͷ ݕࡧͰ͖Δ͕ɺಡΈखʹͱͬͯͦͷπ Πʔτ͕স͑Δͷ͔Ͳ͏͔ͱผͷͰ ͋Δɻ 5 ʮস͑Δʯͷݕࡧ݁Ռ
Ξϓϩʔν 6 ຊจπΠʔτ ԠπΠʔτ ଞͷϢʔβͷԠΛར༻͢Δ͜ͱʹΑΓҹਪఆՄೳ
πΠʔτͷԠ 7 ϦϓϥΠ ϦπΠʔτ ԠπΠʔτͷछྨ Ҿ༻ϦπΠʔτ ϦπΠʔτޙͷπΠʔτ ରͱ͢ΔπΠʔτ͕໌֬Ͱ͋Γ ϢʔβͷԠ͕ඞͣهࡌ͞Ε͍ͯΔ
ؔ࿈ݚڀ ʮTwitterʹ͓͚ΔൃऀͷϦϓϥΠΛ༻͍ͨϢʔβײਪఆख ๏ʯ ງٶ͋Γ͞ɼࡔ ྒྷฏɼࠤ౻ ɼখࢁ ૱ɼ܀ݪ ਖ਼ਔɼপᖒ ৴ 201
2 - ϥϕϧΛ6ײʮڻ͖ʯɼʮ൵͠ΈʯͳͲʹਓखͰྨ͠ɼͦΕΛਖ਼ղσʔλ ͱ͍ͯ͠Δ - 2-gramͷtf-idfͰॏΈΛܭࢉ͠ɼSVMͰผ ʮϢʔβͷԠΛར༻ͨ͠ωλπΠʔτࣗಈྨख๏ʯ ྛాफҰɼڇೌ߶૱ɹ201 4 - ϢʔβͷతՁʹԠͨ͡πΠʔτͷΧςΰϦͷදྫͱͯ͠ʮωλπΠʔ τʯΛର - 2-gramͷग़ݱසΛ͠߹ΘͤͨͷΛಛྔͱ͠ɼSVMͰผ 8
9 ϑΟϧλ ҹ πΠʔτ πΠʔτ πΠʔτ Ϣʔβ πΠʔτ πΠʔτ πΠʔτ
Ϣʔβ͕ཉ͍͠ҹΛද͢Ϋϥελ Ԡʹجͮ ͍ͯΫϥε λϦϯά ɾ ɾ ɾ ͍͍Ͷͨ͠πΠʔτ Ϣʔβ͕ཉ͍͠ҹΛͲͷΑ͏ʹऔಘ͢Δ͔ ৽͍͠πΠʔτ
ʮ͍͍ͶʯπΠʔτΛ͏ཧ༝ • ΈͷπΠʔτΛʮ͍͍Ͷʯ͢Δ ͱɺޙͰݟฦͨ͠Γ͢Δ͜ͱ͕Ͱ͖ Δ →Ϣʔβͷڵຯɾؔ৺Λද͍ͯ͠Δ 10 ͍͍ͶҰཡ
ΫϥελϦϯάΛ͢Δཧ༝ ΧςΰϦΛܾΊͯ͠·͏ͱ… 11 ͓͠Ζ͍ܥ ༊͞ΕΔܥ ͓ͲΖ͖ܥ ڞײܥ ఏىܥ ਓʹΑͬͯڵຯͷภΓ͕͋Δ →
ʮ͍͍Ͷʯͨ͠πΠʔτΛ͏ ਓʹΑͬͯڵຯͷ߹͍͕ҧ͏ → ύϥϝʔλΛม͑Δ͜ͱʹΑͬͯม͑ΒΕΔ ΩϡϯΩϡϯܥ ΄ͷ΅ͷܥ ΄΄͑·͍͠ܥ ΫϥελϦϯάΛ͢Δͱ…
ϦϓϥΠͷऔಘ Twitter AP I ಛఆͷπΠʔτʹର͢ΔϦϓϥΠΛऔಘ ͢Δϝιου͕ఏڙ͞Εͯͳ͍ • toԋࢉࢠͰಛఆͷϢʔβʹൃ৴͞ΕͨπΠʔ τΛݕࡧ͠ɺtweet ID͕Ұக͢ΔͷΛݕࡧ
• ҰճʹݕࡧͰऔಘͰ͖Δ͕݅࠷େ200݅ఔ ͷͨΊɺରͱͳΔπΠʔτ͕ൃ৴͞Ε ͨ࣌·Ͱ܁Γฦ͠ݕࡧΛߦ͏ 12
Ԡ͔Βͷಛྔநग़ ܗଶૉʹղ͠ɺͦͷܗ༰ࢺͷग़ݱසΛಛྔͱ͢Δ 13 ඒ͍͠ɹͰ͢ ͏Θɹ͋͋͋ɹݬ తɹͰ͢ ͍͍ɹͰ͢ɹͶ͐ɹ ݟΔɹ͚ͩɹͳΒɹ͜ Μͳ ֳۜɹͷɹํzɹ͕ɹ
͍͍ɹͰ͢ ܗଶૉղੳ ຊจπΠʔτ t ԠπΠʔτ rdt ܗ༰ࢺ ඒ͍͠ ͍͍ ͍͍ πΠʔτ πΠʔτ πΠʔτ ଞͷπΠʔτʹରͯ͠ಉ༷ tf-idfͷจॻߦྻΛ࡞ tf-idf
ʮ͍͍ͶʯπΠʔτͷΫϥελϦϯά ಛతͳԠ(ҹ)Λ࣋ͭදతͳπΠʔτΛ औΔͨΊʹɺDBSCANͰΫϥελϦϯάΛߦ ͏ ಛྔ:จॻಉ࢜ͷϢʔΫϦουڑ 14 DBSCA N • ܘεʹɺMinPtsݸҎ্ͷΦ
ϒδΣΫτΛؚΉΦϒδΣΫτ xͷू߹ΛΫϥελͱ͢Δ • ϊΠζʹڧ͍ • kͷΛ͋Β͔͡ΊܾΊΔඞཁ ͕ͳ͍ MinPts = 5 x ε ΫϥελϦϯά݁Ռ ಛఆͷҹΛ࣋ͭΫϥελ ʓʓܥ ʓʓܥ
ػցֶशʹΑΔϑΟϧλϦϯά 15 ֶशث ֶश ผ ະͷ πΠʔτ Ϋϥελ ̎ ෆਖ਼ղ
Ϋϥελ ̍ Ϋϥελ Ϧϯά݁Ռ ະͷπΠʔτ͕Ͳͷҹʹͯ·Δ͔Λผ ࠓճχϡʔϥϧωοτϫʔΫΛར༻ Ϋϥελʹྨ ϦϓϥΠҰఆҎ্Ͱ ֶशʹΘΕ͍ͯͳ͍πΠʔτ
తɹԠπΠʔτʹج͍ͮͯਖ਼͘͠ΫϥελϦϯάͰ͖Δ͔ ํ๏ɹςετσʔλʹରͯ͠ఏҊख๏ʹԊͬͯΫϥελϦϯάΛߦ͏ ࣮ݧ̍ ࣮ݧ • ςετσʔλ - ஶऀͷ͓ؾʹೖΓͨ͠தͷϦϓϥΠ͕10Ҏ্ͷπΠʔτ(117݅ ) -
Ԡ10~405݅ɹฏۉ65݅ • ධՁ - ஶऀ͕ࣗओ؍తʹஅ 16 తɹΫϥελϦϯάͰಘΒΕͨΧςΰϦʹਖ਼͘͠ϑΟϧλϦϯάͰ͖Δ͔ ํ๏ɹ࣮ݧ̍ͰಘΒΕͨ࠷ྑ͍ΫϥελΛར༻ͯ͠ɺςετσʔλΛྨ ࣮ݧ 2 • ςετσʔλ - πΠολʔʹߘ͞ΕͨϦϓϥΠ͕10݅Ҏ্ͷπΠʔτ(15݅ ) • ϑΟϧλϦϯάํ๏ - χϡʔϥϧωοτϫʔΫ • ධՁ - ஶऀ͕ࣗओ؍తʹஅ
ΫϥελϦϯάͷ݁Ռ Ϋϥελ͕8Ҏ্ͷ3ͭͷύϥϝʔλʹ͓͚Δద߹ͱྨޭ 17 MinPts MinPts 3 3 4 ε 1.6
1.7 1.8 8 10 8 0.73 0.6 0.66 0.34 0.51 0.66 ύϥϝ ʔλ Ϋϥελ ద߹ ྨޭ ద߹ͱྨޭ͕ߴ͍ύϥϝʔλ(MinPts=2, ε=4)Λ࣮ݧ̎ʹར༻
ΫϥελϦϯάͷ༰ 18 →ඒຯͦ͠͏ܥ →͔Θ͍͍ܥ Ϋϥελ2 Ϋϥελ3 ޭྫ MinPts=4, ε =1.8
Ϋϥελ ID 1 2 3 4 5 6 7 8 ղऍ ఏىܥ ඒຯ͠ ͦ͏ ܥ ͔Θ͍͍ܥ ײ୰ܥ ջ͔͠ ͍ܥ ఏىܥ ͓͠ Ζܥ ʁ ݸ 8 5 21 22 4 7 4 6 ਖ਼ղ 5 4 21 9 4 4 4 0 ԠπΠʔτ ԠπΠʔτ
ࣦഊྫ 19 Ϋϥελ1 Ϋϥελ6 →ͲͪΒఏىܥʁɹΫϥελͷҧ͍͕ෆ໌ྎ ԠπΠʔτɹා͍ ԠπΠʔτɹѱ͍ ΫϥελϦϯάͷ༰
తɹԠπΠʔτʹج͍ͮͯਖ਼͘͠ΫϥελϦϯάͰ͖Δ͔ ํ๏ɹςετσʔλʹରͯ͠ఏҊख๏ʹԊͬͯΫϥελϦϯάΛߦ͏ ࣮ݧ̍ ࣮ݧ • ςετσʔλ - ஶऀͷ͓ؾʹೖΓͨ͠தͷϦϓϥΠ͕10Ҏ্ͷπΠʔτ(117݅ ) -
Ԡ10~405݅ɹฏۉ65݅ • ධՁ - ஶऀ͕ࣗओ؍తʹஅ 20 తɹΫϥελϦϯάͰಘΒΕͨΧςΰϦʹਖ਼͘͠ϑΟϧλϦϯάͰ͖Δ͔ ํ๏ɹ࣮ݧ̍ͰಘΒΕͨ࠷ྑ͍ΫϥελΛར༻ͯ͠ɺςετσʔλΛྨ ࣮ݧ 2 • ςετσʔλ - πΠολʔʹߘ͞ΕͨϦϓϥΠ͕10݅Ҏ্ͷπΠʔτ(15݅ ) • ϑΟϧλϦϯάํ๏ - χϡʔϥϧωοτϫʔΫ • ධՁ - ஶऀ͕ࣗओ؍తʹஅ
ϑΟϧλϦϯάʹର͢ΔධՁ ϑΟϧλϦϯάํ๏ɿχϡʔϥϧωοτϫʔΫ • ֶशσʔλΛϑΟϧλϦϯάͨ݁͠Ռ - ਖ਼ղɹ116/117݅ = 0.9 9 •
࣮ݧ1ͷσʔλΛ༻͍ͨ߹ͷϑΟϧλϦϯά݁Ռ - ਖ਼ղɹ8/15݅ = 0.53 21 πΠʔτ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ਖ਼ղΫϥελ C3 C7 C7 C1 C7 C3 C4 C6 C3 0 C3 C1 0 C7 C3 NN݁Ռ C3 C4 C4 0 0 C3 C4 C6 C3 0 C3 C4 0 C4 0
ϑΟϧλϦϯάͷ༰ ਖ਼ղྫɹԠπΠʔτɹʮՄѪ͍ʯ 22 →͔Θ͍͍ܥͱఆ̋ →ײ୰ܥͱఆ × ɹఏىܥͱࢥΘΕΔ ෆਖ਼ղྫɹԠπΠʔτɹʙ͢Εʮ͍͍ʯ
ߟ • ಛྔ - N-gramdoc2vecͳͲಛྔ Λੜ͢Δଞͷख๏ɼ୯ޠ Ҏ֎ͷಛΛ༻͍ͯΈΔ - ҹͷಛԠπΠʔτͷ ܗ༰ࢺͷΈʹݱΕΔͷͰ
ͳ͘ɼྫ͑ֆจࣈإจ ࣈɼʮʂʯʮwʯͳͲͷه߸ʹ දݱ͞Ε͍ͯΔͱߟ͑ΒΕ Δ 23 إจࣈֆจࣈ͕ଟ͍Ԡͷྫ
ߟ • ಛྔ - ಉ͡ਓ͕ಉ͡Α͏ʹԠ͢ΔπΠʔτಉ͡Α͏ͳҹΛ࣋ͭπΠʔ τͩͱΈͳ͢ - ʮ୭ʯ͕Ԡ͔ͨ͠ɺԠͨ͠ʮਓʯΛݟΔ 24 πΠʔτ
πΠʔτ πΠʔτ Ԡ ϢʔβA Ԡ Ԡ ಉ͡Α͏ͳԠͰ͋Ε ಉ͡Α͏ͳҹΛ࣋ͭπΠʔτ
ߟ 2-gramʹΑΔྨࣅʢσϯυϩάϥϜʣ 25 ͋ΔϢʔβAͷԠ
՝ • ରπΠʔτ - Ԡ͕ͳ͍πΠʔτɼϢʔβͷ͓ؾʹೖΓͷྔ͕গͳ͍߹͑ͳ ͍ - ର݅૿͢ - Ϣʔβͷ͓ؾʹೖΓͰͳ͍ͷͱൺֱ
• ϑΟϧλϦϯάํ๏ - ػցֶशͷύϥϝʔλͳͲͷௐΛߦ͏ • ධՁ - ඃݧऀ࣮ݧͳͲ࣮ࢪ͠ɼΑΓ٬؍ੑͷ͋ΔධՁΛಘͯ༗ޮੑΛ͔֬ΊΔ 26
·ͱΊ ֓ཁ • Ϣʔβͷر͢ΔҹΛ࣋ͭπΠʔτΛఏڙ͢ΔͨΊɺπΠʔτͷ ҹਪఆΛ͢Δ͜ͱΛత • ʮ͍͍Ͷʯͨ͠πΠʔτͷԠπΠʔτΛऔಘ • ͦͷܗ༰ࢺͷtf-idfΛಛྔͱͨ͠ΫϥελϦϯά •
ͦͷ݁ՌΛਖ਼ղσʔλͱͯ͠ػցֶशͰϑΟϧλϦϯά • ࣮ݧͷਖ਼ޡʑఔ ࠓޙͷ՝ • ܗ༰ࢺҎ֎ͷಛΛ༻͍ͨΫϥελϦϯά • ਓʹΑΔԠͷҧ͍ΛͬͨΞϓϩʔν 27
28 ͝੩ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠