motemote data science 1

σʔλͰʮϞςʯΛ hack ͤΑ ~өըσʔτฤ~ Tokyo.R #79 kur0cky

• ࠇ໦ ༟ୋ / Kuroki Yutaka • Twitterɿ@kur0cky_y • ࢓ࣄɿ͕͠ͳ͍େֶӃੜ
(M2) • ઐ໳ɿࣗ෼Ͱ΋෼͔ͬͯͳ͍ • झຯɿԻָɾөըɾҿ৯ɾσʔλ෼ੳɾkaggle (expert) • ئ๬ɿϞς͍ͨ ࣗݾ঺հ

࣭໰ ʮԿނσʔλαΠΤϯε͢Δͷ͔ʁʯ

σʔλαΠΤϯςΟετୡͷ੠ ͓ۚཉ͍͠ σʔλΛѪ͠σʔλʹѪ͞Ε͍ͨ ੈքΛཧղ͢Δۙಓ

ӕͰ͋Δ

৺ͷ੠ Ϟς͍ͨ— Ϟς͍ͨ— Ϟς͍ͨ—

• one-to-one ͳσʔτઓུ΁ͷظ଴ ‣ ৘ใ௨৴ ɾIoT ͷൃୡʹΑΓɺ1࣍σʔλΛೖख͢Δ͜ͱ͕༰қ • ࣗવʹධՁΛฉ͖ग़͢͜ͱ͸ࠔ೉ ‣
ʮ܅ͷ໊͸ɻ ͸1~5఺Ͱ͍͏ͱԿ఺ʁʯ ‣ ʮhoge ͱ foo ͩͬͨΒͲ͕ͬͪ໘ന͔ͬͨʁʯ • ධՁ͑͋͞Ε͹Ϩίϝϯυ͕Ͱ͖Δ ձ࿩͔Β༗༻ͳධՁΛநग़ → ྑ͍UX എܠɾ՝୊ Կճ΋΍ΔͱΩϞ͍

• ෼ੳର৅ͱͯ͠΋ඇৗʹັྗత ‣ ڞԋऀωοτϫʔΫ ɿωοτϫʔΫՊֶ ‣ ࢹௌཤྺ ɿϨίϝϯυ ‣ ϨϏϡʔ
ɿࣗવݴޠॲཧɾޱίϛޮՌ ‣ ڵߦऩೖ ɿϚʔέςΟϯάՊֶ ‣ өըؗͰͷ্ө ɿεέδϡʔϦϯά໰୊ ʮөըσʔλʯ өըσʔτɺͦΕ͸Ԧಓ

΍ͬͨ͜ͱ ͦ͏͍͑͹ɺʓʓͪΌΜөը͖͢ͳΜͩ  ͚ͬʁ ͏Μʂࡢ೔΋܅ͷ໊͸ɻݟͨʙʙ ਤ1: ͋Δ͋Δͳձ࿩ ͓ʂͲ͏ͩͬͨʁ Կճ΋Ϧϐ͢Δ༑ୡ͍͚ͨͲɺͦ͜· ͰͰ͸ͳ͔͔ͬͨͳ͊স Ͱ΋ө૾ͱ͔ΊͪΌ੾ͳͯ͘৺͕ચΘ
Εͨ  ٽ͔ͳ͔͚ͬͨͲসস

Εͨ  ٽ͔ͳ͔͚ͬͨͲসস ܅ͷ໊͸ɻ ɿ 3.6఺ ࣗવͳձ࿩͔Βਖ਼֬ͳධՁΛ஌Δ

Εͨ  ٽ͔ͳ͔͚ͬͨͲসস ܅ͷ໊͸ɻ ɿ 3.6఺ ʮٽ͘ʯʮා͍ʯͳͲ͸өըͰ͸ΠΠධՁ ↓ ઐ༻ͷۃੑࣙॻΛ࡞੒ͨ͠ ࣗવͳձ࿩͔Βਖ਼֬ͳධՁΛ஌Δ

• өը ɿ໿8ສຊ • ࢹௌऀ ɿ໿23ສਓ • ϨϏϡʔɿ໿835ສ݅ (kur0cky: 223݅)
• είΞ ɿ1 ~ 5఺ (0.1ࠁΈ) ϨϏϡʔͷΑ͏ͳ1࣍σʔλ͸  ۃੑࣙॻΛ࡞Δͷʹ࠷ద σʔλ֓ཁ ॱҐ λΠτϧ ϨϏϡʔ਺ ϥɾϥɾϥϯυ ϘϔϛΞϯɾϥϓισΟ άϨΠςετɾγϣʔϚϯ ܅ͷ໊͸ɻ ΧϝϥΛࢭΊΔͳʂ ηογϣϯ γϯɾΰδϥ ϑΝϯλεςΟοΫɾϏʔετ ͱຐ๏࢖͍ͷཱྀ Ξό΢τɾλΠϜ ΩϯάεϚϯ ද1ɿϨϏϡʔ਺ͷଟ͍өը

࡞ۀϑϩʔ ୯ޠͷߜΓࠐΈ ग़ݱ཰ͰߦྻԽ TQBSTF.BUSJY ϩδοτϦϯΫઢܗճؼ ܎਺Λۃੑ஋ͱͯ͠ར༻ ϨϏϡʔείΞσʔλ ϨϏϡʔͷܗଶૉղੳ 3.F$BCOFPMPHE είΞͷݸਓ͝ͱͷบΛमਖ਼ 
͹͔ͬΓɺͳͲ Matrix:::lm.ﬁt.sparse(), σʔλ͕Ͱ͔͗͢ΔͷͰ ಠཱੑͷݕఆͳͲ

• ׂͱ͸͖ͬΓͨ݁͠Ռͱͳͬͨ  (਺஋͸ׂѪ) • өըಛ༗ͷ΋ͷ͕ Positive ʹͳͬͨ ‣ ͔ͳ͍͠ ‣
ͤͭͳ͍ ‣ ͜Θ͍ ‣ ͘Δ͍͠ ‣ ͞ͼ͍͠ ݁Ռ (ܗ༰ࢺͷྫ) 1PTJUJWF /FHBUJWF ͢͹Β͍͠ ͭ·Βͳ͍ ͍ͱ͍͠ ͶΉ͍ ͔ͪΒͮΑ͍ ͏͍͢ ͨ·Βͳ͍ ͻͲ͍ ͔͍͋ͨͨ ΋ͷͨΓͳ͍ ͍͋ͭ ΍ͬ͢Ά͍ ͢͞·͍͡ ΋͍ͬͨͳ͍ ͖΋͍͍ͪ ͏͍ ͔ͳ͍͠ ͓͍͠ ͤͭͳ͍ ΘΔ͍ ද2ɿ֤ۃੑͷ্Ґ10ޠ

• Ϟς͔ͨͬͨ • one-to-one өըσʔτΛఏڙ͢ΔͨΊʹɺઐ༻ͷۃੑࣙॻΛ࡞ͬͨ • ݱ࣮ͰͷςετΛ࣮ࢪͰ͖ͳ͔ͬͨ (ਂࠁ) • ڧ͍Ϛγϯ͕ཉ͍͠,
(Ϗοάσʔλͷϊ΢ϋ΢͕଍Γͳ͍) • ݸਓతΦεεϝөը ‣ ΠΤεϚϯ, Πϯηϓγϣϯ, Πϯλʔεςϥʔ, ΨλΧ, τΡϧʔϚϯɾγϣʔ,   ϊοΩϯɾΦϯɾϔϒϯζυΞ ·ͱΊɾײ૝

ۃੑʹ·ͭΘΔ৭ʑͳ

Turney and Littman (2003) • good ΍ bad ͳͲɺۃੑͷط஌Ͱ͋Δ΋ͷΛϐοΫΞοϓ •
ର৅ͱ͢ΔޠͱۃੑޠΛΠϯλʔωοτͰಉ࣌ݕࡧ • ݕࡧΤϯδϯͷώοτ਺͔ΒϙδςΟϒ͞ɺωΨςΟϒ͞Λܭࢉ Kamps et al. (2004) • ྨٛޠϖΞΛ࿈݁͠ɺωοτϫʔΫΛ࡞੒ • good, bad͔Βͷ࠷୹ڑ཭ͷࠩΛۃੑͱͯ͠ఆٛ

• εϐϯϞσϧ (ΠδϯάϞσϧ) ʹΑΔۃੑநग़ ‣ ిࢠͷಈ͖ʹண૝ΛಘͨϞσϧɻిࢠ͸+1 ΋͘͠͸-1ͷ޲͖ʹಈ͘ ‣ ྡΓ߹͏ిࢠ͕ٯ޲͖ʹಈ͘ঢ়ଶ͸ΤωϧΪʔ͕ߴ͍ (௿͍ঢ়ଶ͕࣮ݱ͠΍͍͢)
‣ ֤୯ޠΛిࢠͱΈͳ͠ɺײ৘ۃੑΛಈ͘޲͖ͱղऍ͢Δ • खॱ 1.ޠऍจ΍γιʔϥεɺίʔύεΑΓɺؔ࿈ޠΛ࿈݁͢ΔωοτϫʔΫΛ࡞੒ 2.൱ఆޠͷޙ΍൓ٛޠϖΞ͸ෛͷॏΈ 3.ۃੑͷ෼͔͍ͬͯΔখن໛ͳ୯ޠू߹Λ༩͑Δ 4.εϐϯܥͷΤωϧΪʔؔ਺Λॻ͖׵͑ΔܗͰߋ৽Λߦ͍ɺऩଋͨ͠Βऴྃ  (શମͷΤωϧΪʔ͕খ͘͞ͳΔํ޲Ͱۃੑ͕ߋ৽͞Ε͍ͯ͘) ߴଜΒ (2006)

• ۚ༥ܥจॻͷωΨϙδ෼ੳ • ܎Γड͚ؔ܎Λߟྀ͢Δ͜ͱͰɺ൓సΛߟྀ͠ɺਫ਼౓ΛߴΊΔ ‣ ʮࣦۀ཰͕௿Լʯ —> ͦΕͧΕͷ୯ޠ͸ωΨ͕ͩɺϙδͱ൑அ͍ͨ͠ • खॱ
1.ܗଶૉղੳͰ໊ࢗɾܗ༰ࢺͷநग़ (ස౓͕աଟɾաখͳ΋ͷͷআڈ) 2.LDA ʹΑΔτϐοΫநग़ 3.܎Γड͚ղੳʹΑΓɺ (ۃੑ஋) * (ఔ౓܎਺) * (൓స܎਺) 4.֤ηϯςϯεͷτϐοΫผۃੑ஋ΛಘΔ ҏ౻Β (2017)

• Kamps, J., Marx, M., Mokken, R. J., & De
Rijke, M. (2004, May). Using WordNet to measure semantic orientations of adjectives. In LREC (Vol. 4, pp. 1115-1118). • Turney, P. D., & Littman, M. L. (2003). Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems (TOIS), 21(4), 315-346. • ߴଜେ໵, ס޹࢘, & Ԟଜֶ. (2006). εϐϯϞσϧʹΑΔ୯ޠͷײ৘ۃੑநग़. ৘ใॲཧֶձ ࿦จࢽ, 47(2), 627-637. • ҏ౻ྒ, ਢాਅଠ࿠, & ࿨ઘܿ. (2016).τϐοΫผۃੑ஋෇༩ ํ๏ʹΑΔ FOMC ٞࣄ࿥ͷධ Ձ. ୈ 17 ճਓ޻஌ೳֶձۚ༥৘ใֶݚڀձ, 31-38. จݙ

Enjoy —

motemote data science 1

motemote data science 1

kur0cky

More Decks by kur0cky

Featured

Transcript

σʔλͰʮϞςʯΛ hack ͤΑ ~өըσʔτฤ~ Tokyo.R #79 kur0cky

• ࠇ໦ ༟ୋ / Kuroki Yutaka • Twitterɿ@kur0cky_y • ࢓ࣄɿ͕͠ͳ͍େֶӃੜ

࣭໰ ʮԿނσʔλαΠΤϯε͢Δͷ͔ʁʯ

σʔλαΠΤϯςΟετୡͷ੠ ͓ۚཉ͍͠ σʔλΛѪ͠σʔλʹѪ͞Ε͍ͨ ੈքΛཧղ͢Δۙಓ

ӕͰ͋Δ

৺ͷ੠ Ϟς͍ͨ— Ϟς͍ͨ— Ϟς͍ͨ—

• one-to-one ͳσʔτઓུ΁ͷظ଴ ‣ ৘ใ௨৴ ɾIoT ͷൃୡʹΑΓɺ1࣍σʔλΛೖख͢Δ͜ͱ͕༰қ • ࣗવʹධՁΛฉ͖ग़͢͜ͱ͸ࠔ೉ ‣

• ෼ੳର৅ͱͯ͠΋ඇৗʹັྗత ‣ ڞԋऀωοτϫʔΫ ɿωοτϫʔΫՊֶ ‣ ࢹௌཤྺ ɿϨίϝϯυ ‣ ϨϏϡʔ

΍ͬͨ͜ͱ ͦ͏͍͑͹ɺʓʓͪΌΜөը͖͢ͳΜͩ  ͚ͬʁ ͏Μʂࡢ೔΋܅ͷ໊͸ɻݟͨʙʙ ਤ1: ͋Δ͋Δͳձ࿩ ͓ʂͲ͏ͩͬͨʁ Կճ΋Ϧϐ͢Δ༑ୡ͍͚ͨͲɺͦ͜· ͰͰ͸ͳ͔͔ͬͨͳ͊স Ͱ΋ө૾ͱ͔ΊͪΌ੾ͳͯ͘৺͕ચΘ

΍ͬͨ͜ͱ ͦ͏͍͑͹ɺʓʓͪΌΜөը͖͢ͳΜͩ  ͚ͬʁ ͏Μʂࡢ೔΋܅ͷ໊͸ɻݟͨʙʙ ਤ1: ͋Δ͋Δͳձ࿩ ͓ʂͲ͏ͩͬͨʁ Կճ΋Ϧϐ͢Δ༑ୡ͍͚ͨͲɺͦ͜· ͰͰ͸ͳ͔͔ͬͨͳ͊স Ͱ΋ө૾ͱ͔ΊͪΌ੾ͳͯ͘৺͕ચΘ

΍ͬͨ͜ͱ ͦ͏͍͑͹ɺʓʓͪΌΜөը͖͢ͳΜͩ  ͚ͬʁ ͏Μʂࡢ೔΋܅ͷ໊͸ɻݟͨʙʙ ਤ1: ͋Δ͋Δͳձ࿩ ͓ʂͲ͏ͩͬͨʁ Կճ΋Ϧϐ͢Δ༑ୡ͍͚ͨͲɺͦ͜· ͰͰ͸ͳ͔͔ͬͨͳ͊স Ͱ΋ө૾ͱ͔ΊͪΌ੾ͳͯ͘৺͕ચΘ

• өը ɿ໿8ສຊ • ࢹௌऀ ɿ໿23ສਓ • ϨϏϡʔɿ໿835ສ݅ (kur0cky: 223݅)

࡞ۀϑϩʔ ୯ޠͷߜΓࠐΈ ग़ݱ཰ͰߦྻԽ TQBSTF.BUSJY ϩδοτϦϯΫઢܗճؼ ܎਺Λۃੑ஋ͱͯ͠ར༻ ϨϏϡʔείΞσʔλ ϨϏϡʔͷܗଶૉղੳ 3.F$BCOFPMPHE είΞͷݸਓ͝ͱͷบΛमਖ਼

• ׂͱ͸͖ͬΓͨ݁͠Ռͱͳͬͨ  (਺஋͸ׂѪ) • өըಛ༗ͷ΋ͷ͕ Positive ʹͳͬͨ ‣ ͔ͳ͍͠ ‣

• Ϟς͔ͨͬͨ • one-to-one өըσʔτΛఏڙ͢ΔͨΊʹɺઐ༻ͷۃੑࣙॻΛ࡞ͬͨ • ݱ࣮ͰͷςετΛ࣮ࢪͰ͖ͳ͔ͬͨ (ਂࠁ) • ڧ͍Ϛγϯ͕ཉ͍͠,

ۃੑʹ·ͭΘΔ৭ʑͳ

Turney and Littman (2003) • good ΍ bad ͳͲɺۃੑͷط஌Ͱ͋Δ΋ͷΛϐοΫΞοϓ •

• εϐϯϞσϧ (ΠδϯάϞσϧ) ʹΑΔۃੑநग़ ‣ ిࢠͷಈ͖ʹண૝ΛಘͨϞσϧɻిࢠ͸+1 ΋͘͠͸-1ͷ޲͖ʹಈ͘ ‣ ྡΓ߹͏ిࢠ͕ٯ޲͖ʹಈ͘ঢ়ଶ͸ΤωϧΪʔ͕ߴ͍ (௿͍ঢ়ଶ͕࣮ݱ͠΍͍͢)

• ۚ༥ܥจॻͷωΨϙδ෼ੳ • ܎Γड͚ؔ܎Λߟྀ͢Δ͜ͱͰɺ൓సΛߟྀ͠ɺਫ਼౓ΛߴΊΔ ‣ ʮࣦۀ཰͕௿Լʯ —> ͦΕͧΕͷ୯ޠ͸ωΨ͕ͩɺϙδͱ൑அ͍ͨ͠ • खॱ

• Kamps, J., Marx, M., Mokken, R. J., & De

Enjoy —