Upgrade to Pro — share decks privately, control downloads, hide ads and more …

word2vecで女性向けQ&Aサイトを解析してみた

 word2vecで女性向けQ&Aサイトを解析してみた

2015/06/10
IVS CTO NightのLTで発表したプレゼン資料です。
word2vecにmamariQ内のテキストを使用してみました。

tatsushim

June 17, 2015
Tweet

More Decks by tatsushim

Other Decks in Research

Transcript

  1. Connehito Inc. ࣭໰΁ͷճ౴ ˋ௒ ճ౴͕ͭ͘·Ͱ ෼ҎԼ ΞϓϦͷ଺ࡏ࣌ؒ ෼Ҏ্ ѹ౗తͳαʔϏεͷ੒௕ 

        +VO +VM "VH 4FQ 0DU /PW %FD +BO 'FC લ݄ൺˋ੒௕ ྦྷܭ౤ߘ਺ ೛৷ɾग़࢈Ͱ೰Ήਓͷ ਓʹਓ͕݄̍ΞΫηε 5
  2. 15

  3. 19

  4. Connehito Inc. 46 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')

    vector(‘France') ͋Δ౎ࢢΛट౎ͱ͢Δࠃ } } ౦ژ +
  5. Connehito Inc. 47 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')

    vector(‘France') ͋Δ౎ࢢΛट౎ͱ͢Δࠃ } } ౦ژ + =
  6. Connehito Inc. 48 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')

    vector(‘France') ͋Δ౎ࢢΛट౎ͱ͢Δࠃ } } ౦ژ + = }
  7. Connehito Inc. 49 word2vecͷྫ - vector(‘Paris') + vector(‘Tokyo’) = vector('Japan')

    vector(‘France') ͋Δ౎ࢢΛट౎ͱ͢Δࠃ } } ౦ژ + = }౦ژΛट౎ͱ͢Δࠃ
  8. 50

  9. Connehito Inc. 54 ʮ଻ಈʯin mamariQ Word: ଻ಈ Word Cosine distance

    ------------------------------------------------------------------------ ೘ҙ 0.527825 ϙίϙί 0.516658 ҧ࿨ײ 0.432082 ಈ͖ 0.430563 ͠Όͬ͘Γ 0.406297 ͙͍ͬͨ͘͢ 0.386457 ಈ͍ 0.383030 ى෬ 0.381906 ϙίο 0.377959
  10. Connehito Inc. 55 ʮυΫϯυΫϯʯin mamariQ Word: υΫϯυΫϯ Word Cosine distance

    ------------------------------------------------------------------------ ຺ଧͭ 0.454460 ϙίο 0.425674 Ͳ͘Ͳ͘ 0.425287 ϐΫο 0.418931 ಥͬுΔ 0.417948 ϐΫϐΫ 0.415464 લଆ 0.413287 ͭͬͺΔ 0.412516
  11. Connehito Inc. 56 ʮ཭ೕ৯ʯin mamariQ Word: ཭ೕ৯ Word Cosine distance

    ------------------------------------------------------------------------ ख͔ͮΈ 0.472250 ͔ͭΈ 0.445568 ॏ౬ 0.432616 ͓͔Ώ 0.425068 τΠτϨ 0.415463 ͨΜͺ࣭͘ 0.412253 ϕϏʔμϊϯ 0.393488 λϯύΫ࣭ 0.392157 ৯ࡐ 0.390477
  12. 62

  13. 68

  14. Connehito Inc. 74 - vector(‘ଉࢠ') + vector(‘່’) = vector('ՄѪ͍') vector(‘ՄѪ͍')

    ୯ޠͷ໘ന͍ؔ܎ੑ in mamariQ ʊਓਓਓਓਓʊ ʼɹՄѪ͍ɹʻ ʉY^Y^Y^Y
  15. Connehito Inc. • ࣙॻʹmecab-ipadic-neologdΛ࢖͏
 - Web্ͷݴޠࢿݯ͔Βಘͨ৽ޠʹରԠ 81 ೔ຊޠʹword2vecదԠ͢ΔࡍͷTips • ύϥϝʔλௐ੔


    - Ex. αʔϏεʹ߹Θͤͨwindow sizeΛ • ۀքݻ༗ͷϫʔυ͸ͪΌΜͱొ࿥͢Δ
 - Ex. 24w3d = ೛৷͔Β24िͱ3೔໨
  16. 82

  17. Connehito Inc. • Ҏ্͕ɺword2vecΛ࢖ͬͯΈ͓ͨ࿩Ͱ͢ 89 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •

    ͜͏͍͏RˍDΛΈΜͳ͍ͭ΍ͬͯɺͲ͏ औΓೖΕͯΔͷ͔஌Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓࿩͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ
  18. Connehito Inc. • Ҏ্͕ɺword2vecΛ࢖ͬͯΈ͓ͨ࿩Ͱ͢ 90 • IVS CTO NightॳࢀՃͰϫΫϫΫͯ͠·͢ •

    ͜͏͍͏RˍDΛΈΜͳ͍ͭ΍ͬͯɺͲ͏ औΓೖΕͯΔͷ͔஌Γ͍ͨ • ͜ͷޙྑ͔ͬͨΒ͓࿩͍ͤͯͩ͘͞͞ վΊ͓ͯٓ͘͠ئ͍͠·͢ʂ ͝ਗ਼ௌ༗೉͏͍͟͝·ͨ͠ʂ