Upgrade to Pro — share decks privately, control downloads, hide ads and more …

読み手の印象推定に基づくツイートのフィルタリングに関する研究 / A Study on Filtering Tweet based on Impression Estimation of Reading

読み手の印象推定に基づくツイートのフィルタリングに関する研究 / A Study on Filtering Tweet based on Impression Estimation of Reading

読み手の印象推定に基づくツイートのフィルタリングに関する研究
DEIM Forum 2017 D5-1
http://db-event.jpn.org/deim2017/papers/126.pdf

mogumogu mogumi

March 07, 2017
Tweet

More Decks by mogumogu mogumi

Other Decks in Technology

Transcript

  1. ՋͭͿ͠ʹ͸Կ͕༗ޮ͔ ՋͭͿ͠Λ໨తʹTwitterΛ࢖͏ͱ͖ɺϢʔβ͸ʮͳΓ͍ͨ ؾ෼ʹͳΔ͜ͱʯΛٻΊ͍ͯΔ 3 Ϣʔβ Կָ͔͍͠
 ͜ͱͳ͍͔ͳ Կ͔໘ന͍
 ͜ͱͳ͍͔ ͳ

    ָ͍͠ؾ෼ʹͳΓ͍ͨ ໘ന͍ؾ࣋ͪʹͳΓ͍ͨ Ϣʔβ͕ر๬͢Δҹ৅͕ಘΒΕΔπΠʔτΛಘΒΕΔ͜ͱ͕Ͱ͖Ε͹ Ϣʔβͷຬ଍౓͕ߴ͘ͳΔͱظ଴Ͱ͖Δ
  2. ؔ࿈ݚڀ ʮTwitterʹ͓͚Δൃ࿩ऀ΁ͷϦϓϥΠΛ༻͍ͨϢʔβײ৘ਪఆख ๏ʯ ງٶ͋Γ͞ɼࡔ໺ ྒྷฏɼࠤ౻ ੖඙ɼখࢁ ૱ɼ܀ݪ ਖ਼ਔɼপᖒ ੓৴ 201

    2 - ϥϕϧΛ6ײ৘ʮڻ͖ʯɼʮ൵͠ΈʯͳͲʹਓखͰ෼ྨ͠ɼͦΕΛਖ਼ղσʔλ ͱ͍ͯ͠Δ - 2-gramͷtf-idfͰॏΈΛܭࢉ͠ɼSVMͰ൑ผ ʮϢʔβͷ൓ԠΛར༻ͨ͠ωλπΠʔτࣗಈ෼ྨख๏ʯ ྛాफҰ࿠ɼڇೌ߶૱ɹ201 4 - Ϣʔβͷ໨త΍Ձ஋ʹԠͨ͡πΠʔτͷΧςΰϦͷ୅දྫͱͯ͠ʮωλπΠʔ τʯΛର৅ - 2-gramͷग़ݱස౓Λ଍͠߹Θͤͨ΋ͷΛಛ௃ྔͱ͠ɼSVMͰ൑ผ 8
  3. 9 ϑΟϧλ ҹ৅ πΠʔτ πΠʔτ πΠʔτ Ϣʔβ πΠʔτ πΠʔτ πΠʔτ

    Ϣʔβ͕ཉ͍͠ҹ৅Λද͢Ϋϥελ ൓Ԡʹجͮ ͍ͯΫϥε λϦϯά ɾ ɾ ɾ ͍͍Ͷͨ͠πΠʔτ Ϣʔβ͕ཉ͍͠ҹ৅ΛͲͷΑ͏ʹऔಘ͢Δ͔ ৽͍͠πΠʔτ
  4. ΫϥελϦϯάΛ͢Δཧ༝ ΧςΰϦΛܾΊͯ͠·͏ͱ… 11 ͓΋͠Ζ͍ܥ ༊͞ΕΔܥ ͓ͲΖ͖ܥ ڞײܥ ໰୊ఏىܥ ਓʹΑͬͯڵຯͷภΓ͕͋Δ →

    ʮ͍͍Ͷʯͨ͠πΠʔτΛ࢖͏ ਓʹΑͬͯڵຯͷ౓߹͍͕ҧ͏ → ύϥϝʔλΛม͑Δ͜ͱʹΑͬͯม͑ΒΕΔ ΩϡϯΩϡϯܥ ΄ͷ΅ͷܥ ΄΄͑·͍͠ܥ ΫϥελϦϯάΛ͢Δͱ…
  5. ൓Ԡ͔Βͷಛ௃ྔநग़ ܗଶૉʹ෼ղ͠ɺͦͷܗ༰ࢺͷग़ݱස౓Λಛ௃ྔͱ͢Δ 13 ඒ͍͠ɹͰ͢ ͏Θɹ͋͋͋ɹݬ૝ తɹͰ͢ ͍͍ɹͰ͢ɹͶ͐ɹ ݟΔɹ͚ͩɹͳΒɹ͜ Μͳ ֳۜɹͷɹํzɹ͕ɹ

    ͍͍ɹͰ͢ ܗଶૉղੳ ຊจπΠʔτ t ൓ԠπΠʔτ rdt ܗ༰ࢺ ඒ͍͠ ͍͍ ͍͍ πΠʔτ πΠʔτ πΠʔτ ଞͷπΠʔτʹରͯ͠΋ಉ༷ tf-idfͷจॻߦྻΛ࡞੒ tf-idf
  6. ʮ͍͍ͶʯπΠʔτͷΫϥελϦϯά ಛ௃తͳ൓Ԡ(ҹ৅)Λ࣋ͭ୅දతͳπΠʔτΛ औΔͨΊʹɺDBSCANͰΫϥελϦϯάΛߦ ͏ ಛ௃ྔ:จॻಉ࢜ͷϢʔΫϦουڑ཭ 14 DBSCA N • ൒ܘε಺ʹɺMinPtsݸҎ্ͷΦ

    ϒδΣΫτΛؚΉΦϒδΣΫτ xͷू߹ΛΫϥελͱ͢Δ • ϊΠζʹڧ͍ • kͷ਺Λ͋Β͔͡ΊܾΊΔඞཁ ͕ͳ͍ MinPts = 5 x ε ΫϥελϦϯά݁Ռ ಛఆͷҹ৅Λ࣋ͭΫϥελ ʓʓܥ ʓʓܥ
  7. ػցֶशʹΑΔϑΟϧλϦϯά 15 ֶशث ֶश ൑ผ ະ஌ͷ πΠʔτ Ϋϥελ ̎ ෆਖ਼ղ

    Ϋϥελ ̍ Ϋϥελ Ϧϯά݁Ռ ະ஌ͷπΠʔτ͕Ͳͷҹ৅ʹ౰ͯ͸·Δ͔Λ൑ผ ࠓճ͸χϡʔϥϧωοτϫʔΫΛར༻ Ϋϥελʹ෼ྨ ϦϓϥΠҰఆ਺Ҏ্Ͱ ֶशʹ࢖ΘΕ͍ͯͳ͍πΠʔτ
  8. ໨తɹ൓ԠπΠʔτʹج͍ͮͯਖ਼͘͠ΫϥελϦϯάͰ͖Δ͔ ํ๏ɹςετσʔλʹରͯ͠ఏҊख๏ʹԊͬͯΫϥελϦϯάΛߦ͏ ࣮ݧ̍ ࣮ݧ • ςετσʔλ - ஶऀͷ͓ؾʹೖΓͨ͠தͷϦϓϥΠ਺͕10Ҏ্ͷπΠʔτ(117݅ ) -

    ൓Ԡ਺10~405݅ɹฏۉ໿65݅ • ධՁ - ஶऀࣗ਎͕ओ؍తʹ൑அ 16 ໨తɹΫϥελϦϯάͰಘΒΕͨΧςΰϦʹਖ਼͘͠ϑΟϧλϦϯάͰ͖Δ͔ ํ๏ɹ࣮ݧ̍ͰಘΒΕͨ࠷΋ྑ͍ΫϥελΛར༻ͯ͠ɺςετσʔλΛ෼ྨ ࣮ݧ 2 • ςετσʔλ - πΠολʔʹ౤ߘ͞ΕͨϦϓϥΠ਺͕10݅Ҏ্ͷπΠʔτ(15݅ ) • ϑΟϧλϦϯάํ๏ - χϡʔϥϧωοτϫʔΫ • ධՁ - ஶऀࣗ਎͕ओ؍తʹ൑அ
  9. ΫϥελϦϯάͷ݁Ռ Ϋϥελ਺͕8Ҏ্ͷ3ͭͷύϥϝʔλʹ͓͚Δద߹཰ͱ෼ྨ੒ޭ཰ 17 MinPts MinPts 3 3 4 ε 1.6

    1.7 1.8 8 10 8 0.73 0.6 0.66 0.34 0.51 0.66 ύϥϝ ʔλ Ϋϥελ ਺ ద߹ ཰ ෼ྨ੒ޭ ཰ ద߹཰ͱ෼ྨ੒ޭ཰͕ߴ͍ύϥϝʔλ(MinPts=2, ε=4)Λ࣮ݧ̎ʹར༻
  10. ΫϥελϦϯάͷ಺༰ 18 →ඒຯͦ͠͏ܥ →͔Θ͍͍ܥ Ϋϥελ2 Ϋϥελ3 ੒ޭྫ MinPts=4, ε =1.8

    Ϋϥελ ID 1 2 3 4 5 6 7 8 ղऍ ໰୊ఏىܥ ඒຯ͠ ͦ͏ ܥ ͔Θ͍͍ܥ ײ୰ܥ ջ͔͠ ͍ܥ ໰୊ఏىܥ ͓΋͠ Ζܥ ʁ ݸ਺ 8 5 21 22 4 7 4 6 ਖ਼ղ਺ 5 4 21 9 4 4 4 0 ൓ԠπΠʔτ ൓ԠπΠʔτ
  11. ໨తɹ൓ԠπΠʔτʹج͍ͮͯਖ਼͘͠ΫϥελϦϯάͰ͖Δ͔ ํ๏ɹςετσʔλʹରͯ͠ఏҊख๏ʹԊͬͯΫϥελϦϯάΛߦ͏ ࣮ݧ̍ ࣮ݧ • ςετσʔλ - ஶऀͷ͓ؾʹೖΓͨ͠தͷϦϓϥΠ਺͕10Ҏ্ͷπΠʔτ(117݅ ) -

    ൓Ԡ਺10~405݅ɹฏۉ໿65݅ • ධՁ - ஶऀࣗ਎͕ओ؍తʹ൑அ 20 ໨తɹΫϥελϦϯάͰಘΒΕͨΧςΰϦʹਖ਼͘͠ϑΟϧλϦϯάͰ͖Δ͔ ํ๏ɹ࣮ݧ̍ͰಘΒΕͨ࠷΋ྑ͍ΫϥελΛར༻ͯ͠ɺςετσʔλΛ෼ྨ ࣮ݧ 2 • ςετσʔλ - πΠολʔʹ౤ߘ͞ΕͨϦϓϥΠ਺͕10݅Ҏ্ͷπΠʔτ(15݅ ) • ϑΟϧλϦϯάํ๏ - χϡʔϥϧωοτϫʔΫ • ධՁ - ஶऀࣗ਎͕ओ؍తʹ൑அ
  12. ϑΟϧλϦϯάʹର͢ΔධՁ ϑΟϧλϦϯάํ๏ɿχϡʔϥϧωοτϫʔΫ • ֶशσʔλΛϑΟϧλϦϯάͨ݁͠Ռ - ਖ਼ղ཰ɹ116/117݅ = 0.9 9 •

    ࣮ݧ1ͷσʔλΛ༻͍ͨ৔߹ͷϑΟϧλϦϯά݁Ռ - ਖ਼ղ཰ɹ8/15݅ = 0.53 21 πΠʔτ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ਖ਼ղΫϥελ C3 C7 C7 C1 C7 C3 C4 C6 C3 0 C3 C1 0 C7 C3 NN݁Ռ C3 C4 C4 0 0 C3 C4 C6 C3 0 C3 C4 0 C4 0
  13. ߟ࡯ • ಛ௃ྔ - N-gram΍doc2vecͳͲಛ௃ྔ Λੜ੒͢Δଞͷख๏΍ɼ୯ޠ Ҏ֎ͷಛ௃Λ༻͍ͯΈΔ - ҹ৅ͷಛ௃͸൓ԠπΠʔτͷ ܗ༰ࢺͷΈʹݱΕΔ΋ͷͰ͸

    ͳ͘ɼྫ͑͹ֆจࣈ΍إจ ࣈɼʮʂʯʮwʯͳͲͷه߸ʹ ΋දݱ͞Ε͍ͯΔͱߟ͑ΒΕ Δ 23 إจࣈ΍ֆจࣈ͕ଟ͍൓Ԡͷྫ
  14. ՝୊ • ର৅πΠʔτ - ൓Ԡ͕ͳ͍πΠʔτ΍ɼϢʔβͷ͓ؾʹೖΓͷྔ͕গͳ͍৔߹͸࢖͑ͳ ͍ - ର৅݅਺૿΍͢ - Ϣʔβͷ͓ؾʹೖΓͰͳ͍΋ͷͱ΋ൺֱ

    • ϑΟϧλϦϯάํ๏ - ػցֶशͷύϥϝʔλͳͲͷௐ੔Λߦ͏ • ධՁ - ඃݧऀ࣮ݧͳͲ࣮ࢪ͠ɼΑΓ٬؍ੑͷ͋ΔධՁΛಘͯ༗ޮੑΛ͔֬ΊΔ 26
  15. ·ͱΊ ֓ཁ • Ϣʔβͷر๬͢Δҹ৅Λ࣋ͭπΠʔτΛఏڙ͢ΔͨΊɺπΠʔτͷ ҹ৅ਪఆΛ͢Δ͜ͱΛ໨త • ʮ͍͍Ͷʯͨ͠πΠʔτͷ൓ԠπΠʔτΛऔಘ • ͦͷܗ༰ࢺͷtf-idf஋Λಛ௃ྔͱͨ͠ΫϥελϦϯά •

    ͦͷ݁ՌΛਖ਼ղσʔλͱͯ͠ػցֶशͰϑΟϧλϦϯά • ࣮ݧͷਖ਼ޡ͸൒ʑఔ౓ ࠓޙͷ՝୊ • ܗ༰ࢺҎ֎ͷಛ௃Λ༻͍ͨΫϥελϦϯά • ਓʹΑΔ൓Ԡͷҧ͍Λ࢖ͬͨΞϓϩʔν 27