Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点- / ...

テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点- / How to make use of the knowledge of text analytics to society?

情報処理学会 第129回 情報基礎とアクセス技術研究会(IFAT)
(第12回 テキストアナリティクス・シンポジウム)
http://ipsj-ifat.org/index.php?id=165
http://www.ieice.org/~nlc/tm12p.html

Kiyota Yoji, Ph.D.

February 16, 2018
Tweet

More Decks by Kiyota Yoji, Ph.D.

Other Decks in Technology

Transcript

  1. ςΩετΞφϦςΟΫεͷ஌ݟΛ ࣾձʹ׆͔͢ʹ͸ʁ -γʔζࢦ޲ͷࢹ఺ͱχʔζࢦ޲ͷࢹ఺- L I F UL L L a

    bɹओ੮ݚڀһ ਗ਼ాɹཅ࢘ 2018.02.16 ୈ129ճ ৘ใॲཧֶձ ৘ใجૅͱΞΫηεٕज़ݚڀൃදձ ʢୈ12ճςΩετΞφϦςΟΫεɾγϯϙδ΢ϜʣˏςΟʔΦʔδʔձٞࣨ େࡕӺલୈ3Ϗϧ Copyright© LIFULL All Rights Reserved.
  2. ਗ਼ా ཅ࢘ LIFULL Lab ओ੮ݚڀһ ෱Ԭݝੜ·Ε→େֶ(Ӄ)ˏژ౎→౦ژ ؔ৺෼໺: ࣗવݴޠॲཧԠ༻ → ݕࡧɾਪન

    → ৘ใϦςϥγʔ (ਤॻؗ) → ੜ׆ྖҬ (ෆಈ࢈ɺհޢ etc.) ͰͷϝσΟΞٕज़׆༻ (ը૾ղੳؚΉ) ܦྺ: େֶڭһ → ݉ۀͰىۀ → ͦͪΒ͕ຊۀʹ → ങऩ ର֎త׆ಈ •  ৘ใॲཧֶձσʔλϕʔεγεςϜݚڀձ װࣄʢ࢈ֶ࿈ܞɾࣾձ࿈ ܞʣ •  WebDB Forum ࢈ֶ࿈ܞ୲౰װࣄ •  ਓ޻஌ೳֶձ ฤूҕһ •  JSTʮ৘ใ؅ཧʯࢽ ֎෦ฤूҕһ •  Code4Lib JAPANڞಉ୅ද etc. 2
  3. LIFULLάϧʔϓʹ͍ͭͯ Ԋֵ •  1997೥ גࣜձࣾωΫετઃཱ •  2006೥ ౦ূϚβʔζ্৔ •  2010೥

    ౦ূୈҰ෦ʹࢢ৔มߋ •  2017೥ גࣜձࣾLIFULLʹ໊ࣾมߋ ֓ཁ •  ࿈݁ച্ߴɹ299ԯԁʢ2017೥3݄ظʣ •  ओྗࣄۀ •  ૯ܝࡌ෺݅਺No.1ͷෆಈ࢈ɾॅ୐৘ใαΠτ ʮLIFULL HOME’SʯͷӡӦ •  ͦͷଞࣄۀ •  LIFULLϒϥϯυʹΑΔੜ׆ີணܕ৘ใαʔϏ εͷఏڙ •  Trovit: ੈք50ϲࠃ޲͚ʹల։͢Δෆಈ࢈ɾத ݹंɾٻ৬৘ใͷΞάϦήʔγϣϯαʔϏε ɹʢຊࣾ: εϖΠϯɾόϧηϩφʣ 3
  4. LIFULL Lab (ϦοςϧϥϘϥτϦʔ) •  ϧʔπ͸2007೥ઃཱͷ ౦ژେֶൃελʔτ Ξοϓ (ג)Ϧοςϧ •  ෆಈ࢈ςοΫͳͲʹؔ

    ΘΔ࠷ઌ୺ٕज़ͷR&D •  Ϩίϝϯσʔγϣϯ •  AIؔ࿈ٕज़ʢσΟʔ ϓϥʔχϯάͳͲʣ •  ϢʔβʔΠϯλ ϑΣʔε (UX) •  VR / AR / MR গਓ਺ʢ2017೥10݄ݱ ࡏ 6໊ʣͰଟذʹΘͨ Δ෼໺ΛΧόʔ ৽ײ͓֮෦԰୳͠ΞϓϦ )0.&`4ϔϠαΫʂ ෦԰࡞ΓγϛϡϨʔγϣϯ (3*%73*$, 5
  5. ࠃ಺ͷ௞ିෆಈ࢈෺݅σʔλ ໿530ສ݅ •  ॴࡏ஍ (༣ศ൪߸ɺ࠷دΓӺͳͲ) •  ௞ྉɺ໘ੵɺங೥਺ɺ෦԰λΠϓ etc. •  ݐ෺ߏ଄

    (໦଄ɺమࠎɺమےίϯΫϦʔτ etc.) •  ֤छͩ͜ΘΓ৚݅ (ϖοτՄɺָثɺΧ΢ ϯλʔΩονϯɺόεɾτΠϨผ etc.) 物件画像 約8300万点 間取り図 約510万点 重厚な感じの エントランス 日当たりの 良いリビング •  国立情報学研究所(NII) の協力を得て2015年11 月より提供開始 •  学術機関の研究者であ れば無料で利用可能 LIFULL HOME’Sσʔληοτ 8
  6. Agenda •  γʔζͱχʔζͷΪϟοϓ͔Βੜ·ΕΔݚڀ՝୊ •  ςΩετΞφϦςΟΫεͷࢹ఺Λ׆͔ͨ͠ࣄྫ 1.  Webϩάσʔλ͔ΒͷϢʔβཁٻมભͷՄࢹԽ 2.  SNSͱΫϥ΢υιʔγϯάΛ׆༻ͨ͠ॅ·͍୳͠Ϣʔ βʔཧղͷࢼΈ

    3.  SNSͱΫϥ΢υιʔγϯάʹΑͬͯ֗બͼͷ৽ͨͳࢦ ඪΛ૑ΔࢼΈ 4.  հޢࢪઃ୳͠αʔϏείʔϧηϯλʔͷςΩετ෼ ੳ •  ςΩετΞφϦςΟΫεͷ஌ݟ͕ࣾձʹ͓͍ͯΑ Γ׆༻͞ΕΔͨΊͷώϯτ 12
  7. 2011೥࣌఺Ͱͷݚڀ։ൃܭը ॅ·͍ ஍Ҭ άϧϝ ϑΝογϣϯ ϏϡʔςΟ Ξϛϡʔζ ϝϯτ ۚ༥ ҩྍ

    ڭҭ 分野別DB ユー ザー 検索 最適な情報 レコメンデーションΤϯδϯ Ϣʔβʔ̙̗ʢ٬؍৘ใɺߦಈཤྺɺᅂ޷ੑʣɹɹ 14
  8. ॅ·͍୳͠ϓϩηεͷಛੑ Ϣʔβ͕ܾஅ·Ͱʹ௕͍࣌ؒɺଟ͘ͷखؒΛ͔͚Δ •  ಈػ͚ͮ → ৘ใऩू → ൺֱݕ౼ → ܾஅ

    Ϣʔβཁٻ͕࣌ؒͷܦաͱͱ΋ʹมԽ͢Δ •  τϨʔυΦϑʢՁ֨ vs ◦◦ʣ •  ஍ҬɾӺɾ࿏ઢ •  ങ͏ – आΓΔ •  Ϛϯγϣϯ – Ұށݐͯ •  ֤छͩ͜ΘΓ৚݅ʢϖοτɺόετΠϨผɺ…ʣ → Ϣʔβͷཧղ͕ஶ͘͠ࠔ೉ 16
  9. ϥΠϑΠϕϯτཧղ΁ͷ χʔζͱݚڀ՝୊ ͩΕʹͱͬͯ΋ܾஅ͕ٻΊΒΕΔϥΠϑΠϕϯτ •  ॅ·͍୳͠ɺਐ࿏બ୒ɺब৬ɺ݁ࠗɺग़࢈ɺ࣏ྍɺ հޢɺ૴ّ... ʹ ڊେͳϚʔέοτ͕ଘࡏ ৽ͨͳݚڀ՝୊ • 

    ௿ස౓ͷϥΠϑΠϕϯτʹ͓͍ͯద੾ͳ৘ใਪન Λ͢Δʹ͸Ͳ͏ͨ͠Β͍͍͔ʁ •  ઍࠩສผʹΈ͑Δʮਓੜͷܾஅʯͷશମ૾ΛͲ͏ ͨ͠ΒཧղͰ͖Δ͔ʁ 17
  10. ςΩετΞφϦςΟΫεͷ ஌ݟ͕ੜ͔ͤͳ͍͔ʁ τϐοΫϞσϧʢLDAʣʹιϑτΫϥελϦϯάΛ ར༻͢Ε͹ɺӅΕͨϢʔβཁٻΛු͔ͼ্͕ΒͤΔ ͜ͱ͕Ͱ͖ͳ͍͔ʁ •  จॻ ⇒ Ϣʔβͷݕࡧηογϣϯ • 

    ଟ͘ͷϢʔβ͸Կ೔͔ؒ୳͚ͭͮ͠Δ •  ୳͚ͭͮ͠ΔதͰͲͷΑ͏ʹߦಈɾཁٻ͕มΘΔʁ •  Ωʔϫʔυ ⇒ Ϣʔβͷݕࡧߦಈ •  ϢʔβͷӅΕͨݕࡧཁٻ͕ɺ໨ʹݟ͑Δݕࡧߦಈͱ ͳͬͯ؍ଌͰ͖Δʢ͸ͣʣ 20
  11. LIFULL HOME’SͷϢʔβߦಈՄࢹԽ ブ ラ ウ ジ ン グ ---- 具

    体 的 な 検 索 行 動 典型的な物件探しの行動 (路線・駅選択 or 地域選択⇒リスト表示⇒物件閲覧) 非典型的な 物件探しの行動 (地図検索など) 物件見学後に サーチエンジン 経由で再訪 21
  12. ॅ·͍୳͠ʹؔ࿈ͦ͠͏ͳ TwitterΞΧ΢ϯτͷநग़ •  アカウントの選択 –  今回は @homes_kun のフォロワー(約40,000アカウント)を対象とした •  タイムラインに以下のキーワードを含むアカウントを抽出

    –  礼⾦、内⾒、家賃 •  不動産会社のアカウントを除外 –  リンクを含むツイートの割合(25%以上)で判断 → 86アカウントを抽出 25
  13. Ϋϥ΢υιʔγϯάͷ λεΫϑϩʔ Twitterデータの 抽出 σʔλͷ൑ผ Ϋϥ΢υιʔγϯά ×1 住宅物件探索に関するデータ 住宅物件探索フェーズの推定 ϑΣʔζͷਪఆ

    Ϋϥ΢υιʔγϯά ×6 ⾃動分類器の作成 ෼ྨثͷධՁ Ϋϥ΢υιʔγϯά×1 潜在 ニー ズ 情報 収集 物件 ⾒学 契 約・ 引越 28
  14. αϯϓϧ1 •  うーむ。引っ越したばかりだけど、何か急激に住宅購⼊熱 が上がってきている。物件の内覧会に⾏ってさらに⾼める か •  現在、購⼊に向けた住居選びが佳境です。現在、マンショ ン優位。⼀⼾建て⾼いんだもの。でも、優柔なのでしばら く決めれないと思う • 

    @foo そうなんです。いまメゾネットなんですが、⾝重な 奥さんが階段をひぃひぃ⾔いながら登っているのを⾒る と….。「70歳超えたら無理」だと思いますねぇ。結局、 おっくうになって、ほとんど1階で過ごしてそう 29
  15. αϯϓϧ2 •  @bar 池袋駅から徒歩5 分くらいらしい? 私もやっと職場探 せるよー。早くしないと住むところ決められない?。 •  @bar そうなんだ(^^)部屋探すの楽しい?!今、都⽴にし

    ようか⺠間にするか悩んでてさぁ。困った(;´Д`A •  新潟在住ですよ?4 ⽉から都内に引っ越し予定であります ♪(´ε` ) •  Mさんには会えなかったけど、マンション決めて来たー!! 順調!ただ、職場がまだ決まってないw 30
  16. αϯϓϧ3 •  内⾒たのしー。いよいよ都⺠になるときがやってきた! •  電⾞使いづらくてもちょっとボロい下町臭い都内が好き。⾞通 勤できるし・・・と⾔っても混んでるだろうけど •  ちょっと内⾒⾏って来るわ •  ひとりでいいから今より節約できる所に越したいよね

    •  ドアtoドアで考えたらこの物件でも通勤時間変わらないな・・・ 内⾒と共益費詳細次第で確定しちゃおうかな・・・6階だから さすがに引越業者呼ぼうw •  鍵に悪戯されちゃったから怖くて̶んでこの距離だと同棲は ちょっとと⾔われたので23区内で調べている •  池袋の物件も内⾒したいなーー •  @baz 北本桶川蕨上尾あたりは⼤宮通勤者にとっては激安⼟地 だからねー(⊃?ω?⊂)いいなーああせめて住宅⼿当くらい出ない かなー 31
  17. ސ٬ཧղͷͨΊͷΞϓϩʔν •  ログデータの解析 –  PC、スマフォ以外のタッチポイントのデータ取得が困難 •  cf. アプリによる来店検知 •  アンケート

    –  ⾃⾝が⾔葉にできないニーズは拾えない •  ⾏動観察 –  数週間〜年単位にわたるプロセスを継続的に観察するのはコスト的に困難 Twitterデータは、上記のアプローチを補完しうる 住まい探し以外(保険、クルマ、職探し、etc)にも応⽤可能 34
  18. Ϋϥ΢υιʔγϯάͰਘͶͨ֗ͷง ғؾࢦඪ (ژ౎ࢢ಺36ΤϦΞ) 1.  ੩͔ͰΏͬͨΓͱ͠ ͨ஍Ҭ 2.  ౎ձతͰݱ୅తͳ஍ Ҭ 3. 

    ਌͠Έ΍ۙॴ͖ͮ͋ ͍ͷັྗ͕͋Δ஍Ҭ 4.  ࣏͕҆Α҆͘৺ͯ͠ ॅΊΔ஍Ҭ 5.  ֗ฒΈ΍෩ܠ͕ඒ͠ ͍஍Ҭ 6.  ॅΜͰΈ͍ͨ஍Ҭ 7.  ަ௨͕ศརͳ஍Ҭ 8.  ങ͍෺ʹศརͳ஍Ҭ 9.  ڭҭ؀ڥ͕੔͍ͬͯ Δ஍Ҭ 37
  19. ςΩετΞφϦςΟΫε෼໺ͷ ਓࡐͷڧΈ ίϯϐϡʔλՊֶͱਓจࣾձՊֶͷ૒ํʹਫ਼௨ͯ͠ ͍Δ͜ͱ •  ίϯϐϡʔλՊֶ •  ςΩετΞφϦςΟοΫεʹऔΓ૊Ήʹ͸ɺٕज़ͷຊ ࣭Λཧղ͍ͯ͠ͳ͚Ε͹ͳΒͳ͍ • 

    ը૾΍Ի੠ͳͲଞͷϝσΟΞٕज़ʹऔΓ૊Ή্Ͱ΋ͦ ͷ஌ݟ͸ڧྗͳ෢ثͱͳΔ •  ਓจࣾձՊֶ •  ղੳ݁ՌΛݱ࣮ͷ՝୊ղܾʹམͱ͠ࠐΉʹ͸ɺਓͷ৺ ཧ΍ࣾձͷࡏΓํ΁ͷਂ͍ཧղ͕ෆՄܽ 49
  20. ҏ౻و೭ઌੜˏ͓஡ͷਫঁࢠେ Visual Analyticsͱ͍͏ݚڀ෼໺ʹ͍ͭͯ ...Ұछͷχʔζࢦ޲Ͱੜ·Εֶͨज़ίϛϡχςΟͱ ͍͑Δɻͱ͜Ζ͕ஶऀͷܦݧͱͯ͠ɺ͜ͷֶज़෼໺ Λ೔ຊͰ঺հ͢Δͱ࿩͕טΈ߹Θͳ͍͜ͱ͕͋Δɻ ݚڀ෼໺શମͷϑϨʔϜϫʔΫ΍࣮༻ࣄྫʹؔ৺Λ ࣋ͨͣɺػցֶश΍ΠϯλϥΫγϣϯͳͲͷ֤ཁૉ ٕज़ͷཧ࿦త৽نੑ͚ͩΛࣥ፠ʹ࣭໰ͯ͘͠Δਓ͕ গͳ͔Βͣݟड͚ΒΕΔͷͰ͋Δɻʢதུʣཧ࿦΍

    ج൫ٕज़ͷ৽نੑ͔Βग़ൃͨ͠ϘτϜΞοϓతͳ γʔζࢦ޲ʹͩ͜Θͬͨڱ͍ํ๏࿦͕ɺஶऀͷपғ ʹ͓͚Δ೔ຊͷֶज़քͰ͸ࠜڧ͗͢ΔͷͰ͸ɺͱ͍ ͏ײ૝Λ΋ͨ͟ΔΛಘͳ͍ɻ ҏ౻و೭. 2015. ΠϊϕʔγϣϯͷͨΊͷ࢈ֶ࿈ܞͱجૅڭҭʹؔ͢ΔҰߟ࡯. ಛूʮΠϊϕʔγϣϯͱAIݚڀʯ. ਓ޻஌ೳ, Vol. 30, No. 3, pp. 337-343. 52
  21. χʔζࢦ޲ݚڀͷ׆ੑԽʹ ޲͚ͯ •  ʮχʔζ΁ͷϑΥʔΧεͰ͔͠ൃݟ͞Εͳ͍ຊ࣭ తͳݚڀ՝୊΋ͨ͘͞Μ͋Δʯͱ͍͏ೝ͕ࣝί ϛϡχςΟશମͰڞ༗͞ΕΔ͜ͱ͕େ੾ •  େֶʹ͓͚Δجૅڭҭͷॏཁੑͷ࠶ೝࣝ •  ઢܗ୅਺ɺ౷ܭֶɺΞϧΰϦζϜɺਓจࣾձՊֶɺetc.

    ΁ͷਂ͍ཧղ͕ɺχʔζࢦ޲ݚڀͷԼࢧ͑ͱͳΔ •  ݚڀۀ੷ͱಉ༷ʹڭҭۀ੷΋ߴ͘ධՁ͞ΕΔʹ͸ʁ •  ࢈ֶ࿈ܞͷத਎ͷॆ࣮ •  ͱ͘ʹɺ࢈ֶͷ૬ޓཧղΛਐΊΔࢪࡦʢਓࡐަྲྀɾΠ ϯλʔϯγοϓͳͲʣ 53