Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Exploratory: 「距離」とMDS(多次元尺度構成法)のアルゴリズムを使って類似性を可視化する

Exploratory: 「距離」とMDS(多次元尺度構成法)のアルゴリズムを使って類似性を可視化する

カスタマー、国、製品といった、興味のある対象間にある類似性を理解するための「距離」のアルゴリズムと、そういった関係性を直感的に理解するために可視化するための「多次元尺度構成法(Multi-Dimensional Scaling / MDS) 」というアルゴリズムの紹介と、それらのExploratoryでの使い方の話をします。

19fc8f6113c5c3d86e6176362ff29479?s=128

Kan Nishida
PRO

July 17, 2019
Tweet

Transcript

  1. 1 Exploratory ηϛφʔ ڑ཭ͷΞϧΰϦζϜΛ࢖ͬͯ ྨࣅੑΛཧղ͢Δ

  2. EXPLORATORY

  3. Vision ୭΋͕σʔλΛ࢖ͬͯΑΓΑ͍ ҙࢥܾఆ͕Ͱ͖ΔੈͷதʹͳΔ

  4. Mission σʔλαΠΤϯεͷຽओԽ

  5. 5 ୈ̏ͷ೾ σʔλαΠΤϯεɺAIɺػցֶश͸౷ܭֶऀɺ։ൃऀͷͨΊ͚ͩͷ΋ͷͰ͸͋Γ·ͤΜɻ σʔλʹڵຯͷ͋ΔਓͳΒ୭΋͕ੈքͰ࠷ઌ୺ͷΞϧΰϦζϜΛ࢖ͬͯ ϏδωεσʔλΛ؆୯ʹ෼ੳͰ͖Δ΂͖Ͱ͢ɻ Exploratory͕ͦ͏ͨ͠ੈքΛՄೳʹ͠·͢ɻ

  6. ୈ1ͷ೾ ୈ̎ͷ೾ ୈ̏ͷ೾ ϓϥΠϕʔτ(ߴ͍/ݹ͍) Φʔϓϯɾιʔε(ແྉ/࠷ઌ୺) UI & ϓϩάϥϛϯά ϓϩάϥϛϯά 2016

    2000 1976 ϚωλΠθʔγϣϯ ίϞσΟςΟԽ ຽओԽ ౷ܭֶऀ σʔλαΠΤϯςΟετ Exploratory ΞϧΰϦζϜ Ϣʔβʔɾ ମݧ πʔϧ Φʔϓϯɾιʔε(ແྉ/࠷ઌ୺) UI & ࣗಈԽ ϏδωεɾϢʔβʔ ςʔϚ σʔλαΠΤϯεͷຽओԽ
  7. 質問 ExploratoryͰ؆୯ʹͰ͖ΔλεΫ 伝える データアクセス データ ラングリング 可視化 アナリティクス 統計/機械学習 UI

  8. 8 Exploratory ηϛφʔ ڑ཭ͷΞϧΰϦζϜΛ࢖ͬͯ ྨࣅੑΛཧղ͢Δ

  9. Analytics Distance & MDS

  10. 10 Distanceʢڑ཭ʣ

  11. 11

  12. 12 ڑ཭ͷλΠϓ • ϢʔΫϦουڑ཭ • Ϛϯϋολϯڑ཭ • όΠφϦڑ཭

  13. 13 • ϢʔΫϦουڑ཭ • Ϛϯϋολϯڑ཭ • όΠφϦڑ཭ ڑ཭ͷλΠϓ

  14. 14 • ΤϧαϨϜ: ૯ձܾٞ ES-10/L.22 - ΞϝϦΧͷΤϧαϨϜ ʹؔ͢Δ੓ࡦ΁ͷඇ೉ (2017) •

    ΢ΫϥΠφ: ૯ձܾٞ 68/262 - ΢ΫϥΠφͷྖ౔อશ (2014) ྫ) 2ͭͷࠃ࿈ܾٞ
  15. 15 ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ No Yes ϩγΞ Yes No Χφμ

    غݖ Yes ֤ࠃͷ͜ΕΒͷܾٞ΁ͷ౤ථ݁Ռ
  16. 16 • Yes -> 1 • No -> -1 •

    غݖ -> 0 ౤ථΛ਺஋Խ͢Δ
  17. 17 ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ -1 1 ϩγΞ 1 -1 Χφμ

    0 1 ֤ࠃͷ͜ΕΒͷܾٞ΁ͷ౤ථ݁Ռ
  18. 18 ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ ( -1, 1 ) (

    1, -1 ) 1 (Yes) -1 (No) 0 -1 (No) 1 (Yes) ౤ථ݁ՌΛάϥϑ্ʹϓϩοτ Χφμ
  19. 19 ( -1, 1 ) ( 1, -1 ) 2.828

    1 (Yes) -1 (No) 0 -1 (No) 1 (Yes) ΞϝϦΧͱϩγΞͷؒͷϢʔΫϦουڑ཭ ௚ઢڑ཭ ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  20. 20 ( -1, 1 ) ( 1, -1 ) 1

    1 (Yes) 1 (Yes) -1 (No) 0 -1 (No) ( 0 , 1 ) ΞϝϦΧͱΧφμͷؒͷϢʔΫϦουڑ཭ ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  21. 21 ( -1, 1 ) ( 1, -1 ) 1

    1 (Yes) 1 (Yes) -1 (No) 0 -1 (No) ( 0 , 1 ) ϢʔΫϦουڑ཭ 2.828 ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  22. 22 • ϢʔΫϦουڑ཭ • Ϛϯϋολϯڑ཭ • όΠφϦڑ཭ ڑ཭ͷλΠϓ

  23. 23 ( -1, 1 ) ( 1, -1 ) 1

    (Yes) -1 (No) 0 -1 (No) 4 1 (Yes) ΞϝϦΧͱϩγΞͷؒͷϚϯϋολϯڑ཭ άϦουͰڑ཭Λ΋ͱΊΔ ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  24. 24 ( -1, 1 ) ( 1, -1 ) 1

    1 (Yes) -1 (No) 0 -1 (No) ( 0 , 1 ) 1 (Yes) ΞϝϦΧͱΧφμͷؒͷϚϯϋολϯڑ཭ ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  25. 25 ϢʔΫϦουڑ཭ ( -1, 1 ) ( 1, -1 )

    ( -1, 1 ) ( 1, -1 ) ( 0 , 1 ) ( 0 , 1 ) 4 2.828 1 1 Ϛϯϋολϯڑ཭ 1 -1 -1 0 1 -1 -1 0 1 1 ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ ΤϧαϨϜ ΢ΫϥΠφ ΞϝϦΧ ϩγΞ Χφμ
  26. 26 ϢʔΫϦουڑ཭ Ϛϯϋολϯڑ཭ 2.828 4 1 Ϛϯϋολϯڑ཭ͷ΄͏͕ ڑ཭ͷ͕ࠩڧௐ͞ΕΔ 1 ΞϝϦΧ

    ϩγΞ Χφμ ΞϝϦΧ ΞϝϦΧ ΞϝϦΧ Χφμ ϩγΞ
  27. 27 Ϛϯϋολϯڑ཭

  28. 28 • ϢʔΫϦουڑ཭ • Ϛϯϋολϯڑ཭ • όΠφϦڑ཭ ڑ཭ͷλΠϓ

  29. 29 όΠφϦڑ཭ = 1 - δϟΧʔυ܎਺

  30. 30 1 RC_ID ΞϝϦΧ ೔ຊ 1 1 1 2 1

    0 3 0 1 4 0 0 … δϟΧʔυ܎਺ ೔ຊ΋ΞϝϦΧ΋1 ΞϝϦΧ͚ͩ1 ೔ຊ͚ͩ1 5 2 6 4 3 7
  31. 31 1 RC_ID ΞϝϦΧ Χφμ 1 1 1 2 1

    1 3 1 1 4 1 0 … ڑ཭͕͍ۙ৔߹ Χφμ΋ΞϝϦΧ΋1 ΞϝϦΧ͚ͩ1 Χφμ͚ͩ1 5 2 6 4 3 7
  32. 32 1 RC_ID ΞϝϦΧ ϩγΞ 1 1 0 2 1

    0 3 0 1 4 1 0 … ڑ཭͕ԕ͍৔߹ ϩγΞ΋ΞϝϦΧ΋1 ΞϝϦΧ͚ͩ1 ϩγΞ͚ͩ1 5 2 6 4 3 7
  33. 33 δϟΧʔυ܎਺ όΠφϦڑ཭ = 1 - δϟΧʔυ܎਺ όΠφϦڑ཭ 0~1 ࣅͯΔ΄Ͳ̍ʹۙͮ͘

    ҟͳ͍ͬͯΔ΄Ͳ̍ʹۙͮ͘ 0~1 ࣅ͍ͯΔ΄Ͳ̌ʹۙͮ͘ ҟͳ͍ͬͯΔ΄Ͳ̍ʹۙͮ͘
  34. Let’s try!

  35. 2016 ΧϦϑΥϧχΞॅຽ౤ථͷ݁Ռ

  36. σʔλ • 17 ͭͷॅຽ౤ථʹ͔͚ΒΕͨ๏Ҋ • 59 ͭͷΧϦϑΥϧχΞͷ܈ (County) • Yes

    Ratio - ࢍ੒ථͷׂ߹
  37. 37 ΧϦϑΥϧχΞभͷ౤ථσʔλΛ࢖ͬͯɺΧϦ ϑΥϧχΞभͷ܈(County)ಉ࢜ͷྨࣅੑΛڑ཭ͷ ΞϧΰϦζϜΛ࢖ͬͯݟ͚ͭΔɻ

  38. 38 ΞφϦςΟΫεɾϏϡʔͰ
 • λΠϓͰΧςΰϦʔ͝ͱͷڑ཭Λબ୒ • ΧςΰϦʔͰ COUNTY_NAME Λબ୒ • ϝδϟʔͷܭࢉ୯ҐͰ

    BALLOT_MEASURE_TITLE Λબ୒ • ϝδϟʔͰ yes_ratio બ୒ ܊ͷؒͷڑ཭Λ΋ͱΊΔ
  39. 39 COUNTY_NAME (ΧϦϑΥϧχΞभͷ ܊) ಉ࢜ͷશͯͷڑ཭͕΋ͱΊΒΕͨɻ

  40. 40 ͜Ε͕ڑ཭Λؔ܎Λ஌Δ࠷దͳํ๏ͩΖ͏͔?

  41. 41 ڑ཭ΛՄࢹԽ͢Δ

  42. 42 ౎ࢢؒͷڑ཭ ·ͣ͸3ͭͷ౎ࢢͷؒͷڑ཭Λߟ͑ͯΈΔɻώʔτϚοϓͰݱࡏಘΒΕͯ ͍Δ৘ใ͸ɺҎԼͷΑ͏ʹͳΔɻ ౦ژ ژ౎ େࡕ ౦ژ 0km ژ౎

    460km 0km େࡕ 500km 60km 0km
  43. 43 େࡕ ౦ژ 500km େࡕ ژ౎ 60km 460km ౦ژ ژ౎

    ௚ઢ্ʹՄࢹԽ͢ΔͱɺଟগΘ͔Γ΍͘͢ͳΔ
  44. 44 ஍ਤΛ࢖͏ͱɺΑΓ௚ײతʹڑ཭ΛཧղͰ͖Δ ౦ژ େࡕ ژ౎

  45. 45 ౦ژ 2࣍ݩۭؒΛ࢖͏ͱɺΑΓ௚ײతʹڑ཭ΛཧղͰ͖Δ ژ౎ େࡕ

  46. 46 ౦ژ ࢄ෍ਤΛ࢖͏ͱɺΑΓ௚ײతʹڑ཭ΛཧղͰ͖Δɻ

  47. 47 ΞφϦςΟΫεɾϏϡʔΛ࢖͏͜ͱͰɺ͞Βʹɺ͍ۙ ڑ཭ͷ఺ಉ࢜ΛࣗಈతʹΫϥελʔͯ͘͠ΕΔɻ

  48. 48 ͜ͷม׵Λଟ࣍ݩई౓ߏ੒๏ (MDS)ͱ͍͏ɻ (MDS͸Multi Dimensional Scalingͷུ)

  49. 49 ྨࣅϚοϓΛΫϦοΫ͢Δ͜ͱͰɺCOUNTY_NAME (ΧϦ ϑΥϧχΞभͷ܊)ͷؒͷڑ཭Λࢄ෍ਤʹՄࢹԽ͢Δ͜ͱ͕ Ͱ͖Δɻ

  50. 50 νϟʔτͷϓϩύςΟ͔Βνϟʔτ্ʹදࣔͷνΣοΫΛ֎͢͜ͱͰɺ ࢄ෍ਤ্ͷςΩετΛӅ͢͜ͱ͕Ͱ͖Δɻ νϟʔτͷϓϩύςΟͷ
 μΠΞϩά͸ɺӈ্ͷνϟʔτΞΠίϯ͔Β։͘͜ͱ͕Ͱ͖Δɻ

  51. 51 ΞφϦςΟΫεͷϓϩύςΟΛɺ ࠨ্ͷʮϓϩύςΟʯͷϦϯΫ͔ Β։͘͜ͱ͕Ͱ͖Δɻ ΞφϦςΟΫεͷϓϩύςΟͰ ͸ɺڑ཭ͷΞϧΰϦζϜ(ϝιου) ΍ɺΫϥελʔͷ਺Λࢦఆ͢Δ͜ ͱ͕Ͱ͖Δɻ

  52. 52 Ϋϥελʔͷ਺Λ5ʹࢦఆͨ͠ྫ

  53. 53 ྨࣅϖΞΛΫϦοΫ͢Δͱɺڑ཭ͷ͍ۙσʔλΛ ҰཡͰදࣔͰ͖Δɻ

  54. Appendix

  55. Gather / Un-Pivot ϫΠυܕͷσʔλΛϩϯάܕʹ

  56. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 ϫΠυܕ
  57. Month NY CA FL TX WA OR MT MI NJ

    NV Jan 15 5 10 20 10 10 40 79 20 60 Feb 50 30 25 40 24 6 15 55 9 5 Mar 10 3 14 0 4 5 20 5 2 4 Apr 3 79 20 60 5 10 20 5 0 20 May 55 55 9 5 30 25 40 5 10 20 Y1 X Y2 Y3 Yn X: Month NY Y1: CA Y2: Jan Feb Mar Apr May Jun
  58. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 ϫΠυܕ Month State NumBabies Jan NY 15 Feb NY 50 Jan CA 5 Feb CA 30 Jan FL 10 Feb FL 25 Jan TX 20 Feb TX 40 Jan WA 10 Feb WA 24 ϩϯάܕ
  59. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 ϫΠυܕ
  60. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 ϫΠυܕ Month State NumBabies Jan NY 15 Feb NY 50 Jan CA 5 Feb CA 30 Jan FL 10 Feb FL 25 Jan TX 20 Feb TX 40 Jan WA 10 Feb WA 24 ϩϯάܕ Gather
  61. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 Month State NumBabies Jan NY 15 Feb NY 50 Jan CA 5 Feb CA 30 Jan FL 10 Feb FL 25 gather(State, NumBabies, NY:WA)
  62. 1. ϫΠυܕΛϩϯάܕʹม׵͢Δ ςʔϒϧɾϏϡʔͰɺ COUNTY_NAME ͱ PARTY_NAMEҎ֎ͷ ͢΂ͯͷྻΛγϑτɾ ΫϦοΫͰબ୒͢Δɻ


  63. ΧϥϜϔομϝχϡʔ͔Βɺ Gather(ϫΠυܕ͔Βϩϯάܕ΁) Λબ୒͠ɺબ୒͞ΕͨൣғΛબ୒ ͢Δɻ

  64. Ωʔྻʹvoteɺ஋ͷྻ ʹ yes_ratioͱೖྗ͠ɺ ࣮ߦϘλϯΛԡ͢ɻ

  65. ๏Ҋͱࢍ੒཰ͷσʔλ͕ϩϯάܕʹͳͬͨɻ

  66. ͦΕͧΕͷ๏Ҋ͝ͱͷࢍ੒཰Λࢄ෍ਤͰՄࢹԽ͠ɺ ܈(Χ΢ϯςΟ)͝ͱͷࢧ࣋੓ౘͰ৭෼͚Λ͢Δɻ νϟʔτɾϏϡʔ͔Βɺ
 • λΠϓʹࢄ෍ਤΛબ୒ • X࣠ʹvoteΛબ୒ • Y࣠ʹyes_ratioΛબ୒ •

    ৭Ͱ෼ׂʹPARTY_NAMEΛબ୒ 2. ࢄ෍ਤͰՄࢹԽ͢Δ
  67. ๏Ҋ͝ͱͷࢍ੒཰͕ՄࢹԽ͞Εͨɻࢧ࣋੓ౘͱࢍ੒཰ͷؒʹ͸ ີ઀ͳؔ܎͕͋Γͦ͏ͳ͜ͱ͕Θ͔Δɻ

  68. Spread / Pivot ϩϯάܕͷσʔλΛϫΠυܕʹ

  69. Month State NumBabies Jan NY 15 Feb NY 50 Jan

    CA 5 Feb CA 30 Jan FL 10 Feb FL 25 Jan TX 20 Feb TX 40 Jan WA 10 Feb WA 24 ؍ଌ(Observation) ม਺(Variables) Tidyσʔλ
  70. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 ϫΠυܕ Month State NumBabies Jan NY 15 Feb NY 50 Jan CA 5 Feb CA 30 Jan FL 10 Feb FL 25 Jan TX 20 Feb TX 40 Jan WA 10 Feb WA 24 ϩϯάܕ Spread, Pivot, Un-Tidy
  71. Month NY CA FL TX WA Jan 15 5 10

    20 10 Feb 50 30 25 40 24 Month State NumBabies Jan NY 15 Feb NY 50 Jan CA 5 Feb CA 30 Jan FL 10 Feb FL 25 spread(State, NumBabies)
  72. ςʔϒϧɾϏϡʔͰɺvoteྻͱ yes_ratioྻΛ CommandΩʔ(Mac) / ControlΩʔ(Windows)Λԡ ͠ͳ͕Βબ୒͢Δɻ


  73. ΧϥϜϔομϝχϡʔ͔Βɺ Spread(ϩϯάܕ͔ΒϫΠυܕ΁) Λબ୒͢Δɻ

  74. μΠΞϩάͰ
 ࣮ߦϘλϯΛԡ͢ɻ

  75. ๏Ҋͱࢍ੒཰ͷσʔλ͕ϫΠυܕʹ໭ͬͨɻ

  76. None
  77. 77 ࣌ؒ λΠτϧ ൃදऀ 19:00 Exploratory v5.3ͷ঺հ ੢ాצҰ࿠ 19:30 ౷ܭϞσϧΛར༻ͨ͠ैۀһͷຬ଍౓෼ੳ

    େฏ༟ี 19:50 ExploratoryΛ׆༻ͨࣾ͠಺σʔλαΠΤϯεษڧձͷऔΓ૊Έ ໦ݪ༞հ 20:10 ػցֶशΛ༻͍ͨϚʔέςΟϯάߪങཁҼ෼ੳ सࢁ༟ଠ 20:30 EDA Salonͷ঺հ ଜཬҮ࠸ 21:00 ࠙਌ձ ΞδΣϯμ
  78. σʔλαΠΤϯεษڧձ ೔࣌ : 7݄29೔ (݄) 19:00 ։࢝ ৔ॴɿݪ॓ʢ౦ژ౎ौ୩۠ਆٶલ3ஸ໨21-8 TSݪ॓ୈ2Ϗϧ 1Fʣ

    ࢀՃඅɿແྉ ਃ͠ࠐΈɺৄࡉɿhttps://techplay.jp/event/739849
  79. None
  80. 80 1.σʔλΛGetʂ 2.ՄࢹԽɺ෼ੳʂ 3.ύϒϦογϡʂ ࢀՃํ๏

  81. 81 λάΛ࢖͍·͠ΐ͏ʂ EDASalon Exploratory.io Twitter #EDASalon https://twitter.com/hashtag/edasalon https://exploratory.io/tag/Edasalon

  82. EDA Salon ৄࡉURL : https://bit.ly/2XWkfR5 ࠓ݄ͷσʔλɿੈքͷେֶϥϯΩϯά

  83. None
  84. • ϓϩάϥϛϯάͳ͠ RݴޠͷUIͰ͋ΔExploratoryΛ෼ੳπʔϧͱͯ͠࢖༻͢ΔͨΊडߨத͸ɺϏδωεͷ ໰୊Λղܾ͢ΔͨΊʹඞཁͳσʔλαΠΤϯεͷख๏ͷशಘʹ100ˋूதͰ͖Δ • ෼ੳπʔϧͷϕϯμʔϩοΫΠϯͳ͠ ExploratoryͰͷ࡞ۀ͸શͯಠཱͨ͠ΦʔϓϯιʔεͷR؀ڥͰ࠶ݱ͕Մೳ • ࢥߟྗͱεΩϧͷशಘ σʔλαΠΤϯεͷεΩϧशಘ͚ͩͰͳ͘ɺσʔλ෼ੳʹඞཁͳࢥߟྗ΋शಘͰ͖Δ

    ಛ௃
  85. Q & A

  86. ࿈བྷઌ ϝʔϧ kan@exploratory.io ΢ΣϒαΠτ https://ja.exploratory.io ϒʔτΩϟϯϓɾτϨʔχϯά https://ja.exploratory.io/training-jp Twitter @KanAugust