Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Apache Spark による推薦システム案件例

Da8fb0de47e0cacd52752f704942675e?s=47 soonraah
March 21, 2015

Apache Spark による推薦システム案件例

2015-03-21 #TokyoWebmining 44th の発表資料です。

Da8fb0de47e0cacd52752f704942675e?s=128

soonraah

March 21, 2015
Tweet

Transcript

 1. "QBDIF4QBSLʹΑΔ ਪનγεςϜҊ݅ྫ 5PLZP8FCNJOJOH !TPPOSBBI

 2. "(&/%" •  Ҋ݅֓ཁ •  γεςϜ֓ཁ •  ਪનΞϧΰϦζϜ •  ӡ༻ • 

  ·ͱΊ 2
 3. ਪનγεςϜ 3 Ҿ༻BNB[PODPKQ

 4. Ҋ݅֓ཁ •  ๭&$αΠτ޲͚ͷਪનγεςϜʢडୗ։ൃʣ •  ೔࣍ͷόονॲཧͰશର৅Ϣʔβ޲͚ͷਪન݁ՌΛఏڙ •  छྨͷਪન݁ՌΛఏڙ •  ໨ඪαΠτച্૿Ճ 4

 5. ن໛ײ •  ΍Γ͍ͨ͜ͱ •  ձһϢʔβສ໊ͷݸਓݸਓʹ •  ສ఺ͷ঎඼ͷத͔Β •  ਪન঎඼ϦετΛੜ੒ • 

  ֶशσʔλ •  Ӿཡϩάʙ਺ԯ݅ ˞਺ࣈʹ͸एׯϑΣΠΫ͕͋Γ·͢ɻ 5
 6. "QBDIF4QBSL •  ߴ଎ɾ൚༻ͷΦϯϝϞϦ෼ࢄॲཧ •  6$#FSLFMFZͰ։ൃ͞Εɺڈ೥͔Β"QBDIFͷτοϓϨϕϧ 1+ʹ •  )BEPPQ:"3/΍"QBDIF.FTPT౳ͷ্Ͱ࣮ߦՄೳ •  4DBMB

  +BWB 1ZUIPOͷ"1*Λఏڙ 6
 7. 4QBSLϥΠϒϥϦ 7 Ҿ༻IUUQTTQBSLBQBDIFPSH

 8. .-MJC •  ࣮૷͞Ε͍ͯΔΞϧΰϦζϜʢ྘ࣈͰԼઢ͸WͰ௥Ճʣ •  MJOFBS47.BOEMPHJTUJDSFHSFTTJPO •  DMBTTJpDBUJPOBOESFHSFTTJPOUSFF •  DMVTUFSJOH LNFBOT

  (.. QPXFSJUFSBUJPODMVTUFSJOH FUD •  SFDPNNFOEBUJPOWJBBMUFSOBUJOHMFBTUTRVBSFT ޙड़ •  TJOHVMBSWBMVFEFDPNQPTJUJPO •  MJOFBSSFHSFTTJPOXJUI-BOE-SFHVMBSJ[BUJPO •  NVMUJOPNJBMOBJWF#BZFT •  CBTJDTUBUJTUJDT •  GFBUVSFUSBOTGPSNBUJPOT •  -%"GPSUPQJDNPEFMJOH •  '1HSPXUIGPSGSFRVFOUQBUUFSONJOJOH 8
 9. "(&/%" •  Ҋ݅֓ཁ •  γεςϜ֓ཁ •  ਪનΞϧΰϦζϜ •  ӡ༻ • 

  ·ͱΊ 9
 10. ސ٬ &$αΠτ γεςϜ γεςϜߏ੒ 10 &.3 ϩάऩू༻XFCαʔό δϣϒ؅ཧαʔό ϑΝΠϧ࿈ܞαʔό 4

  ϩά஝ੵ ਪન݁Ռ ਪન݁Ռ
 11. ਪનγεςϜ ΞϓϦέʔγϣϯͷ࣮ߦ 4 Ӿཡϩά &$ δϣϒ؅ཧαʔό &.3 &MBTUJD.BQ3FEVDF ᶄ&.3δϣϒ։࢝

  ᶃαʔόଆΞϓϦىಈ ᶆΫϥελىಈ Ϋϥελ ᶇ4QBSL؀ڥ༻ҙ ᶈӾཡϩάऔಘ ᶉਪનԋࢉ ᶊԋࢉ݁Ռ 11
 12. "(&/%" •  Ҋ݅֓ཁ •  γεςϜ֓ཁ •  ਪનΞϧΰϦζϜ •  ӡ༻ • 

  ·ͱΊ 12
 13. ͭͷਪનΞϧΰϦζϜ •  ಺༰ϕʔεϑΟϧλϦϯά •  ঎඼΍Ϣʔβͷଐੑ౳ͷಛ௃Λ༻͍Δํ๏ •  ڠௐϑΟϧλϦϯά •  ͦΕΒಛ௃͸࢖ΘͣɺϢʔβίϛϡχςΟͷ ᅂ޷σʔλͷΈΛ༻͍Δํ๏

  13
 14. ಺༰ϕʔεϑΟϧλϦϯάͷ ࣮૷ ঎඼ ສ݅ ಛ௃ສछྨ Ϣʔβ" ͲͷΞΠςϜ ͕࠷΋͍ۙʁ ✕ສਓ ಛ௃ྔ

  14
 15. ಺༰ϕʔεϑΟϧλϦϯάͷ ࣮૷ ঎඼ ສ݅ ಛ௃ສछྨ Ϣʔβ" ͲͷΞΠςϜ ͕࠷΋͍ۙʁ ✕ສਓ ϚοϓܗࣜͷϕΫτϧදݱ

  సஔ ΠϯσοΫε 4QBSL෼ࢄॲཧ ಛ௃ྔ 15
 16. ڠௐϑΟϧλϦϯάͷ࣮૷ •  .-MJCͷPSHBQBDIFTQBSLSFDPNNFOEBUJPO"-4Λར༻ •  ߦྻҼࢠ෼ղϞσϧʢ.BUSJY'BDUPSJ[BUJPO.PEFMʣΛ ަޓ࠷খೋ৐๏ʢ"-4"MUFSOBUJOH-FBTU4RVBSFʣͰֶश 16

 17. ߦྻҼࢠ෼ղ •  Ϣʔβͷ঎඼΁ͷධՁΛϢʔβ਺º঎඼਺ͷߦྻͰද͢ •  ͜ͷߦྻΛO G ݸͷಛ௃Λ࣋ͭϢʔβಛ௃ྔߦྻͱ঎඼ಛ௃ྔ ߦྻͷੵͰද͢͜ͱΛ໨తͱ͢Δ 17

 18. ߦྻҼࢠ෼ղ 18

 19. "-4 •  ަޓ࠷খೋ৐๏ʢ"MUFSOBUJWF-FBTU4RVBSFʣ •  ͭͷಛ௃ྔߦྻΛަޓʹֶश •  4QBSLͷಘҙͱ͢Δ܁Γฦ͠ॲཧ 19

 20. "-4TUFQ Ϣʔβ ಛ௃ྔߦྻ ঎඼ ಛ௃ྔߦྻ ࠷ॳͷಛ௃ྔΛͦΕͧΕͷ঎඼ͷ ฏۉͷධՁ஋ͰॳظԽ ͦΕҎ֎͸ϥϯμϜͳ খ͍͞஋ͰॳظԽ 20

 21. "-4TUFQ Ϣʔβ ಛ௃ྔߦྻ ঎඼ ಛ௃ྔߦྻ ֤Ϣʔβʹ͍ͭͯɺ ༧ଌ஋ͱ࣮ࡍͷධՁ஋ͷޡࠩΛ࠷খԽ ঎඼ଆ͸ݻఆ 21

 22. "-4TUFQ Ϣʔβ ಛ௃ྔߦྻ ঎඼ ಛ௃ྔߦྻ ֤঎඼ʹ͍ͭͯɺ ༧ଌ஋ͱ࣮ࡍͷධՁ஋ͷޡࠩΛ࠷খԽ Ϣʔβଆ͸ݻఆ ҎԼɺऩଋ͢Δ·ͰTUFQ Λ܁Γฦ͠

  22
 23. "(&/%" •  Ҋ݅֓ཁ •  γεςϜ֓ཁ •  ਪનΞϧΰϦζϜ •  ӡ༻ • 

  ·ͱΊ 23
 24. ຊҊ݅ʹ͓͚Δ Ϋϥελʹؔ͢Δ਺ࣈ •  $16ίΞ਺ •  ϝϞϦ૯ܭ(# •  &$Πϯελϯε •  .BTUFSSYMBSHF

  ୆ •  4MBWFDYMBSHF ୆ •  ೔࣍ॲཧʙI 24
 25. νϡʔχϯά •  ΦϑϥΠϯධՁ •  ."1ʢ.FBO"WFSBHF1SFDJTJPOʣʹΑΓ ϋΠύʔύϥϝʔλͷόϦΤʔγϣϯΛΦϑϥΠϯධՁ •  ਪન݁ՌͱϢʔβͷ঎඼ߪങϩάΛॱҐΛߟྀͯ͠ൺֱ •  ͜Ε΋4QBSLͰ࡞ͬͨ

  •  ΦϯϥΠϯධՁ •  ϢʔβผʹϥϯμϜͰ •  ཁ͸"#ςετ 25
 26. "(&/%" •  Ҋ݅֓ཁ •  γεςϜ֓ཁ •  ਪનΞϧΰϦζϜ •  ӡ༻ • 

  ·ͱΊ 26
 27. 4QBSL.-MJCΛҊ݅Ͱ ։ൃɾӡ༻ͯ͠Έͯᶃ •  ͭΒ͍ •  ޮ཰ͱඅ༻ͱϦιʔε഑෼ͷύζϧ •  ϋϚΓͲ͜Ζ͕͋Δ •  &$Πϯελϯεधཁͷߴ·ΓͷઞΓΛड͚Δ

  •  ςετͷͭΒΈ 27
 28. 4QBSL.-MJCΛҊ݅Ͱ ։ൃɾӡ༻ͯ͠Έͯᶄ •  Ͱ΋໘ന͍ •  ίʔσΟϯά͕௒ָ͍͠ʂ •  γʔϜϨεʹ෼ࢄॲཧ͕ॻ͚Δ •  )BEPPQΑΓগͳ͍ίʔυྔ

  •  ଎͍ •  .-MJCͷਐԽʹظ଴ 28
 29. 4QBSLΞϓϦέʔγϣϯ ։ൃͷצॴ •  Ϧιʔε͸༗ݶ •  ιʔεͷதͰಛʹԋࢉྔΛཁ͢Δ෦෼͸ϩʔΧϧͷ࣮ݧͰ े෼ʹ࠷దԽ͓ͯ͘͠ •  ಉ͡ܭࢉ݁ՌΛಘΔͷʹΑΓޮ཰తͳํ๏͸ͳ͍ͷ͔ʁ • 

  ίϨΫγϣϯΫϥεͷબ୒ •  ԋࢉ࣌ؒ΍ϝϞϦྔΛݟੵ΋Δ •  ܧଓతΠϯςάϨʔγϣϯΛڧ͘ҙࣝ͢Δ 29
 30. ·ͱΊ •  "QBDIF4QBSL .-MJCͰ಺༰ϕʔεϑΟϧλϦϯά ͓ΑͼڠௐϑΟϧλϦϯάʹΑΔਪનγεςϜΛ ͭͬͨ͘ •  &$αΠτͷ,1*ΛվળͰ͖ͨ •  4QBSLϓϩάϥϛϯάɺָ͍͔͠Β΍ͬͯΈͯΑʂ

  30