Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google BigQueryを用いた次世代の検索手法 - 公開加筆版

Google BigQueryを用いた次世代の検索手法 - 公開加筆版

Dev7++ Study Night 第3回 登壇資料 公開加筆版
[スライド右下のコメント枠内に加筆しています]
----
発表時資料 : https://speakerdeck.com/hikawa/google-bigquerywoyong-itaci-shi-dai-falsejian-suo-shou-fa-1

Kunpei Hikawa

October 30, 2017
Tweet

More Decks by Kunpei Hikawa

Other Decks in Technology

Transcript

 1. Google BigQueryΛ༻͍ͨ
  ࣍ੈ୅ͷݕࡧख๏
  !
  Mediba System Development Department
  Kumpei Hikawa
  [email protected]
  ͜ͷӈԼίϝϯτ࿮͸ɺ
  ެ։ࢿྉ༻ͱͯ͠ɺ
  ௥هɾิ଍ͨ͠΋ͷͰ͢

  View Slide

 2. ςʔϚ
  (PPHMF͕ఏڙ͢Δɺେن໛෼ࢄσʔλ΢ΣΞϋ΢ε
  ࣗݾ঺հɿ

  ൃදऀ͸ɺגࣜձࣾNFEJCBॴଐ
  ࡀαʔόΤϯδχΞͷṤ઒Ͱ͢
  ॳ-5Ͱ͢ʂ

  View Slide

 3. ςʔϚ
  ߴ଎
  ௿Ձ֨
  ϑϧϚωʔδϝϯτ
  αʔόʔϨε
  ϖλόΠτڃσʔλ
  42-ߏจ
  6%'

  ಛʹେ͖ͳར఺ͱͯ͠͸ɺ
  Ϋϥελ؅ཧෆཁͳ఺ͱ
  6%'ͱݴ͑·͢

  View Slide

 4. ςʔϚ
  ߴ଎
  ௿Ձ֨
  ϑϧϚωʔδϝϯτ
  αʔόʔϨε
  ϖλόΠτڃσʔλ
  42-ߏจ
  6%'

  ಛʹେ͖ͳར఺ͱͯ͠͸ɺ
  Ϋϥελ؅ཧෆཁͳ఺ͱ
  6%'ͱݴ͑·͢

  View Slide

 5. User Defined Functions
  42-ؔ਺Λಠࣗʹ࡞੒͠ɺӡ༻
  +BWBTDSJQUɾ42-

  ूܭ΍จࣈྻ੍ޚͳͲΛɺ
  #JH2VFSZͷ෼ࢄԋࢉ
  ؀ڥԼͰಈ͔ͤ·͢

  View Slide

 6. 'J[[#V[[ؔ਺
  $
  ʮؔ਺Λ࡞੒ɾ֦ு͢Δʯ
  ͱ͍͏఺ʹ͓͍ͯɺ
  ཧղ͠΍͍͢
  'J[[#V[[Λྫʹग़͠·͢

  View Slide

 7. +BWBTDSJQU͕ॻ͚Δ
  ΤϯδχΞͰ͋Ε͹ɺ
  ෳࡶͳॲཧΛ42-ߏจ͔Β
  ෼཭ͤ͞Δ͜ͱ͕ग़དྷ·͢

  View Slide

 8. ػցֶश
  લॲཧ ֶश ਪ࿦

  ػցֶशͰ΋6%'Λ

  ׆༻Ͱ͖Δ৔໘͕

  ͍͔ͭ͋͘Γ·͢

  View Slide

 9. ػցֶश
  લॲཧ ֶश ਪ࿦

  ػցֶशͰ΋6%'Λ

  ׆༻Ͱ͖Δ৔໘͕

  ͍͔ͭ͋͘Γ·͢

  View Slide

 10. ೔ຊޠ෼͔ͪॻ͖ؔ਺

  લॲཧ͕
  ग़དྷ͍ͯ·͢Ͷʂ

  View Slide

 11. !
  +TϥΠϒϥϦͱͯ͠༗໊ͳ

  5JOZ4FHNFOUFSΛ
  ར༻ͤͯ͞௖͖·ͨ͠

  D
  5BLV,VEP

  View Slide

 12. ʮେྔͷσʔλʯʮߴ଎Ͱ҆ՁͳΫϥ΢υ؀ڥʯ
  Կ͕ग़དྷΔΑ͏ʹͳΔͷ͔ʁ

  ຊ୊ʹೖΓ·͢

  View Slide

 13. ैདྷͷݕࡧ
  ςΩετݕࡧ ΧςΰϦɾλάݕࡧ

  ͋Γ͕ͪͳ
  ख๏Ͱ͢

  View Slide

 14. !
  ීஈ͓ੈ࿩ʹͳ͍ͬͯΔ
  ͋ͷαΠτ

  View Slide

 15. !
  Կ͕࣍ੈ୅Ͱ͸
  ແ͍ͷͰ͠ΐ͏͔ʁ

  View Slide

 16. ίϯςϯπͷதͰԿ͕ॏཁ͔ɺߟྀͯ͠ͳ͍ݕࡧ
  هࣄA
  MySQL
  BigQuery
  هࣄB
  MySQL BigQuery
  هࣄC
  MySQL
  BigQuery
  ʹશͯಉ͡ѻ͍

  ͭ·Γɺ
  ୯ޠͷ ൑ఆͰ͢ɻ

  View Slide

 17. ίϯςϯπͷதͰԿ͕ॏཁ͔ɺߟྀͯ͠ͳ͍ݕࡧ
  هࣄA
  MySQL
  BigQuery
  هࣄB
  MySQL BigQuery
  هࣄC
  MySQL
  BigQuery
  ʹશͯಉ͡ѻ͍

  ΋͏গ͠ݡ͘
  ͳͬͯ໯͍͍ͨ

  View Slide

 18. هࣄD
  MySQL
  BigQuery
  هࣄE
  MySQL
  BigQuery
  هࣄF
  MySQL
  BigQuery
  هࣄG
  MySQL
  BigQuery
  ॏΈΛอ࣋ͨ͠ɺۃΊ͍ͯۙίϯςϯπͷݕࡧ
  هࣄA
  MySQL
  BigQuery

  Կ͕ॏཁ͔ɺ൑அͯ͠
  ݕࡧ͕ग़དྷΕ͹
  ྑͦ͞͏Ͱ͢

  View Slide

 19. ͲͷΑ͏ʹԋࢉ͢Δ͔ʁ
  ର৅ͱͳΔυΩϡϝϯτ"ͱυΩϡϝϯτ#$%&Λ
  ൺֱ͠ɺྨࣅ౓ॱʹฒ΂ସ͑Δ
  $
  ίϯςϯπ಺ͷಛ௃Λ
  ߟྀͯ͠ɺ
  ྨࣅ౓ΛٻΊΔख๏͕ඞཁͰ͢

  View Slide

 20. ίαΠϯྨࣅ౓ʢίαΠϯڑ཭ʣ
  O࣍ݩͷϕΫτϧಉ࢜Λൺֱ͠ɺʙͷൣғͰྨࣅ౓ΛٻΊΔ

  σʔλΛϕΫτϧԽͯ͠
  λάԽͨ͠΋ͷΛ
  ར༻͢Ε͹ྑͦ͞͏Ͱ͢

  View Slide

 21. ϕΫτϧΛBigQueryʹ֨ೲ͢Δ
  Ұൠతʹ͸)BEPPQ΍"QBDIF4QBSLΛ༻͍ͯ

  ܭࢉͨ͠಺༰Λσʔλ΢ΣΞϋ΢εʹ֨ೲ͢Δ
  ϕΫτϧͷܭࢉʹ͸ʮେྔͷσʔλʯʮߴ଎ͳ؀ڥʯ͕ඞཁ
  #JH2VFSZͷߴ଎͞Λ׆͔͠ɺ
  ϕΫτϧͷൺֱ΍ܭࢉΛ
  ߦ͍͖ͬͯ·͠ΐ͏
  $

  View Slide

 22. ࣮༻Մೳͳ

  4ͭͷख๏

  ୅දతͳ΋ͷΛઆ໌͠·͢

  View Slide

 23. έʔε1. Word2Vec
  จষʹ͓͚Δ୯ޠؒͷҙຯ߹͍ΛϕΫτϧԽ

  จ຺Λར༻ͨ͠ݕࡧ͕
  ՄೳʹͳΓ·͢

  View Slide

 24. έʔε2. Doc2Vec
  8PSE7FDΛ֦ு
  จষؒͷҙຯ߹͍ΛϕΫτϧԽ

  ίϯςϯπ จষ
  Λԣஅͨ͠
  จ຺ݕࡧ͕ՄೳͰ͢ɻ

  View Slide

 25. έʔε3. TF-IDF
  จষʹ͓͚Δॏཁ୯ޠͷநग़
  ௿ෛՙͰɺࣅͨจষͷݕࡧΛ
  ߴ͍ਫ਼౓Ͱ࣮ݱͰ͖·͢

  View Slide

 26. BigQueryͰυΩϡϝϯτͷϕΫτϧΛٻΊΔ
  Ͱԋࢉͯ͠ϦΞϧλΠϜʹϕΫτϧԽɾྨࣅ౓൑அ΋Մೳ
  5'*%'ͳΒɺશͯͷܭࢉΛ

  #JH2VFSZ͚ͩͰ׬݁ͨ͠
  ϨίϝϯυΤϯδϯ͕࡞Ε·͢

  View Slide

 27. %&.0

  #JH2VFSZͷΈͰɺ
  ॏཁޠ۟ͷநग़ͱ

  ྨࣅίϯςϯπͷݕࡧ

  View Slide

 28. έʔε4. ػցֶश
  ίϯςϯπʹ͓͚Δಛ௃ϕΫτϧͷநग़

  ಠࣗͷϞσϧΛར༻͢Δ
  ͜ͱ΋໪࿦ՄೳͰ͢

  View Slide

 29. ݶΒΕͨσʔλΛ

  ਓྗͰλά෇͚
  ςΩετσʔλ
  ը૾
  Ի੠
  ࣌ܥྻσʔλ

  ·ͱΊͰ͢ɻ

  ࠓ·Ͱͷݕࡧ͸͜͏Ͱͨ͠

  View Slide

 30. ݶΒΕͨσʔλΛ

  ਓྗͰλά෇͚
  ςΩετσʔλ
  ը૾
  Ի੠
  ࣌ܥྻσʔλ

  ͦΖͦΖࣙΊ·͠ΐ͏ʂ

  View Slide

 31. ςΩετσʔλ
  ը૾
  Ի੠
  ࣌ܥྻσʔλ
  σʔλΛϕΫτϧԽ͠ɺ

  ػցʹΑΔεϚʔτͳϥϕϧ෇͚
  $
  ػցʹ೚ͤͯ
  ࣗಈͰλάʢϕΫτϧʣΛ
  ෇͚͍͖ͯ·͠ΐ͏

  View Slide

 32. ϕΫτϧσʔλʹΑͬͯɺ

  ػց͕ҙຯΛཧղͨ͠ɺ
  εϚʔτͰݡ͍σʔλ΢ΣΞϋ΢ε

  ैདྷͱҧ͍ɺػց͕ҙຯΛ
  ཧղͰ͖ΔΑ͏ʹʂ

  View Slide

 33. Ϣʔβ͕ٻΊΔ΋ͷΛɺΑΓ൓ө͍ͤͯ͘͞
  ࣍ੈ୅ͷݕࡧख๏

  ΑΓൃలͨ͠ݕࡧख๏Λ
  ࣮ݱग़དྷΔΑ͏ʹ

  ੔උ͍͖ͯ͠·͠ΐ͏

  View Slide

 34. Google BigQueryΛ༻͍ͨ
  ࣍ੈ୅ͷݕࡧख๏
  ͝੩ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠
  !
  ͓ಡΈ௖͖
  ͋Γ͕ͱ͏͍͟͝·ͨ͠

  View Slide

 35. ຊ೔࣋ͪؼͬͯ௖͖͍ͨςʔϚ
  #JH2VFSZ
  6%'

  ϕΫτϧʹΑΔλά෇͚

  ίαΠϯྨࣅ౓

  NFEJCB
  ͜ͷΑ͏ͳ෼໺ʹڵຯ͕͋Γ·ͨ͠Βɺ
  ͍ͭͰ΋͓੠͕͚Լ͍͞
  ɹIJLBXB!NFEJCBKQ


  ौ୩ͷϛʔτΞοϓͰ͓ձ͍͠·͠ΐ͏ʂ
  Mediba System Development Department
  Kumpei Hikawa
  [email protected]

  View Slide