データ分析とプロダクトエンジニアリング / 20180417

56ae61a2631362f985e4c1fa4548a7ac?s=47 yuzutas0
April 17, 2018

データ分析とプロダクトエンジニアリング / 20180417

R-Tech 18新卒エンジニア研修の資料となります。
詳細は以下をご覧ください。

リクルートテクノロジーズ 新人研修特別版(データ分析編)
※公式アナウンス。
https://recruit-tech.co.jp/blog/2018/05/29/data_bootcamp2018/

新入社員研修でデータ分析講座を実施しました
※設計意図などの裏話。
http://yuzutas0.hatenablog.com/entry/2018/06/12/083000

56ae61a2631362f985e4c1fa4548a7ac?s=128

yuzutas0

April 17, 2018
Tweet

Transcript

  1. σʔλ෼ੳͱ
 ϓϩμΫτΤϯδχΞϦϯά !ZV[VUBT ೥౓ΤϯδχΞίʔε৽ೖࣾһݚमσʔλղੳϋοΧιϯ    IUUQTVOTQMBTIDPNQIPUPTIQK4L66:46

  2. ຊࢿྉͰ͸ϋοΧιϯͰ࢖͏σʔλج൫ʹ͍ͭͯઆ໌͠·͢ ϋοΧιϯࣗମͷਐΊํ͸!OBPZBOBPͷࢿྉʢࣾ֎ඇެ։ʣΛࢀর  

  3. !ZV[VUBT ͓ؾܰʹ͓੠ֻ͚͍ͩ͘͞  

  4. None
  5. ࿩͞ͳ͍͜ͱ σʔλ෼ੳͷ۩ମతͳख๏࿦ ɹɹɹɹɾڭΘΔͷͰ͸ͳࣗ͘෼ͰֶͿͨΊͷߨ࠲ʹͳΓ·͢
 ɹɹɹɹɾྑ͍ࢿྉ͸ੈʹࢁ΄Ͳ͋ΔͷͰάά͍ͬͯͩ͘͞
 ɹɹɹɹɾϋοΧιϯͰखΛಈ͔ͯ͠ࢼߦࡨޡͯ͠Έ͍ͯͩ͘͞  

  6. ࿩͢͜ͱ ɾσʔλج൫ͷͬ͘͟Γઆ໌ ɾσʔλ෼ੳͷͬ͘͟Γઆ໌ ɾͳͥΤϯδχΞ͕σʔλ෼ੳʁ ɾ#JH2VFSZͷͬ͘͟Γઆ໌  

  7. σʔλج൫ͷͬ͘͟Γઆ໌  

  8. σʔλج൫ #JH2VFSZΛத৺ͱͨ͠σʔλͷऩूˠ஝ੵˠར༻  

  9. σʔλ׆༻  

  10. ৄࡉ͸ͪ͜Β IUUQTTQFBLFSEFDLDPNZV[VUBT  

  11. σʔλج൫ͷͬ͘͟Γઆ໌   ׬

  12. σʔλ෼ੳͷͬ͘͟Γઆ໌  

  13. ϓϩμΫτ։ൃͱԾઆݕূ   IUUQFDOJLLFJCQDPKQJUFNCPPLT1IUNM

  14. ࣮ࢪͨ͠ࢪࡦͷ݁ՌΛ෼ੳ  

  15. ͜Μͳײ͡Ͱ΍Γ·ͨ͠  

  16.    

  17. ։ൃνʔϜʹΑΔԾઆݕূαΠΫϧ Ұؾ௨؏ʹΑΔଟ༷ͳ؍఺Ͱͷֶश
 ऩӹ΍ӡ༻Λ౿·͑ͯɺސ٬Ձ஋Λ࠷େԽ͢ΔϓϩμΫτ։ൃ   ઃܭ ࣮૷ ςετ ϦϦʔε ޮՌଌఆ

    Ծઆ
  18. σʔλ෼ੳͷͬ͘͟Γઆ໌   ׬

  19. ࿩͢͜ͱ ɾσʔλج൫ͷͬ͘͟Γઆ໌ ɾσʔλ෼ੳͷͬ͘͟Γઆ໌ ɾͳͥΤϯδχΞ͕σʔλ෼ੳʁ ɾ#JH2VFSZͷͬ͘͟Γઆ໌  

  20. ͳͥΤϯδχΞ͕σʔλ෼ੳʁ  

  21. ྫɿ8&#ࠗ׆ͷओཁϓϨΠϠʔ͸উͪےΛ໛ࡧத ࠃ಺ ւ֎   0NJBJ͸৽نΞϓϦ։ൃ λοϓϧ஀ੜ͸σʔλݚڀϥϘ 1BJST͸ϢʔβʔώΞϦϯά ຽ଒΍फڭ΍ݴޠ͕伴͔ʁ ը૾͕Ճ޻͞ΕΔͳΒಈը͔ʁ

    ग़ձ͍ͷ޻ఔ࡟ݮPSޙ޻ఔ͔ʁ IUUQTFVSFKQXQDPOUFOUVQMPBETCECDFEFFECGDEQEG IUUQTXXXDZCFSBHFOUDPKQOFXTEFUBJMJE IUUQDPOUFOUTYKTUPSBHFKQYDPOUFOUT"4FDCEFDFCDDECQEG CZIUUQTXXXMJOLFEJODPNJONBSDPTWDFMJP CZIUUQTUXJUUFSDPNDODPPL IUUQTHJ[NPEPDPNUIFGVUVSFPGPOMJOFEBUJOHJTVOTFYZBOECSVUBMMZF⒎F
  22. ຊ࣭తʹϓϩμΫτ։ൃ͸ ෆ࣮֬ੑͱͷઓ͍ʹͳΔ   IUUQTVOTQMBTIDPNQIPUPTW#QEK-9T

  23. ϦΫϧʔτͷྺ࢙   IUUQTXXXOJLLFJCPPLDPNCPPL

  24. σʔλ͕ࢧ͑Δ஌ࣝ૑଄   উͪے ɹσʔλͷຽओԽ BigQuery ɹSECIϞσϧ σβΠφʔ ϓϩσϡʔαʔ ސ٬Ձ஋

    Ϛʔέλʔ ΤϯδχΞ ࢧԉऀɾ։୓ऀͱͯ͠ͷ
 σʔλαΠΤϯςΟετ
  25.  

  26.  

  27.  

  28. ͳͥΤϯδχΞ͕σʔλ෼ੳʁ   ׬

  29. ࿩͢͜ͱ ɾσʔλج൫ͷͬ͘͟Γઆ໌ ɾσʔλ෼ੳͷͬ͘͟Γઆ໌ ɾͳͥΤϯδχΞ͕σʔλ෼ੳʁ ɾ#JH2VFSZͷͬ͘͟Γઆ໌  

  30. #JH2VFSZͷͬ͘͟Γઆ໌  

  31. IUUQTXXXTMJEFTIBSFOFUSFDSVJUDPKQIBEPPQCR IUUQUFDIUBSHFUJUNFEJBDPKQUUOFXTOFXTIUNM  

  32. IUUQTDMPVEHPPHMFDPNCJHRVFSZXIBUJTCJHRVFSZ IMKB  

  33. 6 ετϨʔδͱΤϯδϯͷ෼཭: -  ͲͪΒ΋࢖ͬͨ෼͚ͩ -  ෼཭ͨ͠՝ۚ -  ύϑΥʔϚϯεӨڹ͸ִ཭ ෼ࢄετϨʔδ - 

    ෳ਺σʔληϯλ΁ෳ੡ -  1 ͭͷετϨʔδʹݟ͑Δ -  DWHͷαΠϩԽ͕ͳ͍ Federated Storage -  ϩʔυ͠ͳ͘ͱ΋෼ੳՄೳ -  ૣ͍ϩʔυΤϯδϯͱͯ͠΋ ར༻Մೳ σʔλγΣΞɺࡉ͔ͳACL -  1ͭͷετϨʔδͰACLઃఆ ͢Δ͚ͩͰڞ༗ -  σʔλΛڞ༗͢ΔจԽʹ Ingestion: [streaming, batch] -  ͲͪΒ΋ωΠςΟϒରԠ   (PPHMF$MPVEൃදࢿྉΑΓҾ༻
  34. ϝϦοτᶃ Πϯϑϥอकӡ༻ͷ޻਺Λ࡟ݮͰ͖Δ  

  35. Confidential & Proprietary Now: యܕతσʔλ෼ੳ ϓϩάϥϛϯά Ϧιʔεͷ ϓϩϏδϣϯ ύϑΥʔϚϯε νϡʔχϯά

    ؂ࢹ ৴པੑ ֬อ σϓϩΠͱઃఆ ૿ઃରԠ ࢖༻཰ͷ ޮ཰Խ Next: Google ͱ࣮ݱ͢Δ Ϗοάσʔλ෼ੳ ͢΂͕ͯࣗಈԽ ϓϩάϥϛϯά ෼ੳͱಎ࡯   (PPHMF$MPVEൃදࢿྉΑΓҾ༻
  36. Confidential & Proprietary ઐ༻ઢκʔϯ جװܥγεςϜ A σʔλϕʔε جװܥγεςϜ B σʔλϕʔε

    άϧʔϓձࣾ ސ٬σʔλϕʔε ސ٬ σʔλϕʔε ϑΝΠϧ ετϨʔδ ϑΝΠϧ ετϨʔδ ϑΝΠϧ ετϨʔδ ϑΝΠϧ ετϨʔδ FTP ଐੑͷΈऔΓ ग़͠FTP FTP VPN άϧʔϓձࣾΠϯτϥ άϧʔϓձࣾ઀ଓκʔϯ όονॲཧ αʔόʔ ՄࢹԽπ ʔϧ ෼ੳ πʔϧ Ϩϙʔτ ؂ࠪ πʔϧ σʔλϚʔτ ॲཧ ຊ౰ʹඞཁͳ࡞ۀ͸෼ੳɺಎ࡯ ෼ੳ׭ Ϗδωεاը खಈ࡞ۀ DWH DWH DWH Hadoop cluster   (PPHMF$MPVEൃදࢿྉΑΓҾ༻
  37. ϝϦοτᶄ ଟ༷ͳϢʔεέʔεʹରԠ͍ͯ͠Δ  

  38. 42-Λୟ͚ͩ͘  

  39. ओཁ#*πʔϧͱͷ࿈ܞ   IUUQTDMPVEHPPHMFDPNCJHRVFSZUIJSEQBSUZUPPMT IMKB

  40. ϓϩάϥϜͱͷ࿈ܞ  

  41. ϝϦοτᶅ σʔληϯλʔن໛Ͱ࠷దԽ͞Ε͓ͯΓɺ ॲཧύϑΥʔϚϯε͕ߴ͍  

  42. IUUQTRJJUBDPNLB[VOPSJJUFNTDFCBFDDDF  

  43.   IUUQTRJJUBDPNLB[VOPSJJUFNTDFCBFDDDF

  44.   IUUQTRJJUBDPNLB[VOPSJJUFNTDFCBFDDDF

  45. IUUQTRJJUBDPNLB[VOPSJJUFNTDFCBFDDDF  

  46.   IUUQTRJJUBDPNLB[VOPSJJUFNTDFCBFDDDF

  47. ݁࿦ ೉͍͜͠ͱ͸ߟ͑ͣʹ
 σʔλ෼ੳʹઐ೦͠Α͏ʂ
 ͱݚमͰݴ͑Δج൫Ͱ͢  

  48. #JH2VFSZͷͬ͘͟Γઆ໌   ׬

  49. ࿩͢͜ͱ ɾσʔλج൫ͷͬ͘͟Γઆ໌ ɾσʔλ෼ੳͷͬ͘͟Γઆ໌ ɾͳͥΤϯδχΞ͕σʔλ෼ੳʁ ɾ#JH2VFSZͷͬ͘͟Γઆ໌   ׬

  50. એ఻  

  51. ϝϯόʔืूத ɾϓϩμΫτ։ൃˍԾઆݕূαΠΫϧʹΑͬͯΧελϚʔʹՁ஋Λಧ͚ΔάϩʔεϋοΧʔ ɾσʔλج൫ͷ։ൃɾӡ༻ʹ͓͚ΔϕετϓϥΫςΟεΛ௥ٻ͢Δ43&ΤϯδχΞ ɾσʔλ׆༻ʹΑΔۀ຿վળʢ31"ʣͰརӹ૑ग़Λ໨ࢦ͢"1ΤϯδχΞɾ.-ΤϯδχΞ ɾσʔλ෼ੳʹΑΔҙࢥܾఆͰϓϩμΫτ։ൃΛࢧ͑ΔΞφϦετɾαΠΤϯςΟετ ɾσʔλҊ݅ਪਐ΍σʔλۦಈจԽͷৢ੒Λ୲͏σΟϨΫλʔɾۀ຿σβΠφʔ զͦ͜͸ͱ͍͏ํ͕͍Βͬ͠Ό͍·ͨ͠Βɺͥͻ͓ؾܰʹ!ZV[VUBT·Ͱ͓੠ֻ͚͍ͩ͘͞ɻ  

  52. ʢػձ͕͋Ε͹ͥͻօ༷ͱҰॹʹʣ ΍Γ͍ͨ͜ͱ ˞ݸਓͷݟղͰ͢ πʔϧɾυΩϡϝϯτɾϊ΢ϋ΢ͳͲҰࣜΛύοέʔδԽͯ͠044ͱͯ͠ެ։͍ͨ͠ ɹɹʢྫʣ
 ɹɹɹɾઃఆϑΝΠϧΛॻ͖׵͑Δ͚ͩͰσʔλج൫Λ։ൃˍӡ༻Ͱ͖ΔΑ͏ͳπʔϧ܈
 ɹɹɹɾσʔλ׆༻ͷͨΊͷҭ੒ϝχϡʔͳͲɺ֤ݱ৔Ͱͦͷ··࢖͑ΔυΩϡϝϯτ܈ 
 ࣾ಺֎ͷ͋ͪͪ͜Ͱ࢖ͬͯ΋Β͏ˠ࢈ۀશମʹ͓͚Δσʔλ׆༻Λଅਐˠ೔ຊܦࡁΛ੝Γ্͍͛ͨ
 ೥ޙʹৼΓฦͬͯʮ͋ͷऔΓ૊Έ͕͔͋ͬͨΒࠓͷ೔ຊ͕͋Δʯͱࢥ͑Δ͜ͱΛ΍Γ͍ͨ

     
  53. ͜Ε͔ΒΑΖ͓͘͠ئ͍க͠·͢   IUUQTVOTQMBTIDPNQIPUPTIQK4L66:46