Save 37% off PRO during our Black Friday Sale! »

はじめての機械学習 / Entrance to Machine Learning

はじめての機械学習 / Entrance to Machine Learning

D07d36d7d3263da869c7d030ba4a64a6?s=128

松村優哉

April 17, 2021
Tweet

Transcript

  1. ͸͡Ίͯͷػցֶश !Z@@NBUUV  5PLZP3 

  2. ୭ʁ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング (研究室のAWSの管理とかもやってた) •

    ⾔語: R, Python • HR系企業でデータサイエンティストしてます • Tokyo.R 運営(初⼼者セッション等) @y__mattu ymattu 2
  3. એ఻ • Ӊ஦ຊ͜ͱʰ3ϢʔβͷͨΊͷ34UVEJP<࣮ફ>ೖ໳ʱ 3 ୈষ 3TUVEJPͷجૅ ୈষ εΫϨΠϐϯάʹΑΔσʔλऩू ୈষ EQMZSUJEZSʹΑΔσʔλલॲཧ

    ୈষ HHQMPUʹΑΔσʔλՄࢹԽ ୈষ 3.BSLEPXOʹΑΔσʔλՄࢹԽ  վగୈ൛ൃചܾఆʂʂʂ ओͳมߋ఺ • ࠷৽ͷ34UVEJP ֤छύοέʔδʹରԠ • จࣈྻૢ࡞ʢTUSJOHSʣ΍೔෇ૢ࡞ʢMVCSJEBUFʣʹؔ͢Δ෇࿥
  4. ໨࣍ • ػցֶशͱ͸ • ڭࢣ͋Γֶश WTڭࢣͳֶ͠श • ෼ྨ WTճؼ •

    Ϟσϧબ୒ • 3Ͱػցֶश 4
  5. ͜ͷࢿྉͷର৅ɾ໨త ର৅ • ʮػցֶशʯͱ͍͏ݴ༿ΛॳΊͯฉ͘ • ͜Ε͔Βσʔλ෼ੳΛษڧ͢Δ ໨త • ʮػցֶशͬͯ݁ہԿΛ΍ͬͯΔͷʁʯΛͬ͘͟Γཧղ͢Δ •

    ʮػցֶश ೉͍͠ʯPSʮػցֶशͬͯ"*ͰΊͬͪΌ͍͢͝ʯͱ͍͏Π ϝʔδͷ෷১ • ͜Ε͔Βษڧ͢Δͱ͖ͷ͓࣋ͬͯ͘ͱ͍͍ΠϝʔδΛ਎ʹ͚ͭΔ • Α͘ग़ͯ͘ΔΩʔϫʔυͷཧղ ࿩͞ͳ͍͜ͱ • ਺ࣜʹΑΔղઆ 5
  6. ػցֶशͱ͸ 6 • ⼀⾔で σʔλ͔ΒύλʔϯΛೝࣝ͠ɺ ະ஌ͷ౴͑Λ༧ଌ͢ΔͨΊͷϧʔϧΛ ࣗಈతʹ࡞Γग़͢Α͏ʹɺ ϚγϯʢίϯϐϡʔλʣΛτϨʔχϯά͢Δ

  7. ؆୯ͳΠϝʔδ 7 • 残業時間と退職のデータがあったとします • 残業時間で退職の有無をおよそ判断できるように、線を引く =パターン認識 ࢒ۀ࣌ؒ 退職した 退職しない

        ࢒ۀ࣌ؒ    
  8. ؆୯ͳΠϝʔδ 8 • 新しいデータが得られたとき、引いた線によって、退職の有無を予 測できる ࢒ۀ࣌ؒ    

    アルゴリズム データ モデル 線の引き⽅ 線が引かれている状態
  9. ڭࢣ͋Γֶश WTڭࢣͳֶ͠श

  10. ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 10 • ڭࢣ͋Γֶश • աڈͷσʔλͷதʹϥϕϧ͕͋Δ • Ϟσϧͷத਎͸ɺϥϕϧΛ༧ଌ͢ΔͨΊͷϧʔϧ ୀ৬ 1

    0 0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ໨తม਺ ैଐม਺ આ໌ม਺ ಠཱม਺ ༧ଌม਺ ಛ௃ྔ
  11. ڭࢣ͋Γֶशͷ୅දతͳΞϧΰϦζϜ 11 • ઢܗճؼ • ϩδεςΟοΫճؼɺ(-. • 47. • ܾఆ໦ɺϥϯμϜϑΥϨετ

    • 9(#PPTUɺ-JHIU(#. ΄͔ʹ΋ͨ͘͞Μ
  12. 12 ୀ৬ 1 0 0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩

    ɾɾɾ アルゴリズム モデル ୀ৬ ︖ ︖ ︖ ︖ ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ୀ৬ 0 0 1 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ༧ଌ
  13. ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 13 • ڭࢣͳֶ͠श • աڈͷσʔλͷதʹϥϕϧ͕ͳ͍ • Ϟσϧͷத਎͸ɺάϧʔϓ෼͚ͷϧʔϧ • ϥϕϧ͸ɺ෼͚ΒΕͨ݁ՌΛݟͯਓ͕͚ͭΔ

    ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ આ໌ม਺ ಠཱม਺ ༧ଌม਺ ಛ௃ྔ ࢒ۀɾଟ څ༩ɾଟ ࢒ۀɾগ څ༩ɾଟ
  14. ڭࢣͳֶ͠शͷ୅දతͳΞϧΰϦζϜ 14 • ΫϥελϦϯά • ,NFBOT • ओ੒෼෼ੳ • ҟৗݕ஌

    • τϐοΫϞσϧ ΄͔ʹ΋ͨ͘͞Μ
  15. ͔͜͜Β͸ɺڭࢣ͋Γֶशʹ য఺Λ౰ͯͯ

  16. ෼ྨ WTճؼ

  17. ෼ྨͱճؼ 17 • ෼ྨ • ໨తม਺͕ΧςΰϦʔ • ճؼ • ໨తม਺͕਺஋

    ࣙΊΔʁࣙΊͳ͍ʁ ݘʁೣʁϥΠΦϯʁ དྷظͷड஫਺͸ʁ དྷళ਺͸ʁ גՁ͸ʁ ೋ஋෼ྨ ଟ஋෼ྨɾଟΫϥε෼ྨ
  18. Ϟσϧબ୒ Ϟσϧͷ౰ͯ͸·Γͱ൚Խੑ

  19. Ϟσϧબ୒ 19 • Ұ൪ྑ͍ઢͷҾ͖ํ͸ʁ • ֶशσʔλʹର͢Δਫ਼౓ • ະ஌ͷσʔλʹର͢Δ༧ଌྗ څྉ ࢒ۀ࣌ؒ

    ສ ສ     
  20. Ϟσϧબ୒ 20 • ڀۃతʹ͸ɺ͜͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະ஌ͷσʔλʹର͢Δ༧ଌྗऑͦ͏ څྉ ࢒ۀ࣌ؒ

    ສ ສ      ະ஌ͷσʔλ͕͜͜ͷͱ͖ɺ Ϟσϧ͸ͲͪΒͱ༧ଌ͢Δʁ
  21. Ϟσϧબ୒ 21 • ͜ͷ͘Β͍͕όϥϯεྑͦ͞͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະ஌ͷσʔλʹର͢Δ༧ଌྗڧͦ͏ څྉ ࢒ۀ࣌ؒ

    ສ ສ     
  22. Ϟσϧબ୒ 22 • ະ஌ͷσʔλ΁ͷ༧ଌྗڧͦ͏ɺऑͦ͏ΛͲ͏൑அ͢Δ͔ʁ ˠσʔλΛֶश༻ɺςετ༻ʹ෼ׂͯ͠ɺςετ༻Ͱ༧ଌྗΛଌΔ • ࢀߟΫϩεόϦσʔγϣϯ ୀ৬ 1 0

    0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ֶश༻ ςετ༻ ϥϯμϜʹ͘Β͍͕ଟ͍ IUUQTRJJUBDPN5BLBZPTIJ@.BLBCFJUFNTEFFEDCBC
  23. ෼ྨΛ3Ͱ΍ͬͯΈΔ

  24. ѻ͏σʔλ 24 • ペンギンデータ JOTUBMMQBDLBHFT QBMNFSQFOHVJOT MJCSBSZ QBMNFSQFOHVJOT  EBUB

    QBDLBHFQBMNFSQFOHVJOT` IFBE QFOHVJOT  "UJCCMFY TQFDJFTJTMBOECJMM@MFOHUI@NN CJMM@EFQUI@NN GMJQQFS@MFOHUI@ʜCPEZ@NBTT@H TFY GDUGDUECMECMJOUJOUGDU "EFMJF5PSHFʜNBMF "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜ/"/"/"/"/" "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜNBMF ʜXJUINPSFWBSJBCMFZFBSJOU EBU  QFOHVJOT EQMZSGJMUFS JTOB TFY TFY͕ܽଛͷྻΛআ֎
  25. ܾఆ໦Ϟσϧ 25 σʔλΛ෼ׂ JEY  TBNQMF OSPX EBU OSPX EBU

      EBUBUSBJO  EBU<JEY > EBUBUFTU  EBU<JEY > NPEFMEU  QBSUZLJUDUSFF TQFDJFTd EBUBEBUBUSBJO QMPU NPEFMEU UZQFTJNQMF
  26. ϥϯμϜϑΥϨετ 26 IUUQTTQFBLFSEFDLDPNLBOBVHVTUFYQMPSBUPSZTFNJOBOVNCFSKJKJFYVFYJ TMJEF

  27. ϥϯμϜϑΥϨετ 27 NPEFMSG  SBOHFSSBOHFS TQFDJFTd EBUBEBUBUSBJO NUSZ  OVNUSFFT

    SFTVMUSG  QSFEJDU NPEFMEU EBUBUFTU DNSG  DBSFUDPOGVTJPO.BUSJY SFTVMUSG EBUBUFTUTQFDJFT $POGVTJPO.BUSJYBOE4UBUJTUJDT  3FGFSFODF 1SFEJDUJPO"EFMJF$IJOTUSBQ(FOUPP "EFMJF $IJOTUSBQ (FOUPP  0WFSBMM4UBUJTUJDT  "DDVSBDZ $*   /P*OGPSNBUJPO3BUF 17BMVF<"DD/*3>F ɾɾɾ
  28. ·ͱΊ

  29. ·ͱΊ 29 • 機械学習は、要するにパターン認識 • データをマッピングして、線を引くイメージ • ⽅法として、教師あり学習と教師なし学習がある • 教師あり→データにラベルがある

    • 教師なし→データにラベルがない • ラベルが数値の場合、回帰。ラベルがカテゴリの場合、分類。 • モデルの当てはまり・汎化性に気をつけよう • Rでは様々なアルゴリズムに対応するパッケージが⽤意されている • 使ってみて、統⼀感がないなあと思う場合はtidymodelsもおすすめ