Slide 1

Slide 1 text

͸͡Ίͯͷػցֶश !Z@@NBUUV 5PLZP3

Slide 2

Slide 2 text

୭ʁ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング (研究室のAWSの管理とかもやってた) • ⾔語: R(8年⽬くらい), Python • TVCM中⼼の広告系企業で データサイエンティストしてます • Tokyo.R 運営(初⼼者セッション等) • 近況: 引っ越しました(練⾺区⺠→世⽥⾕区⺠) @y__mattu ymattu 2

Slide 3

Slide 3 text

એ఻ • Ӊ஦ ધ ຊ͜ͱʰ<վఆ൛>3ϢʔβͷͨΊͷ34UVEJP<࣮ફ>ೖ໳ʱ 3 ୈষ 3TUVEJPͷجૅ ୈষ εΫϨΠϐϯάʹΑΔσʔλऩू ୈষ EQMZSUJEZSʹΑΔσʔλલॲཧ ୈষ HHQMPUʹΑΔσʔλՄࢹԽ ୈষ 3.BSLEPXOʹΑΔσʔλՄࢹԽ ޷ධൃചதʂʂ

Slide 4

Slide 4 text

໨࣍ • ػցֶशͱ͸ • ڭࢣ͋Γֶश WTڭࢣͳֶ͠श • ෼ྨ WTճؼ • Ϟσϧબ୒ • 3Ͱػցֶश 4

Slide 5

Slide 5 text

͜ͷࢿྉͷର৅ɾ໨త ର৅ • ʮػցֶशʯͱ͍͏ݴ༿Λฉ͍ͨ͜ͱ͕͋Δ͕Α͘Θ͔Βͳ͍ • ͜Ε͔Βσʔλ෼ੳΛษڧ͢Δ ໨త • ʮػցֶशͬͯ݁ہԿΛ΍ͬͯΔͷʁʯΛͬ͘͟Γཧղ͢Δ • ʮػցֶश ೉͍͠ʯPSʮػցֶशͬͯ"*ͰΊͬͪΌ͍͢͝ʯͱ͍͏Π ϝʔδͷ෷১ • ͜Ε͔Βษڧ͢Δͱ͖ͷ͓࣋ͬͯ͘ͱ͍͍ΠϝʔδΛ਎ʹ͚ͭΔ • Α͘ग़ͯ͘ΔΩʔϫʔυͷཧղ ࿩͞ͳ͍͜ͱ • ਺ࣜʹΑΔղઆ 5

Slide 6

Slide 6 text

ػցֶशͱ͸ 6 • ⼀⾔で σʔλ͔ΒύλʔϯΛೝࣝ͠ɺ ະ஌ͷ౴͑Λ༧ଌ͢ΔͨΊͷϧʔϧΛ ࣗಈతʹ࡞Γग़͢Α͏ʹɺ ϚγϯʢίϯϐϡʔλʣΛτϨʔχϯά͢Δ

Slide 7

Slide 7 text

؆୯ͳΠϝʔδ 7 • 残業時間と退職のデータがあったとします • 残業時間で退職の有無をおよそ判断できるように、線を引く =パターン認識 ࢒ۀ࣌ؒ 退職した 退職しない ࢒ۀ࣌ؒ

Slide 8

Slide 8 text

؆୯ͳΠϝʔδ 8 • 新しいデータが得られたとき、引いた線によって、退職の有無を予 測できる ࢒ۀ࣌ؒ アルゴリズム データ モデル 線の引き⽅ 線が引かれている状態

Slide 9

Slide 9 text

ڭࢣ͋Γֶश WTڭࢣͳֶ͠श

Slide 10

Slide 10 text

ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 10 • ڭࢣ͋Γֶश • աڈͷσʔλͷதʹϥϕϧ͕͋Δ • Ϟσϧͷத਎͸ɺϥϕϧΛ༧ଌ͢ΔͨΊͷϧʔϧ ୀ৬ 1 0 0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ໨తม਺ ैଐม਺ આ໌ม਺ ಠཱม਺ ༧ଌม਺ ಛ௃ྔ

Slide 11

Slide 11 text

ڭࢣ͋Γֶशͷ୅දతͳΞϧΰϦζϜ 11 • ઢܗճؼ • ϩδεςΟοΫճؼɺ(-. • 47. • ܾఆ໦ɺϥϯμϜϑΥϨετ • 9(#PPTUɺ-JHIU(#.

Slide 12

Slide 12 text

12 ୀ৬ 1 0 0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ アルゴリズム モデル ୀ৬ ︖ ︖ ︖ ︖ ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ୀ৬ 0 0 1 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ༧ଌ

Slide 13

Slide 13 text

ͲͷΑ͏ʹϞσϧΛֶश͢Δ͔ 13 • ڭࢣͳֶ͠श • աڈͷσʔλͷதʹϥϕϧ͕ͳ͍ • Ϟσϧͷத਎͸ɺάϧʔϓ෼͚ͷϧʔϧ • ϥϕϧ͸ɺ෼͚ΒΕͨ݁ՌΛݟͯਓ͕͚ͭΔ ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ આ໌ม਺ ಠཱม਺ ༧ଌม਺ ಛ௃ྔ ࢒ۀɾଟ څ༩ɾଟ ࢒ۀɾগ څ༩ɾଟ

Slide 14

Slide 14 text

ڭࢣͳֶ͠शͷ୅දతͳΞϧΰϦζϜ 14 • ΫϥελϦϯά • ,NFBOT • ओ੒෼෼ੳ • ҟৗݕ஌ • τϐοΫϞσϧ

Slide 15

Slide 15 text

͔͜͜Β͸ɺڭࢣ͋Γֶशʹ য఺Λ౰ͯͯ

Slide 16

Slide 16 text

෼ྨ WTճؼ

Slide 17

Slide 17 text

෼ྨͱճؼ 17 • ෼ྨ • ໨తม਺͕ΧςΰϦʔ • ճؼ • ໨తม਺͕਺஋ ࣙΊΔʁࣙΊͳ͍ʁ ݘʁೣʁϥΠΦϯʁ དྷظͷड஫਺͸ʁ དྷళ਺͸ʁ גՁ͸ʁ ೋ஋෼ྨ ଟ஋෼ྨɾଟΫϥε෼ྨ

Slide 18

Slide 18 text

Ϟσϧબ୒ Ϟσϧͷ౰ͯ͸·Γͱ൚Խੑ

Slide 19

Slide 19 text

Ϟσϧબ୒ 19 • Ұ൪ྑ͍ઢͷҾ͖ํ͸ʁ • ֶशσʔλʹର͢Δਫ਼౓ • ະ஌ͷσʔλʹର͢Δ༧ଌྗ څྉ ࢒ۀ࣌ؒ ສ ສ

Slide 20

Slide 20 text

Ϟσϧબ୒ 20 • ڀۃతʹ͸ɺ͜͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະ஌ͷσʔλʹର͢Δ༧ଌྗऑͦ͏ څྉ ࢒ۀ࣌ؒ ສ ສ ະ஌ͷσʔλ͕͜͜ͷͱ͖ɺ Ϟσϧ͸ͲͪΒͱ༧ଌ͢Δʁ

Slide 21

Slide 21 text

Ϟσϧબ୒ 21 • ͜ͷ͘Β͍͕όϥϯεྑͦ͞͏ • ֶशσʔλʹର͢Δ༧ଌྗ • ະ஌ͷσʔλʹର͢Δ༧ଌྗڧͦ͏ څྉ ࢒ۀ࣌ؒ ສ ສ

Slide 22

Slide 22 text

Ϟσϧબ୒ 22 • ະ஌ͷσʔλ΁ͷ༧ଌྗڧͦ͏ɺऑͦ͏ΛͲ͏൑அ͢Δ͔ʁ ˠσʔλΛֶश༻ɺςετ༻ʹ෼ׂͯ͠ɺςετ༻Ͱ༧ଌྗΛଌΔ • ࢀߟΫϩεόϦσʔγϣϯ ୀ৬ 1 0 0 1 ࢒ۀ ࣌ؒ ೥ྸ څ༩ ɾɾɾ ֶश༻ ςετ༻ ϥϯμϜʹ͘Β͍͕ଟ͍ [email protected]

Slide 23

Slide 23 text

෼ྨΛ3Ͱ΍ͬͯΈΔ

Slide 24

Slide 24 text

ѻ͏σʔλ 24 • ペンギンデータ JOTUBMMQBDLBHFT QBMNFSQFOHVJOT MJCSBSZ QBMNFSQFOHVJOT EBUB QBDLBHFQBMNFSQFOHVJOT` IFBE QFOHVJOT "UJCCMFY TQFDJFTJTMBOECJMM@MFOHUI@NN CJMM@EFQUI@NN GMJQQFS@MFOHUI@ʜCPEZ@NBTT@H TFY GDUGDUECMECMJOUJOUGDU "EFMJF5PSHFʜNBMF "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜ/"/"/"/"/" "EFMJF5PSHFʜGFNBʜ "EFMJF5PSHFʜNBMF ʜXJUINPSFWBSJBCMFZFBSJOU EBU QFOHVJOT EQMZSGJMUFS JTOB TFY TFY͕ܽଛͷྻΛআ֎

Slide 25

Slide 25 text

ܾఆ໦Ϟσϧ 25 σʔλΛ෼ׂ JEY TBNQMF OSPX EBU OSPX EBU EBUBUSBJO EBU EBUBUFTU EBU<JEY > NPEFMEU QBSUZLJUDUSFF TQFDJFTd EBUBEBUBUSBJO QMPU NPEFMEU UZQFTJNQMF

Slide 26

Slide 26 text

ϥϯμϜϑΥϨετ 26 IUUQTXXXOJLLFJSDPKQHMPTTBSZJE

Slide 27

Slide 27 text

ϥϯμϜϑΥϨετ 27 NPEFMSG SBOHFSSBOHFS TQFDJFTd EBUBEBUBUSBJO NUSZ OVNUSFFT SFTVMUSG QSFEJDU NPEFMEU EBUBUFTU DNSG DBSFUDPOGVTJPO.BUSJY SFTVMUSG EBUBUFTUTQFDJFT $POGVTJPO.BUSJYBOE4UBUJTUJDT 3FGFSFODF 1SFEJDUJPO"EFMJF$IJOTUSBQ(FOUPP "EFMJF $IJOTUSBQ (FOUPP 0WFSBMM4UBUJTUJDT "DDVSBDZ $* /P*OGPSNBUJPO3BUF 17BMVF<"DD/*3>F ɾɾɾ

Slide 28

Slide 28 text

·ͱΊ

Slide 29

Slide 29 text

·ͱΊ 29 • 機械学習は、要するにパターン認識 • データをマッピングして、線を引くイメージ • ⽅法として、教師あり学習と教師なし学習がある • 教師あり→データにラベルがある • 教師なし→データにラベルがない • ラベルが数値の場合、回帰。ラベルがカテゴリの場合、分類。 • モデルの当てはまり・汎化性に気をつけよう • Rでは様々なアルゴリズムに対応するパッケージが⽤意されている • 使ってみて、統⼀感がないなあと思う場合はtidymodelsもおすすめ