Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Kaggle Tokyo Meetup 裏 #01] Way to Border Collies feat. JTC

E2dd989b2ba0f83d8a981b9cb3197bf1?s=47 mocobt
July 13, 2019

[Kaggle Tokyo Meetup 裏 #01] Way to Border Collies feat. JTC

Kaggle Tokyo Meetup 裏という身内イベントの資料です.
技術の紹介はほぼありません.
マネジメントの与太話が中心です.

E2dd989b2ba0f83d8a981b9cb3197bf1?s=128

mocobt

July 13, 2019
Tweet

Transcript

  1. 固定チームでKaggle参戦記録 ~ Way to Border Collies feat. JTC ~ @mocobt

    @icebee__
  2. Self-Introduction @mocobt @icebee__ • म࢜ଔࣾձਓ2೥໨ • ࢓ࣄ͸ۚ༥ܥͰɼҰԠݚڀһʁ • JTC KagglerͳͷͰ೔ʑExcelͱότϧ͕ͪ͠ɽͭΒ͍ɽ

    • म࢜ଔࣾձਓ2೥໨(1೥໨ʹస) • ࢓ࣄ͸CGܥͷR&DͰɼػցֶश͸΄΅ؔ܎ͳ͠ • Ian Goodfellowͷʮਂ૚ֶशʯͷྠಡձΛ։͖͍ͨ
  3. ݻఆνʔϜͰKaggle!? • େֶͷڃ༑ͰϝϯόʔݻఆͰKaggle΍ͬͯ·͢ - ౰ॳ͸2ਓͱ΋ػցֶशૉਓ • Team໊: Japanese Traditionals (ൃ଍:

    2018.5) https://github.com/JapaneseTraditionals
  4. None
  5. 2018.5 Now ࠓճ͸͜ͷظؒʹ͍ͭͯ࿩͠·͢ʂ ͷίϯϖวྺ

  6. ࠓճ࿩͢͜ͱ ݻఆνʔϜͰKaggleʹࢀՃͯ͠ಘΒΕͨ஌ݟͱ༩ଠ࿩ • Α͔ͬͨ͜ͱ • μϝͩͬͨ͜ͱ & ͡Ό͋Ͳ͏͢Ε͹͍͍ͷ͔ʁ ৘ใڞ༗ ࣮ݧ؅ཧ

    ϝϯλϧ؅ཧ
  7. ৘ใڞ༗

  8. ৘ใڞ༗ྑ͔ͬͨ͜ͱᶃ ίʔυΛڞ༗Ͱ͖ͯɼਐḿΛ೺Ѳ͠΍͔ͬͨ͢(ΞλϦϚΤ) https://github.com/JapaneseTraditionals/kaggle_Malware ίʔυ͸શ෦ڞ༗ (Private Repository) ͔͠͠ɼޓ͍ͷίʔυΛݟΔ༨༟͸͋·Γͳ͍ͷͰͦ͜·ͰԸܙ͸ͳ͍

  9. ৘ใڞ༗ྑ͔ͬͨ͜ͱᶄ arXiv ػցֶशؔ࿈ͷهࣄ/πΠʔτ ݚڀܥͷχϡʔε ޷͖ͳ੠༏ͷπΠʔτ΍ୀ৬ϒϩάͳͲͷڞ༗ ෳ਺ίϯϖͷdeadlineΛྲྀ͢ ࡉ͔͍όάͷϝϞΛissueͱͯ͠ྲྀ͢ ίϯϖͷٞ࿦ ϫʔΫεϖʔεΛྲྀ༻Ͱ͖ɼίϯϖ֎ͷ஌ࣝΛڞ༗͠΍͔ͬͨ͢ -

    Ұൠతͳٕज़ͷ࿩ΛPrivate SharingΛؾʹͤͣٞ࿦Ͱ͖Δͷ͸ݻఆνʔϜͷڧΈʂ ৭ʑ໛ࡧͨ݁͠Ռɼ͜Μͳײ͡Ͱམͪண͍ͨ
  10. ৘ใڞ༗μϝͩͬͨ͜ͱᶃ ίϯϖͷ஌ݟΛ៉ྷʹ·ͱΊͯ΋ɼίετʹݟ߹Θͳ͔ͬͨ ౰ॳ͸Scrapboxʹ·ͱΊ͍ͯͨ ͔͠͠ɼݟΔՋ͕ͳ͘෗ͬͨ SlackͰձ࿩&log༻ͷνϟϯωϧΛ࡞ͬͯɼ 1τϐοΫຖʹεϨουͰ·ͱΊΔͷ͕ଟ෼ϕετ

  11. Microsoft Malware Predictionͷ൵ܶ ৘ใڞ༗μϝͩͬͨ͜ͱᶄ ਓ਺͕૿͑ͯ΋ɼ໰୊ͷຊ࣭͕ݟ͑ͳ͍ͱ͖͸ݟ͑ͳ͔ͬͨ - ૬ํ΍Public LBΛա৴ͯ͠ɼKernel΍DiscussionΛ௥Θͳ͍ͷ͸ѱख ͳΜ͔Validationͷ࿩͕੝Γ্͕ͬͯΔ͚Ͳɼۜݍͩ͠ແࢹͰ͍͍͔ ͤ΍ͳ

    Public LB: Top 3% Private LB: Top 33%
  12. ࣮ݧ؅ཧ

  13. ࣮ݧ؅ཧྑ͔ͬͨ͜ͱ ίϯϖͷํ਑ΛܾΊ΍͔ͬͨ͢ - ࣮ݧ͕ॏෳ͢Δ͜ͱ͕গͳ͔ͬͨ - ඍົͳίϯϖͷݟ੾Γ΋͚ͭ΍͔ͬͨ͢ ؙ͍model࡞ͬͯ์ஔͰ͍͍ʁ ஫: ͨ·ͨ·Ͱ͢ ͑͑Ͱ

    Start End EDA Ϟσϧߏங ڞ༗ EDA ࿦จνΣοΫ …
  14. ࣮ݧ؅ཧμϝͩͬͨ͜ͱ ։ൃͷ஗Ε΍όάʹΑΓɼ࣮ݧ͕׬શʹࢭ·Δ͜ͱ͕͋ͬͨ - ݁Ռͱͯ͠ɼSubmit਺/day͸ͦ͜·Ͱ૿͑ͣ… ಛ௃ੜ੒Ϟδϡʔϧ։ൃ Ϟσϧ༻Ϟδϡʔϧ։ൃ ՋͳͷͰEDA ( ˘ω˘)ţźō 14:00

    24:00 ͋Δ೔ͷKaggleه࿥ - ࠷ۙ͸ίʔυ͸ڞ༗ͯ͠Ӿཡ͢Δ͚ͩͰɼมͳґଘ͸͠ͳ͍ํ਑ 14:00 24:00 ͋Δ೔ͷKaggleه࿥ ϞσϧBߏங ( ˘ω˘)ţźō ϞσϧAߏங EDA EDA ࿦จνΣοΫ ϞσϧCߏங
  15. ϝϯλϧ؅ཧ

  16. ϝϯλϧ؅ཧྑ͔ͬͨ͜ͱᶃ ࣮ྗ͕τϯτϯͳͷͰɼுΓ߹͍͕͋Δ λμ৐Γ(ίϛοτ͕গͳ͍ঢ়ଶ)ͰϝμϧΛऔΖ͏΋ͷͳΒɼ೤͍ἤΓ͕ೖΔ

  17. ϝϯλϧ؅ཧྑ͔ͬͨ͜ͱᶄ ຖ൩௨࿩͕͔͔ͬͯ͘ΔͷͰɼͱΓ͋͑ͣͷϞνϕ͸ҡ࣋Ͱ͖Δ - ஔ͍͍͔ͯΕΔͷ͸չ͍͠ͷͰɼࣾձతͳΞϨ͕ͭΒͯ͘΋ͱΓ͋͑ͣ΍Δ ʹΌʔΜ ʹΌʔΜ ʹΌʔΜ ࣾձ͕ͭΒ͘ͳΓೣʹͳͬͨஉ Validation EDA

    ίʔυ͖ͨͶ͑ Kaggle͔͠ߟ͑ΒΕͳ͘ͳͬͨஉ
  18. ϝϯλϧ؅ཧμϝͩͬͨ͜ͱ νʔϜݻఆͷ౎߹্ɼϝϯόʔͷ΍Β͔͠ͷӨڹΛड͚΍͍͢ PLAsTiCCதʹస৬͠ɼJTC(JTO)͔Β཭୤ → νʔϜ໊վশͷةػ (ͨͩ͸औΕͨͷͰͦ͜·ͰӨڹ͸…) ίϯϖத൫ͰৼΒΕΔ → ௨࿩தʹৼΒΕͨ࿩͕ͪΐͪ͜ΐ͜ग़ͯ͘ΔɽͭΒ͍ GWதʹKaggleΛ͢Δ༧ఆ͕ͩͬͨɼCivilizationʹϋϚͬͯ͠·͏

    → 5೔ؒ࿈བྷ͕औΕͳ͘ͳΓɼεέδϡʔϧ͕άμΔɽຊ౰ͷ΍Β͔͠
  19. ·ͱΊ: νʔϜΛݻఆͯ͠ಘͨ஌ݟ ৘ใڞ༗ ࣮ݧ؅ཧ ϝϯλϧ؅ཧ • هࣄ΍࿦จΛਨΕྲྀ͢νϟϯωϧΛ࡞Δͱɼؾָʹٞ࿦͕Ͱ͖ͯ( • ίϯϖͷ஌ݟ͸ΩϨΠʹ·ͱΊͳͯ͘OKɽ௨࿩Ͱे෼ •

    0subϚʔδͰ΋KernelͱDiscussion͸ݸਓͰ௥͏΂͖ • ίϯϖͷํ਑͸ܾΊ΍͍͢ • ඍົͳίϯϖΛૣΊʹ੾ΕΔ • ଞਓͷίʔυ͸ϦϑΝϨϯεఔ౓Ͱࡁ·͢ͷ͕ྑ͍ɽมͳґଘ͸μϝ • ࣮ྗ͕τϯτϯͩͱɼுΓ߹͍͕͋Δ • ຖ൩௨࿩͢Δͱ࠷௿ݶͷϞνϕʔγϣϯ͸ҡ࣋͠΍͍͢ • Kaggle͸ϝϯλϧεϙʔπ