Slide 1

Slide 1 text

DSB 51st solution

Slide 2

Slide 2 text

❍Agenda 1. ࣗݾ঺հ 2. ࢀՃελϯεʹ͍ͭͯ 3. ԿΛ͔ͨ͠ 4. ࠷ऴతͳղ๏ 5. ൓ল఺ 6. ࠓޙ

Slide 3

Slide 3 text

❍ࣗݾ঺հ ɾtwitter: aryyyyy ɾWebܥΤϯδχΞɻGoͱRuby ɾΤϯδχΞͷલ͸όϯυϚϯͯ͠·ͨ͠ ɾCourseraଞͰ3ϲ݄΄Ͳษڧͯ͠kaggleೖ໳ ɾͪΌΜͱࢀՃͨ͠ͷ͸DSB͕ॳ(େมͩͬͨʂ) ɾ1݄͔Βٳ৬ͯ͠1000࣌ؒษڧ͔ͯ͠Βɺ ػցֶशΤϯδχΞʹJobνΣϯδ༧ఆ

Slide 4

Slide 4 text

❍ࢀՃελϯεʹ͍ͭͯ ɾ੒௕ΛୈҰʹߟ͑Δ → ͋Μ·ΓΤά͍probingʹ࣌ؒΛ࢖Θͳ͍ ɾkernelͲΜͲΜύΫΔɻ →kernelͱmerge͠΍͍͢Α͏ʹɺૄ݁߹ͳίʔυΛॻ͘ ɾίʔυͷࢿ࢈͸ஷΊͳ͍ → ࠷ॳͷ͏ͪ͸ຖճεΫϥον͍ͨ͠ ɾಛ௃ྔ࡞Γͷ࿅शΛ͢Δ → pandasʹ׳ΕΔͨΊʹಛʹؤுΓ͔ͨͬͨɻ

Slide 5

Slide 5 text

❍ԿΛ͔ͨ͠ • ͱΓ͋͑ͣEDA • υϝΠϯ஌ࣝೖΕΔ • KernelͱDiscussionͷΞΠσΞجຊશ෦ࢼ͢ • Kaggleຊʹॻ͍ͯ͋Δ͜ͱશ෦ࢼ͢ • ࡉ͔͍σʔλΛ͘·ͳ͘ݟΔ(۩ମతͳ΍Γํ͸ޙड़) • ࿅श݉Ͷͯͱʹ͔͘୔ࢁಛ௃ྔ࡞Δ(3000ݸҎ্) • Feature Selection • CVઓུ • Data Augmentation(test શ෦࢖͏΋ͷͱɺtrainͷpan balance౳࢖͏΋ͷ ͷΈࢼͨ͠)

Slide 6

Slide 6 text

❍ࡉ͔͍σʔλΛ͘·ͳ͘ݟΔ ྫ͑͹ɺ࣮ࡍʹήʔϜΛϓϨΠͭͭ͠ɺҎԼΛӈʹεΫϩʔϧ͍ͯ͘͠ɻ Կਓ෼΋΍Δͱɺ৭Μͳύλʔϯ͕ݟ͑ͯ͘ΔͱڞʹɺมΘͬͨߦಈΛऔΔࢠ΋ݟ͑ͯ͘Δɻ ͦͷลΓΛಛ௃ྔʹམͱ͠ࠐΜͩɻ

Slide 7

Slide 7 text

❍ಛ௃ྔʹ͍ͭͯ • ಉλΠτϧʹؔ͢Δ੒੷ɺͲΕ͘Β͍લʹϓϨΠ͔ͨ͠ɺϨίʔυ਺ͳͲͳͲɻͨ͘͞Μ • ͦͷଞήʔϜλΠτϧ(23ݸ͘Β͍)ʹ΋্هΛద༻ • Worldબ୒εϐʔυ • 'type', ‘event_code'ͳͲͳͲͷϢχʔΫ਺ • clipΛεΩοϓ͢Δࢠ͔Ͳ͏͔ɺͲΕ͘Β͍ͷׂ߹ݟ͔ͨ • happycamel, scrubadub, bubble_bathͳͲɺΫϦΞʹஈ֊͕͋Δ΋ͷɺ೉қ౓͕૿͍ͯ͠ ͘΋ͷʹؔͯ͠͸ɺͲ͜·ͰΫϦΞ͔ͨ͠ɺͦΕͧΕͷਖ਼ղ਺ͷׂ߹ͳͲ • level, round, missͳͲʹؔͯ͠ • installޙɺ࠷ॳʹ๚ΕͨλΠτϧɻԦಓͷ3λΠτϧ͔൱͔ͳͲɻੜ੒ޙtarget encodingɻ • Ұ൪࠷ۙ๚ΕͨgameͷλΠτϧʹؔ͢Δ΋ͷ • ಉ࣌ؒ͡ଳʹߜͬͯ৭ʑͳಛ௃Λ(਌ͱͷ۠ผΛ͔ͨͬͨ͠) • ্هͷதͰॏཁͦ͏ͳ΋ͷ͸weighted΋ੜ੒ • ΫϥελϦϯά(ͲͷΫϥελʹଐ͔͢ɺΫϥελͷॏ৺͔Βͷڑ཭) • ্هͷ2~3000ఔ౓ͷಛ௃ͷத͔Βॏཁͦ͏ͳ΋ͷΛֻ͚߹ΘͤΔɻ10ສҎ্ੜ੒

Slide 8

Slide 8 text

❍࠷ऴతͳղ๏1 ʲfeatureʳ ɾͦͷޙGCPͰɺ800ݸఔ౓ΛϥϯμϜͰબΜͰ10ճͷฏۉCVΛܭࢉ͢Δ͜ͱΛઍ ճ΄Ͳ܁Γฦͯ͠ɺ1൪͍͍800ݸͷ૊Έ߹ΘͤΛ୳ͨ͠ɻ໌Β͔ʹѱ͍૊Έ߹Θͤ ͸ࢬ੾Γ͢ΔͳͲͨ͠ɻfeature selectionͷࡍ͸CV͸truncatedͳ΋ͷΛ࢖༻ɻ ɾ500ݸɺ300ݸͰ΋ಉ༷ʹͯ͠ɺ࠷ޙʹࠞͥͨɻͱʹ͔͘ಛ௃ྔબ୒͕͏·͍͔͘ ͳ͔ͬͨΑ͏ʹײ͍ͯͨ͡ͷͰɺۤ೑ͷࡦͰଟ༷ੑΛ࣋ͨͤͨɻ(݁ہҙຯ͸ແ͠ɻ 800ݸ͚ͩͩͱTOP1%ͩͬͨ) ʲvalidationʳ ɾCV͸Stratified Group KFoldɻ ɾ࠷ऴతͳֶशͷࡍ͸CV͸truncateͤͣɻPLBܹ͘͠Լ͕ͬͨͷͰɻ(truncateͨ͠ํ ͕private͸ྑ͔ͬͨ)

Slide 9

Slide 9 text

❍࠷ऴతͳղ๏2 ʲmodelʳ ɾLightGBMͱXgboostͱNNΛγϯϓϧͳΞϯαϯϒϧɻ6:2:2 ͰࠞͥͨɻLightGBMͱXgboost͸ಉ͡ಛ௃ྔɻNN͸kernelʹগ ͠ಛ௃ྔ଍͚ͨͩ͠ͷ΋ͷɻNN͸୯ମͩͱPLB0.520͘Β͍ɻࠞ ͥΔ͔໎͕ͬͨɺPLBͷ޲্͕͋ͬͨͷͰ2ׂ͚ͩೖΕͨɻ ʲthresholdsʳ ɾᮢ஋͸શ͘Θ͔Βͳ͔ͬͨͷͰɺ2αϒ͜͜Ͱ࢖ͬͨɻkernel Ͱྲྀߦ͍ͬͯͨɺ෼෍ʹै͏΋ͷͱoptimizerͰܭࢉ͢Δ΋ͷɻ optimizerͰܭࢉ͢Δ΋ͷ͕ྑ͔͕ͬͨɺ͋·Γࠩ͸ͳ͔ͬͨɻ

Slide 10

Slide 10 text

❍൓ল఺ ɾςετॻ͍ͨํָ͕͔ͩͬͨ΋ → 1ϲ݄Ҏ্ͱ͔ίϛοτ͢ΔΜͩͬͨΒɺςετॻ͍ͨํ͕݁ہ࣌ؒ୹ॖʹͳΓͦ͏ ɾத్൒୺ʹprobingͯ͠AugumentationࣙΊͯ͠·ͬͨ → private testΛ଍ͨ͠CVΛprobͨ͠ΒԼ͕͍ͬͯͨͷͰࣙΊ͕ͨɺ଍͠ํͷ޻෉͕ॆ෼Ͱͳ͔ͬͨ ɾ৭ΜͳཤྺΛϑΝΠϧͰ࢒͓͚ͯ͠͹Α͔ͬͨ → ΈΜͳ΍ͬͯ·͢ʁ001_features.pyΈ͍ͨͳ΍ͭͱ͔࣮ݧ݁ՌͷཤྺͷςΩετ࢒͢ͱ͔… ɾPLBʹৼΓճ͞Εͯ͠·ͬͨɻ(Discussion΍νʔϜϚʔδͰ΋݁ߏΈΜͳPLBॏཁࢹ͍ͯͨ͠ͷͰ…) → DiscussionͰ΋ɺڧ͍ਓ͸PLB౰ͯʹͳΒͳ͍ͱݴ͍ͬͯΔ܏޲͕͋ͬͨΑ͏ʹࢥ͏ɻؒҧͬͨҙݟ ΋͋Δͱೝࣝ͢΂͖ͩͬͨ ɾFeature Selection͕ͱʹ͔͘͏·͍͔͘ͳ͔ͬͨ(Α͏ʹݟ͑ͨ) →͜Ε΋PLBΛա౓ʹࢀߟʹͯ͠͠·ͬͨͨΊɻࢀߟʹͳΒͳ͍ίϯϖ΋͋Δͱ஌ͬͨ →late subʹΑΔͱɺී௨ʹfeature importanceͰ΋͍͍͠ɺnull importance΋ྑ͔ͬͨɻpermutation importance͸ͪΐͬͱඍົ ɾ్த͔Βfast sub࢖͍͗ͯ͢privateͷscore͕0ͷ͹͔ͬΓʹͳͬͯ͠·ͬͨɺ෮श·Ͱߟ͑Δ΂͖ͩͬ ͨ ɾਫ਼౓্͕Βͳͯ͘࠷ޙͷ1ϲ݄͸μϨͯ͠·ͬͨ

Slide 11

Slide 11 text

❍ࠓޙ ɾجຊతʹग़Δίϯϖ͸શͯۚϝμϧΛ໨ࢦ ͢ɻ ɾ౷ܭͳͲɺجૅͷษڧ΋ͯ͠ɺػցֶशશ ൠʹରͯ͠ɺΑΓਂ͍ཧղΛ͍͖͍ͯͨ͠ɻ ɾνʔϜ૊ΜͩΒҰॹʹؤுΓ·͠ΐ͏ʂʂ