2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
%FFQͰϙϯ🎶ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹTBOTBO %40$ੳίϯϖษڧձ)JEFIJTB"SBJ !LBHHMF@BSBJTBO1
View Slide
ࣗݾհ• ݄͔Β৽ଔ• ͔ͭͯTBOTBOͰΠϯλʔϯΛ͍ͯͨ͜͠ͱ͕͋Δ• େֶӃͷઐ߈ߤۭӉֶ͕ͩɺදݱֶशͷݚڀΛ͍ͯͨ͠• ੳίϯϖ,BHHMFҰے2
͡Ίʹ͜ͷൃදͷఆ͍ͯ͠Δର• ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔Βͳ͍,BHHMFS• ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ• ,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱΞϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥ͍ͬͯΔํ3「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには?Kaggleの解法は「何をやったのか」が書いてあっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる?TwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの?c
ཧղੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ4՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯ΘͤͯऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ղஔ՝Λখ͞ͳ՝ʹղ͢Δɻখ͞ͳ՝Λطͷʹஔ͖͑Δ「可能な書記素は約10,000あり、そのうち約1,000がトレーニングセットに含まれています。テストセットには、トレインには存在しないが新しい書記素コンポーネントがないいくつかの書記素が含まれています」ςετηοτʹະͷσʔλ͕͋ΔίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁςετηοτʹະͷσʔλ͕͋Δ0VUPG%JTUSJCVUJPO%FUFDUJPOίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ5ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ• 5SBJOͱ5FTUͷͷҧ͍• σʔλͷϊΠζྔͷࠩ• Ϋϥεͷൺͷࠩ• 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ$PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO• λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣϯ͞Ε͍ͯΔΘ͚Ͱͳ͍• $7ͱ-#͕૬ؔ͠ͳ͍https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ6ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ「ターゲットとなる鳴き声が全てアノテーションされているわけではない」「ラベルのついていないターゲットの鳴き声がデータには含まれている」「CVとLBが相関しない」「ラベルがついていない部分があるためCVの計算が不正確」対策可能な課題対策が難しい?ͱ͖ʹؒΛຒΊͯΔඞཁ͋ΔରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ7՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ「ラベルのついていないターゲットの鳴き声がデータには含まれている」ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ• ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ͳΔ• ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛ͍ͬͯͳ͍࣌Ͱେ͖͘Ͱ͖Δ• ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕΔ.JTTJOH-BCFMT「ラベルの誤りがある」-BCFM/PJTF「TrainとTestで分布が異なる」%PNBJO4IJGU
·ͱΊ8「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには?ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕͍ͬͯͳ͍ղ๏ʹͳΔKaggleの解法は「何をやったのか」が書いてあっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる?Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓɺʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘΒΕΔTwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの?ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺ্͕ͦ͜ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ