脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

by Hidehisa Arai

Slide 1

Slide 1 text

୤%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$෼ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1

Slide 2

Slide 2 text

ࣗݾ঺հ • ݄͔Β৽ଔ೥໨ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈͸ߤۭӉ஦޻ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ • ෼ੳίϯϖ͸,BHHMFҰے 2

Slide 3

Slide 3 text

͸͡Ίʹ ͜ͷൃදͷ૝ఆ͍ͯ͠Δର৅ • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͹͍͍͔෼͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍ͪ෼͔ͬͨؾʹͳΕͳ͍ํ • ,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには？ Kaggleの解法は「何をやったのか」が書いてあっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる？ TwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの？c

Slide 4

Slide 4 text

ཧղ ෼ੳίϯϖ͕΋ͬͱ໘ന͘ͳΔεςοϓ 4 ՝୊ͷ೉͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰ͸ɺͨͩ$//ʹ৯Θͤͯ ऴΘΓ΍ʂͱ͍͏՝୊͸·ͣग़ͳ͍ ෼ղ ஔ׵ ՝୊Λখ͞ͳ՝୊ʹ෼ղ͢Δɻ খ͞ͳ՝୊Λط஌ͷ໰୊ʹஔ͖׵͑Δ 「可能な書記素は約10,000あり、そのうち約1,000がトレーニングセットに含まれています。テストセットには、トレインには存在しないが新しい書記素コンポーネントがないいくつかの書記素が含まれています」 ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH

Slide 5

Slide 5 text

εςοϓᶃ ՝୊Λཧղ͢Δ 5 ʮը૾Λ෼ྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫ͸ͦΕҎ֎ʹผͷ೉͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕೉͍͔͠ɺͱ͍͏ͷ͸ʮ%BUB%FTDSJQUJPOʯ΍ʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ΋͋Δ • 5SBJOͱ5FTUͷ෼෍ͷҧ͍ • σʔλͷϊΠζྔͷࠩ • Ϋϥεͷൺ཰ͷࠩ • 5FTUʹ͸5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖੠͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱ͸ͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a

Slide 6

Slide 6 text

εςοϓᶄ ՝୊Λ෼ղ͢Δ 6 ݟ͔ͭͬͨ՝୊͕ͦΕͧΕͲͷΑ͏ͳؔ܎ʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝୊͕ग़ͯ͘Δ·Ͱ෼ղ͢Δ 「ターゲットとなる鳴き声が全てアノテーションされているわけではない」「ラベルのついていないターゲットの鳴き声がデータには含まれている」「CVとLBが相関しない」「ラベルがついていない部分があるためCVの計算が不正確」対策可能な課題対策が難しい？ ͱ͖ʹ͸ؒΛຒΊ ͯ΍Δඞཁ΋͋Δ ରࡦΛࢥ͍͚ͭ͹ʮରࡦՄೳͳ՝୊ʯ

Slide 7

Slide 7 text

εςοϓᶅ ՝୊Λஔ͖׵͑Δ 7 ՝୊Λط஌ͷྨࣅͷ՝୊ʹஔ͖׵͑Δ 「ラベルのついていないターゲットの鳴き声がデータには含まれている」 ͳͥஔ͖׵͑Λ͢Δͷ͔ʁ ମܥԽ͞Εͨ஌ࣝΛ࢖͑Δ • ࣗ෼͕೰ΉΑ͏ͳ՝୊͸େମಉ͜͡ͱʹ೰Μ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶ໰ମܥͷݴ༿ʹஔ͖׵͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹ͸໰୊ͷ෼ղͷղ૾౓্͕͕Δ ίϯϖͷ՝୊Λந৅Խ͢Δ͜ͱͰࠓޙͷίϯϖͰ ΋ͦͷܦݧΛ׆͔ͤΔ ʮط஌ͷྨࣅͷ՝୊ʯͷϓʔϧ͸,BHHMFΛ΍ͬͯ ͍ͳ͍࣌Ͱ΋େ͖͘Ͱ͖Δ • ,BHHMFΛ΍͍ͬͯͳͯ͘΋,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU

Slide 8

Slide 8 text

·ͱΊ 8 「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには？ ཧղɾ෼ղɾஔ׵ͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝୊Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ΍͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いてあっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる？ Ͳ͏͍͏՝୊͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹ஫໨ͯ͠ߟ͑Δͱ্Ґͷղ๏ʹ͸ೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの？ ϋΠύϥνϡʔχϯά΋Ξϯαϯϒϧ΋౰વେ ࣄ͕ͩɺݸʑͷ՝୊ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ