脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

୤%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$෼ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1

ࣗݾ঺հ • ݄͔Β৽ଔ೥໨ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈͸ߤۭӉ஦޻ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ෼ੳίϯϖ͸,BHHMFҰے 2

͸͡Ίʹ ͜ͷൃදͷ૝ఆ͍ͯ͠Δର৅ • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͹͍͍͔෼͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍ͪ෼͔ͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには？ Kaggleの解法は「何をやったのか」が書いてあっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる？ TwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの？c

ཧղ ෼ੳίϯϖ͕΋ͬͱ໘ന͘ͳΔεςοϓ 4 ՝୊ͷ೉͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰ͸ɺͨͩ$//ʹ৯Θͤͯ ऴΘΓ΍ʂͱ͍͏՝୊͸·ͣग़ͳ͍ ෼ղ ஔ׵ ՝୊Λখ͞ͳ՝୊ʹ෼ղ͢Δɻ খ͞ͳ՝୊Λط஌ͷ໰୊ʹஔ͖׵͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニングセットに含まれています。テストセットには、トレインには存在しないが新しい書記素コンポーネントがないいくつかの書記素が含まれています」 ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH

εςοϓᶃ ՝୊Λཧղ͢Δ 5 ʮը૾Λ෼ྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫ͸ͦΕҎ֎ʹผͷ೉͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕೉͍͔͠ɺͱ͍͏ͷ͸ʮ%BUB%FTDSJQUJPOʯ΍ʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ΋͋Δ • 5SBJOͱ5FTUͷ෼෍ͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺ཰ͷࠩ • 5FTUʹ͸5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖੠͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱ͸ͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a

εςοϓᶄ ՝୊Λ෼ղ͢Δ 6 ݟ͔ͭͬͨ՝୊͕ͦΕͧΕͲͷΑ͏ͳؔ܎ʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝୊͕ग़ͯ͘Δ·Ͱ෼ղ͢Δ 「ターゲットとなる鳴き声が全てアノテーションされているわけではない」「ラベルのついていないターゲットの鳴き声がデータには含まれている」「CVとLBが相関しない」
「ラベルがついていない部分があるためCVの計算が不正確」対策可能な課題対策が難しい？ ͱ͖ʹ͸ؒΛຒΊ ͯ΍Δඞཁ΋͋Δ ରࡦΛࢥ͍͚ͭ͹ʮରࡦՄೳͳ՝୊ʯ

εςοϓᶅ ՝୊Λஔ͖׵͑Δ 7 ՝୊Λط஌ͷྨࣅͷ՝୊ʹஔ͖׵͑Δ 「ラベルのついていないターゲットの鳴き声がデータには含まれている」 ͳͥஔ͖׵͑Λ͢Δͷ͔ʁ ମܥԽ͞Εͨ஌ࣝΛ࢖͑Δ
• ࣗ෼͕೰ΉΑ͏ͳ՝୊͸େମಉ͜͡ͱʹ೰Μ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶ໰ମܥͷݴ༿ʹஔ͖׵͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹ͸໰୊ͷ෼ղͷղ૾౓্͕͕Δ ίϯϖͷ՝୊Λந৅Խ͢Δ͜ͱͰࠓޙͷίϯϖͰ ΋ͦͷܦݧΛ׆͔ͤΔ ʮط஌ͷྨࣅͷ՝୊ʯͷϓʔϧ͸,BHHMFΛ΍ͬͯ ͍ͳ͍࣌Ͱ΋େ͖͘Ͱ͖Δ • ,BHHMFΛ΍͍ͬͯͳͯ͘΋,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU

·ͱΊ 8 「モデルの変更」、「Data Augmentationを⾊々試す」、「学習パラメータをいじる」など誰もが思いつくことの範囲を超えるためには？ ཧղɾ෼ղɾஔ׵ͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝୊Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ΍͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていないこともある、どうすればそこを掴めるようになる？ Ͳ͏͍͏՝୊͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹ஫໨ͯ͠ߟ͑Δͱ্Ґͷղ๏ʹ͸ೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチューニングゲーとかアンサンブルゲーと⾔われることを嫌うけど、実際何が違うの？ ϋΠύϥνϡʔχϯά΋Ξϯαϯϒϧ΋౰વେ ࣄ͕ͩɺݸʑͷ՝୊ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

Hidehisa Arai

More Decks by Hidehisa Arai

Other Decks in Technology

Featured

Transcript

୤%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$෼ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1

ࣗݾ঺հ • ݄͔Β৽ଔ೥໨ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈͸ߤۭӉ஦޻ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ

͸͡Ίʹ ͜ͷൃදͷ૝ఆ͍ͯ͠Δର৅ • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͹͍͍͔෼͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍ͪ෼͔ͬͨؾʹͳΕͳ͍ํ •

ཧղ ෼ੳίϯϖ͕΋ͬͱ໘ന͘ͳΔεςοϓ 4 ՝୊ͷ೉͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰ͸ɺͨͩ$//ʹ৯Θͤͯ ऴΘΓ΍ʂͱ͍͏՝୊͸·ͣग़ͳ͍ ෼ղ ஔ׵ ՝୊Λখ͞ͳ՝୊ʹ෼ղ͢Δɻ খ͞ͳ՝୊Λط஌ͷ໰୊ʹஔ͖׵͑Δ

εςοϓᶃ ՝୊Λཧղ͢Δ 5 ʮը૾Λ෼ྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫ͸ͦΕҎ֎ʹผͷ೉͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕೉͍͔͠ɺͱ͍͏ͷ͸ʮ%BUB%FTDSJQUJPOʯ΍ʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ΋͋Δ • 5SBJOͱ5FTUͷ෼෍ͷҧ͍ • σʔλͷϊΠζྔͷࠩ

εςοϓᶅ ՝୊Λஔ͖׵͑Δ 7 ՝୊Λط஌ͷྨࣅͷ՝୊ʹஔ͖׵͑Δ 「ラベルのついていないターゲットの鳴き声がデータには含まれている」 ͳͥஔ͖׵͑Λ͢Δͷ͔ʁ ମܥԽ͞Εͨ஌ࣝΛ࢖͑Δ