Upgrade to Pro — share decks privately, control downloads, hide ads and more …

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です

2c68dc672293cc3f8a7a57d3af86f15b?s=128

Hidehisa Arai

March 02, 2021
Tweet

Transcript

  1. ୤%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$෼ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1

  2. ࣗݾ঺հ • ݄͔Β৽ଔ೥໨ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈͸ߤۭӉ஦޻ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ

    • ෼ੳίϯϖ͸,BHHMFҰے 2
  3. ͸͡Ίʹ ͜ͷൃදͷ૝ఆ͍ͯ͠Δର৅ • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͹͍͍͔෼͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍ͪ෼͔ͬͨؾʹͳΕͳ͍ํ •

    ,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
  4. ཧղ ෼ੳίϯϖ͕΋ͬͱ໘ന͘ͳΔεςοϓ 4 ՝୊ͷ೉͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰ͸ɺͨͩ$//ʹ৯Θͤͯ ऴΘΓ΍ʂͱ͍͏՝୊͸·ͣग़ͳ͍ ෼ղ ஔ׵ ՝୊Λখ͞ͳ՝୊ʹ෼ղ͢Δɻ খ͞ͳ՝୊Λط஌ͷ໰୊ʹஔ͖׵͑Δ

    「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
  5. εςοϓᶃ  ՝୊Λཧղ͢Δ 5 ʮը૾Λ෼ྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫ͸ͦΕҎ֎ʹผͷ೉͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕೉͍͔͠ɺͱ͍͏ͷ͸ʮ%BUB%FTDSJQUJPOʯ΍ʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ΋͋Δ • 5SBJOͱ5FTUͷ෼෍ͷҧ͍ • σʔλͷϊΠζྔͷࠩ

    • Ϋϥεͷൺ཰ͷࠩ • 5FTUʹ͸5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖੠͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱ͸ͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
  6. εςοϓᶄ  ՝୊Λ෼ղ͢Δ 6 ݟ͔ͭͬͨ՝୊͕ͦΕͧΕͲͷΑ͏ͳؔ܎ʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝୊͕ग़ͯ͘Δ·Ͱ෼ղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」

    「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹ͸ؒΛຒΊ ͯ΍Δඞཁ΋͋Δ ରࡦΛࢥ͍͚ͭ͹ʮରࡦՄೳͳ՝୊ʯ
  7. εςοϓᶅ  ՝୊Λஔ͖׵͑Δ 7 ՝୊Λط஌ͷྨࣅͷ՝୊ʹஔ͖׵͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖׵͑Λ͢Δͷ͔ʁ  ମܥԽ͞Εͨ஌ࣝΛ࢖͑Δ

    • ࣗ෼͕೰ΉΑ͏ͳ՝୊͸େମಉ͜͡ͱʹ೰Μ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶ໰ମܥͷݴ༿ʹஔ͖׵͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹ͸໰୊ͷ෼ղͷղ૾౓্͕͕Δ  ίϯϖͷ՝୊Λந৅Խ͢Δ͜ͱͰࠓޙͷίϯϖͰ ΋ͦͷܦݧΛ׆͔ͤΔ  ʮط஌ͷྨࣅͷ՝୊ʯͷϓʔϧ͸,BHHMFΛ΍ͬͯ ͍ͳ͍࣌Ͱ΋େ͖͘Ͱ͖Δ • ,BHHMFΛ΍͍ͬͯͳͯ͘΋,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
  8. ·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾ෼ղɾஔ׵ͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝୊Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ΍͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて

    あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝୊͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹ஫໨ͯ͠ߟ͑Δͱ্Ґͷղ๏ʹ͸ೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯά΋Ξϯαϯϒϧ΋౰વେ ࣄ͕ͩɺݸʑͷ՝୊ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ