Upgrade to Pro — share decks privately, control downloads, hide ads and more …

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために

2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です

Hidehisa Arai

March 02, 2021
Tweet

More Decks by Hidehisa Arai

Other Decks in Technology

Transcript

  1. ୤%FFQͰϙϯ🎶
    ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ
    TBOTBO %40$෼ੳίϯϖษڧձ
    )JEFIJTB"SBJ !LBHHMF@BSBJTBO

    1

    View Slide

  2. ࣗݾ঺հ
    • ݄͔Β৽ଔ೥໨
    • ͔ͭͯTBOTBOͰΠϯλʔϯ
    Λ͍ͯͨ͜͠ͱ͕͋Δ
    • େֶӃͷઐ߈͸ߤۭӉ஦޻
    ֶ͕ͩɺදݱֶशͷݚڀΛ͠
    ͍ͯͨ
    • ෼ੳίϯϖ͸,BHHMFҰے
    2

    View Slide

  3. ͸͡Ίʹ
    ͜ͷൃදͷ૝ఆ͍ͯ͠Δର৅
    • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠
    Δ͚ΕͲɺͦͷޙͲ͏͢Ε͹͍͍͔෼͔
    Βͳ͍,BHHMFS
    • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚
    Ͳɺ͍·͍ͪ෼͔ͬͨؾʹͳΕͳ͍ํ
    • ,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ
    Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ
    ͍ͯΔํ
    3
    「モデルの変更」、「Data Augmentationを
    ⾊々試す」、「学習パラメータをいじる」など
    誰もが思いつくことの範囲を超えるためには?
    Kaggleの解法は「何をやったのか」が書いて
    あっても「なぜやったのか」が書かれていない
    こともある、どうすればそこを掴めるようにな
    る?
    TwitterのKaggler達はKaggleがハイパラチュー
    ニングゲーとかアンサンブルゲーと⾔われるこ
    とを嫌うけど、実際何が違うの?c

    View Slide

  4. ཧղ
    ෼ੳίϯϖ͕΋ͬͱ໘ന͘ͳΔεςοϓ
    4
    ՝୊ͷ೉͍͠ͱ͜ΖΛཧղ͢Δ
    ࠷ۙͷ,BHHMFͰ͸ɺͨͩ$//ʹ৯Θͤͯ
    ऴΘΓ΍ʂͱ͍͏՝୊͸·ͣग़ͳ͍
    ෼ղ
    ஔ׵
    ՝୊Λখ͞ͳ՝୊ʹ෼ղ͢Δɻ
    খ͞ͳ՝୊Λط஌ͷ໰୊ʹஔ͖׵͑Δ
    「可能な書記素は約10,000あり、そのうち約1,000がトレーニ
    ングセットに含まれています。テストセットには、トレイン
    には存在しないが新しい書記素コンポーネントがないいくつ
    かの書記素が含まれています」
    ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ
    ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ
    ςετηοτʹ͸ະ஌ͷσʔλ͕͋Δ
    0VUPG%JTUSJCVUJPO%FUFDUJPO
    ίϯϙʔωϯτͷ૊Έ߹Θͤࣗମ͸Θ͔͍ͬͯΔʁ
    ;FSP4IPU-FBSOJOH

    View Slide

  5. εςοϓᶃ ՝୊Λཧղ͢Δ
    5
    ʮը૾Λ෼ྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫ͸ͦΕҎ֎ʹผͷ೉͕͋͠͞Δ͜ͱ͕ଟ͍
    Կ͕೉͍͔͠ɺͱ͍͏ͷ͸ʮ%BUB%FTDSJQUJPOʯ΍ʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ΋͋Δ
    • 5SBJOͱ5FTUͷ෼෍ͷҧ͍
    • σʔλͷϊΠζྔͷࠩ
    • Ϋϥεͷൺ཰ͷࠩ
    • 5FTUʹ͸5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ
    $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO
    • λʔήοτͱͳΔ໐͖੠͕શͯΞϊςʔγϣ
    ϯ͞Ε͍ͯΔΘ͚Ͱ͸ͳ͍
    • $7ͱ-#͕૬ؔ͠ͳ͍
    https://qiita.com/inoichan/items/140cf018d31151d2701a

    View Slide

  6. εςοϓᶄ ՝୊Λ෼ղ͢Δ
    6
    ݟ͔ͭͬͨ՝୊͕ͦΕͧΕͲͷΑ͏ͳؔ܎ʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝୊͕ग़ͯ͘Δ·Ͱ෼ղ͢Δ
    「ターゲットとなる鳴き声が全てアノ
    テーションされているわけではない」
    「ラベルのついていないターゲットの
    鳴き声がデータには含まれている」
    「CVとLBが相関しない」
    「ラベルがついていない部分が
    あるためCVの計算が不正確」
    対策可能な課題
    対策が難しい?
    ͱ͖ʹ͸ؒΛຒΊ
    ͯ΍Δඞཁ΋͋Δ
    ରࡦΛࢥ͍͚ͭ͹ʮରࡦՄೳͳ՝୊ʯ

    View Slide

  7. εςοϓᶅ ՝୊Λஔ͖׵͑Δ
    7
    ՝୊Λط஌ͷྨࣅͷ՝୊ʹஔ͖׵͑Δ
    「ラベルのついていないターゲットの
    鳴き声がデータには含まれている」
    ͳͥஔ͖׵͑Λ͢Δͷ͔ʁ
    ମܥԽ͞Εͨ஌ࣝΛ࢖͑Δ
    • ࣗ෼͕೰ΉΑ͏ͳ՝୊͸େମಉ͜͡ͱʹ೰Μ
    ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ
    • ֶ໰ମܥͷݴ༿ʹஔ͖׵͑Δͱݕࡧੑ͕ྑ͘
    ͳΔ
    • ͱ͖ʹ͸໰୊ͷ෼ղͷղ૾౓্͕͕Δ
    ίϯϖͷ՝୊Λந৅Խ͢Δ͜ͱͰࠓޙͷίϯϖͰ
    ΋ͦͷܦݧΛ׆͔ͤΔ
    ʮط஌ͷྨࣅͷ՝୊ʯͷϓʔϧ͸,BHHMFΛ΍ͬͯ
    ͍ͳ͍࣌Ͱ΋େ͖͘Ͱ͖Δ
    • ,BHHMFΛ΍͍ͬͯͳͯ͘΋,BHHMFͰڧ͘ͳΕ
    Δ
    .JTTJOH-BCFMT
    「ラベルの誤りがある」
    -BCFM/PJTF
    「TrainとTestで分布が異なる」
    %PNBJO4IJGU

    View Slide

  8. ·ͱΊ
    8
    「モデルの変更」、「Data Augmentationを
    ⾊々試す」、「学習パラメータをいじる」など
    誰もが思いつくことの範囲を超えるためには?
    ཧղɾ෼ղɾஔ׵ͷεςοϓΛ܁Γฦ͠ɺग़
    ͖ͯͨ՝୊Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕
    ΍͍ͬͯͳ͍ղ๏ʹͳΔ
    Kaggleの解法は「何をやったのか」が書いて
    あっても「なぜやったのか」が書かれていない
    こともある、どうすればそこを掴めるようにな
    る?
    Ͳ͏͍͏՝୊͕͋ͬͨͷ͔ ཧղͷεςοϓ
    ɺ
    ʹ஫໨ͯ͠ߟ͑Δͱ্Ґͷղ๏ʹ͸ೲಘײ͕ಘ
    ΒΕΔ
    TwitterのKaggler達はKaggleがハイパラチュー
    ニングゲーとかアンサンブルゲーと⾔われるこ
    とを嫌うけど、実際何が違うの?
    ϋΠύϥνϡʔχϯά΋Ξϯαϯϒϧ΋౰વେ
    ࣄ͕ͩɺݸʑͷ՝୊ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜
    ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ

    View Slide