Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
Search
Hidehisa Arai
March 02, 2021
Technology
7
4.8k
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
Hidehisa Arai
March 02, 2021
Tweet
Share
More Decks by Hidehisa Arai
See All by Hidehisa Arai
生成AIの二大潮流と自動運転
koukyo1994
22
24k
ICML2021論文読み会資料
koukyo1994
2
1.6k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
270
Kaggle昔?話
koukyo1994
2
2.6k
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.7k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
170
鳥コンペ反省会資料
koukyo1994
2
6.4k
Other Decks in Technology
See All in Technology
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
1
180
AIとともに歩む情報セキュリティ / Information Security with AI
kanny
4
3.2k
あたらしい上流工程の形。 0日導入からはじめるAI駆動PM
kumaiu
5
740
Databricks Free Edition講座 データサイエンス編
taka_aki
0
290
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
130
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
開発メンバーが語るFindy Conferenceの裏側とこれから
sontixyou
2
590
ZOZOにおけるAI活用の現在 ~開発組織全体での取り組みと試行錯誤~
zozotech
PRO
4
4.7k
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
540
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
3
1.1k
15 years with Rails and DDD (AI Edition)
andrzejkrzywda
0
160
Featured
See All Featured
How GitHub (no longer) Works
holman
316
140k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
BBQ
matthewcrist
89
10k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Docker and Python
trallard
47
3.7k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
580
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
66
36k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
WENDY [Excerpt]
tessaabrams
9
36k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
650
Transcript
%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1
ࣗݾհ • ݄͔Β৽ଔ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈ߤۭӉ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ੳίϯϖ,BHHMFҰے 2
͡Ίʹ ͜ͷൃදͷఆ͍ͯ͠Δର • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
ཧղ ੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ 4 ՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯Θͤͯ ऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ ղ ஔ ՝Λখ͞ͳ՝ʹղ͢Δɻ খ͞ͳ՝Λطͷʹஔ͖͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹະͷσʔλ͕͋Δ ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ςετηοτʹະͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ 5 ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ • 5SBJOͱ5FTUͷͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺͷࠩ • 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ 6 ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」
「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹؒΛຒΊ ͯΔඞཁ͋Δ ରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ 7 ՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ
• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰ ͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛͬͯ ͍ͳ͍࣌Ͱେ͖͘Ͱ͖Δ • ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେ ࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ