Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
Search
Hidehisa Arai
March 02, 2021
Technology
7
4.8k
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
Hidehisa Arai
March 02, 2021
Tweet
Share
More Decks by Hidehisa Arai
See All by Hidehisa Arai
生成AIの二大潮流と自動運転
koukyo1994
22
24k
ICML2021論文読み会資料
koukyo1994
2
1.6k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
270
Kaggle昔?話
koukyo1994
2
2.5k
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.7k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
170
鳥コンペ反省会資料
koukyo1994
2
6.4k
Other Decks in Technology
See All in Technology
Identity Management for Agentic AI 解説
fujie
0
590
Knowledge Work の AI Backend
kworkdev
PRO
0
330
[Neurogica] 採用ポジション/ Recruitment Position
neurogica
1
140
Claude Codeを使った情報整理術
knishioka
15
11k
Redshift認可、アップデートでどう変わった?
handy
1
110
アプリにAIを正しく組み込むための アーキテクチャ── 国産LLMの現実と実践
kohju
1
260
Microsoft Agent Frameworkの可観測性
tomokusaba
1
120
人工知能のための哲学塾 ニューロフィロソフィ篇 第零夜 「ニューロフィロソフィとは何か?」
miyayou
0
170
ルネサンス開発者を育てる 1on1支援AIエージェント
yusukeshimizu
0
120
アラフォーおじさん、はじめてre:Inventに行く / A 40-Something Guy’s First re:Invent Adventure
kaminashi
0
190
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
8
2.6k
ペアーズにおけるAIエージェント 基盤とText to SQLツールの紹介
hisamouna
2
1.9k
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
0
1.9M
Between Models and Reality
mayunak
0
150
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
170
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
130
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
100
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
2.8k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
1
880
Joys of Absence: A Defence of Solitary Play
codingconduct
1
260
What does AI have to do with Human Rights?
axbom
PRO
0
1.9k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
80
Transcript
%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1
ࣗݾհ • ݄͔Β৽ଔ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈ߤۭӉ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ੳίϯϖ,BHHMFҰے 2
͡Ίʹ ͜ͷൃදͷఆ͍ͯ͠Δର • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
ཧղ ੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ 4 ՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯Θͤͯ ऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ ղ ஔ ՝Λখ͞ͳ՝ʹղ͢Δɻ খ͞ͳ՝Λطͷʹஔ͖͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹະͷσʔλ͕͋Δ ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ςετηοτʹະͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ 5 ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ • 5SBJOͱ5FTUͷͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺͷࠩ • 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ 6 ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」
「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹؒΛຒΊ ͯΔඞཁ͋Δ ରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ 7 ՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ
• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰ ͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛͬͯ ͍ͳ͍࣌Ͱେ͖͘Ͱ͖Δ • ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେ ࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ