Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Hidehisa Arai
March 02, 2021
Technology
4.9k
7
Share
脱! Deepでポン🎶ハイパラチューニング芸人を卒業するために
2021/3/2に開催されたsansan DSOC分析コンペ反省会の資料です
Hidehisa Arai
March 02, 2021
More Decks by Hidehisa Arai
See All by Hidehisa Arai
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
生成AIの二大潮流と自動運転
koukyo1994
22
25k
ICML2021論文読み会資料
koukyo1994
2
1.7k
【2019-06-19】アルゴリズム勉強会 - 最小全域木
koukyo1994
0
300
Kaggle昔?話
koukyo1994
2
2.6k
コンペ中のコード、どうしてる?
koukyo1994
3
2.3k
変数間の関係を捉えたいあなたへ
koukyo1994
3
1.8k
鳥蛙コンペ反省会資料
koukyo1994
3
1.5k
6th place solution to Cornell Birdcall Identification Challenge
koukyo1994
0
190
Other Decks in Technology
See All in Technology
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
200
関西に縁あるMicrosoft MVPsが語るCopilotの未来
kasada
0
1k
コードレビューを制するチームがソフトウェアデリバリーのフローを制す / Beyond Code Review: Distributing Its Responsibilities Across the SDLC
mtx2s
3
990
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
740
GoとSIMDとWasmの今。
askua
3
490
Mastering Ruby Box
tagomoris
3
140
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
18
9.6k
Spring AI × MCP 入門〜AIエージェントへのツール公開、境界設計から始める最小構成 〜
yuyamiyamoto
0
210
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
230
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
180
Databricks における 生成AIガバナンスの実践
taka_aki
1
300
はじめてのDatadog
kairim0
0
270
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
1
3.5M
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
600
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Agile that works and the tools we love
rasmusluckow
331
21k
Embracing the Ebb and Flow
colly
88
5.1k
Claude Code のすすめ
schroneko
67
220k
Transcript
%FFQͰϙϯ🎶 ϋΠύϥνϡʔχϯάܳਓΛଔۀ͢ΔͨΊʹ TBOTBO %40$ੳίϯϖษڧձ )JEFIJTB"SBJ !LBHHMF@BSBJTBO 1
ࣗݾհ • ݄͔Β৽ଔ • ͔ͭͯTBOTBOͰΠϯλʔϯ Λ͍ͯͨ͜͠ͱ͕͋Δ • େֶӃͷઐ߈ߤۭӉ ֶ͕ͩɺදݱֶशͷݚڀΛ͠ ͍ͯͨ
• ੳίϯϖ,BHHMFҰے 2
͡Ίʹ ͜ͷൃදͷఆ͍ͯ͠Δର • ެ։ϊʔτϒοΫΛ৭ʑ࿔ͬͨΓ͍ͯ͠ Δ͚ΕͲɺͦͷޙͲ͏͢Ε͍͍͔͔ Βͳ͍,BHHMFS • ,BHHMFͷղ๏ͳͲΛͨ·ʹಡΜͰΈΔ͚ Ͳɺ͍·͍͔ͪͬͨؾʹͳΕͳ͍ํ •
,BHHMF࣮ͬͯࡍϋΠύϥνϡʔχϯάͱ Ξϯαϯϒϧήʔ͡Όͳ͍ͷʁͬͯࢥͬ ͍ͯΔํ 3 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? Kaggleの解法は「何をやったのか」が書いて あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの?c
ཧղ ੳίϯϖ͕ͬͱ໘ന͘ͳΔεςοϓ 4 ՝ͷ͍͠ͱ͜ΖΛཧղ͢Δ ࠷ۙͷ,BHHMFͰɺͨͩ$//ʹ৯Θͤͯ ऴΘΓʂͱ͍͏՝·ͣग़ͳ͍ ղ ஔ ՝Λখ͞ͳ՝ʹղ͢Δɻ খ͞ͳ՝Λطͷʹஔ͖͑Δ
「可能な書記素は約10,000あり、そのうち約1,000がトレーニ ングセットに含まれています。テストセットには、トレイン には存在しないが新しい書記素コンポーネントがないいくつ かの書記素が含まれています」 ςετηοτʹະͷσʔλ͕͋Δ ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ςετηοτʹະͷσʔλ͕͋Δ 0VUPG%JTUSJCVUJPO%FUFDUJPO ίϯϙʔωϯτͷΈ߹ΘͤࣗମΘ͔͍ͬͯΔʁ ;FSP4IPU-FBSOJOH
εςοϓᶃ ՝Λཧղ͢Δ 5 ʮը૾Λྨ͢ΔʯɺʮԻͷϥϕϦϯάʯͳͲ୯७ͳλεΫͦΕҎ֎ʹผͷ͕͋͠͞Δ͜ͱ͕ଟ͍ Կ͕͍͔͠ɺͱ͍͏ͷʮ%BUB%FTDSJQUJPOʯʮ&WBMVBUJPOʯɺ%JTDVTTJPOʹώϯτ͕͋Δ͜ͱ͋Δ • 5SBJOͱ5FTUͷͷҧ͍ • σʔλͷϊΠζྔͷࠩ
• Ϋϥεͷൺͷࠩ • 5FTUʹ5SBJOʹͳ͔ͬͨϥϕϧ͕͋Δ $PSOFMM#JSEDBMM*EFOUJGJDBUJPO 3BJOGPSFTU$POOFDUJPO4QFDJFT"VEJP%FUFDUJPO • λʔήοτͱͳΔ໐͖͕શͯΞϊςʔγϣ ϯ͞Ε͍ͯΔΘ͚Ͱͳ͍ • $7ͱ-#͕૬ؔ͠ͳ͍ https://qiita.com/inoichan/items/140cf018d31151d2701a
εςοϓᶄ ՝Λղ͢Δ 6 ݟ͔ͭͬͨ՝͕ͦΕͧΕͲͷΑ͏ͳؔʹ͋Δ͔Λߟ͑ɺରࡦՄೳͳ՝͕ग़ͯ͘Δ·Ͱղ͢Δ 「ターゲットとなる鳴き声が全てアノ テーションされているわけではない」 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 「CVとLBが相関しない」
「ラベルがついていない部分が あるためCVの計算が不正確」 対策可能な課題 対策が難しい? ͱ͖ʹؒΛຒΊ ͯΔඞཁ͋Δ ରࡦΛࢥ͍͚ͭʮରࡦՄೳͳ՝ʯ
εςοϓᶅ ՝Λஔ͖͑Δ 7 ՝Λطͷྨࣅͷ՝ʹஔ͖͑Δ 「ラベルのついていないターゲットの 鳴き声がデータには含まれている」 ͳͥஔ͖͑Λ͢Δͷ͔ʁ ମܥԽ͞ΕͨࣝΛ͑Δ
• ͕ࣗΉΑ͏ͳ՝େମಉ͜͡ͱʹΜ ͩਓ͕͍ͯɺղ๏͕Ͳ͔͜ʹ͋Δ • ֶମܥͷݴ༿ʹஔ͖͑Δͱݕࡧੑ͕ྑ͘ ͳΔ • ͱ͖ʹͷղͷղ૾্͕͕Δ ίϯϖͷ՝ΛநԽ͢Δ͜ͱͰࠓޙͷίϯϖͰ ͦͷܦݧΛ׆͔ͤΔ ʮطͷྨࣅͷ՝ʯͷϓʔϧ,BHHMFΛͬͯ ͍ͳ͍࣌Ͱେ͖͘Ͱ͖Δ • ,BHHMFΛ͍ͬͯͳͯ͘,BHHMFͰڧ͘ͳΕ Δ .JTTJOH-BCFMT 「ラベルの誤りがある」 -BCFM/PJTF 「TrainとTestで分布が異なる」 %PNBJO4IJGU
·ͱΊ 8 「モデルの変更」、「Data Augmentationを ⾊々試す」、「学習パラメータをいじる」など 誰もが思いつくことの範囲を超えるためには? ཧղɾղɾஔͷεςοϓΛ܁Γฦ͠ɺग़ ͖ͯͨ՝Λݸผʹ௵͍ͯ͘͠͏ͪʹଞͷਓ͕ ͍ͬͯͳ͍ղ๏ʹͳΔ Kaggleの解法は「何をやったのか」が書いて
あっても「なぜやったのか」が書かれていない こともある、どうすればそこを掴めるようにな る? Ͳ͏͍͏՝͕͋ͬͨͷ͔ ཧղͷεςοϓ ɺ ʹͯ͠ߟ͑Δͱ্Ґͷղ๏ʹೲಘײ͕ಘ ΒΕΔ TwitterのKaggler達はKaggleがハイパラチュー ニングゲーとかアンサンブルゲーと⾔われるこ とを嫌うけど、実際何が違うの? ϋΠύϥνϡʔχϯάΞϯαϯϒϧવେ ࣄ͕ͩɺݸʑͷ՝ʹଈͨ͠ରࡦ͕ॏཁɺͦ͜ ্͕ҐͱͦΕҎ֎ͷࠩʹͳ͍ͬͯΔ