Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shotaro Ishihara
March 22, 2023
Technology
0
510
AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』 / Ask me anything
3 月 22 日「W&B 東京ミートアップ #2」での発表資料です
https://wandb.connpass.com/event/275849/
Shotaro Ishihara
March 22, 2023
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
JAPAN AI CUP Prediction Tutorial
upura
1
600
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
470
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
83
JOAI2025講評 / joai2025-review
upura
0
1.3k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
200
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
94
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
330
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
110
Other Decks in Technology
See All in Technology
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
240
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
180
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
250
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
GSIが複数キー対応したことで、俺達はいったい何が嬉しいのか?
smt7174
3
150
Introduction to Bill One Development Engineer
sansan33
PRO
0
360
MCPでつなぐElasticsearchとLLM - 深夜の障害対応を楽にしたい / Bridging Elasticsearch and LLMs with MCP
sashimimochi
0
160
Tebiki Engineering Team Deck
tebiki
0
24k
CDK対応したAWS DevOps Agentを試そう_20260201
masakiokuda
1
250
Data Hubグループ 紹介資料
sansan33
PRO
0
2.7k
Context Engineeringが企業で不可欠になる理由
hirosatogamo
PRO
3
570
ZOZOにおけるAI活用の現在 ~開発組織全体での取り組みと試行錯誤~
zozotech
PRO
5
5.2k
Featured
See All Featured
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
380
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
910
We Are The Robots
honzajavorek
0
160
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
430
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
How to make the Groovebox
asonas
2
1.9k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
300
Statistics for Hackers
jakevdp
799
230k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
99
Transcript
W&B 東京ミートアップ #2 2023 年 3 月 22 日 小嵜
耕平、秋葉 拓哉、林 孝紀、◯石原 祥太郎 AMA (Ask me anything) 『Kaggleに挑む深層学習 プログラミングの極意』
2 • 1 月 31 日に紙版の発売開始 • 現時点で 4 刷が決定
• 電子版も販売予定
3 • 書籍ページ(講談社・Amazon) • 付録コード・正誤表・脚注(GitHub) • 著者の紹介記事(秋葉さん・石原) • 書評(からあげさん・TJO さん・Maxwellさん
・nikkie さん) • Twitter 評判「Kaggle 極意」「Kaggle 本」 リンク集
4 • なぜ Kaggle x 深層学習(極意本)? • 本書の目次と担当 • 本書の特徴と補完資料
本日の目次
5 • Kaggle の入門としてタイタニック号を題材にした コンテストが有名 • 扱うのは、テーブル形式 のデータセット(右図) • サイズは総計で
93.08 kB https://www.kaggle.com/c/titanic Kaggle のイメージ => Titanic ?
6 ※ Amazon で、レビュー数が上位の 2 冊 • 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019
年) • 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) これまでの「Kaggle 本」はテーブル形式 のデータセットを扱う例が有名
7 データセットの種類別の推移 Kaggle 公開のデータセット 「Meta Kaggle」から作成 したデータセットの種類別 のコンテスト数の推移 (2023 年
1 月時点で終了 したコンテストまでを対象 に集計)
8 • 画像やテキストを題材にしたコンテストが増加 • アルゴリズムも、勾配ブースティング決定木から ニューラルネットワーク(深層学習)に • データセットのサイズも巨大化 ◦ Happywhale
- Whale and Dolphin Identification: 62.06 GB ◦ American Express - Default Prediction: 50.31 GB ◦ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に
9 • 画像・自然言語処理の機械学習コンテストを題材 に深層学習ライブラリ「PyTorch」の実装を交え、 著者らの経験に基づく知見をまとめた書籍 • 第 1-2 章で基礎知識を学び、第 3-5
章で具体的な 機械学習コンテストに挑戦していく構成 『Kaggle に挑む深層学習プログラミング の極意』(講談社)
10 目次 https://www.kspub.co.jp/book/detail/5305133.html • 第 1 章: 機械学習コンテストの基礎知識 • 第
2 章: 探索的データ分析とモデルの作成・検証・ 性能向上 • 第 3 章: 画像分類入門 • 第 4 章: 画像検索入門 • 第 5 章: テキスト分類入門
11 • 石原(第 1-2 章): Kaggle Master • 秋葉(第 3
章): Kaggle Grandmaster • 小嵜(第 4 章): Kaggle Grandmaster • 林(第 5 章): Kaggle Master • 書籍は有識者 5 名にレビューしていただいた (まえがき参照) 著者紹介
12 • 主要な対象読者は、画像や自然言語処理を題材と した機械学習コンテストに参加する方 • 著者らの経験を基に、一般的な書籍にはあまり書 かれていない暗黙知や技法も含めてまとめている • より広く「Kaggle でない実世界の課題を深層学習
で解決するといった場面でも役立つ」 https://karaage.hatenadiary.jp/entry/2023/02/06/073000 特徴①予測性能を高める実践的な知見
13 • 第 2 章: 手戻りが少なくなるような実験方法 • 第 3 章:
学習終盤に強いデータ拡張をやめる • 第 4 章: ArcFace のハイパーパラメータの勘所 • 第 5 章: 長さが近いテキストをまとめたミニバッチ 実践的な知見の例(抜粋)
14 • 本体は 224 ページと比較的コンパクト • サンプルコードは必要最低限の関数のみを掲載し て読みやすくし、全体は GitHub へ
• 参考文献(ウェブサイト・論文など)は 287 件 • カラー本で図表も多め 特徴②凝縮した内容 + 付録・参考文献
15 データサイズも大きく、泥臭い処理も含めて掲載 • 第 3 章: 犬猫の画像分類 ◦ 多くの画像認識タスクに拡張可能 •
第 4 章: 著名な Google Landmark Retrieval • 第 5 章: 質問文の類似判定 ◦ 多くの自然言語処理タスクに拡張可能 特徴③実際のコンテストを題材に
16 • 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) • 『Kaggle
で勝つデータ分析の技術』 (技術評論社、2019 年) • 『統計的学習の基礎』(共立出版) 補完① Kaggle 全般やテーブル形式の データセットを扱う方法
17 • 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』 (マイナビ出版) • 『深層学習 改訂第2版』(講談社)
• 『画像認識』(講談社) • 『Vision Transformer入門』(技術評論社) • 『深層学習による自然言語処理』(講談社) • 『IT Text 自然言語処理の基礎』(オーム社) 補完②深層学習や画像認識・自然言語処理
18 • 開発ツールの説明は必要最小限にとどめている • 公式ドキュメントやチュートリアルなどを必要に 応じて参照 ◦ https://docs.docker.com/ ◦ https://yutaroogawa.github.io/pytorch_tuto
rials_jp/ 補完③ Docker や PyTorch
お気軽にご質問ください AMA (Ask me anything) 『Kaggleに挑む深層学習 プログラミングの極意』