著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』
by
Shotaro Ishihara
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
石原祥太郎 日本経済新聞社 日経イノベーション・ラボ 主任研究員 みんなのPython勉強会#90 2023 年 2 月 16 日 著者による書籍紹介 『Kaggleに挑む深層学習 プログラミングの極意』
Slide 2
Slide 2 text
2 著: 小嵜耕平, 秋葉拓哉, 林孝紀, 石原 祥太郎 ● Kaggle 関連書籍 3 冊出版 ● Kaggle は 2019 年に優勝 ● 同年にコンテストも開催 ● Weekly Kaggle News 刊行 ● 業務は言語処理・機械学習 の研究開発
Slide 3
Slide 3 text
● 1 月 31 日に紙版の発売を 開始し、3 刷が決定 ● 電子版も販売予定 https://twitter.com/kspub_kodansha/ status/1623863793624453120 (2 月 10 日のツイート) 3 お礼申し上げます
Slide 4
Slide 4 text
4 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要
Slide 5
Slide 5 text
5 新刊本から知る 機械学習の今 今回の stapy のテーマ
Slide 6
Slide 6 text
6 機械学習の今といえば・・・ 生成 AI の凄さ が話題に Stable Diffusion, ChatGPT など
Slide 7
Slide 7 text
7 「凄さ」をどう評価する? 定性&定量 例: Stable Diffusion や ChatGPT などを利 用者に提供し検証 例: 評価用データセット を構築し、特定の評価指 標での優位性を検証
Slide 8
Slide 8 text
8 特定の条件で提案手法が 優れた結果を示すと報告 Long Ouyang, Jeff Wu, Xu Jiang, et al. 2022. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155 ChatGPT に関係する InstructGPT
Slide 9
Slide 9 text
9 ImageNet での性能の変遷 https://paperswithcode.com/sota/image-classification-on-imagenet
Slide 10
Slide 10 text
10 ● 大規模画像データセット「ImageNet」を用いた画 像認識のコンテスト ● 2010 年に開始し、2012 年に畳み込み層を用いた 深層学習のモデル「AlexNet」が従来手法を圧倒的 に凌駕する性能を叩き出した ● この事例は、昨今の深層学習研究の急速な発展に 向けた転換点とも言われている 大規模画像認識コンテスト「ILSVRC」
Slide 11
Slide 11 text
● 主催者がデータセッ トと課題を提供 ● 評価用データセット の正解ラベルを予測 ● 開催中に順位を競う ● 終了時の最終結果で 順位が確定 11 機械学習コンテストとは?
Slide 12
Slide 12 text
12 ● 1997 年にはデータマイニングの国際会議「KDD」 にて、第 1 回の「KDD Cup」が開催 ● 「NeurIPS」「RecSys」など、機械学習に関連する さまざまな国際会議でコンテストが併設 機械学習コンテスト × 国際会議
Slide 13
Slide 13 text
13 1. 特定の問題に適した予測手法の研究促進 2. 予測手法の汎用性を報知する場の提供 3. 実用上の知見の蓄積 機械学習コンテストの貢献 馬場雪乃 (2016). 機械学習コンペティションの進展と今後の展開. 人工知能 31 (2): 248–253.
Slide 14
Slide 14 text
14 ● ILSVRC や、映画推薦の「Netflix Prize」など ● 機械学習の利用に対する参入障壁の低減 特定の問題に適した予測手法の研究促進
Slide 15
Slide 15 text
15 ● 多くの人が同じ枠組みで性能を検証 ● 評価用データセットが最後まで公開されないので 汎用性を確認できる 予測手法の汎用性を報知する場の提供
Slide 16
Slide 16 text
16 ● 実装に当たっての勘所や論文の再検証 ● プラットフォームごとに議論やソースコード共有 の場が用意されていることも 実用上の知見の蓄積
Slide 17
Slide 17 text
17 ● 2010 年設立の機械学習コンテストのプラット フォーム(2017 年に Google が買収) ● コンテスト開催に必要なユーザ管理・順位表・ス コア計算などの機能を提供 ● ユーザ数は 2022 年に 1000 万人に達し世界最大 (日本からの参加者も年々増えている) Kaggle とは
Slide 18
Slide 18 text
18 ● SIGNATE: 日本最大のコンテストプラットフォーム ● Nishika: 特許庁初となるコンテストを開催 ● ProbSpace: 優勝解法のピアレビュー制度が独特 ● Solafune: 衛星データが専門 ● atmaCup: Kaggle Master が運営 日本発のコンテストサイトの例
Slide 19
Slide 19 text
19 ● 日本経済新聞社のユーザの属性予測 ● JR 西日本の着雪量予測 ● マレーシアのペットの引き取り予測 ● ワクチン開発に向けた RNA の塩基の安定性予測 ● 動画のディープフェイク判定 機械学習コンテストを通じた事例
Slide 20
Slide 20 text
20 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要
Slide 21
Slide 21 text
21 ● Kaggle の入門としてタイタニック号を題材にした コンテストが有名 ● 扱うのは、テーブル形式 のデータセット(右図) ● サイズは総計で 93.08 kB https://www.kaggle.com/c/titanic Kaggle のイメージ => Titanic ?
Slide 22
Slide 22 text
22 ※ Amazon で、レビュー数が上位の 2 冊 ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) これまでの「Kaggle 本」はテーブル形式 のデータセットを扱う例が有名
Slide 23
Slide 23 text
23 データセットの種類別の推移 Kaggle 公開のデータセット 「Meta Kaggle」から作成 したデータセットの種類別 のコンテスト数の推移 (2023 年 1 月時点で終了 したコンテストまでを対象 に集計)
Slide 24
Slide 24 text
24 ● 画像やテキストを題材にしたコンテストが増加 ● アルゴリズムも、勾配ブースティング決定木から ニューラルネットワーク(深層学習)に ● データセットのサイズも巨大化 ○ Happywhale - Whale and Dolphin Identification: 62.06 GB ○ American Express - Default Prediction: 50.31 GB ○ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に
Slide 25
Slide 25 text
25 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要
Slide 26
Slide 26 text
26 ● 画像・自然言語処理の機械学習コンテストを題材 に深層学習ライブラリ「PyTorch」の実装を交え、 著者らの経験に基づく知見をまとめた書籍 ● 第 1, 2 章で基礎知識を学び、第 3-5 章で具体的な 機械学習コンテストに挑戦していく構成 『Kaggle に挑む深層学習プログラミング の極意』(講談社)
Slide 27
Slide 27 text
27 目次 https://www.kspub.co.jp/book/detail/5305133.html ● 第 1 章: 機械学習コンテストの基礎知識 ● 第 2 章: 探索的データ分析とモデルの作成・検証・ 性能向上 ● 第 3 章: 画像分類入門 ● 第 4 章: 画像検索入門 ● 第 5 章: テキスト分類入門
Slide 28
Slide 28 text
28 ● 小嵜(第 4 章): Kaggle Grandmaster https://www.kaggle.com/confirm ● 秋葉(第 3 章): Kaggle Grandmaster https://www.kaggle.com/takiba ● 林(第 5 章): Kaggle Master https://www.kaggle.com/flowlight ● 石原(第 1, 2 章): Kaggle Master https://www.kaggle.com/sishihara ● 書籍は有識者 5 名にレビューしていただいた(まえがき参照) 著者紹介
Slide 29
Slide 29 text
29 ● 著者の紹介記事(秋葉さん・石原) ● 書評(からあげさん・TJO さん・Maxwellさん ・nikkie さん) ● Twitter 評判「Kaggle 極意」「Kaggle 本」 紹介記事や評判
Slide 30
Slide 30 text
30 Twitter で「Kaggle 極意」「Kaggle 本」で検索した結果を可視化(2023 年 2 月 8 日時点)
Slide 31
Slide 31 text
31 ● 主要な対象読者は、画像や自然言語処理を題材と した機械学習コンテストに参加する方 ● 著者らの経験を基に、一般的な書籍にはあまり書 かれていない暗黙知や技法も含めてまとめている ● より広く「Kaggle でない実世界の課題を深層学習 で解決するといった場面でも役立つ」 https://karaage.hatenadiary.jp/entry/2023/02/06/073000 特徴①予測性能を高める実践的な知見
Slide 32
Slide 32 text
32 ● 第 2 章: 手戻りが少なくなるような実験方法 ● 第 3 章: 学習終盤に強いデータ拡張をやめる ● 第 4 章: ArcFace のハイパーパラメータの勘所 ● 第 5 章: 長さが近いテキストをまとめたミニバッチ 実践的な知見の例(抜粋)
Slide 33
Slide 33 text
33 ● 本体は 224 ページと比較的コンパクト ● サンプルコードは必要最低限の関数のみを掲載し て読みやすくし、全体は GitHub へ ● 参考文献(ウェブサイト・論文など)は 287 件 ● カラー本で図表も多め 特徴②凝縮した内容 + 付録・参考文献
Slide 34
Slide 34 text
34 データサイズも大きく、泥臭い処理も含めて掲載 ● 第 3 章: 犬猫の画像分類 ○ 多くの画像認識タスクに拡張可能 ● 第 4 章: 著名な Google Landmark Retrieval ● 第 5 章: 質問文の類似判定 ○ 多くの自然言語処理タスクに拡張可能 特徴③実際のコンテストを題材に
Slide 35
Slide 35 text
35 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要
Slide 36
Slide 36 text
36 ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『統計的学習の基礎』(共立出版) 補完① Kaggle 全般やテーブル形式の データセットを扱う方法
Slide 37
Slide 37 text
37 ● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』 (マイナビ出版) ● 『深層学習 改訂第2版』(講談社) ● 『画像認識』(講談社) ● 『Vision Transformer入門』(技術評論社) ● 『深層学習による自然言語処理』(講談社) ● 『IT Text 自然言語処理の基礎』(オーム社) 補完②深層学習や画像認識・自然言語処理
Slide 38
Slide 38 text
38 ● 開発ツールの説明は必要最小限にとどめている ● 公式ドキュメントやチュートリアルなどを必要に 応じて参照 ○ https://docs.docker.com/ ○ https://yutaroogawa.github.io/pytorch_tuto rials_jp/ 補完③ Docker や PyTorch
Slide 39
Slide 39 text
39 補完④評価指標や Python・機械学習全般 https://startpython.connpass.com/event/270312/
Slide 40
Slide 40 text
40 ● コンテスト:RMSE: Root Mean Square Error ● 社内検証では、RMSE だけでなく年代別の正答率 も利用 ● 正答率は直感的に分かりやすいが、モデルの性能 を測る上では、1 歳の誤差か 50 歳の誤差かは区別 して議論したい 日経の Kaggle コンテストでの評価指標
Slide 41
Slide 41 text
41 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や魅力 ○ 書籍を補完する資料 まとめ
Slide 42
Slide 42 text
42 ● 書籍ページ(講談社・Amazon) ● 付録コード・正誤表・脚注(GitHub) ● 著者の紹介記事(秋葉さん・石原) ● 書評(からあげさん・TJO さん・Maxwellさん ・nikkie さん) ● Twitter 評判「Kaggle 極意」「Kaggle 本」 リンク集
Slide 43
Slide 43 text
43 ● 日本経済新聞社デジタル人材採用 https://hack.nikkei.com/ ● 2024 年入社 第 1 回定期採用試験 https://www.nikkei.co.jp/saiyo/recruit/require ments.html ● お気軽にご連絡ください&ご関心あれば懇親会で Hack the Nikkei