Slide 1

Slide 1 text

Competitionsだけじゃない! Kaggle Notebooks Grandmasterのすすめ @corochann 2024/10/12 Rist Meetup 2024「Kaggleは業務の役にたつ」

Slide 2

Slide 2 text

Kaggleは業務の役に立つ

Slide 3

Slide 3 text

Kaggleは業務の役に立つ 業務の役に立つKaggleを もっと楽しめるようになる かもしれない

Slide 4

Slide 4 text

Kaggleで何を目指していますか、、、? 4

Slide 5

Slide 5 text

Kaggleで何を目指していますか、、、? コンペで上位を取りたい!!! 5

Slide 6

Slide 6 text

Kaggleで何を目指していますか、、、? Competitions Master, Grandmasterになりたい! 6

Slide 7

Slide 7 text

Kaggleで何を目指していますか、、、? ここばっかり見ていませんか、、? 7

Slide 8

Slide 8 text

Kaggleで何を目指していますか、、、? Kaggleの楽しみ方はほかにもあるんです!!! 8

Slide 9

Slide 9 text

Kaggleで何を目指していますか、、、? →Notebooks Master, Grandmasterを目指そう!!! 9

Slide 10

Slide 10 text

自己紹介 中郷孝祐 (@corochann) Sony EMCS Malaysia ● テレビのソフトウェア開発 Preferred Networks ● 製造業領域でのDeep learning応用 ● Chainer Chemistryの開発 ● Matlantisのリリース、PFCC立ち上げ ● PFEにてPLaMo-100Bの事後学習 Kaggle ● 2x Grandmaster (Notebooks & Competitions) 10

Slide 11

Slide 11 text

Kaggle歴 2017 2018 2019 2022 2023 2024 Competitions Notebooks Dstl Satellite Image LANL Earthquake PetFinder.my Adoption HPA Single Cell Lyft Motion LLM Science Exam 13th 19th 4th 7th 5th x1 ASHRAE Energy x3 x4 Lyft Motion CHAMPS Molecule Google QUEST x1 2020 Bengali. AI x4 2021 x3 VinBigData Chest X-ray 11 Notebooks GM Competitions GM 本気で取り組み始めてから 1.5年 初金メダルから4年、Kaggle登録からは7年

Slide 12

Slide 12 text

Notebooks のすすめ 12

Slide 13

Slide 13 text

Kaggleをやる目的 ● コンペに勝って実力を示したい! ● 自身の勉強に役立つ ○ 実際に手を動かしながら、取り組むことで実践的な知識がすぐ身につく ○ “Kaggleは筋トレ” 13

Slide 14

Slide 14 text

Kaggleはなぜ勉強になるのか コンペ期間中でもNotebook, Discussionなどが盛り上がっている →初めて参加するドメインでも参照コードがたくさんあり手を動かせる  参加者同士で切磋琢磨できる! Notebook (Codeタブ) Discussion 14

Slide 15

Slide 15 text

Kaggleはなぜ勉強になるのか コンペ期間中でもNotebook, Discussionなどが盛り上がっている →初めて参加するドメインでも参照コードがたくさんあり手を動かせる  参加者同士で切磋琢磨できる! Notebook (Codeタブ) Discussion 書く側になって盛り上げよう! 15

Slide 16

Slide 16 text

Notebookを書く目的 ● 自身の勉強に役立つ ○ 人に説明することでより理解が深まる ○ コメントがもらえることで、自分の理解がより深まる ● Kaggle Platformで楽しませてもらっていることの恩返し ○ 感謝の気持ちでContribution backしよう! ● Kaggle上で色々な人とやりとりすることができる ○ 有名な人から質問が来ることも ● 好きなフレームワーク・ツールの布教 ○ うまくいけば布教もできるかも、、? → Optunaの例を後述 ● 自身のアイデアの昇華 ○ Competitionよりも時間軸が短く、小さな単位で出口に出すことができる ● メダルがもらえる ○ 、、、まずはこの動機からでも十分!? 16

Slide 17

Slide 17 text

Kaggle Notebooks Grandmasterを目指す魅力 17

Slide 18

Slide 18 text

Notebookを書く魅力 ● モチベが続きやすい ○ 1週間〜1ヶ月程度の集中勝負でいける ○ Upvote数見ながら、早期撤退判断もしやすい ● 運要素は少ない ○ コンペのようにShake downやリークなどで 最後にぶち壊し、、、ということはほぼない → https://www.kaggle.com/competitions/microsoft-malware- prediction/leaderboard 18

Slide 19

Slide 19 text

Notebookを書く魅力 ● コメントをもらえる ○ 励みになる ○ 単純にKaggle コミュニティの人とやりとりできるのはモチベになる ○ 実はDiscussionメダルももらえます 19

Slide 20

Slide 20 text

Notebookを書く魅力 ● 自分のCodeをたくさんの人に実行してもらえる 20

Slide 21

Slide 21 text

Notebookを書く魅力 ● チームマージの打診がきやすい・しやすい ○ 活動をしている人は目立つので他の参加者(海外からも)から 声をかけられることもあるかも 21

Slide 22

Slide 22 text

日本のNotebooks GM ● まだ6人しかいないようです ○ tito san ○ Y.Nakama san ○ Hidehisa Arai san ○ chumajin san ○ mugen88 san ○ corochann ● 今からでもFirst 10に入れます! Global Japan Competitions 334 69 (最多!!) Datasets 79 2 Notebooks 151 6 Discussions 80 1 GMの数比較 こちらが少ない😢 https://www.kaggle.com/code/corochann/eda-grandmaster-japan にて確認 22

Slide 23

Slide 23 text

Kaggle Notebooks Grandmasterを目指す魅力 ● Competitions GMよりも短期で目指せる可能性がある ○ 両方の金メダル狙った並走も可 (後述) ● Competitions カテゴリで勝つのが難しい人でもチャンスがある ○ コード品質や可視化、サーベイ力、アイデアで勝負できる。 ○ 英語力はそこまで重要ではない ■ 今ならDeepLやChatGPTで翻訳させた文章でも十分 23

Slide 24

Slide 24 text

Kaggle Notebooks Grandmasterを目指す方法 24

Slide 25

Slide 25 text

Tierについて メダルの数に応じてExpert, Master, Grandmasterなどの称号が付与 https://www.kaggle.com/progression 25

Slide 26

Slide 26 text

メダル付与 ● Competitionのみ、順位で決まる ● 他3部門はVote数で決まる Competitions Datasets Notebooks Discussions 26

Slide 27

Slide 27 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? 27

Slide 28

Slide 28 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? ● Upvote数が多いもの (Most votesでSort) 28

Slide 29

Slide 29 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? ● Upvote数が多いもの (Most votesでSort) ● 有名な人、GMが書いているもの 29

Slide 30

Slide 30 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? ● Upvote数が多いもの (Most votesでSort) ● 有名な人、GMが書いているもの コントロールできない すでにGMの人はそれだけ で有利かも 30

Slide 31

Slide 31 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? ● Upvote数が多いもの (Most votesでSort) ● 有名な人、GMが書いているもの ● 最初のとっかかりになるもの (Quick start系) ● 問題理解、データの把握に役に立つもの (EDA系) ● コードの書き方がわかるもの (Tutorial系) ● スコアが高いもの (Training & Prediction系) 31 コントロールできない すでにGMの人はそれだけ で有利かも

Slide 32

Slide 32 text

金メダルを取るには? みなさんはどんなNotebookを最初にみますか? ● Upvote数が多いもの (Most votesでSort) ● 有名な人、GMが書いているもの ● 最初のとっかかりになるもの (Quick start系) ● 問題理解、データの把握に役に立つもの (EDA系) ● コードの書き方がわかるもの (Tutorial系) ● スコアが高いもの (Training & Prediction系) →ここら辺を狙っていきましょう!  1コンペでEDA, Model学習, Model推論の金メダル3個、  それ以上を狙うことも可能 32

Slide 33

Slide 33 text

1. Quick start ● 次のEDAとほぼ同じだが、コンペの説明や、 コンペに必要な前提知識の説明にフォーカス ● データの仕様説明やドメイン知識を共有することが重要 ● スピード勝負 (~1ヶ月) https://www.kaggle.com/code/corochann/lyft-comprehensive-guide-to-start-competition 33

Slide 34

Slide 34 text

2. EDA: Exploratory Data Analysis ● コンペのデータがどのようなものなのかを詳細に見て説明・解説 ● 可視化やドメイン知識を共有することが重要 ● データを深くみることでわかる気づきがポイント ● Survey能力があり、そういうのを共有できるとプラス ● スピード勝負 (~1ヶ月) https://www.kaggle.com/code/corochann/google-quest-first-data-introduction 34

Slide 35

Slide 35 text

3. Tutorial https://www.kaggle.com/code/corochann/optuna-tutorial-for-hyperparameter-optimization ● 特定のライブラリの使い方・機能など深掘りして紹介 ○ もちろんコンペのデータを使いデモを作る ○ 使いこなすことでコンペにどのように役立つかを説明できるとプラス 35

Slide 36

Slide 36 text

3. Tutorial https://www.kaggle.com/code/corochann/optuna-tutorial-for-hyperparameter-optimization ● 特定のライブラリの使い方・機能など深掘りして紹介 ○ もちろんコンペのデータを使いデモを作る ○ 使いこなすことでコンペにどのように役立つかを説明できるとプラス 59,470 VIEWS, 369 Upvote Optunaを世界のKagglerに普及させたのはこのNotebookと言っても過言で はない、、、? 36

Slide 37

Slide 37 text

3. Tutorial https://www.kaggle.com/code/corochann/optuna-tutorial-for-hyperparameter-optimization ● 特定のライブラリの使い方・機能など深掘りして紹介 ○ もちろんコンペのデータを使いデモを作る ○ 使いこなすことでコンペにどのように役立つかを説明できるとプラス 59,470 VIEWS, 369 Upvote Optunaを世界のKagglerに普及させたのはこのNotebookと言っても過言で はない、、、?(→コンペ終了後にも伸びた珍しい例) 37

Slide 38

Slide 38 text

4. Model Training: モデル学習コード ● データ前処理の方法、モデル選定、モデルの使い方 ● 学習パイプライン(学習ライブラリの使い方)をどう組むか ○ Multi stage trainingの場合、stageごとにNotebook分けられることも ● Upvoteもらうには結局モデル性能は重要。 https://www.kaggle.com/code/corochann/bengali-seresnext-training-with-pytorch 38

Slide 39

Slide 39 text

5. Model Inference: モデル推論コード ● モデル学習とセットで出せる。→分ける場合は2つ ● 説明はあまり不要で、作成にかかる工数は少なめ ● (闇魔術のEnsembleを除いては)シンプルなコードで十分 ● Upvoteもらうには結局モデル性能が重要 https://www.kaggle.com/code/corochann/bengali-seresnext-prediction-with-pytorch 39

Slide 40

Slide 40 text

6. 小ネタ系 https://www.kaggle.com/code/corochann/ashrae-feather-format-for-fast-loading ● コンペ特有の関数実装・データセット読み込みの高速化や省メモリ化など ● コンペ特有のMetricsの最適化方法 ● そのコンペで必須な関数実装を早くするして共有するだけでもよい ● 安定してGold取れるとは限らないが、ハマると一番コスパが良い ○ Discussion側に投稿するのもあり 40

Slide 41

Slide 41 text

7. データ生成系 ● 基盤モデルを用いて、コンペ特化したデータを作る。最近特有の傾向。 ● より質の良いデータの作り方、そのデータの使い方などを紹介する。 ○ Prompt芸やFilteringなど、、 41

Slide 42

Slide 42 text

UpvoteもらいづらいNotebook例 ● Winning SolutionのNotebook公開 ○ コンペ終了後のNotebookはかなり上位でない限りは難しい ● Playgroundコンペとかに対するNotebook投稿 ○ すでによいNotebookが飽和しており、また旬ではないため難しい ● 世の中ではマイナーなライブラリを用いたNotebook ○ Chainerの普及試みたが難しかった😢😢😢 ● スコアが低いモデル学習Notebook ○ 残念?ながら スコア >> ユニークさ/英語力 か 42

Slide 43

Slide 43 text

どのカテゴリが取りやすい? (自分の場合)意外とどのカテゴリも広くとっていた カテゴリで特化するよりは、 特定のコンペに深く入り込んで 複数Notebook執筆を 狙っていく方が効率が良いかも 43

Slide 44

Slide 44 text

Notebookはどういう単位で分けるべきか ● 読み手にとってみやすい単位で分割するのが理想だが、、、 ● 金メダルが取れそうなくらいの単位でマージ/分割するという戦略になってし まうのは事実。。 裏ワザ ● Notebookは後からタイトル変更も可能 ● →後からMergeや分割も可能 44

Slide 45

Slide 45 text

NotebookとCompetitions両方で金メダル狙う並走は可能? 可能です! 45

Slide 46

Slide 46 text

NotebookとCompetitions両方で金メダル狙う並走は可能? Notebookなどで序盤にアイデアを共有することは競争優位性にマイナスとなる か? ● 初めの1ヶ月で思いつくアイデアは大体いつか思い付かれる ● うまくいかないアプローチ、Hyperparameterの感覚など公開されない部分 の知見で差がある。 ● 公開した上でやっぱり自分が1番先をいけばよい。cf. ケロッピ先生 https://www.kaggle.com/competitions/rsna-2024-lumbar-spine-degenerative-classification/discussion/519628 46

Slide 47

Slide 47 text

並走がうまくいった例 Lyft Motion Predictionコンペの例 ● 最初の1.5ヶ月程度: Notebook作成に注力。この時点で良いスコアが取れ ており、優位性があることが見えていた ため、継続することに。 ○ Notebookで4x Gold獲得 ● 1.5ヶ月~コンペ終了まで: Notebookが金メダル取れたところで、 チームに参加し順位取りに行くモードに切り替え。 ○ 最終的に4th prize でFinish 47

Slide 48

Slide 48 text

並走がうまくいった例 Lyft Motion Predictionコンペの例 ● 1st place solutionでも自身の作ったBaseline が採用されていた https://www.kaggle.com/competitions/lyft-motion-p rediction-autonomous-vehicles/discussion/201493 48

Slide 49

Slide 49 text

よいNotebookの書き方 49

Slide 50

Slide 50 text

タイトル ● 何をしているか一目でわかりやすく。 ● EDA, Training, Inferenceなどの単語が入っているとわかりやすい。 ● 使っているモデル名、特にユニークな気づきなどを含める。 ● ⭐最近は絵文字入れるのが流行っている印象⭐ ○ emojipediaなどの絵文字検索サービスも活用 ● NotebookにはTagも設定できるので、きちんと設定すると丁寧 ○ eda, data visualization, feature engineering, starter code, beginner, tutorial deep learning, data cleaning, etc… https://www.kaggle.com/code/corochann/vinbigdata-detectron2-train 50

Slide 51

Slide 51 text

見出し ● Eye catch画像を最初に入れておくと見栄えがよくなる ● 関連するYouTubeなどを貼り付けるのも可👍 https://www.kaggle.com/code/corochann/optuna-tutorial-for-hy perparameter-optimization https://www.kaggle.com/code/corochann/ eda-and-graph-nn-baseline-modeling 51

Slide 52

Slide 52 text

Markdownを正しく使う ● Notebookの階層構造、章立てを意識して見出しをつける ○ # 章, ## 節, ### 小見出し ● **太字** ● `変数名` ● > 引用文 ● [文章](URL) で引用 Notebookの右側に Table of Contentsが展開されます 52

Slide 53

Slide 53 text

HTMLも使える! ● 目次を作成してリンクを貼る ○ [Dataset](#dataset) → にジャンプ ● YouTubeなどの埋め込み ○ ... ● 文字の色やフォント変更して強調する ○

text

● 画像のレイアウトこだわる ○ ● 段落変えない改行 ○
などなど、、、 53

Slide 54

Slide 54 text

できるだけ可視化! ● 特にEDAの場合:データを表で見せる代わりにどのようにグラフにして見せ られるかを考える。 ○ そこから何が読み取れるか、文章での追記も必要 ● Tutorial系の場合はクラスダイヤグラムなど自作で図を作るのもおすすめ 54 https://www.kaggle.com/code/corochann/lyft-comp rehensive-guide-to-start-competition

Slide 55

Slide 55 text

Hide Cellを活用 ● Notebook作成の際に、input, output cellそれぞれを Defaultで見せるか、折りたたんでおくか選べる。 ● 右クリックして “Hide cell in Viewer” を選択 ● Input: import文や便利関数定義など、 ストーリーから逸れるものは畳んでおく ● Output: 長すぎるログなどは隠す 55

Slide 56

Slide 56 text

引用をできるだけする ● 参考文献やライブラリの参照ポイントなど、 URL引用はできるだけする。 ● 自身のNotebookを書く際に役立った先行WorkへのCreditは忘れずに! (協調コミュニティー、後述) 56

Slide 57

Slide 57 text

Done is better than perfect! ● とはいえ、公開までのスピードが重要な世界 ● 書きたいと思っているが間に合っていないところは 見出しだけつけて “To be updated” と書いて公開してしまおう。 ○ 毎日少しずつ更新していってVersion 20とかになることも。 ● あとはやってみるのみ! 57

Slide 58

Slide 58 text

Other Useful Links ● How to become a Kernels Master ? | Kaggle ○ 過去1位だった@artgorさんのコメント ○ > The common idea is that kernel contains the authors ideas, analysis, opinion and not only code (except for top-scoring kernels). ● Six steps to more professional data science code | Kaggle ○ R使いの@rtatmanさん ○ 📦 Modular, ✔ Correct, 📖 Readable, 💅 Stylish, 🛠 Versatile, 💡 Creative に書いていくのが大切とのこと。 ● Creating a Good Analytics Report ○ @jpmiller さん ○ よいコードの書き方が書いてある (かなり昔の資料です、、、) 58

Slide 59

Slide 59 text

メタ分析 59

Slide 60

Slide 60 text

Notebookが盛り上がるコンペは? ● 参加チーム数が多いコンペ ○ 参加者が多く、盛り上がっているコンペほどUpvoteもらいやすい ● 物理系コンペは狙い目 ○ ドメイン知識が必要で、データも特化しているので 説明できること・気づきがたくさんある ○ 面白いからか、参加チームも多い傾向 ● テーブルデータ系コンペ ○ テーブルデータ系は初心者も入りやすいので参加者が多い傾向 ○ EDAもやりやすい ● LLM, 画像系コンペ ○ ものによる。 ○ 計算資源がたくさん必要なコンペは参加者が少ないことも 60

Slide 61

Slide 61 text

最適なコンペ参加タイミングは? ● Competition: 序盤から参加しておくことで優位には立てるが、終盤の追い 込みが必要 コンペ開始 コンペ終了 Discussion Notebook & Dataset Competition 重要度 61

Slide 62

Slide 62 text

最適なコンペ参加タイミングは? ● Notebook, Dataset: スタートダッシュが重要 (特にEDA) スコアも序盤の方は良いスコアをとるのが簡単 最後1ヶ月程度はGoldメダル圏に入ってしまうようなスコアをとるNotebook のシェアは避けるのが暗黙のマナー コンペ開始 コンペ終了 Discussion Notebook & Dataset Competition 重要度 62

Slide 63

Slide 63 text

最適なコンペ参加タイミングは? ● Discussion: 序盤に前提/関連知識紹介などたくさんネタがあるが、 その場その場でコミュニティが見つけた質問などを掘り下げることが必要。 コンペ終了後はSolution投稿&その質問などで盛り上がる。 コンペ開始 コンペ終了 Discussion Notebook & Dataset Competition 重要度 63

Slide 64

Slide 64 text

Kaggleの生態系を理解する ~ ゲーム理論の観点から Competitionsは相対的な順位が重要 →囚人のジレンマ状態 相手 協調 裏切り 6点 10点 2点 0点 協調 裏切り 自 分 https://mas.kke.co.jp/fukuzatsu/dilemma/ を元に作成 自分は情報を出さずに、相手に情報を出させて上位を取るのが最適 64

Slide 65

Slide 65 text

Kaggleの生態系を理解する ~ ゲーム理論の観点から Notebooks, Datasets, Discussionsは、、? →Upvote数という絶対値で決まる。協力ゲーム! 相手 協調 裏切り 10点 8点 0点 4点 協調 裏切り 自 分 相手を尊重してUpvoteしても自分が失うものはない 相手から参照・Upvoteもらえるような協力ができれば最適! 65

Slide 66

Slide 66 text

協調の世界 Notebook category現1位、ChrisさんのNotebook例 とにかく先行取り組みをリスペクトし、参照を残している。 https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1 66

Slide 67

Slide 67 text

小ネタ: GMはUpvoteでも優遇される ● メダル付与のためのUpvoteカウントはNoviceを除くルール ● Upvoteの内訳を定期的に確認することもしばしば ● UpvoteはTier順にソートされる 67 https://www.kaggle.com/code/corochann/optuna-tutorial-for-hyperparameter-optimization

Slide 68

Slide 68 text

Kagglerは優しい Discussionへの投稿で、過去一番Upvoteしてもらえたもの 68 https://www.kaggle.com/competitions/vinbigdata-chest-xray-abnormalities-detection/discussion/220466

Slide 69

Slide 69 text

自分がやった取り組み ● 引き出しを増やす! ○ OneNoteでメモを作っていく ● Kaggle Notifierを作る ○ コンペ開始直後、コンペ終了前後に動けるように 69

Slide 70

Slide 70 text

引き出しを増やす: 可視化編 ● matplotlib ○ https://github.com/matplotlib/cheatsheets ○ https://matplotlib.org/stable/gallery/index.html ● plotly ○ Plotly Python Graphing Library ○ Plotly Express ○ plotly expressは簡単に Interactiveな図が書けておすすめ Galleryをみて どんな可視化があるか把握しておく 70

Slide 71

Slide 71 text

引き出しを増やす: 可視化編 使える可視化ごとにSnippetとしてOneNoteに書き溜めていました。 71

Slide 72

Slide 72 text

Kaggle Notifierを作る ● Kaggleコンペの開催はE-mailでも受信できるが、終了は気付けない ● Kaggle APIを使ってSlackで通知するプログラムを作成 72

Slide 73

Slide 73 text

Kaggleは業務の役に立つ 73

Slide 74

Slide 74 text

KaggleでGMを目指すことで身につく能力 ● 広く俯瞰する力 ○ 達成したい目標に対して、何をすれば良いのか広い視点で考える ● 継続は力なり ○ GMはかなり根気よく続けないとなれませんでした ○ 今後も関わっていきたい 74

Slide 75

Slide 75 text

Kaggleコンペへの取り組みを通じて身につく能力 ● 適切なアプローチを見定める力 ○ 問題を理解して、どういうアプローチが考えられるか列挙し、現在の状況・有限 のリソースの中で成果を出すための適切な方向を決定していく力 ○ 正しい方向に向かっていることを正しく評価する力 ● 世界と戦う上で必要なコミット量がわかる 75

Slide 76

Slide 76 text

具体例1: 異分野でもやっていけるだろうと思える ● Kaggleでは取り組んだことのない分野のコンペに参加して学ぶこともしば しば ○ テーブル (GBDT)、センサー・音声 (1D)、画像 (CNN)、文章 (LLM) ● →異分野でもやっていける自信がつく 76

Slide 77

Slide 77 text

具体例2: Tutorialの執筆 ● Notebookを書くスキルが直接生きた例 77 https://docs.matlantis.com/atomistic-simulation-tutorial/

Slide 78

Slide 78 text

さいごに 78

Slide 79

Slide 79 text

今から取り組むなら、、、 ● LLM活用すると、全く違った効率でできるのかも? ○ コーディング支援 ○ 英語への翻訳、英語文のReview ■ 英語ができないから、、、はもう ○ コードから、必要な解説コメントの生成 ○ そもそものドメイン知識などのSurveyに活用 ○ Notebookのネタになるアイデア出し ○ etc etc… 79 https://openai.com/index/mle-bench/

Slide 80

Slide 80 text

メッセージ ● 日本はすでにKaggle Competitions Grandmasterが世界一いる ○ スキルが優秀な人材は揃っている ● 発信力をあげよう! ○ 技術のガラパゴス化を防ぎたい ○ トレンドを作る(日本ではやったライブラリが世界へ広まると嬉しい) ● NotebookやDiscussionへの参加に興味を持っていただけたら嬉しいです ○ 本気でやりたいが、はじめの公開が自信ないかた、、、Reviewします 80

Slide 81

Slide 81 text

Other references ● CompetitionだけではないKaggleの魅力 ● Kaggleの楽しみ方 〜コンペだけじゃない!データセットで気軽にEDAに挑戦 しよう〜 - Qiita 今回伝えたかったこととほとんど同じ内容がすでに書かれていました 81