テスト駆動Kaggle

あああ関西Kaggler会 in Osaka 2025 #2 ISAKA Tsuyoshi

自己紹介名前：ISAKA Tsuyoshi（ねぼすけAI）所属：ダイキン工業株式会社趣味：Kaggle、Qiita、将棋、自作PC、ポケポケ、ピクミン、フットサル計算資源：RTX 5090、OpenAI API、RunPod 好きなコンペ
：LLMコンペなどのエンジニアリング要素が強いコンペ Kaggle：@isakatsuyoshi GitHub：@Isaka-code Qiita ：@Isaka-code X ：@AInebosuke Opinions are my own. I just came here as a Kaggler. 2 結果待ち：「Konwinski Prize」、「OpenAI to Z Challenge」参加中：「NeurIPS - Open Polymer Prediction 2025」など

Kaggleで勝つために他の人がしていない　＆　価値があること　をやる（皆がやっていて価値があることをやるのに加えて） → ソフトウェアテスト 3

Kaggleで一番辛い時手元では動くコードが、サブミッション時はエラーを吐く時...。   エラーメッセージ無しでどうやってデバッグすれば良いのやら   原因は色々考えられますが...   「想定外の入力形式」「メモリ不足」「実行時間制限超過」など   →
テストコードがあれば救えたサブミッションがあったかも   友情出演：kprizeでチームを組んでくれたyawanagoさん（出身研究室の先輩） 4

エラーの原因 (推測) イタレーションごとの実行時間制限を  超えたことが原因のようでした。    テストコードでこういったエラーを  事前に潰しておきたい。   5

こんな経験ありませんか？ • ⚠止まらないエラー（APIのエラーメッセージが不親切） • ⏰長時間格闘したエラーの原因が、些細なことだった (例: ndarrayのshape) • 📉なぜかスコアが下がったと思ったら、バグを埋め込んでいた •
🔃再現性が取れなくなった • 💣何もしてないのにコードが壊れた 6

ソリューションそもそもKaggle環境でデバッグしたくない。コードがバグったらすぐに気がつけるようにしたい。 → テストコードを書きながらKaggleに参加しよう！（テスト駆動 Kaggle） 7

先ほどのエラーの後日談実は、先ほどのエラーからすぐに原因を特定し、迅速なデバッグに成功しています。  なぜか？ → エラーの箇所以外はテストコードを書いていたから！  • 不具合: インターバルリミットでタイムアウト  • 対策:
タイムマネジメントクラスを実装  • 予防: タイムマネジメントクラスのテストコードを作成  テストコードのおかげで、実行時間超過の不具合は以降は発生しませんでした。  不具合が生じてからテストコードを追加しても間に合います。むしろ、そこはテストを書くべき重点領域です。  8

機械学習における 3つのテスト対象 1. モデル 2. データ 3. コード←今日はこれの話 1. モデルのテストとは
モデルが期待通りの性能を発揮しているか検証すること。精度だけでなく、予測の一貫性や異常なケースでの挙動も確認する。「Trust CV」という言葉はKaggleにおいてあまりにも有名。 2. データのテストとは学習・推論データの品質と整合性をチェックすること。欠損値・外れ値・データ型などを検証する。EDA（探索的データ分析）とも呼ばれる。 3. コードのテストとは作成したコードが要件を満たしているかを検証すること。機械学習プロジェクトでは、前処理関数、特徴量エンジニアリング関数、評価指標を計算する関数など、さまざまなコードが対象になる。 9

src/utils/metrics.py tests/utils/test_metrics.py テストコードの具体例プロダクトコードとは：普通のソースコードのことテストコードとは：プロダクトコードをテストするコードのこと
10

テストコードの実行と自動化ターミナルでのテスト実行：pytest [テスト対象ディレクトリ] [オプション] GitHub Actionsでの自動テスト：例えばPushした時に自動でテストを走らせる。 11

テストコードを書くと何が嬉しいのか 🛡バグリスクの低減人間のミスは避けられません。特にコンペ終盤の時間的プレッシャー下では、テストコードが輝きます。 🤝チーム開発の効率化コード品質が向上し、レビュー負荷が軽減。チームマージに対する心理的障壁が下がります。 ⚡開発スピードの向上テストというガードレールがあるので、安心して開発のストライドを大きくできます。AIコーディング支援ツールとの相性も抜群です。
✨ 副次的効果ソフトウェアエンジニアの方と仲良くなれるかも...？ 12

Kaggle参加時にテストコードを書く方法簡単な方法：「ロジックはUtility Scriptに分離し、Notebookは呼び出しのみ」 1. Notebookにベタ書きからの卒業（関数やクラスに分割） 2. Utility Scriptに処理を切り出し（コードをGitHubに連携させ、開発はローカルで行う） 3.
切り出したスクリプトのテストコードを作成 4. 提出用Notebookからスクリプトをimport ＋αその1：上記の2で、Kaggle APIを用いて、ローカルのスクリプト群をDatasetとしてアップロードすることもできます＋αその2：テストコードをプロダクトコードより先に書く手法は「テスト駆動開発」と呼ばれます 13

(想像上の)FAQ「テストコードを書いている時間がもったいなくないですか？」 • 経験上、数週間以上参加する場合は、時間的にもペイします。 • バグの心配がない状態でタスク理解にリソースを割けることが大きいです。 • 生成AIでプロダクトコードからテストケースを容易に作成できます。 • 全てのコードに書く必要はありません。コスパが良いところから始めましょう。
適切な書き方をすれば、損益分岐点は想像よりずっと小さいです。 14

テストコードを書くコスパが良い領域まずは書きやすくて、効果が大きい分野を狙いましょう！メトリクスや入出力処理がおすすめです。なので、モデルコードから入出力の処理を分離すると◎ （テストが書きやすい≒良いコード）テストしやすい　＆　効果大 - メトリクス（基本的に変わらないので） -
入出力処理 (正規表現など ) テストしにくい　＆　効果大 - GPUが必要なモデル - タイムマネジメントテストしやすい　＆　効果小 - コンフィグやプロンプトは自明なので効果は限定的 15

コンペでテストコードが特に役に立った事例の紹介① LLM 20 Questions (9位・solo gold medal) - 言葉当てゲーム「20 Questions」をプレイできるAIを開発するコンペ
- 正規表現のスクリプト、各種アルゴリズム全てのテストコードを作成 - エンジニアリング力を武器にソロ金メダルを獲得 16

コンペでテストコードが特に役に立った事例の紹介② Konwinski Prize (Public 4位・Private N位) ※評価期間延長のため発表日時点ではPrivate順位未確定 - GitHubリポジトリにある実際のIssueをAIに解決させるコンペ -
I/O系、タイムマネジメント、選択アルゴリズムなどのテストコードを作成 - サブミッション時エラーは1件のみ 17

どんなケースでソフトウェアテストが有効か？有効なコンペ - 1日のサブ数が少ない - 入出力処理が多い - 期間が長い - コード提出コンペ
おすすめの人 - うっかりミスが多い人（私） - エラーで時間を溶かしたくない人 - 本質部分に集中したい人書くべきシチュエーション - デバッグに苦しんでいるとき - コードを共有するとき - 重めの計算を回す直前 - リファクタリング前 18

何から始めるべきか？ - Python VTuberのサプーさんの動画と紙の書籍の『テスト駆動Python』がオススメです！ - 生成AIに聞きながら実装するのも良いと思います。 - もしよろしければ自分が書いた『機械学習のためのソフトウェアテスト入門』という記事をご覧いただければ嬉しいです！（宣伝） 19

Thank you for listening, and happy Kaggling! 20

テスト駆動Kaggle

テスト駆動Kaggle

ねぼすけAI

Other Decks in Programming

Featured

Transcript

あああ関西Kaggler会 in Osaka 2025 #2 ISAKA Tsuyoshi

自己紹介名前：ISAKA Tsuyoshi（ねぼすけAI）所属：ダイキン工業株式会社趣味：Kaggle、Qiita、将棋、自作PC、ポケポケ、ピクミン、フットサル計算資源：RTX 5090、OpenAI API、RunPod 好きなコンペ

Kaggleで勝つために他の人がしていない　＆　価値があること　をやる（皆がやっていて価値があることをやるのに加えて） → ソフトウェアテスト 3

エラーの原因 (推測) イタレーションごとの実行時間制限を  超えたことが原因のようでした。    テストコードでこういったエラーを  事前に潰しておきたい。   5

ソリューションそもそもKaggle環境でデバッグしたくない。コードがバグったらすぐに気がつけるようにしたい。 → テストコードを書きながらKaggleに参加しよう！（テスト駆動 Kaggle） 7

機械学習における 3つのテスト対象 1. モデル 2. データ 3. コード←今日はこれの話 1. モデルのテストとは

src/utils/metrics.py tests/utils/test_metrics.py テストコードの具体例プロダクトコードとは：普通のソースコードのことテストコードとは：プロダクトコードをテストするコードのこと

テストコードの実行と自動化ターミナルでのテスト実行：pytest [テスト対象ディレクトリ] [オプション] GitHub Actionsでの自動テスト：例えばPushした時に自動でテストを走らせる。 11

コンペでテストコードが特に役に立った事例の紹介① LLM 20 Questions (9位・solo gold medal) - 言葉当てゲーム「20 Questions」をプレイできるAIを開発するコンペ

コンペでテストコードが特に役に立った事例の紹介② Konwinski Prize (Public 4位・Private N位) ※評価期間延長のため発表日時点ではPrivate順位未確定 - GitHubリポジトリにある実際のIssueをAIに解決させるコンペ -

どんなケースでソフトウェアテストが有効か？有効なコンペ - 1日のサブ数が少ない - 入出力処理が多い - 期間が長い - コード提出コンペ

Thank you for listening, and happy Kaggling! 20