Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JAPAN AI CUP Prediction Tutorial

JAPAN AI CUP Prediction Tutorial

Avatar for Shotaro Ishihara

Shotaro Ishihara

January 13, 2026

More Decks by Shotaro Ishihara

Other Decks in Education

Transcript

  1. • JAPAN AI CUP の概要 ◦ 中高生 AI・DS 探究部門 /

    中高生予測部門 / 一般予測部門 ◦ 予測部門で取り組む課題 ◦ 評価指標 ◦ 生成 AI 利用などのルール • ベースラインモデルの構築 • 今後の改善の指針 チュートリアルの目次
  2. 中高生 AI・DS 探究部門と、中高生/一般予測部門を開催 • AI・DS 探究部門 [募集要項] ◦ 人工知能 (AI)

    やデータサイエンスに関する幅広い探究活動 の成果を募集 • 予測部門 [中高生][一般] ◦ 所定の項目に対する予測精度を競う。今回の課題は、商品 購買データを用いた需要予測。 JAPAN AI CUP の概要 https://www.ai-gakkai.or.jp/aicup/
  3. 2024 年 2 月 3 日〜2025 年 2 月 2

    日の商品購買データを用いて 顧客が 2025 年 2 月 3〜28 日に 100 円以上購入するか予測 • データ提供:生活協同組合コープさっぽろ • 商品購買データ: コンペの課題:顧客の再訪を予測せよ!
  4. 詳細は Data タブ参照 • 商品名 • 商品カテゴリ • 価格 •

    購入量 • 会員 ID • 会員ステータス • 性別 など 商品購買データに含まれる情報
  5. 課題設定 (データの分割) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public

    test (提供せず) Private test (提供せず) 29965 人 3300 人 6700 人 ユーザ x 日付のデータを提供
  6. • JAPAN AI CUP の概要 • ベースラインモデルの構築 ◦ Kaggle アカウントの準備やコンペ参加

    ◦ データの確認 ◦ 基本的な特徴量を使ったモデルの作成 ◦ モデルの検証 ◦ 予測結果の提出 • 今後の改善の指針 チュートリアルの目次
  7. 1. アカウント作成 • 日本人工知能オリンピック「Kaggle アカウントの作成手順」の 解説動画 • ※ Kaggle アカウントは、13

    歳以上から作成できます(13〜16 歳は保護者の同意が必要) 2. コンペ参加 • コンペの URL にアクセスし「Join Competition」 Kaggle アカウントの準備やコンペ参加
  8. 提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 正解ラベルが 1

    (再訪する) のユーザに 1 寄りの値、0 (しない) のユーザに 0 寄りの値を付けていると、良いスコアが出るよう な評価指標 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 29965 人 3300 人 6700 人
  9. 提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 約 33

    % のユーザでスコアを算出 => 暫定の順位表 (Public) • 残りのユーザでスコアを算出 => 最終結果に利用 (Private) 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  10. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  11. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  12. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  13. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  14. 仮説を立てる → 手元と順位表で検証しながら試行錯誤 • 仮説を立てる ◦ 特徴量の追加や削除 (何が予測に役立ちそう?) ◦ 機械学習モデルの差し替え

    (XGBoost やニューラルネット ワークなど) ◦ 複数の予測結果の活用 (アンサンブル) • 手元と順位表で検証 ◦ 最終結果は、暫定の順位表 (Public) で使われているデータ とは、異なるデータに対する性能で評価 (Private) ◦ 手元の検証スコアも見て、汎用性が高いモデルを目指す まとめと今後の改善の指針