Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JAPAN AI CUP Prediction Tutorial

JAPAN AI CUP Prediction Tutorial

Avatar for Shotaro Ishihara

Shotaro Ishihara

January 13, 2026
Tweet

More Decks by Shotaro Ishihara

Other Decks in Education

Transcript

  1. • JAPAN AI CUP の概要 ◦ 中高生 AI・DS 探究部門 /

    中高生予測部門 / 一般予測部門 ◦ 予測部門で取り組む課題 ◦ 評価指標 ◦ 生成 AI 利用などのルール • ベースラインモデルの構築 • 今後の改善の指針 チュートリアルの目次
  2. 中高生 AI・DS 探究部門と、中高生/一般予測部門を開催 • AI・DS 探究部門 [募集要項] ◦ 人工知能 (AI)

    やデータサイエンスに関する幅広い探究活動 の成果を募集 • 予測部門 [中高生][一般] ◦ 所定の項目に対する予測精度を競う。今回の課題は、商品 購買データを用いた需要予測。 JAPAN AI CUP の概要 https://www.ai-gakkai.or.jp/aicup/
  3. 2024 年 2 月 3 日〜2025 年 2 月 2

    日の商品購買データを用いて 顧客が 2025 年 2 月 3〜28 日に 100 円以上購入するか予測 • データ提供:生活協同組合コープさっぽろ • 商品購買データ: コンペの課題:顧客の再訪を予測せよ!
  4. 詳細は Data タブ参照 • 商品名 • 商品カテゴリ • 価格 •

    購入量 • 会員 ID • 会員ステータス • 性別 など 商品購買データに含まれる情報
  5. 課題設定 (データの分割) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public

    test (提供せず) Private test (提供せず) 29965 人 3300 人 6700 人 ユーザ x 日付のデータを提供
  6. • JAPAN AI CUP の概要 • ベースラインモデルの構築 ◦ Kaggle アカウントの準備やコンペ参加

    ◦ データの確認 ◦ 基本的な特徴量を使ったモデルの作成 ◦ モデルの検証 ◦ 予測結果の提出 • 今後の改善の指針 チュートリアルの目次
  7. 1. アカウント作成 • 日本人工知能オリンピック「Kaggle アカウントの作成手順」の 解説動画 • ※ Kaggle アカウントは、13

    歳以上から作成できます(13〜16 歳は保護者の同意が必要) 2. コンペ参加 • コンペの URL にアクセスし「Join Competition」 Kaggle アカウントの準備やコンペ参加
  8. 提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 正解ラベルが 1

    (再訪する) のユーザに 1 寄りの値、0 (しない) のユーザに 0 寄りの値を付けていると、良いスコアが出るよう な評価指標 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 29965 人 3300 人 6700 人
  9. 提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 約 33

    % のユーザでスコアを算出 => 暫定の順位表 (Public) • 残りのユーザでスコアを算出 => 最終結果に利用 (Private) 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  10. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  11. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  12. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  13. 1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)

    参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
  14. 仮説を立てる → 手元と順位表で検証しながら試行錯誤 • 仮説を立てる ◦ 特徴量の追加や削除 (何が予測に役立ちそう?) ◦ 機械学習モデルの差し替え

    (XGBoost やニューラルネット ワークなど) ◦ 複数の予測結果の活用 (アンサンブル) • 手元と順位表で検証 ◦ 最終結果は、暫定の順位表 (Public) で使われているデータ とは、異なるデータに対する性能で評価 (Private) ◦ 手元の検証スコアも見て、汎用性が高いモデルを目指す まとめと今後の改善の指針