JAPAN AI CUP Prediction Tutorial

JAPAN AI CUP 予測部門チュートリアル人工知能学会企画委員コンペティション担当石原祥太郎、原田慧、高野海斗

• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針チュートリアルの目次

• JAPAN AI CUP の概要 ◦ 中高生 AI・DS 探究部門 /
中高生予測部門 / 一般予測部門 ◦ 予測部門で取り組む課題 ◦ 評価指標 ◦ 生成 AI 利用などのルール • ベースラインモデルの構築 • 今後の改善の指針チュートリアルの目次

中高生 AI・DS 探究部門と、中高生/一般予測部門を開催 • AI・DS 探究部門 [募集要項] ◦ 人工知能 (AI)
やデータサイエンスに関する幅広い探究活動の成果を募集 • 予測部門 [中高生][一般] ◦ 所定の項目に対する予測精度を競う。今回の課題は、商品購買データを用いた需要予測。 JAPAN AI CUP の概要 https://www.ai-gakkai.or.jp/aicup/

2024 年 2 月 3 日〜2025 年 2 月 2
日の商品購買データを用いて顧客が 2025 年 2 月 3〜28 日に 100 円以上購入するか予測 • データ提供：生活協同組合コープさっぽろ • 商品購買データ：コンペの課題：顧客の再訪を予測せよ！

詳細は Data タブ参照 • 商品名 • 商品カテゴリ • 価格 •
購入量 • 会員 ID • 会員ステータス • 性別など商品購買データに含まれる情報

課題設定 (データの分割) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_ﬂag.csv) 02/28 Public
test (提供せず) Private test (提供せず) 29965 人 3300 人 6700 人ユーザ x 日付のデータを提供

コンペ終了後に、上位チームはコードと解法説明資料を提出。中高生/一般予測部門それぞれで、以下を表彰。 • 最優秀スコア賞/優秀スコア賞：Private test に対する性能を AUC で評価。 • 人工知能学会特別賞/コープさっぽろ特別賞：独創的な発想や
工夫が認められたチームに授与。表彰の対象

• JAPAN AI CUP の概要 • ベースラインモデルの構築 ◦ Kaggle アカウントの準備やコンペ参加
◦ データの確認 ◦ 基本的な特徴量を使ったモデルの作成 ◦ モデルの検証 ◦ 予測結果の提出 • 今後の改善の指針チュートリアルの目次

1. アカウント作成 • 日本人工知能オリンピック「Kaggle アカウントの作成手順」の解説動画 • ※ Kaggle アカウントは、13
歳以上から作成できます（13〜16 歳は保護者の同意が必要） 2. コンペ参加 • コンペの URL にアクセスし「Join Competition」 Kaggle アカウントの準備やコンペ参加

提供ファイル

データの読み込み

商品購買データ

正解ラベル（1; 再訪、0; 再訪なし）

提出ファイル ← 各 ID の予測値を 0-1 で提出

教師あり学習によるコンペの概要 1. 主催者がデータセットと課題を提供 2. 参加者は評価用データセットの正解ラベルを予測 3. 開催期間中に順位を競い
合う 4. 終了時の最終結果で順位が確定

基本的な特徴量を使ったモデルの作成素朴な特徴量として、会員 ID に紐づく以下を計算 • 購入回数：”date” の総数 • 購入単価の多寡：”average_unit_price” の合計

機械学習モデル：LightGBM を利用 • 高速かつ高性能なモデルとして有名 • lgb.train() => model.predict()

検証スコアの算出モデルの提出前に、性能を見積もる • train_ﬂag.csv のデータ数 (29965) の方が、暫定の順位表に使われているデータ (Public test)
の数 (3300) よりも多く、信頼しやすいため • 順位表には提出制限があるため

予測結果の提出

提出の例：[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 正解ラベルが 1
(再訪する) のユーザに 1 寄りの値、0 (しない) のユーザに 0 寄りの値を付けていると、良いスコアが出るような評価指標評価指標：AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_ﬂag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の順位表でスコアを確認可能 29965 人 3300 人 6700 人

提出の例：[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 約 33
% のユーザでスコアを算出 => 暫定の順位表 (Public) • 残りのユーザでスコアを算出 => 最終結果に利用 (Private) 評価指標：AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_ﬂag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の順位表でスコアを確認可能最終の順位表のスコアに 29965 人 3300 人 6700 人

1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)
参加者は何をするか商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_ﬂag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の順位表でスコアを確認可能最終の順位表のスコアに 29965 人 3300 人 6700 人

• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針チュートリアルの目次

仮説を立てる → 手元と順位表で検証しながら試行錯誤 • 仮説を立てる ◦ 特徴量の追加や削除 (何が予測に役立ちそう？) ◦ 機械学習モデルの差し替え
(XGBoost やニューラルネットワークなど) ◦ 複数の予測結果の活用 (アンサンブル) • 手元と順位表で検証 ◦ 最終結果は、暫定の順位表 (Public) で使われているデータとは、異なるデータに対する性能で評価 (Private) ◦ 手元の検証スコアも見て、汎用性が高いモデルを目指すまとめと今後の改善の指針

JAPAN AI CUP Prediction Tutorial

JAPAN AI CUP Prediction Tutorial

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Education

Featured

Transcript

JAPAN AI CUP 予測部門チュートリアル人工知能学会企画委員コンペティション担当石原祥太郎、原田慧、高野海斗

• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針チュートリアルの目次

• JAPAN AI CUP の概要 ◦ 中高生 AI・DS 探究部門 /

中高生 AI・DS 探究部門と、中高生/一般予測部門を開催 • AI・DS 探究部門 [募集要項] ◦ 人工知能 (AI)

2024 年 2 月 3 日〜2025 年 2 月 2

詳細は Data タブ参照 • 商品名 • 商品カテゴリ • 価格 •

課題設定 (データの分割) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_ﬂag.csv) 02/28 Public

• JAPAN AI CUP の概要 • ベースラインモデルの構築 ◦ Kaggle アカウントの準備やコンペ参加

1. アカウント作成 • 日本人工知能オリンピック「Kaggle アカウントの作成手順」の解説動画 • ※ Kaggle アカウントは、13

提供ファイル

データの読み込み

商品購買データ

正解ラベル（1; 再訪、0; 再訪なし）

提出ファイル ← 各 ID の予測値を 0-1 で提出

教師あり学習によるコンペの概要 1. 主催者がデータセットと課題を提供 2. 参加者は評価用データセットの正解ラベルを予測 3. 開催期間中に順位を競い

基本的な特徴量を使ったモデルの作成素朴な特徴量として、会員 ID に紐づく以下を計算 • 購入回数：”date” の総数 • 購入単価の多寡：”average_unit_price” の合計

機械学習モデル：LightGBM を利用 • 高速かつ高性能なモデルとして有名 • lgb.train() => model.predict()

検証スコアの算出モデルの提出前に、性能を見積もる • train_ﬂag.csv のデータ数 (29965) の方が、暫定の順位表に使われているデータ (Public test)

予測結果の提出

提出の例：[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 正解ラベルが 1

提出の例：[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 約 33

• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針チュートリアルの目次

仮説を立てる → 手元と順位表で検証しながら試行錯誤 • 仮説を立てる ◦ 特徴量の追加や削除 (何が予測に役立ちそう？) ◦ 機械学習モデルの差し替え