Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JAPAN AI CUP Prediction Tutorial
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shotaro Ishihara
January 13, 2026
Education
1.2k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
JAPAN AI CUP Prediction Tutorial
https://www.ai-gakkai.or.jp/aicup/
Shotaro Ishihara
January 13, 2026
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
大規模言語モデルは誰を覚えているか / Who Do Large Language Models Memorize?
upura
0
62
[ACL 2026 Demo] Fast-MIA: Efficient and Scalable Membership Inference for LLMs
upura
0
50
Fast-MIA: Efficient and Scalable Membership Inference for LLMs
upura
0
34
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
390
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
700
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
120
JOAI2025講評 / joai2025-review
upura
0
1.6k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
260
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
150
Other Decks in Education
See All in Education
Case Studies and Future Research - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
170
現場最前線から教えるデータサイエンス1 -ITベンダーにおけるデータサイエンティスト-
hidetoshikawaguchi
0
110
!コスパよくインターンに受かる方法!
ruribou
0
260
Implicit and Cross-Device Interaction - Lecture 10 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
2.3k
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
[2026前期火5] 論理学(京都大学文学部 前期 第3回)「形式言語と四つのキーワード:メタ・構成・意味論・ハーモニー」
yatabe
0
540
[2026前期火5] 論理学(京都大学文学部 前期 第6回)「かつとまたはの規則」
yatabe
0
270
「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習
masakat0
0
670
0526
cbtlibrary
0
160
Data Management and Analytics Specialisation
signer
PRO
0
1.8k
Liberalism's Last Man and Asia
vyadav
0
150
Course Review - Lecture 13 - Information Visualisation (4019538FNR)
signer
PRO
1
2.6k
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
55
8.2k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
The Limits of Empathy - UXLibs8
cassininazir
1
350
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
600
Code Review Best Practice
trishagee
74
20k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
Paper Plane
katiecoart
PRO
1
51k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
180
Transcript
JAPAN AI CUP 予測部門 チュートリアル 人工知能学会企画委員コンペティション担当 石原祥太郎、原田慧、高野海斗
• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針 チュートリアルの目次
• JAPAN AI CUP の概要 ◦ 中高生 AI・DS 探究部門 /
中高生予測部門 / 一般予測部門 ◦ 予測部門で取り組む課題 ◦ 評価指標 ◦ 生成 AI 利用などのルール • ベースラインモデルの構築 • 今後の改善の指針 チュートリアルの目次
中高生 AI・DS 探究部門と、中高生/一般予測部門を開催 • AI・DS 探究部門 [募集要項] ◦ 人工知能 (AI)
やデータサイエンスに関する幅広い探究活動 の成果を募集 • 予測部門 [中高生][一般] ◦ 所定の項目に対する予測精度を競う。今回の課題は、商品 購買データを用いた需要予測。 JAPAN AI CUP の概要 https://www.ai-gakkai.or.jp/aicup/
2024 年 2 月 3 日〜2025 年 2 月 2
日の商品購買データを用いて 顧客が 2025 年 2 月 3〜28 日に 100 円以上購入するか予測 • データ提供:生活協同組合コープさっぽろ • 商品購買データ: コンペの課題:顧客の再訪を予測せよ!
詳細は Data タブ参照 • 商品名 • 商品カテゴリ • 価格 •
購入量 • 会員 ID • 会員ステータス • 性別 など 商品購買データに含まれる情報
課題設定 (データの分割) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public
test (提供せず) Private test (提供せず) 29965 人 3300 人 6700 人 ユーザ x 日付のデータを提供
コンペ終了後に、上位チームはコードと解法説明資料を提出。 中高生/一般予測部門それぞれで、以下を表彰。 • 最優秀スコア賞/優秀スコア賞:Private test に対する性能を AUC で評価。 • 人工知能学会特別賞/コープさっぽろ特別賞:独創的な発想や
工夫が認められたチームに授与。 表彰の対象
• JAPAN AI CUP の概要 • ベースラインモデルの構築 ◦ Kaggle アカウントの準備やコンペ参加
◦ データの確認 ◦ 基本的な特徴量を使ったモデルの作成 ◦ モデルの検証 ◦ 予測結果の提出 • 今後の改善の指針 チュートリアルの目次
1. アカウント作成 • 日本人工知能オリンピック「Kaggle アカウントの作成手順」の 解説動画 • ※ Kaggle アカウントは、13
歳以上から作成できます(13〜16 歳は保護者の同意が必要) 2. コンペ参加 • コンペの URL にアクセスし「Join Competition」 Kaggle アカウントの準備やコンペ参加
提供ファイル
データの読み込み
商品購買データ
正解ラベル(1; 再訪、0; 再訪なし)
提出ファイル ← 各 ID の予測値を 0-1 で提出
教師あり学習によるコンペの概要 1. 主催者がデータセットと 課題を提供 2. 参加者は評価用データ セットの正解ラベルを予 測 3. 開催期間中に順位を競い
合う 4. 終了時の最終結果で順位 が確定
基本的な特徴量を使ったモデルの作成 素朴な特徴量として、会員 ID に紐づく以下を計算 • 購入回数:”date” の総数 • 購入単価の多寡:”average_unit_price” の合計
機械学習モデル:LightGBM を利用 • 高速かつ高性能なモデルとして有名 • lgb.train() => model.predict()
検証スコアの算出 モデルの提出前に、性能を見積もる • train_flag.csv のデータ数 (29965) の方が、暫定の順位表に 使われているデータ (Public test)
の数 (3300) よりも多く、 信頼しやすいため • 順位表には提出制限があるため
予測結果の提出
提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 正解ラベルが 1
(再訪する) のユーザに 1 寄りの値、0 (しない) のユーザに 0 寄りの値を付けていると、良いスコアが出るよう な評価指標 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 29965 人 3300 人 6700 人
提出の例:[0.7, 0.8, 0.9, 0.2, 0.3, 0.1, …] • 約 33
% のユーザでスコアを算出 => 暫定の順位表 (Public) • 残りのユーザでスコアを算出 => 最終結果に利用 (Private) 評価指標:AUC (0〜1 の予測値を提出) 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)
参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)
参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)
参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
1. 提供されたデータと正解ラベルを用い、機械学習モデルを構築 2. 構築したモデルで、評価用のデータに対する正解ラベルを予測 3. 予測結果を提出し、暫定の順位表のスコアを確認 4. スコアを参考に、モデルの改善を模索 (1 に戻る)
参加者は何をするか 商品購買データ (data.csv) 2024/02/03 2025/02/02 学習用の正解データ (train_flag.csv) 02/28 Public test (提供せず) Private test (提供せず) 開催中の暫定の 順位表でスコア を確認可能 最終の順位表の スコアに 29965 人 3300 人 6700 人
• JAPAN AI CUP の概要 • ベースラインモデルの構築 • 今後の改善の指針 チュートリアルの目次
仮説を立てる → 手元と順位表で検証しながら試行錯誤 • 仮説を立てる ◦ 特徴量の追加や削除 (何が予測に役立ちそう?) ◦ 機械学習モデルの差し替え
(XGBoost やニューラルネット ワークなど) ◦ 複数の予測結果の活用 (アンサンブル) • 手元と順位表で検証 ◦ 最終結果は、暫定の順位表 (Public) で使われているデータ とは、異なるデータに対する性能で評価 (Private) ◦ 手元の検証スコアも見て、汎用性が高いモデルを目指す まとめと今後の改善の指針