MAP-7thplaceSolution

MAP - Charting Student Math Misunderstandings 7位解法（とEedi復習のすすめ）チームS T I
T Y yukichi

・某損保で商品開発→某HR企業で営業企画→JTC（製造業）でDS ・26年1月から2社目に戻ってDS予定（レコメンドモデルの開発）・Python歴2年半／Kaggleもタイタニックコンペから2年と　DSとしてはペーペーです。。（NLPコンペ歴）・Learning Agency Lab（エッセイ）→良くわからなかった。。・Eedi→LLMのFTを学ぶ🥉 ・WSDM（ChatbotArena）→LLMのFTを実践🥈
・MAP→7位！詳細これから話します 🥇 軽く自己紹介全体として Eediで復習したことが活きている！ 2

Agenda ・Baseline作成時に考えていたこと／その概要・マージ前のスコア／考えていたこと・マージ後の取り組み（合成データ／アンサンブル）・結果とまとめチームとしての解法を振り返りつつ、 NLPコンペをこれから始めるなら Eediを復習しよう！という観点もいれつつお話しする予定です。 3

Baselineを作る前に考えていたこと • 正解／不正解は予測の必要性がなさそう ◦ ChrisさんのDiscussion＊1にあったとおり、TrainDataとTestDataでQuestionが完全にOverwrapしていた。よって正解かどうかはLLM使わずともわかる（QuestionIdとMCAnswerをキーに結合） ◦ 生徒の説明からMisconception（Correct／Neither含む）のみを分類するシンプルなタスク • 予測すべきはMisconceptionの36クラス（Correct／Neither含む）なので普通の分類問題として解けそう
◦ Eediの時（2587クラスあった）と比べるとクラス数も多くない＊2 ◦ RetrieverやReranker等のマルチステージの推論は、 Baselineとしては不要そう＊1:https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings/discussion/589400 ＊2:参加していない方はわかりやすい振り返り資料がいくつか公開されているのでそれを見るといいかも。こちらとか False_Misconception:Incomplete 2587class 100 @25 36class @3 Retriever Reranker Classifier Eediの基本解法 MAPのBaseline この部分は予測不要 4

5 Baselineの概要 • Model ◦ Qwen/Qwen2.5-Math-7B ◦ google/gemma-2-9b-it • Parameter（主要なもののみ）
◦ lora_r:64, lora_alpha:128（大きめの値にする） ◦ lr_lora_a: 1e-5, lr_lora_b: 5e-5＊1（LoraのRankとAlphaを固定したうえでいくつか試す） • 学習方法 ◦ 記号のトークンを割り当てる方法＊2／分類ヘッドを使う方法の 2種類を試した ▪ 記号のトークンを割り当てる方法 • Misconceptionと記号を1対1にして、Promptで対応する記号を出力するよう指示 • そのtokenに対応するLogitsのみを取り出しCrossEntropyで学習 ▪ 分類ヘッドを使う方法（ AutoModelForSequenceClassificationではない自作クラスを使用） • Automodelクラスを使い、LastHiddenStateを取り出しその最後の Embeddingを自作分類ヘッドに通して Logitsを得る ◦ 結果としてあまり精度差がなかったので、 vllmで推論しやすい前者を採用 ◦ Eediの上位解法でYes／Noのトークンを使ってRerankerを学習しており、本質的には 1つ目のアプローチと同じ＊1:A行列とB行列で初期化の方法が違うためB行列の学習率を高くしている。今回のコンペでは精度比較していないのでどこまで有効だったかは不明。関連する論文＊2:同じようなアプローチのNotebookが公開されている。（https://www.kaggle.com/code/aleaiest/lb-0-945-qwen2-5-32b-gptq）記号のトークンの割り当て … lm_head attention機構 … extracted-logits 分類ヘッド … lm_head attention機構 … cls_head

• スコア／推論時間 • （補足）Misconceptionの説明 ◦ ラベルにノイズがあるのはわかっていたので、 MisconceptionごとにFewShotsの具体例を与えたうえで、 Reverse-Engeneering的にMisconception の説明文を生成。モデルは claude-sonnet-4を使用＊2
◦ 学習時／推論時にMisconceptionにプラスしてこの説明文を Promptに入れ込む。 ◦ 説明文を入れると当然 TokenLengthが長くなるので、Questionごとに考えられるMisconceptionの選択肢に絞ることにしたチームマージ前のスコアモデルの種類 Misconceptionの説明 Public LB score Private LB score 推論時間 Qwen/Qwen2.5-Math-7B なし 0.94664 0.94196 20min google/gemma-2-9b-it なし 0.94790 0.94276 2h＊1 Qwen/Qwen2.5-Math-7B あり 0.94700 0.94230 20min ＊1:Prefix_caching=Trueとするとメモリが溢れたため、Prefix Cachingをオフにして推論した結果遅くなった。＊2:Eediの1位の方のソリューションでも説明文を合成したアプローチが紹介されており、これからも着想を得た。 You are an expert in mathematics education. Your task is to write a one-sentence explanation that describes the given Misconception. Guidelines: - Summarize the core reasoning error in simple, general terms. - Do not copy or mention numbers, variable names, or wording from the examples. - Keep the description abstract and focused on the misunderstanding itself. - Be concise, clear, and helpful for a teacher to quickly grasp the misconception. このアンサンブル（Probの単純な平均）でPublic LB score：0.95006に（当時の順位で20位くらい） 6

チームマージ前に考えていたこと • 推論時間は1モデル20分〜2時間なので、たくさんアンサンブルできそう ◦ 可能な限りチームマージしたい • TestDataには新たなMisconceptionやQuestionがないのだとすると、合成データを作ることでスコアあげられるのでは？ ◦ 右の表はMisconceptionごとのMap@3スコア
◦ 特にスコアの低い Misconceptionにおいてデータ量が少ないことに気づく ◦ これらについてデータ合成を行ってスコアの底上げを行うことを考えた ▪ 結果としてCVもPublicScoreスコアも上がらず。。 ▪ なぜうまくいかない。。妙だなと思いながら一回合成データは諦めるモデルのサイズを上げるくらいしかアイディアがなくなったところで、 ISAKAさんがチーム募集していたためマージ！ 7 データカウントスコア

• 合成データ＊1の生成方法 • 合成データを使用した場合のスコア（ by ISAKAさん） ◦ ISAKAさんがGemma2-9B-itで検証した＊2結果のスコアは以下のとおり ◦ CV／LBともに向上
チームマージ後の取り組み（合成データ by ISAKAさん）＊1:実際に使用した合成データはこちらで公開しています。＊2:ChrisさんのNotebookのコードを元に検証しています。合成に使用した Few ShotsのExample 合成方法合成数使用モデル正解ラベル（True/False）、QuestionID、 Misconceptionの3つの項目が完全に一致し、かつ該当するデータが5件以上存在するグループを対象に生成各グループからランダムに3件のデータをサンプリングし、それらを参考に新しい「生徒の説明文」を生成。（単一のデータだけを参考にすると元データに酷似してしまう懸念があったため、3つの異なるデータを参照することで、より多様で質の高い合成データを目指した。） 50,000レコード×4 グループ！（学習にはうち1つのグループのデータを使用） GPT-4.1と GPT-5-mini （主に4.1のデータを使用） CVスコア : +0.003〜+0.004 LBスコア : +0.002〜+0.005 8

たが、自分の手元で試すとスコアがよくならなかった。。会話の中でtakaitoさんやtakaiさん、ISAKAさんがラベルノイズについて触れていて、もしかしてコンペデータのラベルノイズ（合成したデータとシフトがある）が原因なのでは？と気づく ◦ 合成データのラベルを正として学習済みのモデルを使って推論した結果の MAP@3を計算すると、0.7程度 ▪ PublicScoreやValidationScoreとの乖離が大きく、合成データと学習データの間でドメインシフト（合成データのラベルはきれいすぎる？）がありそう
チームマージ後の取り組み（合成データをどう使う？）モデルの種類合成データ Public LB score Private LB score Qwen/Qwen2.5-Math-7B なし 0.94664 0.94196 Qwen/Qwen2.5-Math-7B あり 0.94112 0.93823 擬似ラベルでコンペデータと同じようなラベルにして学習すると効果がでるのでは？ 9

上記の学習の結果は以下の通り。スコア伸びた！＊1 チームマージ後の取り組み（擬似ラベルつき合成データで学習）＊1:Validationスコアも向上したものの、OOFで学習しているとはいえ多少のリークはあるはずなので、参考値程度にみていた。モデルの種類合成データ擬似ラベル Public LB score
Private LB score Qwen/Qwen2.5-Math-7B なし - 0.94664 0.94196 Qwen/Qwen2.5-Math-7B ありなし 0.94112 0.93823 Qwen/Qwen2.5-Math-7B ありあり 0.94993 0.94613 教師モデル（Qwen/Qwen2.5-32B-Instruct) コンペデータ合成データコンペデータ（擬似ラベルあり）生徒モデル学習（Fulltrainingしたモデルで）推論（3foldにわけてOOFで）推論学習 // 教師モデルのターゲット準備 teacher_targets ← Softmax(teacher_targets / temperature) // 蒸留損失の計算 FOR each sample in batch: student_logits ← StudentModel(each sample) log_student_probs ← LogSoftmax(student_logits) individual_loss[sample] ← -Sum(log_student_probs × teacher_targets) END FOR distillation_loss ← Average(individual_loss) // 最終損失の計算 base_loss ← 0.5 × ce_loss + 0.5 × distillation_loss 学習の擬似コードデータの生成方法は似ていたので、一人で取り組んでいた合成データについても同じ理由（ラベルノイズ）でうまくいかなかっただけかも。 10

チームマージ後の取り組み（アンサンブル）＊1:コンペデータのみを使い、CE_loss + KL_div_lossで蒸留学習。＊2:合成データについては学習済みモデルの予測結果のTop1とラベルが一致するものについてのみ学習に使用。CE_loss + KL_div_lossで学習。テストデータのサイズは十分にあるとはいえ、切り捨て後のスコアが同じチームがいくつもあったため、 Shakeが怖い。。 takaitoさんがOptunaを使ってモデルの重みの最適化を担当。
OOFの予測を元に最適化作成者モデルの種類 Misconceptionの説明文合成データ Public LB score Private LB score yukichi Qwen/Qwen2.5-32B なしあり 0.94968 0.94708 yukichi google/gemma-2-9b-it なしあり 0.95038 0.94646 yukichi Qwen/Qwen2.5-32B ありあり 0.94940 0.94625 yukichi google/gemma-2-9b-it ありあり 0.95059 0.94528 takai deepseek-ai/DeepSeek-R1 -Distill-Qwen-32B ありなし＊1 0.94894 0.94494 takai deepseek-ai/DeepSeek-R1 -Distill-Qwen-32B ありあり＊2 0.95080 0.94585 sinchir0 Qwen/Qwen3-8B ありなし 0.94824 0.94536 （最終的に使用したモデル一覧） 11

結果！無事に金メダル獲得！ 🥇あと一歩でPrizeは逃す。。選択したサブのスコア以下のような感じ LB見てるとまあまあ揺れているチームもある中で、そこまで順位変動なかった。ちなみにPrivateで一番スコアよかった Subがこちら。選ぶのは難しかった。。（Misconceptionの説明文なしのQwen2.5-Math-7B／Gemma2-9B／Qwen2.5-32Bのアンサンブル）合成データで学習データ増やしたことが Shake対策にもなった？
（僕とtakaiさんは合成データ 5万件＋コンペデータ 3~4万件＝ 8~9万件のデータを使った） 12

まとめ • NLPコンペは今の所Eediで学んだことの応用で十分戦える！ ◦ 復習が大事。強い人がRepoを公開してくれているので動かしながら学ぶと良さそう • 合成データがスコアブーストにつながる場合も ◦ ラベルノイズはつきものなので、これを考慮しつつ合成データをうまく扱うべし •
データをよく見て仮説立てて実験すること ◦ ラベルノイズやMisconceptionの選択肢をQuestionごとに絞れることなど、自分では気づきれていない部分もあり、他のメンバーに気づかされた ◦ （n番煎じではありますが）実験の乱れうちではなく、データをよく見た上で仮説を立ててこれを検証するための実験サイクルが重要 • 金メダル取れると信じて手と頭を動かし続けること（結局一番大事） 13

14 その他関連するリンク • 弊チームのSolution Writeup：https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings /writeups/private-7th-public-10th-place-solution • Eediの1位のSolution Writeup（Raja Biswasさん）
：https://www.kaggle.com/competitions/eedi-mining-misconceptions-in-mathematics/writeups/ mth-101-1st-place-detailed-solution • vLLM：https://docs.vllm.ai/en/latest/

MAP-7thplaceSolution

MAP-7thplaceSolution

yukichi0403

Other Decks in Technology

Featured

Transcript

MAP - Charting Student Math Misunderstandings 7位解法（とEedi復習のすすめ）チームS T I

5 Baselineの概要 • Model ◦ Qwen/Qwen2.5-Math-7B ◦ google/gemma-2-9b-it • Parameter（主要なもののみ）

• 合成データ＊1の生成方法 • 合成データを使用した場合のスコア（ by ISAKAさん） ◦ ISAKAさんがGemma2-9B-itで検証した＊2結果のスコアは以下のとおり ◦ CV／LBともに向上

14 その他関連するリンク • 弊チームのSolution Writeup：https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings /writeups/private-7th-public-10th-place-solution • Eediの1位のSolution Writeup（Raja Biswasさん）