$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jigsaw-ACRC-7th-place
Search
ktr
November 26, 2025
1
220
Jigsaw-ACRC-7th-place
ktr
November 26, 2025
Tweet
Share
More Decks by ktr
See All by ktr
atma cup #17 振り返り会
ktrw1011
0
290
Quora With BERT
ktrw1011
0
2k
APTOS_2019_Blindness_Detection_96th_Solution
ktrw1011
0
810
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
GraphQLとの向き合い方2022年版
quramy
49
14k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.2k
Building Applications with DynamoDB
mza
96
6.8k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
Facilitating Awesome Meetings
lara
57
6.7k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
How to Think Like a Performance Engineer
csswizardry
28
2.3k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
370
Building an army of robots
kneath
306
46k
Transcript
7th place solution MAP, Jigsaw, Code Golf 振り返り会 by 関東kaggler会
(2025/11/27) Jigsaw - Agile Community Rules Classification
自己紹介 アカウント名:ktr 普段:MLエンジニア(LLM・音声認識) コンペ履歴 2
アジェンダ • ソリューションの紹介 • ソリューションにいたるまで 3
ソリューションの紹介 4
• rule-body-labelでキーを作成して重複行を削除 • 同じキーで異なるラベルの補正 ◦ データ数が少ないので訓練の安定性とか考えて実施 • subredditの削除(重要) ◦ ホストがアノテーションプロセスに関与していないことを言及
• example列をpivoitしてHidden Ruleのテスト時訓練に利用 ソリューションの紹介 5
• CVは捨てた(testサイズが多いので盲信) • 多様性のために入れたコンテンツモデレーションモデルが強かった ソリューションの紹介 6
ソリューションにいたるまで 7
ソリューションにいたるまで 1. デカいモデルは絶対につよいはず 2. 合成・外部データをうまく扱った人が勝つ 3. とにかくモデルを積む(アンサンブル) 8
1. デカいモデルは絶対につよいはず 過去コンペ • LMSYS、WSDM ◦ 70Bから14Bへの蒸留 • Eedi 1st、2nd
◦ 70Bの直接利用 30Bクラスは視野。場合によっては70Bクラスまで使う 9
1. デカいモデルは絶対につよいはず 今回のタスクではNotebook(T4x2)で訓練+推論まで行う必要がある • 訓練:14BくらいまでシングルGPUで可能 ◦ QLoRA+unslothを利用してT4x2で並列実行 • 推論:vllm T4x2で14Bを量子化なしで実行
◦ LoRAアダプターのマージなしでOK 10
2. 合成・外部データをうまく扱った人が勝つ 過去コンペ • LMSYS、WSDM ◦ 外部データで事前学習 => コンペデータで学習 •
Eedi ◦ Claude (1st)、Qwen2.5 72B (4th)を使って合成データ作成 11
2. 合成・外部データをうまく扱った人が勝つ • ProbingでRuleは判明したので、labelを指定してBodyさえ合成すれ ば良い状況 • 実験してみても改善しない+スコアの大きな変動がほとんどなかった アイディアを捨てた • コンテキストがなさすぎる?有用なモデルは大抵セーフガードが入って
いてToxicなデータを生成しづらい? 12
3. とにかくモデルを積む(アンサンブル) 過去コンペ • CommonLit Readability Prize 2nd(19モデル) • Jigsaw
Rate Severity of Toxic Comments 1th (15モデル) ◦ 壮大なソリューションのモデル欄 合成がうまくいかないのでこちらを重点的にやることに 13
3. とにかくモデルを積む(アンサンブル) • 8 -14Bモデルまでをsweepして実験 • 30モデルくらいためした • unslothの動作+チャットテンプレート+vllmのモデル対応とか地味 な動作検証がコンペ時間の大半だった
14
3. とにかくモデルを積む(アンサンブル) • ベースライン:llama3.1 8b(public:0.920) • これより後にリリースされた同程度サイズのモデルで、このスコアを 超えるモデルはほとんど存在しなかった ◦ GLM-4-9B:0.919、Falcon-3-10b-it:0.914
• gemma-2-9b-itがモデルサイズに対して強い(0.924) • shieldgemma-9bが最もパフォーマンスがよかった(0.927) ◦ コンテンツモデレーションタスクで学習した派生モデル ◦ Qwen(Guard)でも同様の傾向だった 15
3. とにかくモデルを積む(アンサンブル) 16
まとめ • 過去の動向とかを考えてやることを3つに絞ってやってた ◦ タスクの本質的(OODへの対応)的な部分にリーチした感覚はない ◦ 他チーム:Triplet Lossで多様性だすとかの独創的なアプローチ • 金圏ボーダーのスコア差は0.00082。振り返るとアンサンブルのゴ
リ押し+CVの盲信で運の要素も大きかった印象 17
ありがとうございました🤗 18