BEST BODY JAPAN参戦記

• 名前：しぃたけ（@cpp_take） • 趣味：息子・kaggle（2,３年参加してない） • 称号：Competition Master
自己紹介

ボディメイクのコンペティション BEST BODY JAPAN参戦記

•BEST BODY JAPAN参戦記 •本題アジェンダ ←
5分 ← ここまで我慢して

B E S T B O DY JA PA N
とは Best Body Japan（以下BBJ）はボディメイクの大会の一つ。ボディビル、フィジークと違い健康的なかっこよさや美しさ、健康的な身体を競う健康美コンテスト。（Not ボディビル）ゴリマッチョ細マッチョ BBJ フィジークボディビル ▪評価観点・健康美の度合・筋肉つき過ぎは減点 (詳細は次項) ▪評価観点・筋肉の発達・逆三角形度合 (脚は審査対象外) ▪評価観点・全身の筋肉の発達

B B J 評価基準よくわからん BBJ公式から抜粋した評価基準

肉体の推移健康美を目指して約三カ月間、ガチボディメイクを実施減量初日（3月後半）大会１週間前大会当日（7月6日）・トレーニング
・脂質制限・カロリー制限最終調整・水抜き・塩抜き・カーボアップ体重:71kg 体脂肪:18％体重:65kg 体脂肪:6~7％体重:63kg 体脂肪:5％更衣室で知らない人からヒューヒュー言われ始める

結果予選敗退

B B J 審査フロー前後左右の４方向で審査予選審査・ファイナル審査の2stage制。予選は規定ポーズ、フリーポーズの２つで採点を行い、
上位１０人をファイナルに選出。ファイナル審査では規定ポーズのみで採点を実施。規定ポーズフリーポーズピックアップ審査規定ポーズのみ予選審査ファイナル審査ステージ中央、左右の計3回・決勝に上げるか微妙なラインの選手 4~5人を選んで再選別を行う自分はここまで選ばれたが競り負けたリランキング以下の3つの審査を行い、ファイナル審査に進む10人を選ぶ選ばれた10人を、勝ち残り方式で選別・最後まで残った人が優勝

当日の様子規定ポーズフリーポーズ ※規定ポーズの画像は生成されたものです

•BEST BODY JAPAN参戦記 •本題アジェンダ

本題 Kaggler達をボディメイクの大会に出場させるにはどうすればよいか

背景 kagglerは筋トレ・減量に関心があることは自明であるが、大会に誘った人間全員に断られた。この原因をkagglerの深層心理レベルまで分析し、対策を提案する。一緒に大会出ましょう! いやぁ、ちょっと… 妙だな…

課題分析 Kagglerは以下に示すスキーマに集まる習性があることは広く認知されている。 kaggle モデリングの方針はこれで行く！モデルを変える？
LR下げようか？スコアアップ！ Private LB メダルゲット！課題・評価指標理解モデルトレーニング・チューニング CV・Public LB 確認 Private LBオープン

課題分析 Kagglerは以下に示すスキーマに集まる習性があることは広く認知されている。ボディメイク ▪モデルトレーニング課題・評価指標理解モデルトレーニング・チューニング
CV・Public LB 確認 Private LBオープン kaggle モデリングの方針はこれで行く！モデルを変える？ LR下げようか？スコアアップ！ Private LB メダルゲット！ここがない ▪BBJ評価指標 ▪チューニング ▪順位発表赤枠部分を埋めれば、ボディメイクは実質Kaggleとなりkagglerは勝手に集まってくる。

つまりこういうこと断った皆さんの深層心理はこうなっている
一緒に大会出ましょう! いやぁ、ちょっと… LBがないからなぁ

開発しました Best Body LeaderBoard!!!!!!

B E S T B O DY L e a
d e r B o a r d とは BESTBODY LeaderBoardは、VLM as a Judge※を利用して肉体をスコア化し、結果を順位表にしたもの。LB大好きなkagglerはこれでボディメイクから逃げられない。サブミット画像 VLM as a Judge スコアリングリーダーボード化 ※LLMのvisionモデルを利用して、入力された画像を評価・採点を行う手法

評価方法 LLM（VLM） as a Judgeの一般的な評価はスコアベースとペアワイズ比較の大きく2つがあるが、どちらも課題があるためそのまま利用はできない。スコア
ベース概要評価精度ペアワイズ数値化評価対象をLLMに入力し、点数を出力させる手法。この人の身体は何点ですか? 80点低マッチョの画像は大体高得点になるので差がつかない可 A A・Bどちらの方がいい身体ですか? A B 高相対評価のためスコアベースより納得感のある評価結果となる不可 (そのままでは) ２つの評価対象をLLMに比較させ、優れている方を選ばせる手法。

スコアベースとペアワイズ比較を組み合わせたハイブリッド方式を採用することで、相対評価による納得感のあるスコアを出力させることが可能となったハイブリッド方式 -30点 Aを0点としたとき、Bの肉体は何点ですか? A B
2つの評価対象をLLMに比較させ、Aを0点とした際、Bは何点かを評価させる手法。評価方法スコアベース評価精度ペアワイズ数値化評価対象をLLMに入力し、点数を出力させる手法。２つの評価対象をLLMに比較させ、優れている方を選ばせる手法。この人の身体は何点ですか? 80点低マッチョの画像は大体高得点になるので差がつかない可 A A・Bどちらの方がいい身体ですか? A B 高相対評価のためスコアベースより納得感のある評価結果となる不可 (そのままでは) 高上記2つのいいとこどり可概要採用

評価観点 LLM as a Judgeを利用する際は、評価観点（サーブリック）を明確にする必要がある。当初の案:BBJの評価基準に合わせる流石に無理
採用案肩腕胸背中腹ボディメイクの一般的な評価箇所肩・腕・胸・背中・腹を-10~10点で評価総合50点満点でスコア化

デモ画像とユーザー名を入力して「評価を実行」をクリックベースライン画像は生成した架空のマッチョを利用

デモ各部位ごとの得点と、総合得点を表示部位ごとの得点は理由もあわせて出力

デモリーダーボードに出力

ハマったポイント Gpt-4oで評価を実施していると、10回に3～4回程度、「評価ができません」といった旨の出力がされ、スコアリングができないトラブル発生。
トラブル概要評価できません画像入力出力原因 OpenAIのLLMに備わっている、フィルタリング機能に引っかかった可能性が高い。具体的に言うと以下の2点・人を比較して数値化する行為が、人種差別と判断される可能性・性的コンテンツに間違われている可能性これはOpenAIが正しい対策モデルを以下に変更変更前:gpt-4o 変更後:gpt-4-turbo gpt-4oはフィルターが機能が厳しいらしく、微妙なラインの内容は弾かれる傾向がある。 turboにすることで精度は下がったが、出力は安定した

まとめ • VLM as a Judgeを使って、肉体をスコア化してくれるアプリケーションを開発しました。遊びたい人・ボディメイクに興味出た方おられたら声かけてください。 •
最新技術でバカなことをする流れが個人的にすごく好きです。この流れを引き継いでくれるつよつよkagglerが現れるのを楽しみにしてます。

BEST BODY JAPAN参戦記

BEST BODY JAPAN参戦記

cpptake

More Decks by cpptake

Featured

Transcript

• 名前：しぃたけ（@cpp_take） • 趣味：息子・kaggle（2,３年参加してない） • 称号：Competition Master

ボディメイクのコンペティション BEST BODY JAPAN参戦記