n メタデータ(Trainのみ) l Sampling Date: 収集⽇ l State: 場所(州単位) l Species: 草の種類 l Pre_GSHH_NDVI: 緑⽣指数 l Height_Ave_cm: 草の⾼さ n 特徴 l 70cm x 30cmのフレームに映るように撮影 − iphone5s, Sony:D5833など 8種類くらい l 画像サイズはすべて2000x1000 − Host側が射影補正でROIを正規化して揃えている l 4州・19地点・3年間(2014-2017)、複数季節・多様な 牧草種を含む σʔλͷಛੑ σʔληοτ͕ۃʹগͳ͍͕ɺMBCFMൺֱత҆ఆ˞͍͔ͭ͘MBCFMϛε͕͋ͬͨൺֱతʜ σʔληοτಛ -BCFMͷ࡞ΒΕํ ίϯϖ֓ཁ https://www.csiro.au/en/news/All/News/2025/October/Kaggle-competition n 70cm x 30cmのフレームに映るように撮影 n 「専⾨家が画像を⾒て主観で付与」したものではなく、 刈り取り・成分分別・乾燥後重量測定に基づく実測 値
$POW/FYU&GGJDJFOU/FU͜ͷίϯϖͰΘΕ͍ͯͳ͍ %*/0WܥTUSFBNճؼ 4JH-*1ຒΊࠐΈ (#%5 ίϯϖ֓ཁ https://zenn.dev/prgckwb/articles/kaggle-csiro-image2biomass ݩը૾ Y ݸͷ Y ˞PWFSMBQ QBEEJOH 4JH-*1 1152 x 8 (#%5 mean 5BSHFU )FBE ! n 画像を8個に分割してSigILPで特徴抽出(1152次元x8) n 1つに平均で集約してGBDTで学習 1152 x 1
~ 7Bまで l ConvNeXtに蒸留したverもある n ラベルを⼀切使わない「⾃⼰教師あ り学習(SSL)」 l 画像内のパッチ間の再構成(MIM) と画像全体の意味的⼀貫性 (Discriminative SSL)を⾼度に 融合 l テキストラベルという「⼈間のバイアス」を 介さず、ピクセルデータそのものの共起 性から、物体境界や幾何構造を⾃律 的に学習 n 物体検出・セグメンテーション: Mask2Former等のバックボーンとし てSOTAを記録 n 単眼深度推定 (Depth Estimation): 「Depth Anything」の 枠組みに組み込むことで、極めて⾼ 精度な距離情報を抽出 n 3D理解: 視覚的な幾何情報を捉え る能⼒(VGGT等)により、3D空 間の把握にも寄与 n Gram Anchoring l SSLにはモデルを⼤きくし、学習を⻑く 続けると、特徴マップがノイズ化(崩 壊)して精度が下がるという課題があっ た l 学習初期のクリーンな状態をアンカーと して利⽤し、現在のパッチ間類似度を Gram⾏列的に正規化・拘束する新 ⼿法を採⽤ l 7Bという巨⼤モデルでも、⾼解像度 (4096px)までノイズなしで耐えうる n Geometric Logic幾何学構造の⾃ 律的把握 l CLIPのようなテキスト対照学習は「何 が写っているかには強いが、どこにどう配 置されているかの把握は苦⼿ l DINOv3は画像全体の意味を捉える 学習(Discriminative SSL)に加え、 画像パッチを隠して復元するパッチレベ ルの再構成学習を実施しているためピ クセル間の物理的な距離感や境界を 正確に学習 Կ͕ڧ͍ʁ ͳͥڧ͍ͷʁ
撮影条件で出てくる差(光、距離、⾓度、機材、天 気、季節)を意識 n RandomResizedCrop(scale=0.85-1.0) は labelを歪める可能性があるが意図的に採⽤ l 理由︓撮影者ごとにカメラ~地⾯距離が揺れるため "VHNFOUBUJPO )PTUͷจΛ֬ೝͯ͠ʮMBCFMΛյ͞ͳ͍ʯʮσʔλͷऔಘํ๏ΛͳΔ͘ ࠶ݱͰ͖Δʯ͜ͱΛҙࣝͨ͠"VHNFOUBUJPOΛ࣮ࢪ )PTUจ͔Βஔ͍ͨલఏ "VHNFOUBUJPO ,JOPTVLFղ๏ n 幾何(草量を⼤きく壊さない範囲) l HorizontalFlip(p=0.5) l VerticalFlip(p=0.5) l RandomRotate90(p=0.5) l Rotate(limit=10, p=0.3, border_mode=REFLECT) n スケール/フレーミング l RandomResizedCrop(size=(1000,1000), scale=(0.85,1.0), ratio=(0.95,1.05), p=0.5) n 光・⾊・カメラ条件 l ColorJitter, RandomGamma, RandomBrightnessContrast l GaussianBlur l RandomShadow,RandomToneCurve
2015-9-29 2015-9-30 Tas, 2015-6 Vic , 2015-9 n 同⼀撮影⽇は⽇照条件や撮影場所がほぼ共通なの でリーク n 未知の季節レベルへの汎化を意識し、Groupは⽇単 位ではなく⽉単位で構成 DINOv3 Density Head DINOv3 CLS Head EVA02-CLIP or SigLIP Private BEST
る程度ロバストだと判断 (※Privateも安定しており、どれを選んでも⾦圏でした) 4IBLFରࡦ গσʔλ͔ͭ1VCMJD1SJWBUF͕ظؒͱઆ໌͞Ε͍ͯͨͨΊTIBLFΛ ఆɻTFFEײ͕͍֬ೝޙɺ1VCMJDੑೳͱϞσϧଟ༷ੑͷόϥϯεͰબఆ n 以下の2つ l 攻め : Public Best l 守り︓モデル積みまくる 2seed x 6 n Public Bestを選んだ理由 l Train 357枚、 Test805枚(public:private 53:47) l Host論⽂にデータ収集期間が2014~2017と記載あり l Trainはすべて2015だったので、public2016でprivate2017 とメタ読み (Private Best = CV Bestだったのでこの読みは間違いでした) -#ͷ༳Εͷ֬ೝ ࠷ऴ4VCબͼ ,JOPTVLFղ๏
head/backboneの学習率を分ける • backbone 1e-3 • head 1e-4 など10倍くらいの差 − Head only学習 -> Full Param学習の2段階 − 段階的unfreeze(Gradual Unfreeze) − LoRA n 画像⼊⼒ l 主流は dual-stream(左1000x1000 + 右1000x1000) l single-stream(1024x2048)や 3stream(左+右+全 体)も上位に存在 l 解像度は 640/768/896/1024 を使い分け、最終的には多解 像度アンサンブルが強い。 l 公開Noteは512なのでImageSizeを⼤きくするのが重要 n head設計 l 3head(Green/Dead/Clover)予測 + 2target導出。 l パターンB: 5target直接予測。 l ⾮負制約として Softplusを⼊れる実装が多数 l MoE l 密度推定head ্Ґղ๏αϚϦ ্Ґղ๏ͷڞ௨%*/0Wʢ-BSHF)VHF#ʣΛ࣠ʹͨ͠ߴղ૾ಛநग़ɻ ࣄલֶशॏΈΛյ͞ͳֶ͍शઃܭͱɺλεΫಛԽϔουɺޙॲཧͰউഊΛ͚ͨ ্Ґղ๏ n loss l ⼟台は SmoothL1/Huber l 上位では次の追加loss − 物理整合(Total/GDMの関係) − ⽐率loss(Dead/Total) − Class分類(1stのみ) − 補助タスクlossはNDVI/Height/Speciesは不発 n CVと学習運⽤ l State × SamplingDate を意識したGroup系splitが中⼼ l Clover/Deadのゼロ⽐率が偏らないよう層別化を追加 l いい感じのseed選び。 5foldの平均・標準偏差が近くなるように seedを変更して繰り返し実⾏ n 推論/後処理 l flip系のTTA l WA x Clover --> 0.8倍などスケーリングしてるチームもちらほら − 博打要素強めだが草コンペではwork l 分布ずれ対策としてTest Time Training
季節・天候の変化をシミュレーションし、砂利・岩などのアーティファクトを追加した画像 l 画像内の植⽣を除去して⼟だけを残し、clover / dead / green = 0を与える画像 n どう使ったか(疑似ラベルでの⼯夫) l コンペ序盤は「合成データをそのまま混ぜる」とPublic LBが下がる失敗が多かった l 画像回帰では編集後の真値が不明になるため、擬似ラベルを付与 OE1MBDF4PMVUJPO ߹σʔλ 2XFO *NBHF&EJUͰ߹σʔλΛ࡞ʢقઅɾఱީมԽɺ২ੜθϩը૾ʣ ٙࣅϥϕϧͰਅΛճආ͠ɺݩσʔλͱ݁߹ͯ͠࠷ऴֶशʹ׆༻ ্Ґղ๏