BirdCLEF+2025 Noir 5位解法紹介

2025/09/29 MYSO Zuoli

目次 1. Kaggleとは 2. BirdCLEF+2025概要とNoir解法紹介 3. 上位チーム解法紹介

Kaggleとは

Kaggleとは世界最大級のデータ分析コンペティションプラットフォームデータサイエンティスト、AIエンジニアや研究者らが参加し、企業や研究機関が提供する課題に対して機械学習アルゴリズムやAIモデルの性能を競う Google傘下で運営 2025年6月時点で登録ユーザーは2,400万人以上機械学習の「競技プログラミング」の場様々な機能・環境を備えており、主催者は容易にコンペが開催可能データ共有、ダウンロード予測値の提出と自動採点
順位表（Leaderboard）で成績を公開スクリプト実行環境（Code）：誰でもGPUが使えて、他参加者に共有もできる掲示板（Discussion）：コンペ内容について議論できる 3/49

2025/09/02時点で開催されているコンペの一部コンペティション名開催者コンペ概要 MITSUI & CO. Commodity Prediction Challenge
三井物産金属、先物、米国株、為替レートといったグローバルな金融市場の時系列データを使用し、複数の金融商品のリターン（収益率）を予測 CMI - Detect Behavior with Sensor Data Child Mind Institute ウェアラブルデバイスに搭載されたセンサー（加速度センサー、ToFセンサー、温度センサーなど）のデータを用いて、抜毛症や皮膚むしり症といった「身体集中反復行動（BFRB）」を自動で検出 RSNA Intracranial Aneurysm Detection 北米放射線学会、米国神経放射線学会など CTA（CT血管造影）やMRA（MR血管造影）などの医療画像を分析し、生命を脅かす可能性のある頭蓋内動脈瘤の有無と、その正確な位置を検出する MAP - Charting Student Math Misunderstandings The MAPLE Lab at the University of Toronto 生徒が書いた数学問題の解答（自由記述）を分析し、その生徒がどのような誤解をしている可能性があるかを予測する自然言語処理モデルを開発過去にコンペを実施した組織の一例 Mercari、リクルート、日本取引所グループ、 NTTデータ、Google、Microsoft、Facebook（Meta）、 Airbnb、Lyft、Walmart、Bosch、H&M、DCASEなど 4/49

企業や研究機関などがデータと課題を提供 Kaggleの基本的な流れ参加者はデータを分析し、モデルを作り予測結果を提出コンピュータによる自動採点期間中（2～3ヶ月程度）予測結果を提出し、性能を確認可能期間終了後のスコアで順位がつき、賞金とメダルが授与メダルが貯まると
個人のランクが上昇 GrandMaster 373人 Master 2,195人 Expert 10,839人 2025/09/02時点参考資料：対談！ Kaggle Grandmaster の仕事とは【】 DeNA TechCon 2022 参考資料：対談！Kaggle Grandmasterの仕事とは【DeNA TechCon 2022】 5/49

一日の流れ • 前日学習させてい
たモデルで性能が良さそうなものを選定 • Kaggle サイトで有益な情報がないか確認 • データの分析や確認 • 過去情報、技術情報や論文等から性能が良くなりそうなアイディアを検討 0５:00 07:３0 08:30 12:00 13:00 17:00 ２０:00 24:00 朝食・準備等業務夕食・入浴等業務就寝起床 18:00 通勤 06:30 通勤 08:00 • モデルの提出スコア確認 • アイディアの検討 • アイディアの実装 • いくつかのモデルを学習させる • 人が寝てる間も GPU は回す Kaggle Kaggle Kaggle Kaggle

BirdCLEF+2025概要と Noir解法紹介

BirdCLEF+2025 課題：鳥類を中心とした野生生物の音声データから種を識別コロンビアのエル・シレンシオ自然保護区で収録された1分音源x700から、鳥・哺乳類・昆虫・両生類 206 種の出現確率を 5 秒刻みで予測背景：広範囲かつ高精度・頻度で生物多様性の監視が要求
生物群集の変化は、生物多様性の観測や生態系修復活動の成否を確認する上で重要従来：専門家の直接調査、調査範囲やリアルタイム性が低く精度に懸念、コストも高い →パッシブ音響モニタリングと最新の機械学習技術の組み合わせに期待広い調査範囲、高いリアルタイム性であれば、生態系修復活動の効果を正確に把握可能予測予測予測予測予測予測予測予測予測予測予測予測 8/49

コンペに参加した理由 • 学習：機械学習関連の技術習得 • データが少ないクラスへの対処方法希少生物が対象のため、特定の種に関して学習データが非常に少ない • ラベルなしデータを用いた性能向上方法テスト環境のラベルなし録音データが大量に提供 •
モデルの高速化や安定化方法推論マシンと時間に制限 • 趣味：世界中の参加者とスコアを競うのが面白いオンラインゲームのようにリアルタイムに順位が表示遊びと学習の両立 9/49

BirdCLEF+2025：データ • train_audio/*.ogg: 自然観察のデータをオープンに集めるプラットフォームに、ユーザーがアップロードした音源 28564データ、ファイル長：0.54～1774.39秒 • train.csv トレーニングデータのメタデータ primary_label:種のコード secondary_labels:録音者によってラベル付けされたprimary_label以外の種コード
filename:オーディオファイル名 author:録音を提供したユーザー名など • train_soundscapes/*.ogg：テストデータと同じ環境で録音されたラベルなし（答えがない）データ 9726データ、ファイル長：60.00秒 • test_soundscapes/ モデル提出すると、1分x700データ（sf=32kHz）が作成され、モデルが推論を開始、参加者はどのような音源が含まれているか知ることはできない 10/49 ※他データあり

評価対象の206 種引用：All the Beasts We Cannot See / 2025
Family Portrait 11/49

学習に使えるデータと予測するデータの違い学習に使えるデータ 28564 train_audio 9726 train_soundscapes test_soundscapes 予測するデータ ※学習には使えない 700
ラベルありドメインギャップが大きい：様々な機材（マイク、録音器、サンプリング周波数など）や環境でユーザーが録音している。データ長も0.54～1774.39秒ばらつきが大きいラベルなし：直接学習には使えないドメインギャップがない：テスト環境で録音されたデータ 12/49 コロンビアのエル・シレンシオ自然保護区で収録

学習に使えるデータと予測するデータの違い学習に使えるデータ 28564 train_audio 9726 train_soundscapes test_soundscapes 予測するデータ ※学習には使えない 700
13/49 ラベルありドメインギャップが大きい：様々な機材（マイク、録音器、サンプリング周波数など）や環境でユーザーが録音している。データ長も0.54～1774.39秒ばらつきが大きいラベルなし：直接学習には使えないドメインギャップがない：テスト環境で録音されたデータコロンビアのエル・シレンシオ自然保護区で収録

データ分析 • 学習に使えるデータと予測するデータの特徴が大きく異なるため、モデルをそのまま当てても性能が高く出ない • データ分析し、特徴をより理解した上で、適切な解決アイディアが必要 • プログラミングで分析特徴量算出、波形・スペクトログラムの可視化、分布・偏りの確認など •
音を聴いて分析実際の音源を確認、ノイズ・環境音の把握、データでは見えない違和感を捉える自作した聴取ソフト 14/49

• 学習データに音声のみの区間が大量に含まれているランダムに区間を切り取ると音声で学習→著しい精度低下 • 対策：音声区間の手動切り取り Silero VADを使用して、データごとに音声が含まれているか検出音声が含まれている区間を手動で切り取り約2000データを確認データの特徴:音声が大量に含まれている
15/49

ラベルごとのデータ数のばらつき分布 • 不均衡データ：最大：982、最小:2とラベルごとにデータ数に大きな差 → 多数ラベルに偏った予測、少数ラベルの精度低下 • 対策1：アップサンプリング •
少数ラベルを、コピーして最低20サンプルに揃える • なぜ多数ラベルと同等の数にアップサンプリングしないのか？ • データの多様性不足、過学習 • 学習コスト増大ラベルごとのデータ数元データアップサンプリング元データアップサンプリングデータの特徴:不均衡データ 16/49

不均衡データ対策: Focal Loss • 対策2：Focal Lossの採用 • Cross Entropy Loss:
全てのサンプルを同じ重みで学習 • Focal Loss:難しいサンプル（誤りやすいサンプル）に重みを置いて学習 ※正しく予測できたサンプルの重みは小さく Lin et al., "Focal Loss for Dense Object Detection," ICCV 2017 17/49

• 強ラベル：ラベルの開始と終了時刻が付与 • 弱ラベル：ラベルの存在だけが付与→BirdCLEF+2025のラベルはこちら音源のどの区間で音が鳴っているかは分からないデータの特徴:弱ラベル Bird A Time Frog
C Bird A Time Frog C 18/49

データの特徴:弱ラベル • 弱ラベルをそのまま学習すると… model 入力推論 Bird A Insect B
Frog C Prob. model 入力推論 Bird A Insect B Frog C Prob. 学習と同じようなラベル構成が入力の場合は問題とならないモデルは「Bird A」と「Forg C」を見分けられないため、「Bird A」しか存在しなくても「Frog C」の確率を高く予測してしまう弱ラベルでも、どの時間にどの種が存在しているかモデルに学習させる必要 19/49

弱ラベル対策:SEDフレームレベル予測 • モデルにフレームレベル予測を組み込む特徴抽出（CNNなど）参考資料：鳥コンペ反省会資料入力特徴マップ時間方向の集約（max,meanなど）
予測値分類器特徴抽出（CNNなど）入力特徴マップフレームごとの分類器予測値フレームごとの予測値時間方向の集約（max,meanなど）通常のモデルフレームレベル予測を組み込んだモデル Frog C Bird A Insect B Bird A Insect B Frog C time time Bird A Insect B Frog C time 20/49

フレームレベル予測のイメージ：「ライブ × 迫力・感動」 • 通常のモデル：ライブ全体（特徴マップ集約）に対して、迫力があった、感動したかが分かるだけでどの曲(時間)で迫力があったのか、感動したかは分からないライブ→迫力◎、感動◎ •
フレームレベル予測を組み込んだモデルライブの各曲（時間）ごとに予測曲A→迫力◎、感動✕ 曲B→迫力✕、感動◎ どの曲が、迫力があった、感動したか最初は分からないのでは？最初は分からないが、ライブをたくさん経験することで、どの曲の影響か少しずつ分かるライブ1：曲A（迫力◎、感動✕）、曲B （迫力✕ 、感動◎）ライブ2：曲A （迫力◎、感動✕）、曲C（迫力✕ 、感動✕）ライブ3：曲B（迫力✕ 、感動◎）、曲C（迫力✕ 、感動✕）今日のライブは迫力があり、感動したな。なんの曲でそう感じたんだろう？今日は感動しなかったな。曲Bで感動するのかな？今日は感動したから、曲Bで感動するのは間違いない。迫力は感じなかったから、曲Aで迫力を感じているっぽいな 21/49

データの特徴:ラベル欠損（missing labels） • ラベル欠損：多くの学習データで複数の種が鳴いているが、主ラベル以外はほとんど付与されていない学習データはWEBサイトへ投稿されたもののため（機械学習が主目的ではないため）、主ラベル以外が付与されていないのは、自然なこと鳥が生息するような自然環境では、様々な鳥、虫や動物がいるのも自然なこと ※種Cのラベルしか付与されていなくても、多数の種の声が聞こえる
22/49

ラベル欠損対策：学習したモデルの予測（疑似ラベル）を活用 • 学習したモデルの予測を活用 • train_audioでモデルを学習 • 学習したモデルで train_audio を推論すると、他の音源から学習した特徴を通じて、欠損ラベルの予測がやや高く出現
付与されているラベルモデルの予測ラベル/予測 Bird A Insect B Frog C ラベルとしてはBird Aだが、実はInsect Bも存在する音源欠損ラベルの情報ノイズ（誤予測） 23/49

ラベル欠損対策：学習したモデルの予測（疑似ラベル）を活用 • 元のラベルと、モデルの予測（疑似ラベル）で、新しく作成したラベルで学習新しく作成したラベルは、欠損ラベルだと思われる値が大きく、ノイズだと思われるラベルが小さくなる • このステップを繰り返すことで、ラベルを洗練新しいラベルの作成方法 24/49

データの特徴:ドメインギャップ 28564 train_audio 9726 train_soundscapes test_soundscapes 700 学習に使えるデータ予測するデータ ※学習には使えない
25/49 ラベルありドメインギャップが大きい：様々な機材（マイク、録音器、サンプリング周波数など）や環境でユーザーが録音している。データ長も0.54～1774.39秒ばらつきが大きいラベルなし：直接学習には使えないドメインギャップがない：テスト環境で録音されたデータコロンビアのエル・シレンシオ自然保護区で収録

ドメインギャップ対策：データ拡張 • データ拡張：学習時にデータを変換して、多様性を持たせる • Resampling 時間領域でサンプリング周波数を僅かに変更 • Gain 時間領域でゲインを変更 •
FilterAugment メル領域で様々なフィルタを適用 • FrequencyMasking, TimeMasking メル領域で、メル軸方向にランダムで0、時間軸にランダムで0を適用 • Sumix on mel domain メル領域で2つのデータを時間周波数binごとに線形和で混合基本的に、2つのデータのラベルを付与、線形和の重みが極端に小さいときは、そのラベルを0にする※Mixupはラベルも線形和で混合 26/49

データの特徴:ドメインギャップ 28564 train_audio 9726 train_soundscapes test_soundscapes 700 学習に使えるデータ予測するデータ ※学習には使えない
27/49 ラベルありドメインギャップが大きい：様々な機材（マイク、録音器、サンプリング周波数など）や環境でユーザーが録音しているため、データ長も0.54～1774.39秒ばらつきが大きいラベルなし：直接学習には使えないドメインギャップがない：テスト環境で録音されたデータ

ドメインギャップ対策：train_soundscapesを疑似ラベルで学習 • train_soundscapesを疑似ラベルで学習 train_soundscapesをモデルで予測ノイズを多く含むが、値が大きい予測が出現（真のラベル？）疑似ラベル活用と同様の方法で、ノイズを低減しそれらしいラベルを強調このラベルを用いてモデルを学習真のラベル？モデルの予測新しく作成ラベル
ラベル/予測 Bird A Insect B Frog C 28/49

学習の全体像：3段階学習 • 第1ステージベースモデルの学習 • 第2ステージ疑似ラベルを活用した欠損ラベル対策数回繰り返し • 第3ステージ
train_soundscapesの活用数回繰り返し学習の基本設定特徴量：Mel spectrogram（mel_bins: 192, window_size: 2048, hop_size: 768） Optimizer: Adam + Cosine Annealing with warmup Loss: FocalLoss (gamma=2) Epochs: 10、データ拡張 29/49

3段階学習の効果 • 第1ステージベースモデルの学習 • 第2ステージ疑似ラベルを活用した欠損ラベル対策数回繰り返し • 第3ステージ
train_soundscapesの活用数回繰り返し様々なモデルにおいてステージごとにLB scoreが著しく向上 30/49

shake downの恐ろしさ • コンペ期間中は、一部データに基づくスコア・順位のみ公開 (Public LB) • コンペ終了後に、全データに基づくスコア・順位が公開 (Private LB)
• shake down: Private LBでスコア・順位が大きく転落する現象評価データの割合 Public 34% Privateのみ 66% 31/49

• shake down: Private LBでスコア・順位が大きく転落する現象コンペ終了直前までは19位 ↓ 最終順位は432位へ転落！ ←私たちのチーム過去のコンペでは、shake downを起こした苦い思い出が… 32/49

• shake down: Private LBでスコア・順位が大きく転落する現象逆に順位を大きく伸ばすshake upもコンペ終了直前まで971位 ↓ 最終順位は78位へ！ 33/49

shake downを防ぐためには？モデル1 モデル2 予測が不安定になるケース • 学習データが少ない・限定的 • 学習時に遭遇していない性質のデータに対して性能がぶれやすい
モデル1, 2の平均アンサンブルによる安定性向上 • 複数モデルの予測を「平均」や「多数決」などで組み合わせ • Kaggleで上位を争うには必須 34/49

計算時間の制約により、アンサンブルがしにくい • BirdCLEF+2025のルール • 計算時間: 90分以内に全評価データ(700分)を処理 • 推論環境: CPU
(GPUは使用不可) • そのため、多数モデルのアンサンブルは困難 • 上位を争うためには、CPUでの計算高速化が重要 • 高速化 → 多数モデルのアンサンブル → 予測の安定化 35/49

高速化のために取り組んだこと 1. 特徴量を全モデルで共通化 → wav読み込み&特徴量算出が一度で済む 2. OpenVINOへのモデル最適化 → DNN計算の高速化 3.
処理全体のマルチスレッド化 → 複数データの計算を効率化 36/49

OpenVINO • Intelのハードウェア上において、深層学習モデルの推論を最適化するためのツールキット • 今回の環境はおそらくIntel CPU → 高速化に大きく貢献 37/49
https://docs.openvino.ai/2025/index.html

高速化の結果 ID マルチスレッド OpenVINO アンサンブル計算時間スコア 1 × ×
× 26分 0.914 (18~20位相当) 2 〇 × × 22分 3 × 〇 × 12分 4 〇〇 × 9分 5 〇〇〇（13モデル） 90分 0.924 (5位) 38/49

さらなる安定性向上に向けたデータ分析 • セグメントの区切りにまたがる音への予測が不安定 • 1分間に出現する動物は限定的 → 周辺時刻でも鳴く可能性が高い 39/49 時刻
(sec)

予測値に対する後処理 • 2.5秒ずらしたセグメントに対する予測を活用 • 予測対象セグメントの予測値を、前後の予測値との重み付き平均予測予測予測 ←
2.5secずらした予測 0.5*中央+0.25*前+0.25後 40/49

後処理の効果 ← アンサンブルによる予測の安定化 ← 予測はさらになめらかにある動物についての予測確率 ID 後処理 Private
Public 1 × 0.915 0.919 2 〇 0.923 0.929 ← スコアも大きく改善 41/49 各モデル予測値アンサンブル後処理適用後時刻 (sec)

我々が性能改善のために取り組んだことのまとめデータが少ないクラスへの対処 • 希少クラスのアップサンプリング • ロス(損失関数)の工夫データの不確実性 • データ使用区間の選別（手動）
• 学習時の入力として10秒使用ラベルなしデータの活用モデルの安定性向上 • 疑似ラベルを用いた学習 • ソフトラベルのノイズ低減 • 反復的な学習 • 高速化とアンサンブル • 推論時の後処理 42/49

上位チーム解法紹介

上位チームのいくつかは、我々と異なるアプローチを活用データが少ないクラスへの対処 • 希少クラスのアップサンプリング • ロス(損失関数)の工夫 • 外部追加データの活用 • 少数クラスに特化したモデル
データの不確実性 • データ使用区間の選別（手動） • 学習時の入力として10秒使用ラベルなしデータの活用モデルの安定性向上 • 疑似ラベルを用いた学習 • ソフトラベルのノイズ低減 • 反復的な学習 • 高速化とアンサンブル • 推論時の後処理 • 単体モデルの安定性向上 44/49

外部追加データの活用（1, 2, 3, 7, 11位） • 深層学習では、多様なデータで学習するほど優れた性能になる傾向 •
インターネット上で公開されている動物の鳴き声データを学習に追加動物愛好家が音声データをシェアするサイト過去のKaggleコンペ外部データをうまく活用する方法を模索し、性能を改善 45/49

少数クラスに特化したモデル (1, 7, 12位) • データ数の少ないクラスの学習は困難 • 希少種に特化したモデルの開発入力音
モデル1 モデル2 (希少種に特化) 鳥類・哺乳類の予測両生類・昆虫類の予測 1位は、両生類・昆虫類の追加データを用いて、特化モデルを開発鳥類は豊富両生類と昆虫類は特に希少哺乳類は少なめ分類ごとのデータ割合 46/49

単体モデルの安定性向上（3, 12位） • アンサンブルや後処理とは異なり、単体モデルの性能を安定化 • Model Soup：異なる乱数で学習したモデルを平均 •
Exponential Moving Average (EMA): 学習途中のモデルを指数移動平均アンサンブルは予測値を平均するのに対し、これらは重みそのものを平均 → 計算量の増加なしに安定性を向上 + + → モデル1 モデル2 モデル3 平均したモデル 47/49

BirdCLEF+2025 Noir 5位解法紹介

BirdCLEF+2025 Noir 5位解法紹介

Other Decks in Technology

Featured

Transcript