ECCV2024現地参加報告

ECCV2024 Workshop M1 古川陽一

会場

Workshop 75件・3D vision ・Applications ・Art ・Autonomous Driving and Robotics
・Detection, Recognition, and Low-Level Vision ・Efficiency ・Human ・Medical and Bio-Inspired Vision ・Multimodal などなど

外に、

英語が苦手な人・あいさつから始める ⇒ ここで、日本から来たこと、世間話をしてくれる人もいる ⇒ ついでに、英語あんまり得意じゃないんだよっていう ⇒ だいじょうぶだよ？って言ってくれる ⇒ 全部聞き取れなくても、図から判断もできる
⇒ みんな優しい

BioImage Computing（BIC）招待講演：評価指標に関する講演背景と課題（１）評価指標の限界（２）指標間のミスマッチ（３）分散の欠如

招待講演：評価指標に関する講演

（１）評価指標の限界一般的な評価指標（Accuracy, Dice係数, IoU） ⇒ 特定のタスクや状況で適切に機能しない場合がある・Accuracy：クラス不均衡のデータセット・Dice係数：クラス不均衡

Accuracy 例：２クラス分類タスク（陽性と陰性） Accuracyが95％でした！

Accuracy 例：２クラス分類タスク（陽性と陰性）・シナリオ - 陰性クラス：950サンプル, 陽性クラス：50サンプルモデルがすべてのサンプルを陰性と予測した場合陰性クラスのAccuracy：95％陽性クラスのAccuracy：0％

Dice係数例：腫瘍セグメンテーション・シナリオ - 腫瘍A：大きな腫瘍（1000ピクセル） - 腫瘍B：小さな腫瘍（10ピクセル）タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測

Dice係数タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測 𝐷𝑖𝑐𝑒𝐴 = 2 × 共通の面積検出領域の面積
+ 正解領域の面積 = 2 × 900 900 + 100 = 0.947 𝐷𝑖𝑐𝑒𝐵 = 2 × 9 9 + 10 = 0.947

Dice係数タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測 𝐷𝑖𝑐𝑒𝐴 = 0.947 𝐷𝑖𝑐𝑒𝐵 = 0.947
全体のDice係数 𝐷𝑖𝑐𝑒𝑎𝑙𝑙 = 腫瘍𝐴の面積 × 𝐷𝑖𝑐𝑒𝐴 + 腫瘍𝐵の面積 × 𝐷𝑖𝑐𝑒𝐵 腫瘍𝐴の面積 + 腫瘍𝐵の面積検出精度×対象の面積 ⇒面積が大きいクラスの変化に敏感

（２）指標のミスマッチ一部の指標で良い ≠ 他の指標で性能が良い・Accuracyが95％ ⇒ PPV（陽性的中率）は０％ ⇒ 陽性クラスを全く予測していない・Balanced
Accuacyが85％ ⇒ MCC（マシューズ相関係数）は5 𝑀𝐶𝐶 = 𝑇𝑃・𝑇𝑁 − 𝐹𝑃・𝐹𝑁 (𝑇𝑃 + 𝐹𝑃)・(𝑇𝑃 + 𝐹𝑁)・(𝑇𝑁 + 𝐹𝑃)・(𝑇𝑁 + 𝐹𝑁) 値の範囲・1：完全に正しい・0：ランダムな予測・-1：完全に逆の予測

（３）分散の欠如多くの論文：評価指標の平均値（Dice係数の平均値）のみ ⇒ 分散や信頼区間が示さていないことがある・分散が大きい場合、モデルの性能やデータセットやタスク間で一貫していない ⇒ それについての議論がないことが多い

Metrics Reload 目的：評価指標の選択、使用、解釈を体系的に整理する（１）平均と分散の空間での評価（２）テストデータサイズと性能改善の関連性（３）指標の複合的な使用（４）シナリオ別の適切な指標提案

Metrics Reload （１）平均と分散の空間での評価例：Dice係数の評価 X軸：平均性能（平均Dice係数） Y軸：分散の逆数（分散が小さいほど高評価）

Metrics Reload （２）テストデータサイズと性能改善の関連性・X軸：テストデータのサイズ（例：データポイント数）・Y軸：精度の改善度（例：Dice係数の向上率） ⇒ テストデータが大規模でも性能改善が見られるモデルは、より信頼性が高いとされる

Metrics Reload （３）指標の複合的な使用例①：Dice係数 + IoU + Haudorff距離・Haudorff距離：セグメンテーションの境界精度例②：PPV（陽性的中率）+
Recall

Metrics Reload （４）シナリオ別の適切な指標提案課題例 ①小さい腫瘍が全体のスコアにほとんど影響しない ②多数クラスに偏る評価指標 ③モデルの診断能力と誤診率のトレードオフ ⇒ 目的や主張に合った評価指標を選ぶべき

その他①

その他②

その他③

ご清聴ありがとうございました

ECCV2024現地参加報告

ECCV2024現地参加報告

hinako0123

More Decks by hinako0123

Featured

Transcript

ECCV2024 Workshop M1 古川陽一

会場

ECCV

Workshop 75件・3D vision ・Applications ・Art ・Autonomous Driving and Robotics

外に、

BioImage Computing（BIC）招待講演：評価指標に関する講演背景と課題（１）評価指標の限界（２）指標間のミスマッチ（３）分散の欠如

招待講演：評価指標に関する講演

（１）評価指標の限界一般的な評価指標（Accuracy, Dice係数, IoU） ⇒ 特定のタスクや状況で適切に機能しない場合がある・Accuracy：クラス不均衡のデータセット・Dice係数：クラス不均衡

Accuracy 例：２クラス分類タスク（陽性と陰性） Accuracyが95％でした！

Accuracy 例：２クラス分類タスク（陽性と陰性）・シナリオ - 陰性クラス：950サンプル, 陽性クラス：50サンプルモデルがすべてのサンプルを陰性と予測した場合陰性クラスのAccuracy：95％陽性クラスのAccuracy：0％

Dice係数例：腫瘍セグメンテーション・シナリオ - 腫瘍A：大きな腫瘍（1000ピクセル） - 腫瘍B：小さな腫瘍（10ピクセル）タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測

Dice係数タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測 𝐷𝑖𝑐𝑒𝐴 = 2 × 共通の面積検出領域の面積

Dice係数タスクの目的：腫瘍Bの検出が重要 ⇒ 今、モデルは腫瘍Aを90％、腫瘍Bを90％予測 𝐷𝑖𝑐𝑒𝐴 = 0.947 𝐷𝑖𝑐𝑒𝐵 = 0.947

（２）指標のミスマッチ一部の指標で良い ≠ 他の指標で性能が良い・Accuracyが95％ ⇒ PPV（陽性的中率）は０％ ⇒ 陽性クラスを全く予測していない・Balanced

Metrics Reload 目的：評価指標の選択、使用、解釈を体系的に整理する（１）平均と分散の空間での評価（２）テストデータサイズと性能改善の関連性（３）指標の複合的な使用（４）シナリオ別の適切な指標提案

Metrics Reload （１）平均と分散の空間での評価例：Dice係数の評価 X軸：平均性能（平均Dice係数） Y軸：分散の逆数（分散が小さいほど高評価）

Metrics Reload （３）指標の複合的な使用例①：Dice係数 + IoU + Haudorff距離・Haudorff距離：セグメンテーションの境界精度例②：PPV（陽性的中率）+

その他①

その他②

その他③

ご清聴ありがとうございました