Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介「Evaluation gaps in machine learning practi...

論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話

以下の登壇資料。

白金鉱業 Meetup Vol.20@六本木(効果検証編)
https://brainpad-meetup.connpass.com/event/365473/

Avatar for Shinichi Takayanagi

Shinichi Takayanagi

September 19, 2025
Tweet

More Decks by Shinichi Takayanagi

Other Decks in Technology

Transcript

  1. 論⽂紹介 「Evaluation gaps in machine learning practice」 と、効果検証⼊⾨に関する昔話 2025年9⽉18⽇ ⽩⾦鉱業

    Meetup Vol.20@六本⽊ ⾼柳 慎⼀ ボストン コンサルティング グループ BCG X プリンシパル
  2. 2 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. ⾃⼰紹介 ⾼柳 慎⼀ BCG X プリンシパル 主な担当分野・役割 • ⽣成AIチームのコアメンバー 得意な領域 • 機械学習、ソフトウェア・AI開発、数理モデリング 略歴 • リクルート、LINE、Uzabaseなどを経て2022年にBCGに⼊社 • MLエンジニア・Data Scientistとして15年以上のプロフェッショナル経験を保有 • 消費者、マーケティング、官公庁など様々な業界でのAI活⽤を経験 過去の経歴 • 総合研究⼤学院⼤学複合科学研究科統計科学専攻博⼠課程修了 • 徳島⼤学デザイン型AI教育研究センター客員准教授 • 情報処理学会ビッグデータ研究グループ運営幹事 AI有識者としての活動1,2,3 1. MIT Technology Review:バイブコーディングの衝撃——AI駆動開発が迫るIT業界の大転換 2. 日経ビジネス:DeepSeekの驚異 中国製AIの実力を緊急解説 3. 日本経済新聞:韓国AI、米中の間隙突くアジア・中東展開 KTはタイ語モデル供給 プロフィール
  3. 3 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. ボストン コンサルティング グループの概要 ⽇本に5拠点: 東京、名古屋、⼤阪、京都、福岡 以上 100 ⼈ 33,000 オフィス ヶ国以上 50 所在国 スタッフ アジア太平洋 ヨーロッパ・中東、南⽶、アフリカ 北⽶ 出所: ボストン コンサルティング グループ
  4. 4 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 本⽇の内容 ❶ 論⽂紹介 ❷ 効果検証⼊⾨に関する昔話 (注)本資料・議論内容は、私的な有志の勉強会を⽬的としたもの であり、会社としての発表ではございません (注) 以下は、下記論⽂からの引⽤です Hutchinson, Ben, et al. "Evaluation gaps in machine learning practice." Proceedings of the 2022 ACM conference on fairness, accountability, and transparency. 2022.
  5. 5 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 本⽇の内容 ❶ 論⽂紹介 ❷ 効果検証⼊⾨に関する昔話 (注)本資料・議論内容は、私的な有志の勉強会を⽬的としたもの であり、会社としての発表ではございません (注) 以下は、下記論⽂からの引⽤です Hutchinson, Ben, et al. "Evaluation gaps in machine learning practice." Proceedings of the 2022 ACM conference on fairness, accountability, and transparency. 2022.
  6. 6 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 1: INTRODUCTION 機械学習(ML)モデルを実世界で使⽤する際、その モデルがユースケース・アプリケーション・エコシステムに 適しているかを判断することは責任あるAI・ビジネスに おいて極めて重要 判断には利害・責任などの幅広い要因の考慮が必 要 しかし実務でのMLモデル評価は狭い範囲の”脱⽂脈 化”された予測精度にのみ焦点が当てれられている 理想的な評価の広さと、実際の評価の狭さとの間に 評価ギャップの存在 背景と問題意識 コンピュータビジョン(CV)と⾃然⾔語処理の 主要な会議から抽出した論⽂から、少数の評価⼿ 法にのみ焦点が当てられている実態を実証 使⽤される指標とテストデータ分布を考慮することで、 どの側⾯が評価されて(いる|いない)を明らかにし、 ML分野での評価に関する暗黙の前提を解明 ⽬的
  7. 7 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 2: IDEALS OF ML MODEL EVALUATION 評価を学習器/応⽤中⼼で分けて考える 図1 評 価 Data (Training + Tunning) Hyper - parameters Compute resources Learner Model provenance Data (Evaluation) Model Evaluation Metrics Model evaluation Application of model Ecosystem of model use Application-centric evaluations Learner–centric evaluations 学習器中⼼(Learner-centric) 応⽤中⼼(Application-centric) ⽬的 優れた学習器の識別、モデル単体の性質解明 Understand(Learner) エコシステムでの、モデルの引き起こす影響の理解 Understand(Ecosystem + Model) 学術的 ゴール 科学あるいは⼯学研究としての知識拡張 主として⼯学的⽬標 (安全性・コスト効率・規制適合)の達成 妥当性 内部妥当性 • データ分布シフトや外れ値耐性 外部妥当性 • ⼊⼒に対する摂動 • センシティブ属性への振舞い(公平・安全性)
  8. 8 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 3: ML MODEL EVALUATIONS IN PRACTICE 実証研究の結果(論⽂195の本分析) 学習器中⼼の考え⽅と、研究での評価が 整合的であるという前提で、以下を指摘 • モデル挙動の具体例やエラー解析が⽋如 • 頻出指標が“誤りタイプ”に対し差を⼊れていない – Cost Sensitiveでない (TP=TN) • 古いテストデータ使⽤が常態化し、社会・⾔語の 変化を捉えない • I.I.Dでのテストが常態化・データ分布の不確実性 の問いを⼀般に扱っていない • 精度と資源効率などのトレードオフ議論がない 分析から得られた⽰唆 76 74 48 44 25 20 40 60 80 0 論⽂数 F-Value/ Overlap Precision AUC Recall Accuracy ML 研究コミュニティにおける評価報告の実態把握を ⽬的に以下の論⽂を分析 • NLP: 97本 • CV: 98本
  9. 9 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (1/3) 研究評価実務・学習器中⼼が置いている仮定と応⽤中⼼との評価ギャップ 仮定 評価ギャップ 1: 結果主義 (Consequentialism) ⾏為の良し悪しが結果のみに依存、測定可能な⼈間への 効⽤(Utility)や将来影響のみが可視化され、データ作成・ 調達や受容過程といったプロセス上の論点が範囲外に 1: 来歴 (Provenance) データの来歴、労働環境、ライセンス、学習の外部コストな どモラルやプロセスの考慮不⾜ 2: 社会的責任 (Social Responsibilities) モデルが社会的規範や期待(⼈権、包摂、説明責任な ど)をどのように満たすかの評価不⾜ 2: ⽂脈の抽象化 (Abstractability from Context) 評価を⼊⼒ X・予測 Ŷ・“真値” Yの三つの変数に還元、 エコシステムの仕組み・⼈間の介在・副作⽤などは⾒ない 3: システム考慮 (System Considerations) フィードバックループ、⼈間の関与、エネルギーや⻑期影響 などシステム的な要素の⾒落とし 4: 解釈学的認識論 (Interpretive Epistemics) 社会現象を含む状況でも、「真の」値Y = yは客観的に 単⼀で知ることができると誤認(社会・⽂化的に依存性を 忘れ、解釈が必要ないと捉えてしまう)
  10. 10 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (2/3) 研究評価実務・学習器中⼼が置いている仮定と応⽤中⼼との評価ギャップ 仮定 評価ギャップ 3:⼊⼒近視 (Input Myopia) 予測Ŷを出した後は、⼊⼒Xを評価で使わないという⽴場 (評価の有⽤性がŶとYの関係みに依存するとみなす) 5: 分解評価 (Disaggregated Analyses) 属性Xごとの分解や感度分析、安全でクリティカルな エッジケースの検討が⽋落しやすい 4: 計量可能性 (Quantifiability) 影響(utility)が「個々のケースで数値化でき、それらを 平均等で集約できる」場合、単⼀統計量に還元されやすく、 それが”リーダーボード主義”によって強化される 6: ⽐較不能性 (Incommensurables) 異なる種類の影響を同じ物差しで⽐較し、特定集団の影 響や⽴場が不当に⼩さく扱われる可能性 5: 不正解等価性(Failures Cases Are Equivalent) 誤りの種類や⽅向の違いが区別されず、分類で「正解/不 正解」、回帰で「誤差の⼤きさ」を同等に扱う慣⾏ 7: 被害・利益多様性 (Disparate harms and benefits) 同じ誤りでも影響の⼤きさが異なるという点が評価に載りに くい (多クラス分類のクラス間、回帰の⽅向) 6: テストデータの妥当性(Test Data Validity) テストデータ上での精度が、応⽤での精度の良い推定にな る 8: データドリフト(Data Drifts) 分布の変化やフィードバック効果により、テストデータの分布 と実データ分布が乖離し、信頼性を過⼤評価し得る
  11. 11 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 4:GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES (3/3) この6つの仮定を認めると、皆が信じる世界(机上テストで良ければALL OK)に辿り着く
  12. 12 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (1/3) 評価ギャップとその乗り越え⽅ 評価ギャップ その乗り越え⽅ 1: 来歴 (Provenance) 結果だけでなくプロセスも評価 • データ作成⽅法など、モデル開発プロセス⾃体も評価 • 開発ライフサイクルの⽂書化・モデルとデータの透明性 • 組織の美徳(virtues)を踏まえたML 2: 社会的責任 (Social Responsibilities) 義務の中⼼化 (MLシステムの間接的な影響考慮) • 社会的‧倫理的な影響評価プロセスの実施 • ⼈権・社会倫理的影響評価や監査 • プライバシー漏えいの可能性評価 3: システム考慮 (System Considerations) ⽂脈を”⾮周辺化”する • 外部性(計算資源等)や⼈・技術の相互作⽤を考慮 • 精度だけではなく安定性の価値認識 • ポータビリティの罠(AUC等の単⼀指標の過信)を回避 4: 解釈学的認識論 (Interpretive Epistemics) 主観性の可視化 • タスクに内在する主観性を認め、主観性が異なる明⽰的モデリングを実 施 • アノテータの⽴場に基づくラベル分解と評価
  13. 13 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (2/3) 評価ギャップとその乗り越え⽅ 評価ギャップ その乗り越え⽅ 5: 分解評価 (Disaggregated Analyses) ⼊⼒差の尊重 • 誤分類の影響が属性で⾮対称とし、⼊⼒の各領域・サブグループで評価 • 裾や外れ値の評価、⼊⼒感度テストも実施 6: ⽐較不能性 (Incommensurables) スカラー値での評価の克服 • 単⼀値への還元を回避し、複数指標・分布を併記して評価 • 不確実性(⽋損、測定・サンプリング誤差) 、社会等への質的影響の明⽰ • 集約のみならず図⽰、異種量の⾮集約、複数の代表値) • 利⽤者が同等の利益・被害を得るとは限らない点に留意 7: 被害・利益多様性 (Disparate harms and benefits) 誤判定の差異を尊重 • FPとFNが⽐較不能な場合は分けて報告、可能なら適切に重付け • 多クラスではコスト⾏列、回帰ではMSEなどの誤差のバケット別に報告 8: データドリフト (Data Drifts) テストデータ品質の検証 • データの来歴・分布・既知バイアスの明⽰ • サンプルサイズ⼩・バイアス有等の不確実性にはベイズ⼿法の活⽤
  14. 14 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 5: CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS (3/3) 代替的なモデル評価⼿法 (What)と評価駆動型ML (How) • Sparck Jones & Galliers1に基づき、評価設計前に背景・ ⽬的などをトップダウン的に付与 • “誰の視点で誰の利害を書くのか︖”を明確化し、 レミット(権限・責任範囲)を⽂書化(付録D) • Active Testing: 評価の⽬的に最も有⽤な新規テスト項 ⽬を繰り返し選び、I.I.D. より良い性能推定 (能動学習) • Adversarial Testing: 保守的アプローチとして、最も有害 な予測を引き出すテストを⼿動・⾃動⽣成 (敵対的攻撃) • テスト駆動型開発(TDD)から着想 • モデル性能の静的テストのみならず、 TDDベースで研究〜実装まで⾏う – テストはソフトウェアに⽐べて多様な視 点(⽂脈・社会・公平性)で • 実装においては、テストデータの詳細を (過学習しない約束の上で)”可視”で⾏ く場合も • モデルカード、テストケース構築プロセスな どもできるだけ⽂書化 評価駆動型ML⼿法 (How) 評 価 範 囲 % & ' 多 次 元 ⽐ 較 • モデル間優劣の存在仮定(リーダーボード主義の罠)を回避 • 多次元⽐較でも部分的な順序関係しか⾒えないと割切る • モデルによって最も深刻な影響を受ける⼈々により重み付け を⾏うなども検討(社会的な福祉順序での公平分配理論) 1: Karen Sparck Jones and Julia R Galliers. 1995. Evaluating natural language processing systems: An analysis and review. Vol. 1083. Springer Science & Business Media 代替的なモデル評価⼿法 (What)
  15. 15 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 6. Conclusion • ML研究コミュニティの学習器中⼼ (Leaner-Centric)の世界と、実世界の応⽤中⼼ (Application-Centric) の断絶を分析 • 上記の断絶の理由を列挙し、研究論⽂200本を通じてそれをサポート – 動機付けや⽬標の差 – 評価・リーダーボードでのSoTA圧 – 学習器への過度な集中 • 評価ギャップを⽣む6つの暗黙の前提を特定し、暗黙の前提の連鎖が「I.I.D.データでの 精度計算が実世界で信頼できる」という誤った結論を導くことを主張 • 対策として、評価における明⽰的な⽂書化(レミット)の実施、テスト駆動開発(TDD; Test-Driven Developmet)のMLでの実践を推奨
  16. 16 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 関連⽂献 • Aroyo, Lora, and Chris Welty. "Truth is a lie: Crowd truth and the seven myths of human annotation." AI Magazine 36.1 (2015): 15-24. • Powers, David MW. "What the F-measure doesn't measure: Features, Flaws, Fallacies and Fixes." arXiv preprint arXiv:1503.06410 (2015). • Raji, Inioluwa Deborah, et al. "AI and the everything in the whole wide world benchmark." arXiv preprint arXiv:2111.15366 (2021). • Eriksson, Maria, et al. "Can we trust ai benchmarks? an interdisciplinary review of current issues in ai evaluation." arXiv preprint arXiv:2502.06559 (2025). • Chandrasekaran, Jaganmohan, et al. "Test & evaluation best practices for machine learning- enabled systems." arXiv preprint arXiv:2310.06800 (2023). • Liao, Thomas, et al. "Are we learning yet? a meta review of evaluation failures across machine learning." Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.
  17. 17 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 本⽇の内容 ❶ 論⽂紹介 ❷ 効果検証⼊⾨に関する昔話 (注)本資料・議論内容は、私的な有志の勉強会を⽬的としたもの であり、会社としての発表ではございません
  18. 18 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 技術評論社から(実は)以下の”シリーズ”本が出ている 2025年 2023年 2021年 2020年
  19. 19 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 編集者いわく「データ分析技術を扱ったカラフルな表紙のシリーズ」
  20. 20 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. ⾼柳は、データ分析技術を扱ったカラフルな表紙のシリーズの に 関してレビュワー(著者)として参画 2025年 2023年 2021年 2020年
  21. 21 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 俺関連書籍4冊には執筆に⾄ったストーリー(昔話)が存在 2025年 2023年 2021年 2020年
  22. 22 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 効果検証⼊⾨ • その昔、Tokyo.Rという団体(︖)があってな… – 今もあるが、⼦供👶が出来てから疎遠になってもうた – そこで著者の安井さんと知り合う – かれこれ10年前の話をしています • 技術評論社の圧⼒で常に書籍の著者を探す⽇々 – 正確には、主に某編集者であって社ではない – 株式会社ホクソエムという団体関連のお仕事 – 「や、安井っていう活きの良い奴がいてさぁ〜」で 彼を売り⾶ばす形で執筆頂く 昔話 書影
  23. 23 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 施策デザインのための機械学習⼊⾨ • 安井さんの紹介・著者で、齋藤優太さんに執筆頂く – 書籍「反実仮想機械学習」も有名 – コーネル⼤学⼤学院博⼠課程 – ⽶エール⼤学助教授の成⽥悠輔⽒と「半熟仮想」を共 同創業 – 経済紙フォーブス・ジャパン「世界を変える30歳未満30 ⼈」にも選出 • とりあえずレビューがきつかった – だって難しいんだもの…南無三 – ⼈間の能⼒、おじさんの限界、体⼒の限界 昔話 書影
  24. 24 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. 評価指標⼊⾨ • なんかこう…順番的にね… – 複数のレビューを通じて刺激を受けていた – 腰を上げるタイミングを探していたような気はする – その時在籍していた会社の若者教育も兼ねる • アイデアはいつぞかのタイミングで思いついてはいた – 「良いとは何か︖」がとても気になっていたお年頃 – 統計理論と現場での良さのズレに興味があった – “one size fits all”や銀の弾丸はないという結論 昔話 書影
  25. 25 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. ビジネス課題を解決する技術 • ⾼柳が、森下さんに刺激を与える – ⾼柳さんの「評価指標⼊⾨」で衝撃を受け、僕もこんな ⾵に「紹介」ではなく⾃分の「考え」を書きたいと思い、踏 ん切りがつきました。素晴らしい書籍をありがとうございまし た︕” – 「そんなことあるのか〜著者冥利〜〜〜」とか思ってた – 森下さんは「機械学習を解釈する技術」の著者でもある • 数理的にちゃんとしているのでオススメだなと思った – 評価指標⼊⾨よりちゃんとしている – “⽼兵は死なず、ただ消え去るのみ” 昔話 書影
  26. 26 Copyright © 2025 by Boston Consulting Group. All rights

    reserved. (Overallでの) まとめ •2025年時点でも評価に関する“one size fits all”・“銀の弾丸”はなさそう – ⾯倒だが都度、ケースバイケースで考える必要がある – 良い意味で、AI時代の失職の危機の回避(?) •何がどうつながるかわからないので、“縁”を⼤切にしよう •書きたいネタ・秘めた熱い情熱ある著者志望の⽅はいつでも連絡して欲しい