Slide 1

Slide 1 text

レベル集合推定に基づく 機械学習モデルの能動的評価 落合 拓真1, 瀬野 圭⼀朗1, 松井 孝太1, 原 聡2 1 名古屋⼤学, 2 ⼤阪⼤学 IBISML研究会 2023-09-08 @⼤阪公⽴⼤学

Slide 2

Slide 2 text

2 発表の概要 背景 l 教師ラベル付きデータの収集には⼤きなコストを要する場合がある l テストフェイズでの教師ラベル付きデータの削減問題は、⼗分に検討されたとは いえない 提案⼿法 l レベル集合推定を0-1損失を対象とした能動的評価に適⽤する 貢献 l より少ないラベル付けでの誤分類率の推定を実現 発表の概要

Slide 3

Slide 3 text

3 教師ラベル付きデータの収集での⼤きなコスト l 教師あり学習で, ⾼い予測精度を持つモデルを開発する場合 しかし… l 現実の問題では教師ラベル付きデータの収集は,⼤きなコストを要 する 研究背景 多数の教師ラベル付きデータが必要になることが 少なくない

Slide 4

Slide 4 text

4 教師ラベル付きデータの収集が必要な場⾯ l 機械学習モデルの開発で、教師ラベルが要求される場⾯ l 学習フェイズ 様々なラベル付きデータの削減⼿法が提案されている 例)能動学習[8],[10]、⾃⼰教師あり学習[6]、弱教師あり学習[12] l テストフェイズ ラベルを付けるデータを能動的に選択する能動的評価の枠組み[5] が提案されている 研究背景 テストフェイズは ⼗分に検討されたとは⾔えない

Slide 5

Slide 5 text

5 テストフェイズでの教師ラベル付きデータを削減 テストデータから選択的に教師ラベルを付与する場合 l 現状 l ⼀般的には、⼀様ランダムにテストデータから選択し教師ラベルを 付与する l 本研究の⽅向性 l ラベルを付与するデータを能動的に選択し、能動的評価を⾏う 研究の⽬的

Slide 6

Slide 6 text

6 既存⼿法:データに対して選択的にラベルを付与 l 既存⼿法の基本的な考え⽅ l テスト誤差の推定に寄与するデータに対して選択的にラベルを付与する (学習フェイズにおける能動学習と同様のアイデア) 先⾏研究 Kossenら[5]のアプローチ l 分散が⼩さくなるように設定された確率分布から、ラベルを付与 するデータを選択

Slide 7

Slide 7 text

7 能動的評価の枠組み(LURE推定量) l 単純な平均損失 ! 𝑅 = 1 𝑀 & !"# $ ℒ 𝑓 𝒙%! , 𝑦%! (𝟏) l Leveled Unbiased Risk Estimator(LURE)[2] 𝑅&'() = 1 𝑀 & !"# $ 𝑣! ℒ 𝑓 𝒙%! , 𝑦%! (𝟐) 𝑣! ≡ 1 + 𝑁 − 𝑀 𝑁 − 𝑚 1 𝑁 − 𝑚 + 1 𝑞 𝑖! − 1 先⾏研究 Kossenら[5]のアプローチでは、 𝑁個のテストデータから能動的に𝑴個を選び、 バイアスが発⽣する単純な平均損失ではなく、不偏性を持つLURE推定量[2]で評価 𝑁:全テストデータ数 𝑀:評価に⽤いたテ ストデータの数 𝑓:評価対象のモデル ℒ:損失関数 𝑦!! : 𝒙!! に対応する 真のラベル 𝑞 𝑖" :獲得関数 点の取り⽅によってバイアスが発⽣する 解析的に不偏性を満たしている

Slide 8

Slide 8 text

8 能動的評価の枠組み(獲得関数) 1. 𝑽𝒂𝒓[𝑅89:; ]を最⼩化する獲得関数は下で与えられる[5] 𝑞 𝑖< ∝ ℒ 𝑓 𝒙=! , 𝑦=! (𝟑) 2. 代理モデルによって下の通り近似して計算する[5] 2 𝑞 𝑖𝒎 ∝ 𝔼 ? 𝑦 𝒙=! ℒ 𝑓 𝒙=! , 𝑦=! (𝟒) 先⾏研究 ラベル付けされていない点の真のラベルは未知 𝜋 𝑦 𝒙!! :𝒙!! に対するラベル 𝑦 を予測する関数(代理モデル)

Slide 9

Slide 9 text

9 先⾏研究の課題 l 推定分散が⼤きくなる可能性がある l 先⾏研究では、確率分布からのサンプリングによって次にラベルを付与す るデータを決定する ▶推定に有効でないデータにも⾮ゼロの 選択確率が与えられるため、実⽤的に 推定分散が⼤きくなる可能性がある 先⾏研究 推定誤差と推定標準偏差の推移 ラベル付けしたテストデータ点の数 真 の 誤 分 類 率

Slide 10

Slide 10 text

10 提案⼿法の概要 l ⽬標 ⼆値分類問題におけるテスト誤差(誤分類率)を、少ないラベル付け で、より分散を⼩さくできるよう推定する l 有効でない点へのラベル付けへの対処⽅法 レベル集合推定を⽤いることで有効でない点をラベル付けする点として 選ばないように設定する 提案⼿法

Slide 11

Slide 11 text

11 レベル集合推定 [3] ブラックボックス関数 𝑓 𝒙 と⼊⼒候補点𝒳𝑵 = {𝒙𝒊 } 𝒊#𝟏 𝑵 が与えられたとき、 関数値 𝑓 𝒙𝒊 がしきい値 𝜃 ∈ ℝよりも⼤きい 𝒙% ∈ 𝒳&' = {𝒙 ∈ 𝒳𝑵 ∣ 𝑓 𝒙 ≥ 𝜃}(𝟓) か、⼩さい 𝒙% ∈ 𝒳()* = {𝒙 ∈ 𝒳𝑵 ∣ 𝑓 𝒙 < 𝜃}(𝟔) かを判定し、上位集合と下位集合を推定する レベル集合推定 上位集合 下位集合

Slide 12

Slide 12 text

12 ガウス過程モデル 1. ブラックボックス関数𝑓𝐁𝐊 𝒙 が平均関数が𝜇 𝒙 、カーネル関数が𝑘 𝒙, 𝒙$ のガ ウス過程に従うと仮定 𝑓𝐁𝐊 𝒙 ∼  𝒢𝒫 𝜇 𝒙 ,  𝑘 𝒙, 𝒙$ 2. 未観測点での予測平均𝜇% 𝒙∗ と予測分散𝜎% ' 𝒙∗ を計算 𝜇% 𝒙∗ = 𝑘∗ (𝑲)*𝑦 𝜎% ' 𝒙∗ = 𝑘∗∗ − 𝑘∗ (𝑲)*𝑘∗ レベル集合推定

Slide 13

Slide 13 text

13 レベル集合推定の分類ルール l 推定上位、下位集合を下の通り定義 5 𝒳@A ≡ {𝒙 ∈ 𝒳B ∣ 𝜇C 𝒙 ≥ 𝜃}(12) 5 𝒳DEF ≡ {𝒙 ∈ 𝒳B ∣ 𝜇C 𝒙 < 𝜃}(13) レベル集合推定 予測平均がしきい値を上回った場合 ▶ 上位集合に分類 予測平均がしきい値を下回った場合 ▶ 下位集合に分類

Slide 14

Slide 14 text

14 レベル集合推定の獲得関数 レベル集合推定 Straddle関数[1] 𝛽 > 0 として以下で定義される 𝛼Straddle 𝒙 = 𝛽+/-𝜎. 𝒙 − 𝜇. 𝒙 − 𝜃 (14) l 𝜶Straddle 𝒙 が最⼤となる点を次に選択する l 関数値 𝒇 𝒙 が閾値 𝜽 に近く、かつ 𝒇 の推定の 不確実性が⼤きい領域から次に関数値を観測する点が選択される l 𝜷は𝟏. 𝟗𝟔がよく⽤いられ、本研究でも𝟏. 𝟗𝟔を⽤いた。

Slide 15

Slide 15 text

15 レベル集合推定のアルゴリズム l Step 1: 観測済みのデータ集合を⽤いてガウス過程モデルを更新 する。 l Step 2: 現在の予測平均を⽤いて上位集合と下位集合を推定す る。 l Step 3: Straddle 関数 の値が最⼤となる点を選択してその関数 値を観測し、データ集合を更新する。 レベル集合推定

Slide 16

Slide 16 text

16 レベル集合推定を⽤いた能動的評価 l 問題設定 損失関数を0-1損失とした⼆値分類問題 𝑦 ∈ {0, 1}での、能動的評価を考える l 提案⼿法 レベル集合推定を能動的評価に適⽤する 提案⼿法 0-1損失を対象とした能動的評価の問題を レベル集合推定へと帰着する ➡余計なラベル付けを削減

Slide 17

Slide 17 text

17 ⼆値分類モデルとクロスエントロピー損失 l ⼆値分類モデルを 𝒇 として、クラス1の確率 𝒇 𝒙 ∈ [0, 1]を出⼒す るモデルを考える ▶ 予測クラスは 𝒇 𝒙 ≤ 0.5であればクラス0、𝒇 𝒙 > 0.5であればクラス1と なる l クロスエントロピー損失は下の通り ℒG; 𝑓 𝒙 , 𝑦 = −𝑦 log 𝑓 𝒙 − 1 − 𝑦 log 1 − 𝑓 𝒙 提案⼿法

Slide 18

Slide 18 text

18 予測クラスとクロスエントロピー誤差の関係 真のクラスを0とした時 l 予測クラスが0(真のクラスと等しい)場合: 𝒇 𝒙 ≤ 0.5 となるため以下が成り⽴つ ℒ+, 𝑓 𝒙 , 0 = − log 1 − 𝑓 𝒙 ≤ log 2 (𝟏𝟕) l 予測クラスが1 (真のクラスと異なる)場合: 𝒇 𝒙 > 0.5 となるため以下が成り⽴つ ℒ+, 𝑓 𝒙 , 0 = − log 1 − 𝑓 𝒙 > log 2 (𝟏𝟖) 提案⼿法

Slide 19

Slide 19 text

19 クロスエントロピー損失から0-1損失を推定する 0-1損失を ℒ-* 𝑓 𝒙 , 𝑦 = 𝐼 𝑦と𝑓 𝑥 の予測クラスが異なる とすると、 ℒHI 𝑓 𝒙 , 𝑦 = 0 ⇔ ℒG; 𝑓 𝒙 , 𝑦 ≤ log 2 (19) ℒHI 𝑓 𝒙 , 𝑦 = 1 ⇔ ℒG; 𝑓 𝒙 , 𝑦 > log 2 (20) が導かれる 提案⼿法 クロスエントロピー損失ℒG; が閾値 log 2 を上回るか 否かを判定することで、0-1 損失ℒHI の値を推定できる

Slide 20

Slide 20 text

20 レベル集合推定を能動的評価に適⽤ レベル集合推定において l ブラックボックス関数:クロスエントロピー損失ℒG; l 閾値: log 2 として、ラベルなしテストデータを上位集合と下位集合に分類 提案⼿法 テストデータ全体に占める上位集合の割合として 誤分類率を推定することができる 上位集合は 0-1 損失が1 の 誤分類データに対応

Slide 21

Slide 21 text

21 提案⼿法の獲得関数 l 本研究では、𝜺-貪欲Straddle関数を獲得関数として⽤いる *不確実性を減らすことはブラックボックス関数 𝒇 の推定誤差を減らす ことに寄与する 提案⼿法 𝜺-貪欲Straddle関数 𝛼 = P αStraddle w. p 1 − 𝜀 𝜎J C w. p 𝜀 (15) 予測分散 𝜎J C 𝒙 は𝒇の推定の不確実性そのものなので、𝒇の 推定誤差の削減が期待できる

Slide 22

Slide 22 text

22 実験設定:データの設定 実験 ⼈⼯データ Breast Cancer[13] ⼊⼒:1次元 データ数:50 訓練⽤とテスト⽤の⽐率:2:8 0から. ' までの各点𝑥での𝑠𝑖𝑛(𝑥)の 値が、0.5より⼤きい場合は 𝑦 = 1、⼩さい場合𝑦 = 0とラベ ル付けしたデータ ⼊⼒:8次元 データ数:682 訓練⽤とテスト⽤の⽐率:3:7 実⽤だと訓練とテストの分布が同 じである保証はなく、より現実的 な設定にするため、訓練⽤データ とテスト⽤データで共変量シフト が起きるように分割している

Slide 23

Slide 23 text

23 実験設定:評価対象モデル l 評価対象モデル 線形ロジスティック回帰モデル l テストデータ全体における誤分類率 l ⼈⼯データ:0.24, Breast Cancer:0.09 l ⽐較⼿法 l I.I.D. Acquisition:ラベル付けする点を⼀様ランダムに選択、 損失の推定には単純平均を⽤いる l ActiveTesting: Kossenらの獲得関数に従ってラベル付けする点を選択する 損失の推定にはLURE を、代理モデル 𝜋 はロジスティック回帰モデル⽤いる 実験

Slide 24

Slide 24 text

24 実験設定:評価⽅法 l 能動評価の⽬的: より少ないラベル付けで誤分類率を推定すること *各試⾏は確率的であるため、複数の施⾏でラベル付け回数を評価し、 ⼿法の有効性を検証する必要がある。 実験 あるラベル付け回数に対する推定誤差と推定標準偏差 の⼤きさによって各⼿法の有効性を評価する

Slide 25

Slide 25 text

25 実験結果(⼈⼯データ) l 提案⼿法 20点程度ラベル付けが完了した 時点で、真の誤分類率をほぼ分 散ゼロで推定できている l ⽐較⼿法 分散が⼤きく、各試⾏において 推定値が⼤きくばらけている ▶レベル集合推定が 能動的評価において有効 実験 提案⼿法と⽐較⼿法を50回施⾏した時の 推定誤差と推定標準偏差の推移 (⼈⼯データ) ラベル付けしたテストデータ点の数 真 の 誤 分 類 率 と の 差

Slide 26

Slide 26 text

26 実験結果(Breast Cancer) l 提案⼿法 200点程度ラベル付けが完了し た時点で、真の誤分類率をほぼ 分散ゼロで推定できている l ⽐較⼿法 分散が⼤きく、各試⾏において 推定値が⼤きくばらけている ▶レベル集合推定が 能動的評価において有効 実験 提案⼿法と⽐較⼿法を50回施⾏した時の 推定誤差と推定標準偏差の推移 (Breast Cancer) ラベル付けしたテストデータ点の数 真 の 誤 分 類 率 と の 差

Slide 27

Slide 27 text

27 本研究のまとめ 背景 l 教師ラベル付きデータの収集には⼤きなコストを要する場合がある l テストフェイズでの教師ラベル付きデータの削減問題は、⼗分に検討されたとは いえない 提案⼿法 l レベル集合推定を0-1損失を対象とした能動的評価に適⽤する 貢献 l より少ないラベル付けでの誤分類率の推定を実現 まとめ

Slide 28

Slide 28 text

28 今後の課題 l 提案法の有効性とその限界を明らかにする l レベル集合推定では、ガウス過程モデルを⽤いて損失関数を 滑らかに補間する まとめ 不正解データがお互いに近くにある場合に ガウス過程モデルの当てはまりが良くなる ➡使⽤したデータがこの性質を満たしていた ガウス過程モデルの当てはまりが悪い場合、レベル集合推定 について改善の余地がある

Slide 29

Slide 29 text

29 参考⽂献(1/3) 1. Brent Bryan, Robert C Nichol, Christopher R Genovese, Jeff Schnei-der, Christopher J Miller, and Larry Wasserman. Active learning for identifying function threshold boundaries. Advances in neural information processing systems, 18, 2005. 2. Sebastian Farquhar, Yarin Gal, and Tom Rainforth. On statistical bias in active learning: How and when to fix it. In International Conference on Learning Representations, 2021. 3. Alkis Gotovos. Active learning for level set estimation. Master’s thesis, Eidgen ̈ossische Technische Hochschule Z ̈urich, Department of Computer Science, 2013. 4. Shota Hozumi, Kentaro Kutsukake, Kota Matsui, Syunya Kusakawa, Toru Ujihara, and Ichiro Takeuchi. Adaptive defective area identification in material surface using active transfer learning- based level set estimation. arXiv preprint arXiv:2304.01404, 2023. まとめ

Slide 30

Slide 30 text

30 参考⽂献(2/3) 5. Jannik Kossen, Sebastian Farquhar, Yarin Gal, and Tom Rainforth. Active testing: Sample-efficient model evaluation. In International Conference on Machine Learning, pages 5753–5763. PMLR, 2021. 6. Xiao Liu, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, and Jie Tang. Self-supervised learning: Generative or contrastive. IEEE transactions on knowledge and data engineering,35(1):857–876, 2021. 7. Carl Edward Rasmussen and Christopher KI Williams. Gaussian processes for machine learning. Springer, 2006. 8. Pengzhen Ren, Yun Xiao, Xiaojun Chang, Po-Yao Huang, Zhihui Li, Brij B Gupta, Xiaojiang Chen, and Xin Wang. A survey of deep active learning. ACM computing surveys (CSUR), 54(9):1–40, 2021. 9. Christoph Sawade, Niels Landwehr, Steffen Bickel, and Tobias Scheffer. Active risk estimation. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 951–958, 2010. まとめ

Slide 31

Slide 31 text

31 参考⽂献(3/3) 10. Burr Settles. Active learning literature survey. Technical Report., 2009. 11. Hidetoshi Shimodaira. Improving predictive inference under covariate shift by weighting the loglikelihood function. Journal of statistical planning and inference, 90(2):227–244, 2000. 12. Masashi Sugiyama, Han Bao, Takashi Ishida, Nan Lu, and Tomoya Sakai. Machine learning from weak supervision: An empirical risk minimization approach. MIT Press, 2022. 13. WIlliam Wolberg. Breast Cancer Wisconsin (Original). UCI Machine Learning Repository, 1992. DOI: https://doi.org/10.24432/C5HP4Z. 14. Andrea Zanette, Junzi Zhang, and Mykel J Kochenderfer. Robust super-level set estimation using gaussian processes. In Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2018, Dublin, Ireland, September 10–14, 2018, Proceedings, Part II 18, pages 276–291. Springer, 2019.