Slide 1

Slide 1 text

深層学習における予測の不確実性 @ottamm_190

Slide 2

Slide 2 text

はじめに 深層学習における予測の不確実性について以下の論文をベースに説明します. A Survey of Uncertainty in Deep Neural Networks (https://arxiv.org/abs/2107.03342) 深層学習を用いている研究者,開発者の方に有益になると嬉しいです. 対象者:深層学習の予測の不確実性ってどこで役に立つの? どうやって不確実性を定量化しているの?と思った人向け. 前提知識:確率・統計の基礎,機械(深層) 学習の教科書レベル,最近のMLトピック

Slide 3

Slide 3 text

研究界隈で取り組みが盛んに 0 10 20 30 40 50 60 Bayesian Uncertain NeurIPS 2017 2018 2019 2020 2021 0 5 10 15 20 25 30 Bayesian Uncertain AAAI 2017 2018 2019 2020 2021 • 「不確か」や「ベイズ」が論文のタイトルに年々多く含まれている. • 非構造化データに対する予測の不確実性の定量化,安全で信頼のできるAIの実現に向けて.

Slide 4

Slide 4 text

不確実性を定量化すると何ができるのか? • 予測の信頼性(AI製品の高品質化) • 学習データから「知らない」「わからない」を定量化できる. • 不確実性の定量化から意思決定につながることが重要 「知らない」 「わからない」 [12]

Slide 5

Slide 5 text

どんな意思決定につながるか? 不確実性の定量化による意思決定(AI製品の場合) • データ準備:大量にあるデータのどれにラベル付けするべきか • 能動学習,ベイズ最適化 • 推論:予測結果をもとに施策を打つべきか(機械の制御等) • キャリブレーション,モデルの不確実性,データの不確実性 • 運用:いつ再学習すべきか(学習時とデータの傾向の変化) • OOD検知,データ分布シフト検知

Slide 6

Slide 6 text

サーベイをした感想 MLシステムに組み込むことを考えた不確実性の研究が増えていると思った. 不確実性:データ分布シフト,OODといった機械学習システムの運用時に必要な実用 的な不確実性が多い印象. 推定方法:アンサンブル方法の計算コストを削減するため,多様性のあるメンバーを選 ぶなど効率化に関する研究に目を引いた. キャリブレーション:分類の信頼度が過信な傾向を抑制する方法にMixUpといったソフ トラベルで学習すると効果的だと学べた. 補足:図や表に引用の明記がない場合,サーベイ論文A Survey of Uncertainty in Deep Neural Networks から引用しています.

Slide 7

Slide 7 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 8

Slide 8 text

予測の不確実性が役立つ場面 人命に関わるAIシステム • 自動運転,医療画像解析,ロボット ノイズの多いデータを扱う領域 • 地球観測データ,様々なセンサデータ AIシステムの準備・運用 • データのラベル付け,コンセプトドリフト検知

Slide 9

Slide 9 text

医療画像 • 病気の位置を不確実性付きで発見 4つのボクセルベースの不確実性指標を出力 • 大規模なアノテーション付きデータセットの不足(ラベル付けが高コスト) • 安全なAIのために説明性としても不確実性が重要 • U –Netに不確実性を加え,異常検知[1] [2]

Slide 10

Slide 10 text

自動運転 • 安全なAIが重要な領域で説明性が求められる. • 車載カメラの映像から意思決定を行うために不確実性を活用. Bayesian SegNetの結果[3] 入力 真値 予測 不確実性 予測× 不確実性大 不確実性小 予測○

Slide 11

Slide 11 text

ロボット(深層強化学習) • ロボットが未知の環境と相互作用する場合,行動価値の不確実性を推論することで, 危険な行動をせずにすむ. • 環境の変化に対して, Out-of-Distribution(OOD)検出時に不確実性を用いる. 自動運転における意思決定の不確実性を推定 [4] 予測分散が閾値以下となるQ値の平均が高い行動をとる. アンサンブル

Slide 12

Slide 12 text

地球観測衛生画像 Terraで観測した植生指標 (NDVI) の時系列予測 [5] • 地理的なエリアの違いや季節の違いから,未観測クラスや分布外(OOD)サンプルが多い • 観測値にノイズが多く,サンプル数が少ないため,不確実性が重要 テスト時に未知クラスサンプルを識別 [6] In-domain 訓練OOD テストOOD 都市と植生 岩と道路 水

Slide 13

Slide 13 text

アノテーション(能動学習) • 一般的にデータのラベル付けは高コスト. • どのデータにラベル付けるかにモデルの不確実性を用いる. Active Learning [7] 1. 少数のラベル付きデータでモデル学習 2. ラベルなしデータの不確実性を予測 3. 不確実性に依存する獲得関数からラベル付けのデータ選択

Slide 14

Slide 14 text

モデルの監視・運用 • データ分布が変化すると予測性能が低下 • モデルの不確実性からOODサンプルの検知数を基準に再学習可能 Concept drift検出 [8] • Uncertainty Drift Detection(UDD) 予測の不確実性が大きくなるタイミングでドリフト検出し再学習. Dataset shift (train/test依存) Concept drift (時刻依存, 入力非依存) Covariate shift (入力の変化) AAACh3ichVE9S8NAGH6MXzV+tOoiuJQWRUHqpYOKU8XFsX5UhbaUJJ4amiYxuRZrcRf/gIOTgogIrrq7+Acc+hPEUcHFwTdpQFTU97i75557n/eeu9Mc0/AEY802qb2js6s70iP39vUPRGODQ+ueXXV1ntNt03Y3NdXjpmHxnDCEyTcdl6sVzeQbWnnR39+ocdczbGtN1B1erKg7lrFt6KogqhRLFPJyttQQ7uHE/lR9Ml6w+F7cJ3iLkAvFUizJUiyI+E+ghCCJMLJ27BIFbMGGjioq4LAgCJtQ4VHLQwGDQ1wRDeJcQkawz3EImbRVyuKUoRJbpnGHVvmQtWjt1/QCtU6nmNRdUsYxxh7ZFXthD+yaPbH3X2s1ghq+lzrNWkvLnVL0eGT17V9VhWaB3U/Vn54FtjEXeDXIuxMw/i30lr52cPKyOr8y1hhn5+yZ/J+xJrunG1i1V/1ima+cQqYPUL4/90+wnk4pMyllOZ3MzIVfEcEoEpig955FBkvIIkfnHuEGt7iTeqRpaUYKc6W2UDOMLyEtfACVpZVD Ptr(x, y) 6= Pte(x, y) AAACiXichVHLLgRBFD3au70GG4nNxCAkMrltwcRKYmM5HoNkZtLpboWOnu7WXTMxJn7AD1hYkYiIjS1bGz9g4RPEksTGwp2eTgTBrVTVqVP33DpVZfqOHUqixyaluaW1rb2jU+3q7untS/QPrIVeObBEzvIcL9gwjVA4tity0paO2PADYZRMR6ybuwv1/fWKCELbc1dl1RfFkrHt2lu2ZUim9MRoIa9m9ZrU6XBif6o6mSy4Yi8ZMVqDUQtFPZGiNEWR/Am0GKQQR9ZLXKCATXiwUEYJAi4kYwcGQm55aCD4zBVRYy5gZEf7AodQWVvmLMEZBrO7PG7zKh+zLq/rNcNIbfEpDveAlUmM0QNd0gvd0xU90fuvtWpRjbqXKs9mQyt8ve9oaOXtX1WJZ4mdT9WfniW2kIm82uzdj5j6LayGvnJw/LIytzxWG6czemb/p/RId3wDt/JqnS+J5ROo/AHa9+f+Cdam09pMWluaTs1n4q/owDBGMMHvPYt5LCKLHJ97hGvc4FbpUjQlo8w1UpWmWDOIL6EsfACBIZWf Pt0 (x, y) 6= Pt1 (x, y) AAACiXichVHLLgRBFD3au70GG4nNxCBsJrctmFhJbCzHY5DMTDrdrdDR0926aybG8AN+wMKKRERsbNna+AELnyCWJDYW7vR0IghupapOnbrn1qkq03fsUBI9NinNLa1t7R2dald3T29fon9gNfTKgSVylud4wbpphMKxXZGTtnTEuh8Io2Q6Ys3cma/vr1VEENqeuyKrviiWjC3X3rQtQzKlJ0YLeTWr16ROhxPVg73JZMEVu8mI0RqMWijqiRSlKYrkT6DFIIU4sl7iAgVswIOFMkoQcCEZOzAQcstDA8FnrogacwEjO9oXOITK2jJnCc4wmN3hcYtX+Zh1eV2vGUZqi09xuAesTGKMHuiSXuieruiJ3n+tVYtq1L1UeTYbWuHrfUdDy2//qko8S2x/qv70LLGJTOTVZu9+xNRvYTX0lf3jl+XZpbHaOJ3RM/s/pUe64xu4lVfrfFEsnUDlD9C+P/dPsDqV1qbT2uJUai4Tf0UHhjGCCX7vGcxhAVnk+NwjXOMGt0qXoikZZbaRqjTFmkF8CWX+A8n0lj8= Pt0 (y|x) 6= Pt1 (y|x) AAACg3ichVHLSsNAFD1GqzW+qm4EQYpFUYQyKaIiCAU3LuujWmhLSeKowTSJybRYS3eu/AEXrhRE1KX+gRt/wIWfIC4V3LjwJg2IinpDZs49c8+dMzOaYxqeYOyxRWpti7R3RDvlru6e3r5Y/8C6Z1dcnWd127TdnKZ63DQsnhWGMHnOcbla1ky+oe0u+usbVe56hm2tiZrDi2V12zK2DF0VRJViI4W8nCnVhduY2J+MFyy+F/dT7qdyoViKJViSBRH/CZQQJBBGxo5doIBN2NBRQRkcFgRhEyo8+vJQwOAQV0SdOJeQEaxzNCCTtkJVnCpUYndp3KYsH7IW5X5PL1DrtItJv0vKOMbYA7tkL+yeXbMn9v5rr3rQw/dSo1lrarlT6jsaWn37V1WmWWDnU/WnZ4EtzAVeDfLuBIx/Cr2prx4cv6zOr4zVx9kZeyb/p+yR3dEJrOqrfr7MV04g0wMo36/7J1hPJZWZpLKcSqTnwqeIYhijmKD7nkUaS8ggS/se4go3uJUi0pSUkqabpVJLqBnEl5AWPgBACZPR Ptr(x) 6= Pte(x) AAAChHichVHLSsNAFD3Gd3xV3QguLJaKgpSJ4gNBEdy4rI+2QltKEqcaTJOQTIu1unTjD7hwpSAibvUL3PgDLvwEcVnBjQtv0oCoqDdk5twz99w5M6M5puEJxp6apOaW1rb2jk65q7unty/SP5D27LKr85Rum7a7pakeNw2Lp4QhTL7luFwtaSbPaHsr/nqmwl3PsK1NUXV4vqTuWEbR0FVBVCEyksvKyUJNuEfj1cP9iehi1M94I5Nz+UIkxhIsiOhPoIQghjCSduQKOWzDho4ySuCwIAibUOHRl4UCBoe4PGrEuYSMYJ3jCDJpy1TFqUIldo/GHcqyIWtR7vf0ArVOu5j0u6SMIs4e2TWrswd2w57Z+6+9akEP30uVZq2h5U6h72Ro4+1fVYlmgd1P1Z+eBYqYD7wa5N0JGP8UekNfOTitbyysx2tj7IK9kP9z9sTu6QRW5VW/XOPrZ5DpAZTv1/0TpKcSymxCWZuKLc+HT9GBYYxinO57DstYRRIp2vcYN7jFndQmTUrT0kyjVGoKNYP4EtLSB4AelGI= Ptr(y|x) = Pte(y|x) AAACdHichVHLSsNAFD2N7/ho1Y2gi2KpuCo3LlTEheDGpa9qoS0hidMaTJOQTAta/AF/wIUrRRHxM9z4Ay78BHGp6MaFt2lAtKg3TObMmXvunJlr+o4dSqLHhNLV3dPb1z+gDg4NjyRTo2M7oVcPLJG3PMcLCqYRCsd2RV7a0hEFPxBGzXTErnmw2trfbYggtD13Wx76olwzqq5dsS1DMqWnkqWiKnVKL6elrqmlsp7KUI6iSHcCLQYZxLHupa5Rwh48WKijBgEXkrEDAyF/RWgg+MyV0WQuYGRH+wLHUFlb5yzBGQazB/yv8qoYsy6vWzXDSG3xKQ6PgJVpZOmBbuiF7umWnujj11rNqEbLyyHPZlsrfD15MrH1/q+qxrPE/pfqT88SFSxGXm327kdM6xZWW984On3ZWtrMNmfogp7Z/zk90h3fwG28WlcbYvMMKjdA+/ncnWBnLqfN57SNuczKYtyKfkxiGrP83gtYwRrWkY96coZLXCXelCklo2TbqUoi1ozjWyi5T8KPjj4= t0 < t1

Slide 15

Slide 15 text

不確実性を搭載した製品例 https://mathpix.com/ Mathpix : pdfにある数式のスクショからLaTex形式とPNG形式に変換. 利用者は確信度の低いものだけ 変換後の数式を丁寧に見る (作業効率の向上) スクリーンショット 変換後 確信度

Slide 16

Slide 16 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 17

Slide 17 text

深層学習における予測の不確実性の原因 大きく3つのタイミングで不確実性が生まれる. • データ獲得 - 実世界の状況の変化 - 測定システム固有の誤差 • モデル学習 - DNNのアーキテクチャ - DNNの学習手順 • 推論 - 未知データ

Slide 18

Slide 18 text

不確実性の原因の例 データ獲得 モデル訓練 推論 環境の変化 緑葉,晴れ 紅葉,曇り ラ ベ ル ノ イ ズ 森?家? データ分布の変化 低 解 像 度 未知クラス ネットワークの構造は? 学習アルゴリズムは? 2クラス分類 (settlement, forest)

Slide 19

Slide 19 text

データ獲得: 実世界の状況の変化 • 現実の環境は非常に変化しやすく,NNが未知データと捉え,「知らない」不確実性 が生まれる. • 例えば,下の図の場合や雨上がりの植物と日照り続きの植物の写真 • 訓練データ収集時と比べて実世界の状況が変化することを「分布の変化」と呼ぶ. • NNは分布の変化に敏感であり,NNの性能を劣化させることがある. 写真 写真 環境の変化によるカメレオンの変色 引用:https://images.app.goo.gl/GEyXa3Hend1iDtcg7

Slide 20

Slide 20 text

データ獲得: 計測システムエラーとノイズ • 測定値自体がニューラルネットワークの予測を不確かなものにする • 画像が低解像度の場合,測定の情報が限定的(情報の損失) • センサの経年劣化や品質により,正確な測定が困難 • 誤ったラベリング(ラベルノイズ) 写真 [9] 誤ったラベリングの例 枯葉?トカゲ? 引用:https://karapaia.com/archives/52056998.html 偶然ノイズ

Slide 21

Slide 21 text

モデル学習:モデル構造 • ニューラルネットワークの構造は,精度に直接的な影響を与えて結果をばらつかせ る. 例)NNの層数,活性化関数,パラメータ数に依存 ベイジアンNNの活性化関数の違い(2層100ユニット,事前分布:標準ガウス分布)

Slide 22

Slide 22 text

モデル学習:学習過程 • NNの学習過程には多くのパラメータ(バッチサイズ,最適化,学習率,停止基準, 正則化,ランダムな初期化)が必要 • パラメータの違いにより,予測の結果にばらつきが生まれる. AAACcXichVHLSsNAFD2NrxpfVTeKm9KiCEKZuFBxVXDj0le10FRJ4qjBvEimhRr6A/6AgqsKIuJnuPEHXPgJ4rKCGxfepAHRot5hZs6cuefOmRnds8xAMPacknp6+/oH0oPy0PDI6FhmfGI3cGu+wUuGa7l+WdcCbpkOLwlTWLzs+VyzdYvv6adr0f5enfuB6To7ouHxqq0dO+aRaWiCqH21IoeqOOFCa8pq9SCTZwUWR7YbKAnII4kNN3MLFYdwYaAGGxwOBGELGgJqFShg8IirIiTOJ2TG+xxNyKStURanDI3YUxqPaVVJWIfWUc0gVht0ikXdJ2UWs+yJ3bE2e2T37IV9/ForjGtEXho06x0t9w7Gzqe23/9V2TQLnHyp/vQscISV2KtJ3r2YiW5hdPT1s4v29urWbDjHrtkr+W+xZ/ZAN3Dqb8bNJt+6gkwfoPx87m6wu1hQlgrK5mK+uJJ8RRozyGGe3nsZRaxjAyU618clWrhOtaVpKSvlOqlSKtFM4ltIC5/nsI7q ✓ AAACd3ichVG7SgNBFD1ZX3F9JGojWBgMilWYtdBgFbCxsMjDqJCEsLuOurgvdifBGPID/oCFIChIFD/Dxh+wyCeIpYIIFt5sFkRFvcPMnDlzz50zM5prGr5grBOR+voHBoeiw/LI6Nh4LD4xueU7NU/nRd0xHW9HU31uGjYvCkOYfMf1uGppJt/WDte6+9t17vmGY2+KhssrlrpvG3uGrgqiqvHJckluli1VHOiqmdhoyeVKNZ5kKRZE4idQQpBEGFkn3kYZu3CgowYLHDYEYRMqfGolKGBwiaugSZxHyAj2OVqQSVujLE4ZKrGHNO7TqhSyNq27Nf1ArdMpJnWPlAnMswd2w57ZPbtlj+z911rNoEbXS4NmraflbjV2Ml14/Vdl0Sxw8Kn607PAHtKBV4O8uwHTvYXe09ePT58Lq/n55gK7ZE/k/4J12B3dwK6/6Fc5nj+DTB+gfH/un2BrKaUsp5TcUjKTDr8iihnMYZHeewUZrCOLIp17hHO0cR15k2alBWmxlypFQs0UvoSkfAB6RpBz L モデルパラメータの初期値により,異なる局所解に落ちる. 異なる局所解ごとに分類結果が変わることもある. (同じこともあることに注意.)

Slide 23

Slide 23 text

推論: 未知データ 機械学習の技術を搭載したシステムでは,訓練データ分布と異なるデータ分布からサン プルされたデータを入力されることがある. この時にNNは誤った結果を返す. 例えば,犬や猫の画像で学習したNNに,鳥の画像が送られる. 訓練データの分布と異なるデータ分布のサンプルを見極めることをOut-of-Distribution 検知という.

Slide 24

Slide 24 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 25

Slide 25 text

不確実性の分類 • Predictive Uncertainty • Data Uncertainty(aleatoric uncertainty ) • In-domain Uncertainty • Model Uncertainty(epistemic uncertainty ) • In-domain Uncertainty • Domain-shift Uncertainty • Out-of-domain Uncertainty • Distributional Uncertainty

Slide 26

Slide 26 text

モデルパラメータ を持つ深層学習モデルを とする. 訓練データ集合 でモデルを学習したとき, 新しい入力 に対する予測は と表す. 表記 AAACmHichVHLThsxFD1MSwtTWkK7qegmagTqKvKARBGrSCza7iAQCMpEkWfqJBbzkscJglF+oD9QVaxAqirER7Dohn4ACz4BsQSJDQtuJiMQoLbXsn18fM/1se1Enow1Y6dDxpOnw8+ej4yaL8ZevhrPTbxei8OOckXFDb1QVR0eC08GoqKl9kQ1UoL7jifWnc3F/v56V6hYhsGq3o5E3eetQDalyzVRjdysXTObjcTWbaF5byFv+1y3HSep9vK2kq225kqFW7f0Rs+0641cgRVZGvnHwMpAAVkshblfsPEVIVx04EMggCbsgSOmVoMFhoi4OhLiFCGZ7gv0YJK2Q1mCMjixmzS2aFXL2IDW/ZpxqnbpFI+6ImUeU+yEHbALdswO2Rm7/mutJK3R97JNszPQiqgx/u3tytV/VT7NGu071T89azQxn3qV5D1Kmf4t3IG+u/P9YmWhPJVMs312Tv732Cn7TTcIupfuz2VR3oVJH2A9fO7HYG2maM0VreWZQmk++4oRvMN7fKD3/ogSPmMJFTr3B45wjD/GpFEyPhlfBqnGUKZ5g3thlG8A606dxw== f✓ : X ! Y AAACnXichVFNaxNBGH669nPVJq0XwUODoeJBwmwPbSgUCir0IKVfaQrZGHa3k2To7Ae7k2Bc9g/4BzwUCi2UIv4MPXjRm4f+hOKxghcPvrtZKLZU32XnfeaZ93nnmRk7kCJSjJ2PaHdGx8YnJqf0u/fuTxeKM7O7kd8LHV5zfOmHe7YVcSk8XlNCSb4XhNxybcnr9sHzdL3e52EkfG9HDQLedK2OJ9rCsRRRrWLVbOima6muY8n4RbJiSt5WZvymFXvJs9IgTWYoOl1lJoRXjOR1vJ6UdLPZKpZZhWVRugmMHJSRx4ZfPIOJffhw0IMLDg+KsISFiL4GDDAExDURExcSEtk6RwKdtD2q4lRhEXtAY4dmjZz1aJ72jDK1Q7tI+kNSljDPvrMP7JJ9YR/ZBft9a68465F6GVC2h1oetArvHm7/+q/KpazQvVL907NCG9XMqyDvQcakp3CG+v7b95fby1vz8RN2wn6Q/2N2zj7RCbz+T+d0k28dQqcHMK5f902wu1AxFivG5kJ5tZo/xSQe4TGe0n0vYRVr2ECN9j3CZ3zFN21Oe6m90taHpdpIrnmAv0Kr/wEPQJ/0 D = {xn, yn }N n=1 AAACb3ichVHLSsNAFD2N7/iqulAQpFgquikTFyquBDcubbUPaEpJ4rQNpklIpgUt/oAfoAsXPkBE/Aw3/oALP0FcSQU3LrxNA6JFvcPMnDlzz50zM7prmb5g7Cki9fT29Q8MDsnDI6Nj49GJyazv1D2DZwzHcry8rvncMm2eEaaweN71uFbTLZ7T9zfb+7kG93zTsXfFgcuLNa1im2XT0ARRqlqQVVHlQpPVYikaZ0kWRKwbKCGII4xtJ3oDFXtwYKCOGjhsCMIWNPjUClDA4BJXRJM4j5AZ7HMcQSZtnbI4ZWjE7tNYoVUhZG1at2v6gdqgUyzqHiljSLBHdsta7IHdsWf28WutZlCj7eWAZr2j5W5p/Hhm5/1fVY1mgeqX6k/PAmWsBV5N8u4GTPsWRkffODxt7aynE80FdsVeyP8le2L3dAO78WZcp3j6DDJ9gPLzubtBdjmprCSV1HJ8Yy38ikHMYh6L9N6r2MAWtpGhc12c4BwXkVdpWpqTYp1UKRJqpvAtpKVPomuN3g== ✓ AAACbnichVHLSsNAFD2NrxpfVUEEEYtFERdl4kLFVcGNy/qoLaS1JHHUYF4kaVFDf8C9uBAUBRHxM9z4Ay78BHEjKLhx4U0aEBX1hsmcOXPPnTN3VMfQPZ+xh4TQ0trW3pHsFLu6e3r7Uv0D655dczVe0GzDdkuq4nFDt3jB132DlxyXK6Zq8KK6uxjuF+vc9XTbWvP3HV4xlW1L39I1xSdKLsvi3kYw3RDLlWoqw7IsivRPIMUggzjyduoKZWzChoYaTHBY8AkbUODRJ0MCg0NcBQFxLiE92udoQCRtjbI4ZSjE7tJ/m1ZyzFq0Dmt6kVqjUwwaLinTmGD37Jq9sDt2wx7Z+6+1gqhG6GWfZrWp5U6173B49e1flUmzj51P1Z+efWxhPvKqk3cnYsJbaE19/eD4ZXVhZSKYZBfsifyfswd2Szew6q/a5TJfOYFIDyB9b/dPsD6TlWaz0vJMJjcfP0USIxjHFPV7DjksIY9C1LEjnOIs8SwMCaPCWDNVSMSaQXwJYeoDhMGNWg== x⇤ AAACjXicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQtoxERzpcVXx5RkpJYk1sbkpKaVaFTEVWvVxhRlpmeUaNpWgjhcMbHxAsoGegZgoIDJMIQylBmgICBfYDlDDEMKQz5DMkMpQy5DKkMeQwmQncOQyFAMhNEMhgwGDAVAsViGaqBYEZCVCZZPZahl4ALqLQWqSgWqSASKZgPJdCAvGiqaB+SDzCwG604G2pIDxEVAnQoMqgZXDVYafDY4YbDa4KXBH5xmVYPNALmlEkgnQfSmFsTzd0kEfyeoKxdIlzBkIHThdXMJQxqDBditmUC3F4BFQL5Ihugvq5r+OdgqSLVazWCRwWug+xca3DQ4DPRBXtmX5KWBqUGzGbiAEWCIHtyYjDAjPUMzPcNAI2UHC2hUcDBIMygxaADD25zBgcGDIYAhFGhvH8MWhr0M+5j4mUyZbJjsIEqZGKF6hBlQAJM7AKtnmOU= f✓ (x⇤) = y⇤

Slide 27

Slide 27 text

ベイズモデリング モデルパラメータの事前確率 尤度関数 モデルパラメータの事後分布 新しい入力に対する予測分布 AAACdHichVHLTsJAFD3UF9YHqBsTXRAJBjdkykKJKxM3LlUETICQtg7QUNqmHUiQ+AP+gAtXGo0xfoYbf8AFn2BcYnTjwktpYtSot5nOmTP33DkzV3NMwxOM9ULSyOjY+ER4Up6anpmNROfm857dcnWe023Tdg811eOmYfGcMITJDx2Xq03N5AWtsT3YL7S56xm2dSA6Di831ZplVA1dFURVopFSUXaSJVHnQl2TS+VKNM5SzI/YT6AEII4gdu3oDUo4gg0dLTTBYUEQNqHCo68IBQwOcWV0iXMJGf4+xwlk0rYoi1OGSmyD/jVaFQPWovWgpuerdTrFpOGSMoYEe2S3rM8e2B17Yu+/1ur6NQZeOjRrQy13KpHTxezbv6omzQL1T9WfngWqyPheDfLu+MzgFvpQ3z4+62c39xPdVXbJnsn/Beuxe7qB1X7Rr/f4/jlkaoDy/bl/gnw6paynlL10fCsTtCKMJawgSe+9gS3sYBc5vyfnuMJ16FValuJSYpgqhQLNAr6ElPoAJ0mO7g== p(✓) AAACuXichVG7ThtBFD1sAoENDydpkGgsLJDdWLMuEpQoElIoKHkZkLyWNTuM8cK+tDu2RBb/QH4gBRVICCH+IG0afoCCLi1QgpSGguv1Il4C7mhm7pw5586ZGStw7EgxdtqjvXnb2/euf0B/Pzg0PJL58HE58puhkGXhO364avFIOrYny8pWjlwNQsldy5Er1uaPzv5KS4aR7XtLaiuQVZeve3bdFlwRVMssmRU9yJuqIRXfjk2Xq4bgTnamXfhu1kMu4iB/H93uMgu3kkL7EaHQ1s1qLZNjRZZE9mlipEkOacz5mQOYWIMPgSZcSHhQlDvgiKhVYIAhIKyKmLCQMjvZl2hDJ22TWJIYnNBNGtdpVUlRj9admlGiFnSKQz0kZRYT7IQdskt2zI7YGbt+tlac1Oh42aLZ6mplUBv5Nbr4/1WVS7NC4071omeFOqYSrzZ5DxKkcwvR1bd+/r5c/LowEU+yPXZB/nfZKftLN/BaV2J/Xi7sQKcPMB4/99NkuVQ0PheN+VJueir9in6MYRx5eu8vmMYs5lCmc//gH85wrn3TuNbQNrpUrSfVfMKD0KIbDx+qmw== p(✓|D) = p(D|✓)p(✓) p(D) AAACpXichVFNaxNBGH6yVduuH431UvCyGKoRJMz2oEUIBOzBi9KvpIVsXGa302bp7uywOwnGTf5A/4AHTwoq4s/w4sFrCv0JxWMFLx58s1kQLeo7zMwzz7zPO8/MeCoMUs3YScmYuXDx0uzcvHn5ytVrC+Xri6007iW+aPpxGCe7Hk9FGEjR1IEOxa5KBI+8UOx4h48m+zt9kaRBLLf1QIlOxA9ksB/4XBPllhtO21TVzIm47vo8tNZGQ0d3heZ3rbrlqCTeczNZt0fPsqcjS1UHrhw+d+W9Isd0Om65wmosD+s8sAtQQRHrcfk9HOwhho8eIghIaMIhOFJqbdhgUMR1kBGXEAryfYERTNL2KEtQBif2kMYDWrULVtJ6UjPN1T6dElJPSGlhmY3ZB3bGPrOP7JT9+GutLK8x8TKg2ZtqhXIXjpa2vv9XFdGs0f2l+qdnjX2s5l4D8q5yZnILf6rvv3h5tvVwczm7zd6wr+T/NTthn+gGsv/Nf7shNl/BpA+w/3zu86C1UrPv1+yNlUpjtfiKOdzELVTpvR+ggcdYR5POfYcvGOPYuGM8MbaN1jTVKBWaG/gtDPcn2lGh0g== p(D|✓) = N Y n=1 p(yn |xn, ✓) AAACuXichVG7ThtBFD1sHpAliU1oIqVZYYEMiqxZCkCJkJCgoAQbA5LXWLPLYA/sS7tjK47hB/gBCiqQIoTyB2nT5AdS0NFCSiKlScH17kqIoCR3tTNnzr3nzpkZO3RlrBi7GNAePX7ydHDomT78/MXLXH7k1XoctCNHVJ3ADaJNm8fClb6oKqlcsRlGgnu2KzbsvcV+fqMjolgG/prqhqLu8aYvd6TDFVGN/JpV08Nid2tq/8PW1Nue5XHVcrhrLB1MGvOGYUlfGXd5S7WE4pNhMQX79+q3U1K36o18gZVYEsZDYGaggCxWgvwZLGwjgIM2PAj4UIRdcMT01WCCISSujh5xESGZ5AUOoJO2TVWCKjixezQ2aVXLWJ/W/Z5xonZoF5f+iJQGxtl3ds5u2Df2mV2x33/t1Ut69L10abZTrQgbucPXlV//VXk0K7TuVP/0rLCDucSrJO9hwvRP4aT6zsejm8q78nhvgp2yH+T/hF2wr3QCv/PT+bQqysfQ6QHMP6/7IVifLpkzJXN1urAwlz3FEN5gDEW671ksYBkrqNK+X3CJK1xr7zWutbTdtFQbyDSjuBdafAvkDKjB p(y⇤|x⇤, D) = Z p(y⇤|x⇤, ✓)p(✓|D)d✓

Slide 28

Slide 28 text

予測の不確実性(Predictive Uncertainty) • 予測の不確実性は,データの不確実性とモデルの不確実性を含む. • 分布の不確実性も明示的にモデル化することで訓練データにない領域のサンプルの不 確実性も含められる. [11]

Slide 29

Slide 29 text

3種類の不確実性の例 回帰 分類 Data Uncertainty Model Uncertainty OOD Uncertainty

Slide 30

Slide 30 text

データの不確実性( Data Uncertainty ) • データに直接起因する不確実性(Aleatoric Uncertaintyともいう) • 分類問題:分類境界付近のデータ • 回帰問題:出力値にノイズが多いデータ • 観測データを増やしてもデータの不確実性は減少しない なぜ必要? 収集したデータ集合の限界が知れるから 意思決定の例:センサーを変える,データクリーニング [12]

Slide 31

Slide 31 text

モデルの不確実性( Model Uncertainty ) データ不足やモデルの欠点によって生じる不確実性 • 学習手順,NNの構造,未知のサンプルや学習データの網羅性の低さによる知識不足 • 上記を改善することで(理論的には)モデルの不確実性が減少する • モデルの不確実性は,In-domain Uncertainty,Domain-shift Uncertainty,Out-of-domain Uncertainty を含む なぜ必要? どのような訓練データを追加で取得する必要があるか分かる 過去のデータにない(モデルがまだ知らない),データを特定できるから 意思決定:データ収集,推論モデルの変更 [12]

Slide 32

Slide 32 text

モデルの不確実性(Model Uncertainty) モデルの不確実性に含まれる3種類を紹介. • In-domain Uncertainty • Domain-shift Uncertainty • Out-of-domain Uncertainty

Slide 33

Slide 33 text

ドメイン内不確実性(In-domain Uncertainty)[13] • 訓練データ分布からサンプルされた入力の不確実性. • 原因:ドメイン内の知識がないために,DNNがドメイン内のサンプルを説明できない ことによる. • 原因:データが少ないことやノイズの多さによって引き起こされる. • 対策:ドメイン内不確実性の原因に応じて,訓練データや学習手続きの質を高めるこ とで,不確実性を低減できる可能性がある [14].

Slide 34

Slide 34 text

ドメインシフト不確実性(Domain-shift Uncertainty) オクルージョンの対策図 ドメインシフトの例 [15] モデルの不確実性の一つ • 訓練データ分布からシフトした分布より得られた入力に関する不確実性 • 原因:訓練データのカバー率が不十分,実世界の環境の変化に依存 • 対策:事前にドメインシフトに対応するデータ拡張を行いDNNを学習 • 懸念:ドメインシフトの不確実性の原因となるすべての誤差をモデル化することは困難

Slide 35

Slide 35 text

分布外の不確実性(Out-of-domain Uncertainty) CIFAR-10で学習し,SVHNがOODとなる例 [16] モデルの不確実性の一つ • 学習データに含まれないクラスの未知データに関連する不確実性 • 特性:未知データの分布は学習分布とは異なり,ドメインシフトよりも遠く離れている • 原因:DNNがドメイン外の知識を持っていないため • 対策:未知データも予測する必要がある場合,新たなクラスの教師データを追加

Slide 36

Slide 36 text

Distributional Uncertainty • テストデータと訓練データ分布の不一致による不確実性 • OOD検出に特化した手法では,明示的に分布の不確実性を再現することを目的としている. 自信があって,あるクラスを予測 3クラス分類の場合 [17] ディレクレ分布 自信がなく,適当な予測 自信があって,わからないを予測

Slide 37

Slide 37 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 38

Slide 38 text

不確実性の推定方法 • 単一決定論的手法( Single deterministic methods ) 1つの決定論的ネットワークの1つのフォワードパスに基づいて予測を行う. 不確実性の定量化は,ネットワーク内部によって直接表現するか,外部手法で表現する. • ベイズ法( Bayesian methods ) 確率的DNNに対応する.モデルパラメータを確率変数とみなす. • アンサンブル法( Ensemble methods ) 複数の異なる決定論的ネットワークの予測値を推論時に組み合わせる. • テスト時データ拡張法( Test-time augmentation methods ) 1つの決定論的ネットワークに基づいて予測を行う. テスト時に入力データを拡張し,複数の予測を生成する.

Slide 39

Slide 39 text

不確実性の定量化手法分類

Slide 40

Slide 40 text

不確実性の定量化手法分類(フォワードパス)

Slide 41

Slide 41 text

不確実性の定量 化手法分類 (詳細の比較) メモリ,計算コスト,予測 のために何回NNを通すか, 初期値依存性などで比較.

Slide 42

Slide 42 text

単一決定論的手法( Single deterministic methods ) • NNの予測に対する不確実性の推定値を与える方法 1. 学習済みモデルに追加する外部手法 • ネットワークの予測には影響を与えない. 2. 単一のネットワークを明示的にモデル化して学習 • 学習手順とネットワークの予測に影響を与える.

Slide 43

Slide 43 text

単一決定論的手法の比較

Slide 44

Slide 44 text

単一決定論的手法( Single deterministic methods ) • ネットワーク内部に不確実性を定量化する方法 • 分類タスク • Dirichlet Prior Networks • Evidential Neural Networks • 回帰タスク • Evidential Regression • ネットワーク外部に不確実性を定量化する方法 • Direct Uncertainty Prediction • Density estimation • Generalized ODIN

Slide 45

Slide 45 text

Dirichlet Prior Network(分類タスク) • Dirichlet Prior Networkは,明示的に分布の不確実性を学習させる. • 明示的に分布外データと分布内データを用意する必要がある. AAAEBnictVHNa9RAFH+bqK3rR7d6EbwEl0oXcZn00BZFKKgg2EM/3LaQhDDJTpuhkw+SyeI6zV38Bzx4UUFEBG/iVfDiP+Chf4J4rODFg2+zgbqt1UPxhcz7zXvv995vZrxE8EwSslvT9BMnT42Nn66fOXvu/ERj8sJaFuepzzp+LOJ0w6MZEzxiHcmlYBtJymjoCbbubd8e5Nd7LM14HD2Q/YQ5Id2K+Cb3qcSQO1l7blt1O6Qy8KlQi8W07cWim/VDdMqWAZO0aN0qCzxP3S1cVeI0VAliHo0SHhatwrpvLFp2nLCUyjiNaMjUHZ4eaBzmhWGHvGvYAZVqJEVFEtCiaO3sGPujjmKPzDZuGn9S7zjXftefuCrO5bF1Sy667L8rr9uO22iSNinNOAzMCjShsqW48Rps6EIMPuQQAoMIJGIBFDL8LDCBQIIxBxTGUkS8zDMooI7cHKsYVlCMbuO6hTurika4H/TMSraPUwT+KTINmCJfyBuyRz6Tt+Qr+XlkL1X2GGjpo/eGXJa4E08urf74JytELyHYZ/1Vs4RNmC+1ctSelJHBKfwhv/fo6d7qjZUpdZW8JN9Q/wuySz7hCaLed//VMlt5BnV8APPgdR8GazNtc7ZtLs80F+arpxiHy3AFpvG+52AB7sESdMDXxrTr2qw2pz/W3+nv9Q/DUq1WcS7CiOkffwGsrC9a L(✓) = E pin(x) [KL[Dir(µ | ˆ ↵)||p(µ | x; ✓)]]+E pout(x) [KL[Dir(µ | ˜ ↵)||p(µ | x; ✓)]] シャープな ディリクレ分布 フラットな ディリクレ分布 データの不確実性が大 モデルの不確実性が大 不確実性が小 Prior Network [17]

Slide 46

Slide 46 text

Evidential neural networks (分類タスク) • クラス確率の不確実性を明示的にモデル化. • ディリクレ分布の超パラメータにNNを使用 • 周辺尤度を共役性から解析的に計算できる. 通常のソフトマックス関数 ENNによる分類結果の不確実性 AAADDXichVHPa9RAFH6Jv2rUdqsXoZfBpbIFWSal2KJUCu2hF6E/3LawWZbJ7LQ7dJIMyeziGvIPePHowVMLYsWzN/HiQf8BD/0TxGMFLz30bTZgt4v6QvK++d77vryZ8bWSiaH02LIvXb5y9drYdefGzVvjE6XJ21tJ1Im5qPFIRfGOzxKhZChqRholdnQsWOArse3vL/fr210RJzIKn5meFo2A7YVyV3JmkGqWjry6oysk9QJm2pwpspKRx8TzI9VKegGm1GNKt1k2s+jJ0JCnHWUq58u9jHiBbA1JdDZDVmRcGeZG+wrrB+c4kj5H8UU7x2s0S2VapXmQUeAWoAxFrEWld+BBCyLg0IEABIRgECtgkOBTBxcoaOQakCIXI5J5XUAGDmo72CWwgyG7j989XNULNsR13zPJ1Rz/ovCNUUlgmn6n7+kJ/UY/0B/09K9eae7Rn6WH2R9ohW5OvLy7+fu/qgCzgfYf1T9nNrALC/msEmfXOdPfBR/ouy9en2w+2phO79ND+hPnP6DH9AvuIOz+4m/XxcYbcPAC3IvHPQq2Zqvuw6q7PlteWiiuYgym4B5U8LznYQlWYQ1qwK1xa85atJ7Yr+yP9if786DVtgrNHRgK++sZv5bKnQ== p(D; ↵) = Z Mult(y | p)Dir(p | ↵, x)dp [18]

Slide 47

Slide 47 text

Evidential Regression (回帰タスク) • 推論時のサンプリングや学習時の分布外(OD)のサンプルに依存しない. • 尤度関数 (ガウス分布) の共役事前分布のパラメータをNNの出力とする. • 階層ベイズかつ共役事前分布を用いて計算を簡単化. Normal Inverse-Gamma (NIG) distribution (Evidence prior) AAACj3ichVE9SyNRFD2Ou+rO+hG1EWwGg6IW4Y2FCQtKwMbtTDQqZEKYGV+SIfPFzEvYOOQPWNlZWLmwLIu9rQvb7B+w8CeIpcI2Ft5MBhYV9Q7z7nnn3XPfee8Zvm2FgrHrAWnww8eh4ZFP8ufRsfGJ1OTUbui1ApOXTM/2gn1DD7ltubwkLGHzfT/gumPYfM9obvTW99o8CC3P3REdn1ccve5aNcvUBVHV1LJWljXDsw/CjkMpcrrKmlKrRppocKF3FyPNqCnfukuyVqmm0izD4lBeAjUBaSSx5aV+QsMBPJhowQGHC0HYho6QvjJUMPjEVRARFxCy4nWOLmTStqiKU4VObJPGOs3KCevSvNczjNUm7WLTH5BSwTy7Yr/YHfvLztkNe3i1VxT36HnpUDb6Wu5XJ45mtv+9q3IoCzT+q970LFBDLvZqkXc/ZnqnMPv69uHJ3faX4ny0wL6zW/J/xq7ZHzqB2743fxR48RQyPYD6/Lpfgt2VjLqaUQsr6XwueYoRzGIOi3TfWeSxiS2UaN9jXOASv6VJKSutS/l+qTSQaKbxJKSvjwV0mXM= m = f✓(x) [12]

Slide 48

Slide 48 text

ネットワーク外部に不確実性を定量化する方法 不確実性の評価がモデルの予測に影響を与えない. • 基本的な予測タスクから分離. • 学習済みモデルを用いる. • 以下3手法を紹介 • Direct Uncertainty Prediction • Neighborhood Uncertainty Classifier • Generalized ODIN

Slide 49

Slide 49 text

Direct Uncertainty Prediction 医療のアノテーションにおいて,医者ごとにアノテーションがぶれる時,話し合いを開き合意をとる. 目的は,与えられた入力に対して,意見がバラけるかの不確実性を予測. 不確実性の多い入力だけ,複数の医者にラベル付けと話し合いを実施. 2つのNNを学習 ・予測タスク ・予測タスクNNの不確実性の予測 AAACwnichVHNTttAEP4wpQWXlhQuSFyiRiCQqmjNoUVISEhw4MhPA0ixG9lmk2yz/qm9iQTGL8ALcOAEEkJVH4NLX6AHHgH1RpB64cDEsagoajuWd2a+mW/2210nlCJWjF0NaIPPhp6/GB7RX46+ej1WeDO+HQftyOUVN5BBtOvYMZfC5xUllOS7YcRtz5F8x2mt9Oo7HR7FIvA/qv2QW57d8EVduLYiqFawzKpuNm2VmJ6tmk49CdO09pCINF0yJa+ratYTUkmkn5JZYy59VzTlXqBi8o9KrbnUjESjqSzdtGqFEiuzzIpPAyMPSshtPShcwMQeArhowwOHD0WxhI2YvioMMISEWUgIiygSWZ0jhU7cNnVx6rAJbdHaoKyaoz7lvZlxxnZpF0l/RMwiptkP9pV12Xf2jV2zu7/OSrIZPS375J0+l4e1saPJrV//ZXnkFZq/Wf/UrFDHQqZVkPYwQ3qncPv8zsFxd2txczqZYWfsJ+k/ZVfskk7gd27d8w2+eQKdHsD487qfBtvzZeN92diYLy0v5E8xjCm8xSzd9wcsYw3rqNC+l7jGDbraqvZZ+6LF/VZtIOdM4JFph/cqNbAR ˆ pi = h ˆ p(1) i , . . . , ˆ p(k) i i 入力に対するラベル の経験的な割合 AAACbHichVG7SgNBFD1Z3+sj8VEIQQiGBKswa6FiJdhYmmgekoSwu050yb7Y3QQ0+AO2FhZqoSAifoaNP2DhJ4hgE8HGwrubBdGg3mFmzpy5586ZGcXWNddj7Cki9PUPDA4Nj4ijY+MT0djkVMG1mo7K86qlW05JkV2uaybPe5qn85LtcNlQdF5UGuv+frHFHVezzG3vwOZVQ94ztbqmyh5RO5WyqNYaYqVaiyVZhgWR6AVSCJIIY9OK3aCCXVhQ0YQBDhMeYR0yXGplSGCwiauiTZxDSAv2OY4gkrZJWZwyZGIbNO7RqhyyJq39mm6gVukUnbpDygRS7JHdsg57YHfsmX38Wqsd1PC9HNCsdLXcrkWPZ7fe/1UZNHvY/1L96dlDHSuBV4282wHj30Lt6luHp52t1VyqnWZX7IX8X7Indk83MFtv6nWW584g0gdIP5+7FxQWM9JSRsouJtdWwq8YRhzzWKD3XsYaNrCJPJ1r4ATnuIi8CjNCXJjrpgqRUDONbyGkPwGc6Yx7 ck 意見の不一致度 分散 [19]

Slide 50

Slide 50 text

Neighborhood Uncertainty Classifier 信頼度 正 し い 誤 り [20] • 予測の信頼度が正しいかを別分類器で予測する. • 新しい入力に対する中間表現と,数ある訓練データの中間表現の中で近いサンプルを k個を用いて,モデルの予測に対する誤り確率を出力する. • 分布内外のサンプルを分布外ラベルなしで検出可能

Slide 51

Slide 51 text

Generalized ODIN • ODINをベースにして,分布内外の不確実性をモデル化し,OOD検出性能を向上 • ODIN [21] は,入力にクラス確率を高くする方向に逆・敵対的摂動を加え,スコアを 計算し,スコアが閾値以下なら分布外サンプルとする. AAACjnicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQtoxkRzBcdX+7t4+tVqxGQkllTHJOXnpBRX5gKp6oraWk27mKKMfK6Y2HgBZQM9AzBQwGQYQhnKDFAQkC+wnCGGIYUhnyGZoZQhlyGVIY+hBMjOYUhkKAbCaAZDBgOGAqBYLEM1UKwIyMoEy6cy1DJwAfWWAlWlAlUkAkWzgWQ6kBcNFc0D8kFmFoN1JwNtyQHiIqBOBQZVg6sGKw0+G5wwWG3w0uAPTrOqwWaA3FIJpJMgelML4vm7JIK/E9SVC6RLGDIQuvC6uYQhjcEC7NZMoNsLwCIgXyRD9JdVTf8cbBWkWq1msMjgNdD9Cw1uGhwG+iCv7Evy0sDUoNkMXMAIMEQPbkxGmJGeoZmeYaCRsoMFNCo4GKQZlBg0gOFtzuDA4MEQwBAKtLefYSvDPob9TAJMZky2TPYQpUyMUD3CDCiAyQMArl+ZXA== S ODIN (ˆ x) > ⇢ 分布外検出 AAACgnichVHLSsNAFD3Gd3xV3QgiFIsiImVSQUVcCG5c+qoKTSlJOtbBNAnJtFBDV+78AReuFETEnX6CG3/AhZ8gLhXcuPA2DYiKekPmnjlzz50zM6Zni0Ay9tiitLa1d3R2das9vX39A4nBoe3ArfgWz1qu7fq7phFwWzg8K4W0+a7nc6Ns2nzHPFhprO9UuR8I19mSNY/ny0bJEXvCMiRRhcSYnlP1sFgIhVOfoeRWZF2v68JJFlU9X0ikWJpFkfwJtBikEMeam7iEjiJcWKigDA4HkrANAwF9OWhg8IjLIyTOJySidY46VNJWqIpThUHsAY0lmuVi1qF5o2cQqS3axabfJ2USE+yBXbEXds+u2RN7/7VXGPVoeKlRNpta7hUGjkc23/5VlSlL7H+q/vQssYeFyKsg717ENE5hNfXVw5OXzcWNiXCSnbNn8n/GHtkdncCpvloX63zjFCo9gPb9un+C7Uxam0tr65nU8kL8FF0YxTim6L7nsYxVrCFL+x7hCje4VdqUaUVTZpulSkusGcaXUJY+AJGZlIA= {din, dout } 2 d 分布外内の2値変数を導入 分布内確率 分布内かつラベル確率 AAACcHichVHLSsNAFD2NrxofrboRXPgoFXFRJl1ocVVw49JXVWiKJHGqQ9MkJmmxFn/AH3DhRgUR8TPc+AMu+gnizgpuXHiTBkRFvcPMnDlzz50zM7pjCs9nrBWTurp7evvi/fLA4NBwIjkyuuXZNdfgBcM2bXdH1zxuCosXfOGbfMdxuVbVTb6tV5aD/e06dz1hW5t+w+GlqrZvibIwNJ+oklqUVc1xXPtIVku7yRTLsDCmfgIlAilEsWonb6BiDzYM1FAFhwWfsAkNHrUiFDA4xJXQJM4lJMJ9jhPIpK1RFqcMjdgKjfu0KkasReugpheqDTrFpO6Scgpp9shuWZs9sDv2xN5/rdUMawReGjTrHS13dhOn4xtv/6qqNPs4+FT96dlHGbnQqyDvTsgEtzA6+vrxWXtjaT3dnGVX7Jn8X7IWu6cbWPVX43qNr59Dpg9Qvj/3T7CVzSgLGWUtm8rnoq+IYwIzmKP3XkQeK1hFgc49xBkucBl7kcalSWm6kyrFIs0YvoQ0/wHUm45s ⇡ [22]

Slide 52

Slide 52 text

単一決定論的手法の実験設定 タスク タスクindex: データセット ベースライン手法

Slide 53

Slide 53 text

単一決定論的手法のまとめ 利点 • 学習と評価において計算効率が高い. • 1つのNNを学習し,多くの場合,学習済みNNに適用可能. • 他のアプローチで必要とされる予測数よりも効率的. 欠点 • 初期値・ハイパーパラメータ依存性が高い.

Slide 54

Slide 54 text

不確実性の推定方法 • 単一決定論的手法( Single deterministic methods ) 決定論的ネットワーク内での1回のフォワードパスに基づいて予測を行う. 不確実性の定量化は,ネットワーク内部によって直接表現するか,外部手法で表現する. • ベイズ法( Bayesian methods ) 確率的DNNに対応する.モデルパラメータを確率変数とみなす. • アンサンブル法( Ensemble methods ) 複数の異なる決定論的ネットワークの予測値を推論時に組み合わせる. • テスト時データ拡張法( Test-time augmentation methods ) 1つの決定論的ネットワークに基づいて予測を行う. テスト時に入力データを拡張し,複数の予測を生成する.

Slide 55

Slide 55 text

Bayesian Neural Networks NNのモデルパラメータに事前分布を仮定し,ベイズモデリングをおこなう. 応用:モデル選択,モデル圧縮,能動学習,継続学習 予測分布の計算において モデルパラメータの事後確率を計算するためには,近似ベイズ推論技術が必要. AAACuXichVG7ThtBFD1sHpAliU1oIqVZYYEMiqxZCkCJkJCgoAQbA5LXWLPLYA/sS7tjK47hB/gBCiqQIoTyB2nT5AdS0NFCSiKlScH17kqIoCR3tTNnzr3nzpkZO3RlrBi7GNAePX7ydHDomT78/MXLXH7k1XoctCNHVJ3ADaJNm8fClb6oKqlcsRlGgnu2KzbsvcV+fqMjolgG/prqhqLu8aYvd6TDFVGN/JpV08Nid2tq/8PW1Nue5XHVcrhrLB1MGvOGYUlfGXd5S7WE4pNhMQX79+q3U1K36o18gZVYEsZDYGaggCxWgvwZLGwjgIM2PAj4UIRdcMT01WCCISSujh5xESGZ5AUOoJO2TVWCKjixezQ2aVXLWJ/W/Z5xonZoF5f+iJQGxtl3ds5u2Df2mV2x33/t1Ut69L10abZTrQgbucPXlV//VXk0K7TuVP/0rLCDucSrJO9hwvRP4aT6zsejm8q78nhvgp2yH+T/hF2wr3QCv/PT+bQqysfQ6QHMP6/7IVifLpkzJXN1urAwlz3FEN5gDEW671ksYBkrqNK+X3CJK1xr7zWutbTdtFQbyDSjuBdafAvkDKjB p(y⇤|x⇤, D) = Z p(y⇤|x⇤, ✓)p(✓|D)d✓ 予測分布 計算困難 BNNs [23]

Slide 56

Slide 56 text

Bayesian Neural Networks の近似推論手法 変分推論 • 扱いにくい事後分布を, 扱いやすい分布族で近似する. サンプリング • マルコフ連鎖モンテカルロ法と その拡張に基づいている. ラプラス近似 • 事後分布の局所解周りを 多変量ガウス分布で近似する.

Slide 57

Slide 57 text

BNNの近似推論手法の比較

Slide 58

Slide 58 text

BNNsの実験設定 タスク タスクindex: データセット ベースライン手法 BNNsの近似推論は,それぞれ前提知識となる技術が多いので,今回は深く掘り下げません. 2年前までの動向であれば,私がまとめた https://www.slideshare.net/ssuser8672d7/bayesian-neural-network-survey を見てください.

Slide 59

Slide 59 text

ベイズ手法のまとめ ベイズ推論と深層学習の組み合わせ 主に事後分布がどのように計算されるかが焦点 研究動向 • 大規模で高次元なデータセットとNNの構造にも対応したベイズ推論に注目 • 近似ベイズ推論のミニバッチ方式,MC-dropoutやラプラス近似などの比較的単 純だがスケーラブルな手法の検討. 課題 • 意味のある事前分布の設計 • 予測の不確実性の計算を高速化 • 新しいベンチマーク,評価手続き,ソフトウェアツールの理解 • 現在の方法とその潜在的な応用の理解

Slide 60

Slide 60 text

不確実性の推定方法 • 単一決定論的手法( Single deterministic methods ) 決定論的ネットワーク内での1回のフォワードパスに基づいて予測を行う. 不確実性の定量化は,ネットワーク内部によって直接表現するか,外部手法で表現する. • ベイズ法( Bayesian methods ) モデルパラメータを確率変数とみなし,確率的DNNになる. • アンサンブル法( Ensemble methods ) 複数の異なる決定論的ネットワークの予測値を推論時に組み合わせる. • テスト時データ拡張法( Test-time augmentation methods ) 1つの決定論的ネットワークに基づいて予測を行う. テスト時に入力データを拡張し,複数の予測を生成する.

Slide 61

Slide 61 text

アンサンブル法 • アンサンブルは精度向上に加え,予測のモデル不確実性を直感的に表現する方法 • 元々不確実性を扱う手法ではなかったが,NNの不確実性の推定に適していることがわ かってきた 応用:バイオインフォマティクス,RL,リモートセンシング 複数のモデル(メンバー)の出力結果の平均

Slide 62

Slide 62 text

シングルモードとマルチモードの評価 シングルモード評価 • 単一決定論的のアプローチでは, 1つの最適解に収束. • BNNは1つの最適解周りを多くサ ンプリングされやすい. マルチモード評価 • アンサンブル法では,複数のネッ トワークで構成されており,それ ぞれが異なる局所最適に収束.

Slide 63

Slide 63 text

アンサンブル手法 • 学習戦略 • Random Initialization/ Data Shuffling • Bagging/Boosting • メンバー数の削減 • Model Pruning • Distillation • 重み共有 • Sub-Ensembles • Batch-Ensembles

Slide 64

Slide 64 text

アンサンブルの学習戦略 アンサンブルで重要なのは,NN間の振る舞いの多様性. 多様性を高めるアンサンプル方法を紹介 ランダムな初期化とデータシャッフル(Random Initialization/ Data Shuffling) • ニューラルネットワークの初期化が異なると,一般的に異なる局所解に落ちる. • 学習はミニバッチで行われるため,学習データの順序も最終結果に影響. データ拡張 • 各メンバーに対して異なるデータ拡張戦略をとる.

Slide 65

Slide 65 text

アンサンブルの学習戦略 異なるネットワークアーキテクチャ • 層数や活性化関数が異なるネットワーク構造の組み合わせ. バギングとブースティング(Bagging/Boosting) • 元の訓練データ集合から新しい訓練データ集合をサンプリングすることで,訓練データ集 合の分布を変化させる戦略. • バギングはメンバー数が少ない場合に良い性能を発揮し,ブースティングはメンバー数が 多い場合に良い性能を発揮. 引用:bit.ly/2UPuGKm

Slide 66

Slide 66 text

アンサンブルの学習戦略 • パラメータをランダムな初期化をおこない性能改善. • メンバー数が5の場合でも,モデルとデータの不確実性の質を大幅に改善した. • メンバーネットワークは予測と,予測に対するデータの不確実性を表す標準偏差の2つの ヘッドを持つように設計. モデル平均 損失関数 [24]

Slide 67

Slide 67 text

アンサンブル手法と不確実性の定量化 • OOD検知 [25] 学習プロセスにおいて,分布内の平均エントロピーの間に,マージンを与える損失関数を 導入し,分布外の検出が大幅に改善された. • データ分布シフト [15] 不確実性の質は手法にかかわらず,ドメインシフトの増加とともに一貫して低下. 深層アンサンブルは,ほとんどの評価指標において最も高い性能 データセットの変化に対して頑健. 比較的小さなアンサンブルサイズ(例:M = 5)で十分

Slide 68

Slide 68 text

アンサンブル手法 • 学習戦略 • Random Initialization/ Data Shuffling • Bagging/Boosting • メンバー数の削減 • Model Pruning • Distillation • 重み共有 • Sub-Ensembles • Batch-Ensembles

Slide 69

Slide 69 text

アンサンブル手法の効率化 • アンサンブル手法は,計算量が多くメモリ消費量が高い. • アプリケーションにアンサンブルを導入する場合,利用可能なメモリと 計算能力には制限があることが多い. • モデルの数を減らすことで,メモリや計算能力の消費を抑えられる. • Pruning (枝刈り) • Distillation(蒸留)

Slide 70

Slide 70 text

枝刈り手法 • メンバーを刈り込み,メンバー間の冗長性を減らす. • 性能に大きな影響を与えることのないメンバーを除去. • 異なる多様性尺度に基づくアプローチの開発.

Slide 71

Slide 71 text

枝刈り手法 • 個々の分類器の多様性と精度を考慮した指標を作成し,上位kモデルをアンサンブルに利用. • Margin & Diversity based ordering Ensemble Pruning (MDEP) アンサンブル精度:メンバー間で意見が統一され正しい時,絶対値が1に近づく. 多様性の尺度:二者間の分類結果の相違度の総和.大きいほど良い. AAAC9HichVG7bhQxFL0z4RGGR5bQIKUZsSwKzcqTAqJIkSLR0CDlwSaR1svIM3h2ncxLHu8mG8s/QENJAQ2gCCEkfoKGH6DIJyDKgGgouDM7EoJAuJbt4+N7ro/tII9FoQg5suypM2fPnZ++4Fy8dPnKTOPq7GaRDWXIO2EWZ3I7YAWPRco7SqiYb+eSsySI+Vawe6/c3xpxWYgsfajGOe8lrJ+KSIRMIeU3ntKuQ7OcS6YymbKE64TJvkgNjXmk5mnC1CCI9L7xtTBUiv5A3V6mkWShHpeUS4th4uudZc880g+Mu4fYuINyPKWC0X+TGYf2/EaTtEkV7kng1aAJdaxmjTdA4TFkEMIQEuCQgkIcA4MCWxc8IJAj1wONnEQkqn0OBhzUDjGLYwZDdhfHPq66NZviuqxZVOoQT4mxS1S60CKfyFtyTD6Sd+Qz+fHPWrqqUXoZ4xxMtDz3Z55c3/j+X1WCs4LBL9WpnhVEsFh5Feg9r5jyFuFEPzp4dryxtN7St8gr8gX9vyRH5APeIB19DQ/X+PpzcPADvD+f+yTYXGh7d9re2kJzZbH+immYgxswj+99F1bgPqxCB8/9Zs1ZN62WPbJf2K/tw0mqbdWaa/Bb2O9/AsHYw7s= margin (xi) = yi PM j=1 wjhj (xi) PM j=1 wj AAACwXichVHLahRBFD1pX7F9ZKIbwU3jEElAhuosNASEwLiYZR5OEpgamu62ZqZMd1VTXTMQm/kBf8CFKwUR8S904w+4yB8orjSCGxfe7mmQGNTbdN1bp865daoqyhKZW8aO5pwzZ8+dvzB/0b10+crVhcbitd1cj00surFOtNmPwlwkUomulTYR+5kRYRolYi86aJfrexNhcqnVQ3uYiX4aDpUcyDi0BAUNznsu15kwodVGhako2lo9kJPp8uiO11m5z/NxGhSjoHg89bhUXofSCXrJ5YkY2FJQ8biRw5FdcXk/aDRZi1XhnS78umiijk3deA2OR9CIMUYKAQVLdYIQOX09+GDICOujIMxQJat1gSlc0o6JJYgREnpA45BmvRpVNC975pU6pl0S+g0pPSyxj+wNO2Yf2Fv2mf38a6+i6lF6OaQczbQiCxae3tj58V9VStli9Fv1T88WA6xVXiV5zyqkPEU800+ePDveWd9eKm6zl+wL+X/Bjth7OoGafI9fbYnt53DpAfw/r/t0sbva8u+2/K3V5sZa/RTzuIlbWKb7vocNdLCJLu37Dp/wFd+ctiOdzDEzqjNXa67jRDjFL8rnris= ConDiv(h, H) = X hj 2H Div (h, hj ) AAACbHichVG7SgNBFD1ZX3F9xUchBEEMilWYtVCxCthY5mGikoSwu47J4L7Y3QRi8AdsLSzUQkFE/Awbf8AinyCCjYKNhTebBVFR7zAzZ87cc+fMjOYYwvMZa0eknt6+/oHooDw0PDI6FhufKHh23dV5XrcN293WVI8bwuJ5X/gG33Zcrpqawbe0/fXO/laDu56wrU2/6fCyqVYtsSd01Sdqp1SUaxUhl8qVWIIlWRCzP4ESggTCSNuxa5SwCxs66jDBYcEnbECFR60IBQwOcWW0iHMJiWCf4xAyaeuUxSlDJXafxiqtiiFr0bpT0wvUOp1iUHdJOYt59sBu2Au7Z7fskb3/WqsV1Oh4adKsdbXcqYwdTefe/lWZNPuofar+9OxjD6uBV0HenYDp3ELv6hsHJy+5tex8a4Fdsifyf8Ha7I5uYDVe9asMz55Cpg9Qvj/3T1BYSirLSSWzlEithl8RRRxzWKT3XkEKG0gjT+eaOMYZziPP0pQUl2a6qVIk1EziS0gLH6L8jH4= hi は誤分類, は正分類した AAACbHichVG7SgNBFD1ZX3F9JD4KIQhiSLAKsxYarAI2liYxD0lC2F1HXd0Xu5tADP6ArYWFWiiIiJ9h4w9Y+Aki2ESwsfBmsyAq6h1m5syZe+6cmVFsXXM9xh5DQl//wOBQeFgcGR0bj0QnJouu1XBUXlAt3XLKiuxyXTN5wdM8nZdth8uGovOSsr/a3S81ueNqlrnhtWxeM+QdU9vWVNkjarNaEXfre2K1Vo/GWYr5MfcTSAGII4h1K3qNKrZgQUUDBjhMeIR1yHCpVSCBwSauhjZxDiHN3+c4hEjaBmVxypCJ3adxh1aVgDVp3a3p+mqVTtGpO6ScQ4I9sBvWYffslj2x919rtf0aXS8tmpWeltv1yNFM/u1flUGzh91P1Z+ePWwj7XvVyLvtM91bqD198+Ckk1/JJdpJdsmeyf8Fe2R3dAOz+apeZXnuFCJ9gPT9uX+C4mJKWkpJ2cV4Jh18RRgxzGOB3nsZGaxhHQU618AxznAeehGmhZgw20sVQoFmCl9CSH4ApP+Mfw== hj サンプルの数 : [26]

Slide 72

Slide 72 text

Distillation • アンサンブル蒸留はアンサンブルメンバーの予測平均を1つのNN に知識を移す方法 蒸留の目的関数 AAACbHichVG7SgNBFD1ZX3F9xUchBEEMilWYTaHBSrCxjMZEJQlhdx11cF/sTgIa/AFbCwu1UBARP8PGH7DIJ4hgo2Bj4c1mQVTUO8zMmTP33DkzY3iWCCRjzZjS0dnV3RPvVfv6BwaHEsMjxcCt+SYvmK7l+huGHnBLOLwghbT4hudz3TYsvm7sLbX21+vcD4TrrMl9j1dsfccR28LUJVGb5ZLqVTW1XKkmUizNwpj8CbQIpBBFzk1co4wtuDBRgw0OB5KwBR0BtRI0MHjEVdAgzickwn2OQ6ikrVEWpwyd2D0ad2hViliH1q2aQag26RSLuk/KSUyzB3bDXtg9u2WP7P3XWo2wRsvLPs1GW8u96tDReP7tX5VNs8Tup+pPzxLbyIZeBXn3QqZ1C7Otrx+cvOQXVqcbM+ySPZH/C9Zkd3QDp/5qXq3w1VOo9AHa9+f+CYqZtDaX1lYyqcVs9BVxJDGFWXrveSxiGTkU6FwbxzjDeexZGVOSykQ7VYlFmlF8CWXmA0J8jE4= p1 AAACbHichVG7SgNBFD1Z3+sj8VEIQRBDxCrMptBgJdhYmsQkShLC7jrqkn2xuwlo8AdsLSzUQkFE/Awbf8AinyCCTQQbC+9uFkSDeoeZOXPmnjtnZhRb11yPsXZE6OsfGBwaHhFHx8YnorHJqaJrNRyVF1RLt5xtRXa5rpm84Gmezrdth8uGovOSUl/390tN7riaZW55hzavGvK+qe1pquwRtVMpi3YtLVaqtViCpVgQ871ACkECYWxasVtUsAsLKhowwGHCI6xDhkutDAkMNnFVtIhzCGnBPscxRNI2KItThkxsncZ9WpVD1qS1X9MN1CqdolN3SDmPJHtid6zDHtk9e2Yfv9ZqBTV8L4c0K10tt2vRk9n8+78qg2YPB1+qPz172EMm8KqRdztg/FuoXX3z6KyTX80lW4vsmr2Q/yvWZg90A7P5pt5kee4cIn2A9PO5e0ExnZKWU1I2nVjLhF8xjDgWsETvvYI1bGATBTrXwCkucBl5FWaEuDDXTRUioWYa30JY/AREf4xP p2 AAACbHichVG7SgNBFD1ZX3F9JD4KIQjBkGAVZlOoWAVsbARNjIkkIeyuoy7ZF7ubgAZ/wNbCQi0URMTPsPEHLPIJItgo2Fh4s1kQDeodZubMmXvunJlRbF1zPcbaIaGvf2BwKDwsjoyOjUeiE5NbrtVwVF5QLd1ySorscl0zecHTPJ2XbIfLhqLzolJf6ewXm9xxNcvc9A5sXjXkPVPb1VTZI2q7Uhbt2ppYqdaiCZZmfsR7gRSABIJYt6I3qGAHFlQ0YIDDhEdYhwyXWhkSGGziqmgR5xDS/H2OI4ikbVAWpwyZ2DqNe7QqB6xJ605N11erdIpO3SFlHEn2yG7ZK3tgd+yJffxaq+XX6Hg5oFnparldixzP5N//VRk0e9j/Uv3p2cMulnyvGnm3faZzC7Wrbx6evuaXc8lWil2xZ/J/ydrsnm5gNt/U6w2eO4NIHyD9fO5esJVJSwtpaSOTyC4FXxFGDHOYp/deRBarWEeBzjVwgnNchF6EaSEmzHZThVCgmcK3EFKfetCMag== pM AAACdnichVHLSsNAFD2N7/iquhEEEUvVVblxoeJKcOPSqlWhLSWJ03ZomoQkrWjxB/wBF+JCQYv4GW78ARd+grhU0IULb9OAqKh3mJkzZ+65c2bGcC3pB0QPMaWjs6u7p7dP7R8YHBqOj4xu+07NM0XGdCzH2zV0X1jSFplABpbYdT2hVw1L7BiV1db+Tl14vnTsreDAFfmqXrJlUZp6wFQhPpLLqqVCI1fXPbcsj9RcvhBPUIrCmPoJtAgkEMW6E28ihz04MFFDFQI2AsYWdPjcstBAcJnLo8Gcx0iG+wJHUFlb4yzBGTqzFR5LvMpGrM3rVk0/VJt8isXdY+UUknRP1/RMd3RDj/T+a61GWKPl5YBno60VbmH4eHzz9V9VlecA5U/Vn54DFLEUepXs3Q2Z1i3Mtr5+ePK8ubyRbMzQBT2x/3N6oFu+gV1/MS/TYuMUKn+A9v25f4Lt+ZS2kNLS84mVpegrejGBaczxey9iBWtYR4bP3ccZrtCMvSmTSlKZbacqsUgzhi+h0AdkGpBz g' AAACdnichVHLSsNAFD2N7/iquhEEEUvVVblxoeJKcOPSqlWhLSWJ03ZomoQkrWjxB/wBF+JCQYv4GW78ARd+grhU0IULb9OAqKh3mJkzZ+65c2bGcC3pB0QPMaWjs6u7p7dP7R8YHBqOj4xu+07NM0XGdCzH2zV0X1jSFplABpbYdT2hVw1L7BiV1db+Tl14vnTsreDAFfmqXrJlUZp6wFQhPpLLqqVCI1fXPbcsj9RcvhBPUIrCmPoJtAgkEMW6E28ihz04MFFDFQI2AsYWdPjcstBAcJnLo8Gcx0iG+wJHUFlb4yzBGTqzFR5LvMpGrM3rVk0/VJt8isXdY+UUknRP1/RMd3RDj/T+a61GWKPl5YBno60VbmH4eHzz9V9VlecA5U/Vn54DFLEUepXs3Q2Z1i3Mtr5+ePK8ubyRbMzQBT2x/3N6oFu+gV1/MS/TYuMUKn+A9v25f4Lt+ZS2kNLS84mVpegrejGBaczxey9iBWtYR4bP3ccZrtCMvSmTSlKZbacqsUgzhi+h0AdkGpBz g' 近づける

Slide 73

Slide 73 text

Ensemble Distribution Distillation • アンサンブルメンバーの予測平均でなく,各分布を単一のモデルに抽出 • アンサンブル蒸留による分類性能の向上とアンサンブルの多様性に関する情報(不確 実性の推定に有用)の両方を蒸留させる. • Prior Networkを蒸留モデルに使用する. AAACz3ichVHPaxNBFP6y2lq3v1K9CF6CoSUBCbM9aKkIBS8em9a0hWwadreTZOzsD3Yn0bis9Fr/AQ+eFETEP8OLRy8e+ieIxxa9CPbtZqG/aH3DzHvzvfd982bGDqSIFGMHBe3a9bHxGxM39cmp6ZnZ4tytjcjvhw5vOL70wy3birgUHm8ooSTfCkJuubbkm/bukzS/OeBhJHzvmRoGvOVaXU90hGMpgtrF52ZTN21f7kRDl1xsBiLZjivivltNHp9OdBJT8o6qnMZeppXVJCk9Kp3RUD2urFSGRMxQdHuqqputdrHMaiyz0sXAyIMyclv1i59gYgc+HPThgsODoljCQkSjCQMMAWEtxISFFIksz5FAJ26fqjhVWITu0tqlXTNHPdqnmlHGdugUSTMkZgnz7Af7zA7ZN/aF/WR/L9WKM420lyF5e8TlQXv2zZ31P/9lueQVeiesK3tW6GAp61VQ70GGpLdwRvzBq7eH68tr8/EC+8B+Uf/v2QH7SjfwBkfOxzpfewedPsA4/9wXg43FmvGgZtQXyytL+VdM4C7uoULv/RAreIpVNOjc7/iNfwVode2F9lrbG5VqhZxzG2dM2z8GR420Uw== ⇡(i,m) = f ⇣ x(i); ✓(m) ⌘ 確率ベクトル 蒸留の損失関数 アンサンブルデータセット AAADS3ichVHPa9RAFH5JrdZU7VovgpfgUqkgy6SHWpRCQQ8ePPTXtoXNskyys83QmWSczC5dY/4B/wEPnhRExD/DixePHvoPCKXHFQTpwbfZgF3L1hcy78037/vmm5lACZ4aQo4se+rS9OUrM1ed2WvXb8xVbs7vpElXh6weJiLRewFNmeAxqxtuBNtTmlEZCLYbHDwZru/2mE55Em+bvmJNSfdj3uEhNQi1Kj/8huNLaiItM5Uv+kEi2mlfYsp8xXPXl7ztnkUPc/exm433RTzP76/6iWKamkTHVLLsKdcT5SJqxhWoUBFFjQeu/6JLL+hYPQt2xjeY6Mzxm61KldRIEe75wiuLKpSxnlQ+gg9tSCCELkhgEIPBWgCFFL8GeEBAIdaEDDGNFS/WGeTgILeLXQw7KKIHOO7jrFGiMc6HmmnBDnEXgb9GpgsL5Dv5RAbkK/lMjsnpRK2s0Bh66WMORlymWnOvb2/9+i9LYjYQ/WVd6NlAB1YKrxy9qwIZniIc8Xsv3wy2Hm0uZPfIe3KC/t+RI/IFTxD3foYfNtjmW3DwAbx/r/t8sbNU85Zr3sZSdW2lfIoZuAN3YRHv+yGswTNYhzqE1nNLW5n1yv5mD+zf9umo1bZKzi0Yi6npP5b75yk= p(⇡ | x; ) = Dir(⇡ | ˆ ↵), ˆ ↵ = f(x; ) Prior Network [27]

Slide 74

Slide 74 text

Ensemble Distribution Distillationの一般化 • アンサンブルによる予測確率ベクトル を1つのNN に蒸留する. • 予測の不確実性をデータとモデルの不確実性を分解することができる.(分類・回帰対応可) 潜在分布 目的関数 予測分布 I は 分散やエントロピー AAACdnichVHLSsNAFD2N7/iquhEEEUvVVblxoeJKcOPSqlWhLSWJ03ZomoQkrWjxB/wBF+JCQYv4GW78ARd+grhU0IULb9OAqKh3mJkzZ+65c2bGcC3pB0QPMaWjs6u7p7dP7R8YHBqOj4xu+07NM0XGdCzH2zV0X1jSFplABpbYdT2hVw1L7BiV1db+Tl14vnTsreDAFfmqXrJlUZp6wFQhPpLLqqVCI1fXPbcsj9RcvhBPUIrCmPoJtAgkEMW6E28ihz04MFFDFQI2AsYWdPjcstBAcJnLo8Gcx0iG+wJHUFlb4yzBGTqzFR5LvMpGrM3rVk0/VJt8isXdY+UUknRP1/RMd3RDj/T+a61GWKPl5YBno60VbmH4eHzz9V9VlecA5U/Vn54DFLEUepXs3Q2Z1i3Mtr5+ePK8ubyRbMzQBT2x/3N6oFu+gV1/MS/TYuMUKn+A9v25f4Lt+ZS2kNLS84mVpegrejGBaczxey9iBWtYR4bP3ccZrtCMvSmTSlKZbacqsUgzhi+h0AdkGpBz g' 分類:Categorical分布 [28]

Slide 75

Slide 75 text

アンサンブル手法 • 学習戦略 • Random Initialization/ Data Shuffling • Bagging/Boosting • メンバー数の削減 • Model Pruning • Distillation • 重み共有 • Sub-Ensembles • Batch-Ensembles

Slide 76

Slide 76 text

Sub-Ensembles • モデル全体ではなく,出力に近い層のみをアンサンブル • FLOPsの観点から見ると,CIFAR10データセットのResNet-20では1.5〜2.5倍の高速化 • SVHNデータセットのVGG型ネットワークでは5〜15倍の高速化 • 誤差やNLLの増加,不確実性の減少はわずかだった。 [29]

Slide 77

Slide 77 text

Batch-Ensembles アンサンブルの計算コストとメモリコストを大幅に削減した手法 各重み行列をアンサンブルメンバー間で共有される重みと,メンバーごとのランク1行 列のアダマール積と定義する. 他の手法は 計算コストが高い [30]

Slide 78

Slide 78 text

アンサンブル手法の実験設定 タスク タスクindex: データセット ベースライン手法

Slide 79

Slide 79 text

アンサンブルまとめ アンサンブルのメンバー間に多様性を持たせ,不確実性の定量化 利点 • アンサンブルのメンバーは互いに独立して学習されるため,学習の並列化も 容易で実装しやすい. • ランダムな初期化,データのシャッフル,データ拡張で精度,不確実性の定 量化,分布外の検出が有効だと確認されている. 欠点 • 必要なメモリと計算量は,学習と評価のためのメンバーの数に比例して増加. • 計算能力やメモリが限られていたり,アプリケーションがタイムクリティカ ルであったり,推論時間の長い非常に大きなNNが含まれていたりする多くの 実用的なアプリケーションでは,アンサンブルの展開が制限.

Slide 80

Slide 80 text

不確実性の推定方法 • 単一決定論的手法( Single deterministic methods ) 決定論的ネットワーク内での1回のフォワードパスに基づいて予測を行う. 不確実性の定量化は,ネットワーク内部によって直接表現するか,外部手法で表現する. • ベイズ法( Bayesian methods ) モデルパラメータを確率変数とみなし,確率的DNNになる. • アンサンブル法( Ensemble methods ) 複数の異なる決定論的ネットワークの予測値を推論時に組み合わせる. • テスト時データ拡張法( Test-time augmentation methods ) 1つの決定論的ネットワークに基づいて予測を行う. テスト時に入力データを拡張し,複数の予測を生成する.

Slide 81

Slide 81 text

Test Time Data Augmentation • 各テストサンプルにデータ拡張をおこない,予測分布を計算. • 応用:医療画像処理 • 基礎となるモデルを変更せず,追加のデータを必要とせず,既製のライブラリを使って簡単 に実践できるため,不確実性を推定するための簡単な方法 • 注意:拡張によって対象となる分布から外れたデータを生成してはならない AAACbHichVG7SgNBFD1ZX3F9JD4KQQQxKFbhbgoVq4CNpa8kShLC7jrqkn2xu4lo8AdsLSzUQkFE/Awbf8DCTxDBRsHGwpvNgqiod5iZM2fuuXNmRnNNww+IHmJSW3tHZ1e8W+7p7etPJAcG875T83SR0x3T8dY11RemYYtcYASmWHc9oVqaKQpadaG5X6gLzzccey3Yc0XZUrdtY8vQ1YCpjVJR3q2QXCpXkilKUxjjP4ESgRSiWHKSVyhhEw501GBBwEbA2IQKn1sRCgguc2U0mPMYGeG+wAFk1tY4S3CGymyVx21eFSPW5nWzph+qdT7F5O6xchyTdE/X9EJ3dEOP9P5rrUZYo+llj2etpRVuJXE4svr2r8riOcDOp+pPzwG2MBd6Ndi7GzLNW+gtfX3/+GV1fmWyMUUX9MT+z+mBbvkGdv1Vv1wWKyeQ+QOU78/9E+QzaWUmrSxnUtm56CviGMUEpvm9Z5HFIpaQ43MtHOEUZ7FnaVgalcZaqVIs0gzhS0hTH06cjFQ= w0 AAACbHichVG7SgNBFD1ZX3F9JD4KQQQxKFbhbgoVq4CNpa8kShLC7jrqkn2xu4lo8AdsLSzUQkFE/Awbf8DCTxDBRsHGwpvNgqiod5iZM2fuuXNmRnNNww+IHmJSW3tHZ1e8W+7p7etPJAcG875T83SR0x3T8dY11RemYYtcYASmWHc9oVqaKQpadaG5X6gLzzccey3Yc0XZUrdtY8vQ1YCpjVJR3q2QXCpXkilKUxjjP4ESgRSiWHKSVyhhEw501GBBwEbA2IQKn1sRCgguc2U0mPMYGeG+wAFk1tY4S3CGymyVx21eFSPW5nWzph+qdT7F5O6xchyTdE/X9EJ3dEOP9P5rrUZYo+llj2etpRVuJXE4svr2r8riOcDOp+pPzwG2MBd6Ndi7GzLNW+gtfX3/+GV1fmWyMUUX9MT+z+mBbvkGdv1Vv1wWKyeQ+QOU78/9E+QzaWUmrSxnUtm56CviGMUEpvm9Z5HFIpaQ43MtHOEUZ7FnaVgalcZaqVIs0gzhS0hTH06cjFQ= w0 AAACbHichVG7SgNBFD1ZX3F9JD4KQQQxKFbhbgoVq4CNpa8kShLC7jrqkn2xu4lo8AdsLSzUQkFE/Awbf8DCTxDBRsHGwpvNgqiod5iZM2fuuXNmRnNNww+IHmJSW3tHZ1e8W+7p7etPJAcG875T83SR0x3T8dY11RemYYtcYASmWHc9oVqaKQpadaG5X6gLzzccey3Yc0XZUrdtY8vQ1YCpjVJR3q2QXCpXkilKUxjjP4ESgRSiWHKSVyhhEw501GBBwEbA2IQKn1sRCgguc2U0mPMYGeG+wAFk1tY4S3CGymyVx21eFSPW5nWzph+qdT7F5O6xchyTdE/X9EJ3dEOP9P5rrUZYo+llj2etpRVuJXE4svr2r8riOcDOp+pPzwG2MBd6Ndi7GzLNW+gtfX3/+GV1fmWyMUUX9MT+z+mBbvkGdv1Vv1wWKyeQ+QOU78/9E+QzaWUmrSxnUtm56CviGMUEpvm9Z5HFIpaQ43MtHOEUZ7FnaVgalcZaqVIs0gzhS0hTH06cjFQ= w0 [13]

Slide 82

Slide 82 text

テスト時データ拡張手法 • 拡張戦略 • 集約関数によるTTA戦略 • 損失予測によるTTA戦略 • 貪欲選択によるTTA戦略

Slide 83

Slide 83 text

学習可能なテスト時データ拡張 • テスト時のデータ拡張は,正しい予測を誤った予測に変えてしまう可能性がある. • TTAは,画像の異なる部分に注目することで,誤ったラベルを生成. • テスト時の学習可能なデータ拡張戦略が複数提案されている.以下で3つ紹介. 例)一番左:正しい予測はTV , TTA適応後,Screenと予測. [31]

Slide 84

Slide 84 text

学習可能な集約関数によるTTA戦略 • データ拡張の予測確率を集約させる関数を学習する手法の提案. • 学習データセットのサイズが大きくなるにつれて、TTAの効果は小さくなる. • モデルの精度が高いほど,TTAのゲインが低くなるという減少傾向. 集約関数 提案方法 一つのデータ拡張手法を選ぶため, 不確実性は計算できない. [31]

Slide 85

Slide 85 text

損失予測によるTTA戦略 • テスト時に適切なデータ拡張をおこなうために,損失予測モデルを導入. • 与えられた入力に対して,損失予測モデルが最も小さい値を出すデータ拡張方法を選択 • 複数のデータ拡張手法を選ばないため,不確実性は計算できない. 従来:アンサンブル平均 提案:データ拡張方法をインスタンスレベルで決定 [32]

Slide 86

Slide 86 text

貪欲選択によるTTA戦略 • 複数のデータ拡張方法から逐次的にTTAで実施する方策に加える “greedy Policy Search ”を提案.TTAに利用する複数のデータ拡張手法を探索する. • 学習されたTTA方策は,一貫して優れた予測性能と不確実性推定値を示し,ドメイン 内データとドメインシフト下の両方で,有意な改善が見られた. calibrated LL基準でTTA方策に追加 TTA方策の候補集合 実施するデータ拡張の集合 [33]

Slide 87

Slide 87 text

テスト時データ拡張の実験設定 タスク タスクindex: データセット ベースライン手法

Slide 88

Slide 88 text

テスト時データ拡張のまとめ 利点 • 簡単に実装ができ,不確実性も異なるデータ拡張の結果に基づいたアンサンブルから 計算できるため,アプリケーションに向いている. 欠点 • 推論時の計算コストが高い. 研究の方向性 • TTAに効果的なデータ拡張手法を求める手法が提案されている. • これらの不確実性に対する影響はまだ議論されていない. • TTAのメンバーに多様性が出るようなをデータ拡張手法を求める手法はまだない.

Slide 89

Slide 89 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 90

Slide 90 text

不確かさの推定値の評価が困難な理由 • 不確かさの推定の質は,推定手法に依存 • ベイズ推論の異なる近似方法により,不確かさ推定の品質が異なる. • 不確かさのグランドトゥルースを定義することが困難 • 統一された定量的な評価指標が存在しない • 分類,セグメンテーション,回帰などの機械学習タスクごとに不確 実性の定義が異なる.

Slide 91

Slide 91 text

不確実性の推定値の評価 • 分類タスクにおける不確実性の評価尺度 • Data Uncertainty の尺度 • Model Uncertainty の尺度 • Distributional Uncertainty の尺度 • 回帰タスクにおける不確実性の評価尺度 • Data Uncertainty の尺度 • Model Uncertainty の尺度 • セグメンテーションにおける不確実性の評価尺度

Slide 92

Slide 92 text

データ不確実性の評価尺度(分類) • 最大クラス確率:Maximal probability • エントロピー エントロピー大 エントロピー小 AAACbHichVG7SgNBFD1Z3+sj8VEIQRBDxCrMptBgJdhYmsQkShLC7jrqkn2xuwlo8AdsLSzUQkFE/Awbf8AinyCCTQQbC+9uFkSDeoeZOXPmnjtnZhRb11yPsXZE6OsfGBwaHhFHx8YnorHJqaJrNRyVF1RLt5xtRXa5rpm84Gmezrdth8uGovOSUl/390tN7riaZW55hzavGvK+qe1pquwRtVMpi3atLlaqtViCpVgQ871ACkECYWxasVtUsAsLKhowwGHCI6xDhkutDAkMNnFVtIhzCGnBPscxRNI2KItThkxsncZ9WpVD1qS1X9MN1CqdolN3SDmPJHtid6zDHtk9e2Yfv9ZqBTV8L4c0K10tt2vRk9n8+78qg2YPB1+qPz172EMm8KqRdztg/FuoXX3z6KyTX80lW4vsmr2Q/yvWZg90A7P5pt5kee4cIn2A9PO5e0ExnZKWU1I2nVjLhF8xjDgWsETvvYI1bGATBTrXwCkucBl5FWaEuDDXTRUioWYa30JY/AS3KoyI pk AAACbHichVG7SgNBFD1Z3+sj8VEIQRBDxCrMptBgJdhYmsQkShLC7jrqkn2xuwlo8AdsLSzUQkFE/Awbf8AinyCCTQQbC+9uFkSDeoeZOXPmnjtnZhRb11yPsXZE6OsfGBwaHhFHx8YnorHJqaJrNRyVF1RLt5xtRXa5rpm84Gmezrdth8uGovOSUl/390tN7riaZW55hzavGvK+qe1pquwRtVMpi3atLlaqtViCpVgQ871ACkECYWxasVtUsAsLKhowwGHCI6xDhkutDAkMNnFVtIhzCGnBPscxRNI2KItThkxsncZ9WpVD1qS1X9MN1CqdolN3SDmPJHtid6zDHtk9e2Yfv9ZqBTV8L4c0K10tt2vRk9n8+78qg2YPB1+qPz172EMm8KqRdztg/FuoXX3z6KyTX80lW4vsmr2Q/yvWZg90A7P5pt5kee4cIn2A9PO5e0ExnZKWU1I2nVjLhF8xjDgWsETvvYI1bGATBTrXwCkucBl5FWaEuDDXTRUioWYa30JY/AS3KoyI pk

Slide 93

Slide 93 text

基礎:データの不確実性の定量化方法 • 分類タスクにおいて,出力層にソフトマックス関数を使用. • ソフトマックス関数の出力は,不確実性推定に微妙だと議論されている. • よく過剰な信頼度を算出し,キャリブレーションが不十分. • モデルの不確実性を関連付けられない. 多クラス分類 2クラス分類 (logits z)

Slide 94

Slide 94 text

ソフトマックス関数の過剰な信頼度の例1 • 犬と猫について学習したネットワークが、鳥の画像(OODサンプル) を与えられても,犬と猫が50%ずつになるとは限らない. • キャリブレーションが必要. 犬 : 0.9 猫 : 0.1 犬 : 0.1 猫 : 0.9 犬 : 0.1 猫 : 0.9 犬 : 0.5 猫 : 0.5 実際 希望

Slide 95

Slide 95 text

ソフトマックス関数の過剰な信頼度の例2 MNISTで学習したLeNetの予測結果 回転した画像(ドメインシフト)を入力 間違ったラベルに対して高い自信を示す. ソフトマックスの総和1の制約より 対処法として次のネットワークが提案 分類タスク Dirichlet Prior Networks Evidential Neural Networks [18]

Slide 96

Slide 96 text

モデル不確実性の評価尺度(分類) • 相互情報量(MI) • 期待KLダイバージェンス(EKL) • 予測分散 AAACsXichVFNaxRBEH0ZoyYTNau5CLkMWSIbkKUnggZBCGgghxzytUlkZ1l7Jp1ss/PRzPQubob9A/6BHHJKQCTk5l/w4h8QkqPexGMELzmkdmZENKjVdHfVq3rVr7td5ctEM3Y2ZFwbvn7j5sioOXbr9p3x0t17G0nUiT1R8yI/irdcnghfhqKmpfbFlooFD1xfbLrt54P8ZlfEiYzCdd1TohHw3VDuSI9rgpqlJaduOi2uU9V/5gRct1w3Xeg3U0e3hOaWk8jAUpWfUSC3rRcz/bqq9PLg9UMrz800TKfRLJVZlWVmXXXswimjsOWo9A4OthHBQwcBBEJo8n1wJDTqsMGgCGsgJSwmT2Z5gT5M4naoSlAFJ7RN6y5F9QINKR70TDK2R6f4NGNiWphmn9gxO2cf2Qn7yi7+2ivNegy09Gh3c65QzfE399d+/JcV0K7R+sX6p2aNHcxlWiVpVxkyuIWX87t7++drT1en0wfsiH0j/YfsjH2gG4Td797bFbF6AJM+wP7zua86G7NV+3HVXpktz88VXzGCSUyhQu/9BPNYxDJqdO57nOIzvhiPjJfGK8PNS42hgjOB38xoXwIRQKZc ˆ p = E ✓⇠p(✓|D) [p(y | x, ✓)] 期待予測確率ベクトル

Slide 97

Slide 97 text

分布不確実性の評価尺度(分類) 分布の不確実性が必要な背景 • 先の不確実性指標は,BNNs,アンサンブル法,テスト時データ拡張法から得られる 複数の予測値間のばらつきを把握するために広く用いられている. • 入力データの分布シフトや分布外の例を捉えることはできず,これが偏った推論結果 や過信につながる可能性がある. • 例えば,すべての予測器が同じ偽のクラスラベルに高い確率で予測する場合,これは 推定値間のばらつきが小さく,確信度が高いと評価される.しかし,実際は誤り. 評価尺度 • Dirichlet Prior Network

Slide 98

Slide 98 text

データ不確実性の評価尺度(回帰) • 標準偏差:standard deviation • 予測区間:prediction interval (PI) AAACdnichVHLSsNAFD2NrxpfrW4EQcRSdVVuBLUIguDGpa/aQltKEqcaTJOQpJVa/AF/wIW4UFARP8ONP+DCTxCXCrpw4W0aEC3qHWbmzJl77pyZ0RzT8Hyix4jU0dnV3RPtlfv6BwaHYvHhbc+uurrI6LZpuzlN9YRpWCLjG74pco4r1Ipmiqy2v9Lcz9aE6xm2teXXHVGsqLuWUTZ01WeqFIsX8nJBNZ09dYlSNCcXiqVYglEQE+1ACUECYazZsWsUsAMbOqqoQMCCz9iECo9bHgoIDnNFNJhzGRnBvsARZNZWOUtwhsrsPo+7vMqHrMXrZk0vUOt8isndZeUEkvRAN/RC93RLT/Txa61GUKPppc6z1tIKpzR0PLr59q+qwrOPvS/Vn559lJEOvBrs3QmY5i30lr52ePKyubiRbEzRBT2z/3N6pDu+gVV71S/XxcYpZP4A5edzt4Pt2ZQyn1LWZxPL6fArohjDJGb4vRewjFWsIcPnHuAMV7iOvEvjUlKabqVKkVAzgm8h0SfZSo8x ↵ = 0.05 AAAClHichVHLSsNAFD3Gd3y0KojgJliUilonLlREQRBBN9KqVaEtJYlTDaZJSNJiLf6Ae3HhSkFE/ASXKvgDLvwEcangxoW3acAX6g2ZOffMPXfOzKi2obseYw81Qm1dfUNjU7PY0trWHgp3dK65VsHReFKzDMvZUBWXG7rJk57uGXzDdriSVw2+ru7MVdbXi9xxdctc9Uo2z+SVLVPP6ZriEZUNj6ZTYnwxujsozUipqDySVgx7WxmUckQNR+Whz3lGTGey4QiLMT+kn0AOQARBxK3wOdLYhAUNBeTBYcIjbECBS18KMhhs4jIoE+cQ0v11jn2IpC1QFacKhdgdGrcoSwWsSXmlp+urNdrFoN8hpYR+ds8u2DO7Y5fskb392qvs96h4KdGsVrXczoYOelZe/1Xlafaw/aH607OHHCZ9rzp5t32mcgqtqi/uHT2vTC33lwfYKXsi/yfsgV3TCczii3aW4MvHEOkB5O/X/ROsjcXk8ZicGIvMTgZP0YRe9CFK9z2BWSwgjiTte4gr3OBW6BamhTlhvloq1ASaLnwJYekdV2SXfQ== PI(x) = [(1 ↵)f(x), (1 + ↵)f(x)] AAACinicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQuoxkRz2SpEx2QkllRX1sZX+8Rn1urAeaFAXixXTGy8gLKBngEYKGAyDKEMZQYoCMgXWM4Qw5DCkM+QzFDKkMuQypDHUAJk5zAkMhQDYTSDIYMBQwFQLJahGihWBGRlguVTGWoZuIB6S4GqUoEqEoGi2UAyHciLhormAfkgM4vBupOBtuQAcRFQpwKDqsFVg5UGnw1OGKw2eGnwB6dZ1WAzQG6pBNJJEL2pBfH8XRLB3wnqygXSJQwZCF143VzCkMZgAXZrJtDtBWARkC+SIfrLqqZ/DrYKUq1WM1hk8Bro/oUGNw0OA32QV/YleWlgatBsBi5gBBiiBzcmI8xIz9BMzzDQSNnBAhoVHAzSDEoMGsDwNmdwYPBgCGAIBdrbzbCRYRfDbiYeJiMmSyZriFImRqgeYQYUwOQCAA8Il8w= = [ˆ yLi , ˆ yUi ] 予測区間 , [11]

Slide 99

Slide 99 text

データ不確実性の評価尺度(回帰) • 平均予測間隔幅:Mean Prediction Interval Width (MPIW) • 予測区間被覆確率:Prediction Interval Coverage Probability (PICP) n は予測データ総数,c は予測区間内にあるデータの数 AAACrHichVFNS9xAGH5MrbVpq9t6KXgJLkovXSYerAiC4EGFCuvHusJmDUmc1cF8kcwubGP+gH/AgyeFIiL+Ci+9Fw9C+wNKjxZ66cE32dBSpfUNmXneZ97nnWdm7NAVsWTsuk951P944MngU/XZ8xdDw6WXrzbioB05vOYEbhBt2lbMXeHzmhTS5ZthxC3Pdnnd3pvP1usdHsUi8NdlN+RNz9rxRUs4liTKLC0YDXVZq2pLWn1m1mhFlpPoaeKnmhG3PTMRs3q6laX7xq4lk25qJjVNpG9/Z+8p21eNplkqswrLQ7sP9AKUUUQ1KJ3CwDYCOGjDA4cPSdiFhZi+BnQwhMQ1kRAXERL5OkcKlbRtquJUYRG7R+MOZY2C9SnPesa52qFdXPojUmoYZ1fsjN2wT+ycfWO//tkryXtkXro02z0tD83hg9drPx9UeTRL7P5R/dezRAvTuVdB3sOcyU7h9PSdD4c3azOr48kEO2Hfyf8xu2aXdAK/88P5uMJXj6DSA+h3r/s+2Jis6FMVfWWyPDddPMUgRjGGN3Tf7zCHRVRRo30v8Blf8FWpKOtKQ2n2SpW+QjOCv0Jp3QJH76UE MPIW := 1 n n X i=1 |ˆ yUi ˆ yLi | where, , [34, 35]

Slide 100

Slide 100 text

Evaluating Uncertainty in Segmentation Tasks 構造上の不確実性の質は, 変動係数, 平均Diceスコア, IoUによって評価 [36]

Slide 101

Slide 101 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 102

Slide 102 text

キャリブレーション 背景 • 予測モデルが学習時サンプルと異なるサンプルに対して,間違って いるにもかかわらず,自信に満ちた予測をすることがよくある. • わからないことは,わからないと予測してほしい. キャリブレーションの目的 • モデルの信頼度が精度と乖離しないように学習すること. 例)キャリブレーションされたモデルがイベントを30%の確率で予測 した場合,30%の確率でそのイベントが発生することになる.

Slide 103

Slide 103 text

キャリブレーションが必要な例 • ある画像の2値分類問題に対して,10枚の予測確率結果が, [0.1,0.1,0.2,0.3,0.6,0.7,0.8,0.9,0.9,0.9] とする. このとき,予測確率の平均は,0.55. 実際の正答率が3/10 = 0.3のとき,予測モデルはover-confidenceとなる. その場合は,予測確率と正答率が一致するようにモデルを補正するのがキャリブレー ションの目的.

Slide 104

Slide 104 text

キャリブレーションが必要な原因 • 層数,重みの減衰,バッチ正規化は影響を与えている. • NNに見られる自信過剰の原因の1つが,ハードラベルでの学習である可能性を示さ れている(後に説明). 後で説明するECE指標では小さい方がキャリブレーションがよくなされていると解釈する. [37]

Slide 105

Slide 105 text

Calibration評価指標 • the average bin confidence • the average bin accuracy • Expected Calibration Error (ECE) • Static Calibration Error (SCE) • the adaptive Expected Calibration Error (aECE)

Slide 106

Slide 106 text

信頼度と精度の関係 データサンプル全てに対して,モデルの信頼度(confidence)を計算しソートする. その後,M 当分し,各ビンごとに以下を計算する. Average bin confidence:各ビンの平均信頼度 AAAClHichVFNSxtBGH5cbWvXWmMFEXpZDBa9xFkPVYqCIAVPxa+okA1hdp2YIfvF7iQYl/yB3ouHniqISH9Cjyr4Bzz4E0qPCl489M1moVRR32Fmnnnmfd55ZsYOXRkrxq56tN6+Fy9f9b/WB94Mvh3KDb/bjING5IiiE7hBtG3zWLjSF0UllSu2w0hwz3bFll1f6uxvNUUUy8DfUK1QlD2+68uqdLgiqpKbtkq6VeMqCdvGguXxPaOS1NtGONlaqBuWJ3do4KpmV5O99pRulSu5PCuwNIyHwMxAHlmsBLljWNhBAAcNeBDwoQi74IiplWCCISSujIS4iJBM9wXa0EnboCxBGZzYOo27tCplrE/rTs04VTt0iks9IqWBCXbJTtg1u2A/2W9292itJK3R8dKi2e5qRVgZ+jq2fvusyqNZofZP9aRnhSrmUq+SvIcp07mF09U39w+u1z+tTSQf2CH7Q/5/sCt2SjfwmzfO0apY+w6dPsC8/9wPweZMwfxYMFdn8otz2Vf04z3GMUnvPYtFLGMFRTr3G37hDOfaqDavLWmfu6laT6YZwX+hffkLnQKa9A== ˆ p = max k p(y = k | x) Average bin accuracy : 各ビンの平均精度 Well-calibrated [37]

Slide 107

Slide 107 text

キャリブレーションの状態 (a) Confidenceが0.7の位のとき,Accuracyも0.7であってほしいのに誤分類を多くしている. (b) Confidenceが0.7の位のとき,Accuracyも0.7であってほしいのに. [37]

Slide 108

Slide 108 text

Calibration Error の指標 • Expected Calibration Error (ECE) • Static Calibration Error 全クラス

Slide 109

Slide 109 text

Calibration Error の指標 • 幅は異なるが予測値の数が等しいR 個のビンに適応的にグループ化する. adaptive Static Calibration Error (aSCE) adaptive Expected Calibration Error (aECE)

Slide 110

Slide 110 text

キャリブレーション手法の分類 • 訓練時の正則化手法 • 訓練後の事後処理手法 • NNの不確かさ推定手法

Slide 111

Slide 111 text

正則化手法 • データ拡張 • Mixup • ラベル平滑化 • 目的関数の修正 • 最大エントロピー正則化 • 確率的推論 • 敵対的訓練

Slide 112

Slide 112 text

データ拡張 • データ拡張手法のMixup を用いて学習したDNNは,キャリブレーションが大幅に改善 されていることがわかった. • 単に特徴量を混合しただけでは,同じようなキャリブレーションの効果は得られず, Mixup におけるラベル平滑化がキャリブレーションの向上に寄与していた. • Mixup を行ったDNNは,分布外データやランダムノイズデータに対する過信予測の傾 向が少ないこともわかった. データ拡張手法:Mixup [38]

Slide 113

Slide 113 text

Mixupの学習過程(accuracy vs confidence ) Mixup 通常 学習序盤 学習終盤 Over-confident Under-confident 」 よくキャリブレーションされた分類器では,密度のほとんどがx = yのグレーの線上にある. [39]

Slide 114

Slide 114 text

なぜMixupが効果的なのか? Mixupを用いた分類領域がより滑らかで,信頼度の高い領域から別の領域への急激なジャンプがない. 分類領域に鋭い遷移境界がないことがキャリブレーションされた分類器を生成する上で重要と示唆. [40]

Slide 115

Slide 115 text

ラベル平滑化 • 分類問題において,ソフトターゲットを用いると,ネットワークの過信( over- confident )を防ぐ. • 学習したモデルを暗黙のうちにキャリブレーションし,予測の信頼性と予測の精度が より一致するようになることを実験的に示した. • 蒸留を阻害することもわかった.教師モデルがラベル平滑化を用いて学習されると, 生徒モデルのパフォーマンスが低下する. 一様分布との重みつき平均 ラベル平滑化 あるクラスk について ハードターゲット ソフトターゲット [41]

Slide 116

Slide 116 text

目的関数の修正 目的関数を修正することでキャリブレーションをおこなう. • 最大エントロピー正則化 • 確率的推論 • 敵対的訓練

Slide 117

Slide 117 text

最大エントロピー正則化による損失関数の修正 • 最大エントロピーに基づく信頼度ペナルティを提案. • 強化学習と違い,学習の序盤は罰金項を弱く,終盤で強くなる信頼度ペナルティも提案. • ラベル平滑化は,一様分布u と予測分布の間のKLダイバージェンスを負の対数尤度に加え ることと等価. 信頼度ペナルティ項:エントロピー最大化 ラベル平滑化 アニーリング 閾値 [42]

Slide 118

Slide 118 text

確率的推論による損失関数の修正 確率的推論のように複数のサンプリングをせず,信頼度を校正したDNNを1回の推論で学習 できるように提案. 損失関数:variance-weighted confidence-integrated loss function 1項目:予測分散の小さいデータは予測値を真値に近づける 2項目:予測分散の大きいデータは予測分布を一様分布に近づける(ラベル平滑化) AAADWXicjVFLaxRBEK7Z8bGOj6zmIngZXCIrJktPDhqEQEAPgiJ57CbB7XXomfTudtLzYKZ3ydoOeDV/wIMnBRHxZ3jxD3gI/gLxmIAXD9bMbhI0qKlhur/6qr6q6m4vliJVhOwaJfPU6TNny+es8xcuXpqoXL6ymkb9xOdNP5JRsu6xlEsR8qYSSvL1OOEs8CRf87bu5fG1AU9SEYUNNYx5O2DdUHSEzxRSbmWftqx52kmYr51MNzKbpv3A1WLeyZ7qxwfuZuE2shkqeUfVnBnKZNxjmJfRRHR76qZNZdS141F8mAdsGogNezuH0zbtMaVpFPAuy5CZtjcPhLeOStn3XU0DpnpJoB8+yrJRsYLxmdTNrDbEPs8Pu5yww2GjbZGnWrTtVqqkTgqzjwNnDKowtsWo8h4obEAEPvQhAA4hKMQSGKT4tcABAjFybdDIJYhEEeeQgYXaPmZxzGDIbuHaRa81ZkP085ppofaxi8Q/QaUNU+QL+UD2yGfykXwjP/9aSxc18lmGuHsjLY/diZ2rKz/+qwpwV9A7Uv1zZgUdmCtmFTh7XDD5KfyRfvDs1d7K3eUpfYO8Jd9x/jdkl3zCE4SDff/dEl9+DRY+gPPndR8Hq7N153bdWZqtLsyNn6IM1+A61PC+78ACPIBFaIJvPDFeGC+NndJX0zDLpjVKLRljzST8ZubkL5435Kc= = 1 T N X i=1 T X j=1 (1 ↵i) log p (yi | xi, ˆ !i,j) + ↵iDKL (U(y)kp (y | xi, ˆ !i,j)) + ⇠i 正規化された予測分散 訓練時:MCドロップアウトで確率的推論を実施. (10サンプルで1サンプルよりECEを20%削減) [43]

Slide 119

Slide 119 text

敵対的訓練による損失関数の修正 • OODサンプルの信頼性を過信させないようにする損失関数の提案. • OODサンプルを用意せず,分布内に近いOODサンプルをGANの生成器から生成. • OODを大量に用意する必要があり実現性が低い 改良前 敵対的学習を組み込んだ改良後 通常のGAN 提案GAN (c) 生成器Gは分布内データを生成しようとする (a) θ は分布内データを誤差最小化 (b) Gは(a,c)より分布内に近いOODを生成. θ はOODの予測を一様分布に近づける [44]

Slide 120

Slide 120 text

事後処理的手法 温度スケーリング • temperature scaling for classification 事後処理手法のアンサンブル • Mix-n-Match戦略 • ガウス過程 • Gaussian process (GP)に基づいた手法

Slide 121

Slide 121 text

Post-Processing Methods • 学習後に再キャリブレーション関数を学習することが目的. 満たすべき3つの要件 1) 精度の維持:予測器の性能に影響を与えない 2)データ効率性:大量のキャリブレーションデータを必要とせずに良好なキャリブ レーションを実現できること 3)高い表現力 : 十分なキャリブレーションデータがあれば, キャリブレーション関数を 近似するのに十分な表現力を持つこと この3つの要件をすべて満たす既存の手法はない.

Slide 122

Slide 122 text

温度スケーリング • 簡単でありながら,キャリブレーション効果の高い方法. • ソフトマックス関数に温度スケーリングを使用し,入力に小さな摂動を加えること で,分布内と分布外の入力のソフトマックススコア分布を分離し,OOD検出 • 分類器の精度はスケーリング後も変化しない. Calibrated softmax score AAAC93ichVHLahRBFL3dURPbR8a4EQQZHKKTzVidRQxCIOBGECHJZJLA1NhUt9UzlekX1TWDM0X/gEs3LlyIgi9c+Q1u/AEX+QRxGUEXLrz9AB/xcZuuOnXuObduVblJIFJFyIFhzhw7fmJ27qR16vSZs/O1cws7aTySHu94cRDLPZelPBAR7yihAr6XSM5CN+C77vBmnt8dc5mKONpWk4T3QtaPhC88ppByag9p16Kp6IfM0TRkaiBD3b6TZTTgvmoWjOvraeZokVEp+gO1dFc3h0vZGvUl8zTl95N6KZ7mmjJ5bbvSZpqmo9DR+2s2pm5n9T/o93/WW7Tn1BqkRYqoHwV2BRpQxUZcewkU7kEMHowgBA4RKMQBMEjx64INBBLkeqCRk4hEkeeQgYXeEao4KhiyQxz7uOpWbITrvGZauD3cJcBforMOi+QDeU0OyXvyhnwk3/5aSxc18l4mOLullyfO/IML7S//dYU4Kxj8cP2zZwU+rBa9Cuw9KZj8FF7pH08fHbZvbC3qK+QZ+YT9PyUH5B2eIBp/9p5v8q3HYOED2L9f91Gws9yyV1r25nJjfbV6ijm4CJehifd9HdbhFmxAB/f9alwyrhpNc2I+MV+Yr0qpaVSe8/BLmG+/A+wSwps= SM (zi)(k) = exp ⇣ z(k) i /T ⌘ PK j=1 exp ⇣ z(j) i /T ⌘ 通常の予測確率 AAACenichVHLSsNAFD2N7/iqiiC4EYuiCHUioiIIBTeCm1atCm0pSZzqYJrEZFrQ0B/wB1y4UhBRP8ONP+CinyAuFdy48DYNiIp6h5k5c+aeO2dmDNcSvmSsHlNaWtvaOzq71O6e3r7++MDgtu9UPJNnTcdyvF1D97klbJ6VQlp81/W4XjYsvmMcrjb2d6rc84Vjb8ljlxfK+r4tSsLUJVHF+HA+p+YPdBkc1YqBqK1os+tqvlCMJ1iShTH2E2gRSCCKtBO/Rh57cGCigjI4bEjCFnT41HLQwOASV0BAnEdIhPscNaikrVAWpwyd2EMa92mVi1ib1o2afqg26RSLukfKMUywR3bDXtgDu2NP7P3XWkFYo+HlmGajqeVusf90ZPPtX1WZZomDT9WfniVKWAq9CvLuhkzjFmZTXz05e9lc3pgIJtkleyb/F6zO7ukGdvXVvMrwjXOo9AHa9+f+CbbnktpCUsvMJVJL0Vd0YhTjmKL3XkQKa0gjS+cGuMAt7mLvyrgyrcw0U5VYpBnCl1DmPwAhfZGh ˆ qi = 1/K AAACeHichVHLSsNAFD2N7/iquhHcFEt9bMqkCxVBENy49FUV2lKSOK2DaRKTaaGG/oA/4MKFKIiKn+HGH3DhJ4hLBUFceJsGRIt6h5k5c+aeO2dmDNcSvmTsMaZ0dHZ19/T2qf0Dg0PD8ZHRbd+peibPmo7leLuG7nNL2DwrhbT4rutxvWJYfMc4WGnu79S45wvH3pJ1lxcqetkWJWHqkqhifCyfU/P7ugwOG8VANJY0NV8oxpMszcJItAMtAklEsebEr5DHHhyYqKICDhuSsAUdPrUcNDC4xBUQEOcREuE+RwMqaauUxSlDJ/aAxjKtchFr07pZ0w/VJp1iUfdImUCKPbAb9sLu2S17Yh+/1grCGk0vdZqNlpa7xeHj8c23f1UVmiX2v1R/epYoYSH0Ksi7GzLNW5gtfe3o5GVzcSMVTLEL9kz+z9kju6Mb2LVX83Kdb5xCpQ/Qfj53O9jOpLW5tLaeSS4vRF/RiwlMYobeex7LWMUasnRuHWe4xk3sXUko08psK1WJRZoxfAsl8wnUmJET ˆ qi = 1 AAACanichVG7SgNBFD1ZX3F9JMZGsQlGxSrMptBgFbCx1MSYQBJkdx11yGZ32Z0EYvAH7KwErRRExM+w8Qcs/ATRTsHGwpvNgqiod5iZM2fuuXNmxnAt4UvGHiJKX//A4FB0WB0ZHRuPxScSW77T9ExeNB3L8cqG7nNL2LwohbR42fW43jAsXjLqq939Uot7vnDsTdl2ea2h79liV5i6JKpUraibarW2HU+xNAsi+RNoIUghjHUnfoUqduDARBMNcNiQhC3o8KlVoIHBJa6GDnEeIRHscxxCJW2Tsjhl6MTWadyjVSVkbVp3a/qB2qRTLOoeKZOYZ/fsmr2wO3bDHtn7r7U6QY2ulzbNRk/L3e3Y0VTh7V9Vg2aJ/U/Vn54ldpENvAry7gZM9xZmT986OHkprOTnOwvsgj2R/3P2wG7pBnbr1bzc4PkzqPQB2vfn/gm2MmltKa1tZFK5bPgVUcxgFov03svIYQ3rKAbujnGKs8izklCmlZleqhIJNZP4EsrcB5q/i44= T は評価データで最適化. [37]

Slide 123

Slide 123 text

事後処理手法のアンサンブル • 学習可能なパラメータを持つアンサンブル温度スケーリングを実施した. • その結果,分類精度を維持しつつ,データ効率と表現力を向上させて,より優れた キャリブレーションを実現した. Ensemble Temperature Scaling (ETS) [45]

Slide 124

Slide 124 text

ガウス過程に基づいた手法 • マルチクラス分類をキャリブレーションするために信頼値を出力するガウス過程 (GP)に基づく方法を提案 • キャリブレーションデータのNNの信頼性予測値 と,対応するグランドトゥルース で訓練されたガウス過程によってキャリブレーションマップを学習する. AAACdHichVHLSsNAFD2N7/ho1I2gi2KouCqTLrS4KrhxaatVoSkhiVMN5kWSFtrSH/AHXLhSFBE/w40/4MJPEJeKblx4mwZERb1hMmfO3HPnzFzDt60wYuwhJQwMDg2PjI6J4xOTU2lpemYn9BqBySumZ3vBnqGH3LZcXomsyOZ7fsB1x7D5rnG03tvfbfIgtDx3O2r5vOboB65Vt0w9IkqT0mpV7KhGPdPuaq6o1jRJZjkWR+YnUBIgI4lNT7qCin14MNGAAw4XEWEbOkL6qlDA4BNXQ4e4gJAV73N0IZK2QVmcMnRij+h/QKtqwrq07tUMY7VJp9g0AlJmkGX37Jo9szt2wx7Z+6+1OnGNnpcWzUZfy30tfTy39favyqE5wuGn6k/PEeooxF4t8u7HTO8WZl/fbJ88b62Vs50lds6eyP8Ze2C3dAO3+WJelnj5FCI1QPn+3D/BTj6nrOSUUl4uFpJWjGIei1im915FERvYRCXuySkucJl6FRYEWcj2U4VUopnFlxByH8kKjz4= zn AAACdHichVHLSsNAFD2NrxofjboRdFEsFVdl0oUWVwU3LrW1rdCUkMSpBtMkJGmhhv6AP+DClaKI+Blu/AEXfoK4VHTjwts0ICrqDZM5c+aeO2fm6q5l+gFjDwlhaHhkdCw5Lk5MTk2npJnZqu+0PYNXDMdyvF1d87ll2rwSmIHFd12Pay3d4jX9cKO/X+twzzcdeyfourzR0vZts2kaWkCUKqWUuhgqejPd7am2qDRUKcNyLIr0TyDHIIM4thzpCgr24MBAGy1w2AgIW9Dg01eHDAaXuAZC4jxCZrTP0YNI2jZlccrQiD2k/z6t6jFr07pf04/UBp1i0fBImUaW3bNr9szu2A17ZO+/1gqjGn0vXZr1gZa7aup4vvz2r6pFc4CDT9WfngM0UYi8muTdjZj+LYyBvnN08lxeL2XDZXbOnsj/GXtgt3QDu/NiXG7z0ilEaoD8/bl/gmo+J6/m5O18pliIW5HEApawQu+9hiI2sYVK1JNTXOAy8SosChkhO0gVErFmDl9CyH0AxwSPPQ== yn [46]

Slide 125

Slide 125 text

不確実性推定の近似 • NNのアンサンブル • ベイジアンニューラルネットワーク

Slide 126

Slide 126 text

NNのアンサンブル • MCドロップアウトより計算された信頼度推定値の較正が不十分なことを示した. • 深層アンサンブルを適用することで,単一のネットワークと比較してキャリブレー ションが改善された. 信頼度 信頼度0.9以上の予測結果に対する精度を計算 90% 信頼度0.8以上の予測結果に対する精度を計算 80% : : 過信した結果 [47]

Slide 127

Slide 127 text

BNNs • DNNの最後の完全結合層の重みだけ,ベイズ推論するとキャリブレーションを大幅に 改善できることを示した. • 理論的にも経験的にも,ReLU関数を用いたネットワークにおいて,優れた不確実性推 定値を得るための十分条件は,“少しベイジアン ”であることを示した. 過剰な信頼度 2値分類 多値分類 最終層のみ ラプラス近似 [48]

Slide 128

Slide 128 text

BNNs 構造化ドロップアウト • MCドロップアウトより計算された信頼度推定値の較正が不十分なことを示した. • MCドロップアウトの校正が不十分なのは、モデルの多様性が限られているから. • 例えば,画像の特徴は空間的に高い相関を持つことが多いため,ドロップアウトがあっても, 入力に関する情報は後続の層に伝搬される.そのため、MCドロップアウトから抽出されたモ デルには多様性がなく、異なるモデルは情報漏洩のために学習中に非常に似た表現を学ぶこ とになる. • モデルの多様性を促進し,キャリブレーションエラーを低減するために,チャネル,ブロッ ク,または層をドロップすることで構成される構造化ドロップアウトを提案した. [49]

Slide 129

Slide 129 text

アジェンダ • 不確実性の推定値を用いた実世界アプリケーション • 不確実性の原因 • DNNにおける不確実性の分類 • 不確実性の推定方法 • 不確実性の評価指標と品質 • DNNのキャリブレーション • 現在の課題と研究の方向性

Slide 130

Slide 130 text

現在の不確実性定量化手法は使える? 安全性が必要なアプリケーションへの適応はまだ限定的. 原因 - 実世界の問題に対する既存手法の検証不足 - 標準化された評価方法が未確立 - 検証に使用できる不確実性の真値の欠如 - どのように不確実性を捉えているかの説明性の問題

Slide 131

Slide 131 text

今後の研究の方向性 • リスク回避型とワーストケース型の評価. • 特定のアプリケーションにおいて手法の広範かつ体系的な比較 • どの不確実性推定手法が最も優れているのか,最新の手法が古い手法を凌駕している のかは,実世界の例においても不明. • データ生成過程の評価,ラベル付けなどの不確実性の発生源をより詳細に調査. • 確信度が高い,あるいは低いと判断された実際の理由を知る説明性. • 計算負荷を抑え,計算能力が限られたロボット(航空・宇宙ロボット)でも実行可 能なリアルタイム手法の構築.

Slide 132

Slide 132 text

参考文献 [1] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98. [2] T. Nair, D. Precup, D. L. Arnold, and T. Arbel, “Exploring uncertainty measures in deep networks for multiple sclerosis lesion detection and segmentation,” Medical image analysis, vol. 59, p. 101557, 2020. [3] Kendall, Alex, Vijay Badrinarayanan, and Roberto Cipolla. "Bayesian segnet: Model uncertainty in deep convolutional encoder- decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015). [4] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint arXiv:2001.00496 (2019). [5] Ruβwurm, Marc, et al. "Model and Data Uncertainty for Satellite Time Series Forecasting with Deep Recurrent Models." IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. IEEE. [6] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of- distribution detection in satellite image classification,” in RobustML workshop at ICLR 2021. ICRL, 2021, pp. 1–5. [7] J. Zeng, A. Lesnikowski, and J. M. Alvarez, “The relevance of bayesian layer positioning to model uncertainty in deep bayesian active learning,” arXiv preprint arXiv:1811.12535, 2018. [8] Baier, Lucas, et al. "Detecting Concept Drift With Neural Network Model Uncertainty." arXiv preprint arXiv:2107.01873 (2021).

Slide 133

Slide 133 text

参考文献 [9] Abdar, Moloud, et al. "A review of uncertainty quantification in deep learning: Techniques, applications and challenges." Information Fusion (2021). [10] A. Malinin and M. Gales, “Predictive uncertainty estimation via prior networks,” in Advances in Neural Information Processing Systems, 2018, pp. 7047–7058. [11] Pearce, Tim, Felix Leibfried, and Alexandra Brintrup. "Uncertainty in neural networks: Approximately bayesian ensembling." International conference on artificial intelligence and statistics. PMLR, 2020. [12] Amini, A., Schwarting, W., Soleimany, A., & Rus, D. (2019). Deep evidential regression. arXiv preprint arXiv:1910.02600. [13] A. Ashukha, A. Lyzhov, D. Molchanov, and D. Vetrov, “Pitfalls of in-domain uncertainty estimation and ensembling in deep learning,” in International Conference on Learning Representations, 2020. [14] E. Hu ̈llermeier and W. Waegeman, “Aleatoric and epistemic uncertainty in machine learning: An introduction to concepts and methods,” Machine Learning, vol. 110, no. 3, pp. 457–506, 2021. [15] Y.Ovadia,E.Fertig,J.Ren,Z.Nado,D.Sculley,S.Nowozin,J.Dillon, B. Lakshminarayanan, and J. Snoek, “Can you trust your model’s uncertainty? evaluating predictive uncertainty under dataset shift,” in Advances in Neural Information Processing Systems, 2019, pp. 13 991– 14 002. [16] D. Hendrycks, M. Mazeika, and T. Dietterich, “Deep anomaly detection with outlier exposure,” in International Conference on Learning Representations, 2019.

Slide 134

Slide 134 text

参考文献 [17] A. Malinin and M. Gales, “Predictive uncertainty estimation via prior networks,” in Advances in Neural Information Processing Systems, 2018, pp. 7047–7058. [18] M. Sensoy, L. Kaplan, and M. Kandemir, “Evidential deep learning to quantify classification uncertainty,” in Advances in Neural Information Processing Systems, 2018, pp. 3179–3189. [19] M. Raghu, K. Blumer, R. Sayres, Z. Obermeyer, B. Kleinberg, S. Mullainathan, and J. Kleinberg, “Direct uncertainty prediction for medical second opinions,” in International Conference on Machine Learning. PMLR, 2019, pp. 5281–5290. [20] T. Ramalho and M. Miranda, “Density estimation in representation space to predict model uncertainty,” in Engineering Dependable and Secure Machine Learning Systems: Third International Workshop, EDSMLS 2020, New York City, NY, USA, February 7, 2020, Revised Selected Papers, vol. 1272. Springer Nature, 2020, p. 84. [21] S. Liang, Y. Li, and R. Srikant, “Enhancing the reliability of out-of- distribution image detection in neural networks,” in 6th International Conference on Learning Representations, 2018. [22] Y.-C. Hsu, Y. Shen, H. Jin, and Z. Kira, “Generalized odin: Detect- ing out-of-distribution image without learning from out-of- distribution data,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 951–10 960. [23] Jospin, Laurent Valentin, et al. "Hands-on Bayesian Neural Networks--a Tutorial for Deep Learning Users." arXiv preprint arXiv:2007.06823 (2020). [24] B. Lakshminarayanan, A. Pritzel, and C. Blundell, “Simple and scalable predictive uncertainty estimation using deep ensembles,” in Advances in neural information processing systems, 2017, pp. 6402–6413.

Slide 135

Slide 135 text

参考文献 [25] A. Vyas, N. Jammalamadaka, X. Zhu, D. Das, B. Kaul, and T. L. Willke, “Out-of-distribution detection using an ensemble of self supervised leave-out classifiers,” in Proceedings of the European Conference on Computer Vision, 2018, pp. 550–564. [26] H. Guo, H. Liu, R. Li, C. Wu, Y. Guo, and M. Xu, “Margin & diversity based ordering ensemble pruning,” Neurocomputing, vol. 275, pp. 237– 246, 2018. [27] A. Malinin, B. Mlodozeniec, and M. Gales, “Ensemble distribution distillation,” in 8th International Conference on Learning Representations, 2020. [28] J. Lindqvist, A. Olmin, F. Lindsten, and L. Svensson, “A general framework for ensemble distribution distillation,” in 2020 IEEE 30th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2020, pp. 1–6. [29] M. Valdenegro-Toro, “Deep sub-ensembles for fast uncertainty estima- tion in image classification,” in Bayesian Deep Learning Workshop at Neural Information Processing Systems 2019, 2019. [30] Y. Wen, D. Tran, and J. Ba, “Batchensemble: an alternative approach to efficient ensemble and lifelong learning,” in 8th International Conference on Learning Representations, 2020. [31] Shanmugam, Divya, et al. "When and why test-time augmentation works." arXiv preprint arXiv:2011.11156 (2020). [32] Kim, Ildoo, Younghoon Kim, and Sungwoong Kim. "Learning loss for test-time augmentation." arXiv preprint arXiv:2010.11422 (2020).

Slide 136

Slide 136 text

参考文献 [33] D. Molchanov, A. Lyzhov, Y. Molchanova, A. Ashukha, and D. Vetrov, “Greedy policy search: A simple baseline for learnable test-time augmentation,” arXiv preprint arXiv:2002.09103, vol. 2, no. 7, 2020. [34] T. Pearce, A. Brintrup, M. Zaki, and A. Neely, “High-quality prediction intervals for deep learning: A distribution-free, ensembled approach,” in International Conference on Machine Learning. PMLR, 2018, pp. [35] D. Su, Y. Y. Ting, and J. Ansel, “Tight prediction intervals using expanded interval minimization,” arXiv preprint arXiv:1806.11222, 2018. [36] A. G. Roy, S. Conjeti, N. Navab, C. Wachinger, A. D. N. Initiative et al., “Bayesian quicknat: Model uncertainty in deep whole-brain segmentation for structure-wise quality control,” NeuroImage, vol. 195, pp. 11–22, 2019. [37] C. Guo, G. Pleiss, Y. Sun, and K. Q. Weinberger, “On calibration of modern neural networks,” in International Conference on Machine Learning. PMLR, 2017, pp. 1321–1330. [38] H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, “mixup: Beyond empirical risk minimization,” in International Conference on Learning Representations, 2018. [39] S. Thulasidasan, G. Chennupati, J. A. Bilmes, T. Bhattacharya, and S. Michalak, “On mixup training: Improved calibration and predictive uncertainty for deep neural networks,” in Advances in Neural Informa- tion Processing Systems, 2019, pp. 13 888–13 899. [40] K.Patel,W.Beluch,D.Zhang,M.Pfeiffer,andB.Yang,“On-manifold adversarial data augmentation improves uncertainty calibration,” in 2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021, pp. 8029–8036.

Slide 137

Slide 137 text

参考文献 [41] R. Mu ̈ller, S. Kornblith, and G. E. Hinton, “When does label smoothing help?” in Advances in Neural Information Processing Systems, 2019, pp. 4694–4703. [42] G. Pereyra, G. Tucker, J. Chorowski, Ł. Kaiser, and G. Hinton, “Regularizing neural networks by penalizing confident output distributions,” arXiv preprint arXiv:1701.06548, 2017. [43] S. Seo, P. H. Seo, and B. Han, “Learning for single-shot confidence calibration in deep neural networks through stochastic inferences,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9030–9038. [44] K. Lee, H. Lee, K. Lee, and J. Shin, “Training confidence-calibrated classifiers for detecting out-of-distribution samples,” in International Conference on Learning Representations, 2018. [45] J. Zhang, B. Kailkhura, and T. Y.-J. Han, “Mix-n-match: Ensemble and compositional methods for uncertainty calibration in deep learning,” in International Conference on Machine Learning. PMLR, 2020, pp. 11 117–11 128. [46] J. Wenger, H. Kjellstro ̈m, and R. Triebel, “Non-parametric calibration for classification,” in International Conference on Artificial Intelligence and Statistics, 2020, pp. 178–190. [47] Lakshminarayanan, A. Pritzel, and C. Blundell, “Simple and scalable predictive uncertainty estimation using deep ensembles,” in Advances in neural information processing systems, 2017, pp. 6402–6413. [48] A. Kristiadi, M. Hein, and P. Hennig, “Being bayesian, even just a bit, fixes overconfidence in relu networks,” in International Conference on Machine Learning. PMLR, 2020, pp. 5436–5446. [49] Z.Zhang,A.V.Dalca,andM.R.Sabuncu,“Confidence calibration for convolutional neural networks using structured dropout,” arXiv preprint arXiv:1906.09551, 2019.