深層学習を用いた予測の不確実性-自然言語処理編-

深層学習を⽤いた予測の不確実性⾃然⾔語処理編 2022/8/22 株式会社電通国際情報サービス X（クロス）イノベーション本部 AIトランスフォーメーションセンター太⽥真⼈

⾃⼰紹介 n 太⽥真⼈ n ISIDでデータサイエンティストをしています。 n お仕事は、AI製品開発、データ分析案件、研究など n 最近は、⼈とAIの協調など、HCIに興味があります。
n この資料は、NLPにおける深層学習を⽤いた予測の不確実性の調査資料です。 n 基礎技術、最新技術、応⽤事例を３パートに分けて紹介しています。 n サーベイ論⽂をまとめたわけではなく、⾃分で検索して調べたため、⾼い網羅性があるとは⾔えません。 n 各スライドの末尾に引⽤論⽂名と国際会議名を載せました。はじめに

n NLPにおける予測の不確実性 n 最先端の不確実性の定量化⼿法 ØBatch Ensemble ØSNGP ØHeteroscedastic n T5-Plex︓⼤規模モデルの信頼性
n NLPにおける予測の不確実性の活⽤事例アジェンダ

定量化評価応⽤予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods
Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上データセット分析深層モデルに定量化⼿法を適応し、評価を通して、応⽤に活⽤していきます。基本的に、ロードマップに沿って、説明していきます。

予測の不確実性とは︖ モデルの不確実性データの不確実性系列予測の不確実性

予測の不確実性︓⼊⼒に対する出⼒の不確かさには⼤きく2種類あります。 n モデルの不確実性（Model Uncertainty ） Ø NN構造とモデルパラメータが、データ分布をよく表現できるかどうかの不確かさ • 訓練時のデータ分布と乖離する単語か⽂章の場合、不確かさは⼤きくなります。 •
ラベルの組み合わせ数が多くなる⾼カーディナリティなマルチクラス分類のときやデータの分布シフトが起きるときに必要 n データの不確実性（Data Uncertainty ） Ø 収集されたデータのノイズに関する不確かさ Ø homoscedastic uncertainty • ⼊⼒空間全体で不確実性が同じであり、系統的な観測ノイズによって引き起こされる可能性があります。 Ø heteroscedastic uncertainty • ⼊⼒に依存する不確かさ例えば、Yelpのレビューのネガポジ判定の場合 • 単⼀単語のレビューで「良い」は3、4、5つ星の評価の可能性があります（不確実性が⾼い） • 強いポジティブな感情のフレーズを含む⻑めのレビューは間違いなく5つ星の評価（不確実性が低い）予測の不確実性 [AAAI 2019] Quantifying Uncertainties in Natural Language Processing Tasks

モデルとデータの不確実性の計算⽅法の例 Model Uncertainty Data Uncertainty Predictive Uncertainty 異なるモデル構造での予測平均のばらつき異なるモデル構造での出⼒の不均⼀分散の期待値 [AAAI
2019] Quantifying Uncertainties in Natural Language Processing Tasks

n データ不確実性の⾼い例︓短いか⾮常に⻑く、意⾒の代わりに⾏動の説明が⻑いです。精度が低い。 n データの不確実性が低い例︓⽐較的中程度の⻑さで、強い意⾒の単語を多く含んでいます。精度が⾼い。 n 評価指標︓Softmax-score, Entropy NLPにおけるデータの不確実性（DU）の例感情分析︓Yelp 2013
dataset NER︓CoNLL 2003 dataset [AAAI 2019] Quantifying Uncertainties in Natural Language Processing Tasks

n モデルの不確実性の⾼い例︓データセット内の不完全な特徴、未知語、分布シフト、分布外データ n モデルの不確実性が低い例︓訓練データ分布内のデータ量が豊富な特徴 n 評価指標︓相互情報量(MI)、予測分散(PV)、期待KLダーバージェンス(EKL) NLPにおけるモデルの不確実性（MU）の例タスクが異なる MU低い MU⾼い
MU低い MU⾼いドメインが異なる [ACL 2021] Unsupervised Out-of-Domain Detection via Pre-trained Transformers

n シーケンスレベルの不確実性測定を⽤いて、翻訳が困難な⽂章の検出が検討されています。 n シーケンスレベルのモデルの不確実性の詳細は省略。 n シーケンスレベルの条件付きエントロピー（データの不確実性） n トークンレベルの条件付きエントロピー（データの不確実性）系列予測の不確実性 [ICLR
2021] Uncertainty Estimation in Autoregressive Structured Prediction

⾔語の不確実性︓⽂の内容に関する不確実性は⼤きく2種類あります。（調査外） n 意味的不確実性（semantic uncertainty） Ø Epistemic uncertainty︓⽂章の意味から考え、誰も事実かわからない不確実性 • 例えば「⾬が降るかもしれない」のようにその命題が事実であるかどうかは誰もわからない。 •
単語例 “suggest”, ”may”, ”probable”, ”indicate” Ø Hypothetical uncertainty︓会話主が信じているが、検証していない不確実性 • 「彼は地球が平らであると信じている」が、これは仮定であり、昔は確認されていない。 • 単語例 “think”, ”believe”, ”if”, ”consider”, “would” n 談話レベルの不確実性（discourse-level uncertainty） Ø 話し⼿の⽂に情報が⽋落しており、問いに対して判断できない際の不確実性 Ø 例︓「何⼈かがパーティーに来た。」「何⼈いたのか」という問いに対して、情報がなく不確実性が残る。 Ø 何⼈いたかは、⽂脈、話者、談話に依存し、⼀⽂から判断することはできない。調査の対象外︓⾔語の不確実性 [Thesis 2015] Uncertainty Detection in Natural Language Texts [WIMS 2016] Uncertainty detection in natural language: a probabilistic model

不確実性の定量化⼿法 Ø Batch Ensemble [ICLR 2020] Ø SNGP [NeurIPS 2020]
Ø Heteroscedastic [CVPR 2021]

Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上データセット分析全体感を⽰しつつ、Single Deterministic Methods を中⼼に掘り下げて説明します。

n 不確実性の定量化⼿法には、⼤きく4パターンあります。 n トレンドは、⼀つのNNを⼀回の推論で不確実性を定量化する決定論的な⽅法の提案です。 n 最近は、決定論的な⽅法が性能が良いといわれることもありますが、代表的な不確実性の定量化⼿法はまだなく、データセットによるところもあり、結局は、実装してみてから考える必要があります。 n ここでは、後に紹介するT5-Plexに使われている決定論的な⽅法を３つ紹介します。
サマリー決定論的な⽅法よりDeep Ensembleの⽅がいい結果を⽰していた調査論⽂︓[IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification 図の引⽤︓ [arXiv 2021] A Survey of Uncertainty in Deep Neural Networks

n Deep Ensemblesの近似で決定論的な⼿法 n 右図のように緑のDeep Ensemblesに⽐べ、メモリ・テスト時間も抑えられます。 n ⼀つのNN構造の⼀度の推論で複数のモデルの計算結果を得ます。 n ポイント
Ø ミニバッチの全サンプルをアンサンブルメンバー数だけ複製 Ø 複製された各サンプルは共通の重みとそれぞれ個別メンバーの重みを掛け合わせ出⼒します。 Ø 異なる重みごとに繰り返しフォワードパスする必要がなくなった。 Batch Ensemble [ICLR 2020] [ICLR 2020] BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning メンバー i ⽤の複製した⼊⼒とその出⼒共通の重み個別メンバーの重み

n Spectral-normalized Neural Gaussian Process (SNGP)は決定論的な⼿法 n 出⼒層を結合層からガウス過程（GP）層に置き換え、データ分布外でモデルの不確実性を⾼めます。 n BERTとも組み合わせられています。
ポイント Ø 意味的な距離（distance awareness）を得るため、中間表現でスペクトル正規化をおこなう。 Ø 予測分散にラプラス近似を適⽤し、GP事後分布をスケーラブルに計算する。 SNGP [NeurIPS 2020] 図の引⽤ [arXiv 2022] A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness

n データセットにおける⼊⼒依存、また不均⼀分散として知られるラベルノイズをモデル化 n マルチクラス分類になるほど、ラベルノイズが多くなるため、データの不確実性の推定が重要です。 n ポイント Ø NN分類器の最終隠れ層に多変量ガウス分布を配置する。 Ø 共分散⾏列が、意味的に類似したクラスや共起するクラス間のラベルノイズを捕らえる。
Heteroscedastic [CVPR 2021] NN 1 出⼒ ILSVRC12の共起しやすいラベルの例推定共分散も⼤きくなっている [CVPR 2021] Correlated Input-Dependent Label Noise in Large-Scale Image Classification Edward2で実装されています: https://github.com/google/edward2/blob/main/edward2/tensorflow/layers/heteroscedastic.py#L508 ⼊⼒

n 図は２クラス分類問題に対して、予測の不確実性を定量化しています。 n 予測の不確実性は、未観測領域で不確実性が⾼くなることが期待されます。 n 右上に⾏くほど⾼級なモデルになり、計算時間もかかりますが、データ分布外で不確実性が⾼くなっています。不確実性の定量化⽅法の位置付け深層アンサンブル複数のNNのアンサンブル複数のSNGPモデルを使⽤した⼿法
分布外でも不確実性が低い分類境界のみ不確実性が⾼い図の引⽤ [arXiv 2022] A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness

n 紹介した３つの⼿法以外にも実際のコードはEdward2や不確実性のベースラインで公開されています。実装コード https://github.com/google/edward2 https://github.com/google/uncertainty-baselines Batch Ensemble SNGP Plex

T5-Plex Ø Plexとは Ø 信頼性の⾼いAIシステムに求められること Ø ⼤規模⾔語モデルの信頼性の調査結果 Ø UQ⼿法間⽐較 Ø
アンサンブルサイズ⽐較 Ø モデルサイズ⽐較

Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上データセット分析 T5-Plexの紹介を通して、評価部分を説明します。

n Plexは、事前学習済み⼤規模⾔語モデルやViTモデルの予測の不確実性を定量化した⼿法です。 n ICML 2022 pre-training workshop で発表されたGoogleの論⽂です。 n 論⽂内では、信頼性のあるモデルは、不確実性、ロバスト汎化、適応を満たす必要があると主張しています。
n 先ほど紹介した不確実性の定量化⼿法を⾔語モデルのT5に適応しています。 n モデルサイズが⼤きくなると信頼性のスコアが向上し、従来の⼿法を凌駕する結果が出ています。サマリー +UQ→ T5-Plex UQ︓Uncertainty Quantification 図の引⽤︓ https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

n Plexは、個々のタスクごとにモデルを設計し、訓練し、調整するのではなく、多くの意思決定タスクにわたって機能するモデルを追求することによって、⼀般的な信頼性の概念に近づくことを⽬指しています。(NLPに影響) n Plexは、事前学習済み⼤規模⾔語モデルやViTモデルの予測の不確実性を定量化し、信頼性を10種類のタスクと40のデータセットで評価しています。 n Plexは、信頼性タスク全体で最新技術を⼤幅に改善しました。 n 最⼤1Bパラメータまでのモデルサイズと最⼤4Bサンプルまでの事前学習データセットに対するスケーリング効果を
実証しています。 n ⼤規模⾔語モデルではT5を⽤い、不確実性の定量化（UQ）には決定論的な⼿法が⽤いられています。 Plex [ICML 2022] [ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions 図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html

n AIシステム⾃⾝の不確実性を表現可能なこと n 新しいシナリオに対して頑健であること n 新しいデータに素早く適応し、できるだけ少ないラベル付けで効率的に学習できること信頼性の⾼いAIシステムに求められること

n Calibration Ø 確信度と確信度に対応するサンプルの予測精度の誤差を評価する。 n Selective Prediction Ø 予測モデルの値を⽤いるか、⼈が予測するかを不確実性の閾値で決め、最終精度を評価する。
n Open-set intent detection Ø Out of the scope（OOS）サービスである⾃然な発話を検出するための意図検出タスクで評価する。 n Label Uncertainty Ø 画像のタスクのみ。ラベルノイズの多いサンプルを検出するタスクで、データ分布と予測分布のKL距離で評価する。信頼性タスク（不確実性） n 不確実性、ロバスト汎化、適応の３つのうち、不確実性に関するタスクを紹介します。図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html

n 不確実性、ロバスト汎化、適応の３つのうち、ロバスト汎化に関するタスクを紹介します。 n In-distribution generalization Ø モデルが下流のデータセットでfine-tuningをおこなった後、どの程度予測を⾏うことができるかを評価する。 n Covariate shift
Ø 条件つき分布は変化しないが、⼊⼒の分布が変化するシナリオを指し、分布内と同様に評価する。 n Subpopulation shift Ø 訓練集合のある部分集合（ロングテールの部分）に対する予測性能を向上させることを⽬指し評価する。信頼性タスク（ロバスト汎化）

n 不確実性、ロバスト汎化、適応の３つのうち、適応に関するタスクを紹介します。 n Active learning Ø マージンサンプリングを⽤いて、訓練サンプル数を徐々に増やし、速く⾼い精度を⽬指す。 n Few-shot learning
Ø 少数の学習サンプルのみで、モデルがどの程度ダウンストリームタスクの予測を⾏えるかを評価する。 Ø 1-shot, 5-shot, 10-shot, and 25-shot (x-shot means x examples per class). n Few-shot uncertainty Ø Few-shotの設定でのキャリブレーションとOpen-set recognitionを評価する。 n 以後、不確実性、ロバスト汎化、適応の精度結果に意外性はないので、要約を述べて省略します。 n 要約 Ø モデルサイズが⼤きい⽅が良い。 Ø 不確実性の定量化の決定論的な⼿法の中では、Plexが良い。 Ø コストかかるけど、モデルのアンサンブルができるならばアンサンブルの⽅が良い。信頼性タスク（適応）

n Text-To-Text Transfer Transformerの略です。 n T5は、左図のように翻訳(緑)、⾔語理解(⾚)、⽂の類似度(⻩)、要約(⻘)など様々なタスクを全てText-To- Textの形で同じアーキテクチャで扱うモデルです。 n 事前学習は右上図のようにMLMでおこない、Fine-Tuningで個別タスクを学習します。 T5とは
図の引⽤︓ https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html さまざまなタスクに対応学習⽅法

n 事前学習データ Ø ウェブからかき集めた数百GBの英⽂テキストからなるC4データセット n T5-Plexの学習⽅法 Ø 公式の事前学習済みT5チェックポイントから初期化され、ファインチューニングの際に効率的なアンサンブルと最終層の変更を適⽤します。 n
効率的なアンサンブル Ø Batch Ensemble (BE) n 最終層の変更 Ø SNGPのうち最終層のGPを使⽤（GP） Ø Heteroscedastic (Het) n モデルの種類 T5-Plex name parameters embedding size encoder / decoder blocks headed attention Small (T5-Plex S) ∼77 million 512 8 6 Base (T5-Plex B) ∼250 million 768 12 12 Large (T5-Plex L) ∼880 million 1024 24 16

n 全体感として、T5-PlexとViT-Plexの両⽅とも、複数のタスクで従来⼿法を凌駕しています。 n 不確実性を定量化するがゆえに精度が悪化することもありますが、今回は改善しています。 Plexと従来⼿法との性能⽐較

モデルサイズによる性能のスケーリング効果 n 各モデルで54の⾔語タスクの評価結果をそれぞれ正規化し平均（信頼性スコア）で⽐較してます。 n ⼀般的にはモデルが⼤きいと過学習が進み、過信してロバスト性が低下し、信頼性が低くなるとされます。 n 実験結果は、モデルサイズが⼤きくなるほど、性能（信頼性スコア）は向上しています。 n 細分化し、ロバスト汎化と不確実性のタスクに対しても同様の結果が得られています。
シングルTPUv3コアでのトータル学習⽇数

n T5-Plexの右図のみ説明します。 n ⿊点が各タスクでの、横軸７つのモデルを⽐較したときの最終性能の順位です。 n BE B, Het B, GP
B はファインチューニング時に定量化⼿法を適応させた結果です。 n Plex はBE+GPになります。モデルサイズを除けば、Plexが最も⾼く、時点でBEと読み取れます。不確実性の定量化⼿法の⽐較

n 具体的な⾔語タスクの⼀部の具体的な評価結果です。 n DE-GP は、Deep Ensemble(DE)のため、メモリと計算コストが10倍以上かかる⾼価な⼿法です。 n 決定論的な定量化⼿法に限定すると、Plex かBE が良い精度を出しています。
各タスクの詳細結果

n モデルサイズを変え、バッチアンサンブルのメンバー数を変えたとき、信頼性スコアの変化を調査しています。 n モデルを⼤きくするか、メンバー数を増やすとスコアは向上します。 n ただし、モデルサイズをSからB、BからLに拡張すると、計算量は約4倍になります。 n また、アンサンブル数を増やしてもモデルサイズの壁は超えられていません。 Ensemble Scaling

n 論⽂中ではViT-Plexのみ記載されていましたが、単純なデータセットサイズと信頼性スコアに関係はなさそうです。 n 信頼性スコアはダウンストリームタスクのデータセットサイズよりも、事前学習時との分布のずれに影響している可能性があります。データセットサイズと信頼性スコアは無関係

n Fine-tuningを⾏わずに、事前学習の性能から下流タスクの信頼性スコアを予測することができるのか︖ n 各タスクの指標と事前学習の評価データにおけるNLLに相関があるか調査しています。 n 結果、各タスクの指標と⾼い相関関係があり、事前学習の性能から信頼性を予測することができています。 n このことから、信頼性を⾼めるためには、単純に事前学習時の性能が⼤切ということでした。 n ただし、キャリブレーション指標であるECEやCalib
AUCは事前学習の性能とは無関係でした。事前学習の性能と下流タスクの性能の関係

n 信頼性の⾼い深層モデルを考えるためのフレームワークを提案しています。 Ø 予測に対する信頼性を定量化、分布の変化に頑健であること、新しい分布に素早く適応できること n ⼤規模な事前学習済みモデルの信頼性を⾼めるため、Plexという⼿法を提案しています。 n ⾔語モデルでは、T5-Plexとして、T5に最先端の不確実性の定量化⼿法のSNGPとBatch Ensembleを組み合わせています。
n 結果的に、多くのタスクで最先端の精度を更新しました。 n また、モデルのスケーリング、アンサンブル数、異なる不確実性の定量化⼿法を様々なタスクで⽐較実験していました。 n 結果的に、モデルが⼤きく、アンサンブル数が増えるほど精度が上がり、現実的な計算コストではPlexが最も精度が⾼かったです。まとめ

応⽤事例紹介 Ø エンドユーザー向け６選 Ø 開発者向け６選

Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上データセット分析誰に役⽴つのかで分けて説明します。

エンドユーザー向け 1. 信頼性が必要なアプリケーション（医療） 2. 校正（キャリブレーション） 3. ファクトチェッカー⽀援 4. モデル解釈の⽀援 5.
⾼品質なテキスト要約 6. ⼈とAIの分担業務（協調） AI開発者向け 1. ⾼コストなアノテーション向け学習⽀援（能動学習） 2. サンプル品質の確認 3. 精度の⾼いモデル構築⽀援（カリキュラム学習向け） 4. ⾔い換え表現、スペルミスによるロバスト性の確認 5. 共変量シフトの検知 6. 新規クラスの検知 NLPにおける予測の不確実性の活⽤事例12選

n バイオメディカルテキストマイニング、電⼦カルテメモから薬効・副作⽤の抽出、医療⽤の概念抽出、薬の副反応ツイート検出など、テキストに基づく信頼性の必要なタスクは多くあります。 n 特に、患者の健康リスク予測において、信頼性と精度が重要です。 n この論⽂では、複数のソースをもとに⾮アルコール性脂肪性肝疾患（NASH）とアルツハイマー病（AD）で健康リスク予測の評価をしています。信頼性が必要なアプリケーション（医療） [WWW
21] UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data 統計情報電⼦カルテ Web上のデータ

キャリブレーションの世界では、そういった課題を解決することを⽬指しています。確信度が0.9のサンプルを⼗分に集めたら、そのうち９割は正解し、１割は間違え、どの確信度でも同様に、⽐率分だけ正解していることが望ましい状態としています。確信度より精度が低い場合は、Over-confidence（過剰信頼）と呼びます。右図は、異なるタスクでのRoBERTaの較正の評価です。緑線だけ、確信度が0.2対して、対象サンプルを全て予測が間違えているようです。しかし、それ以外は確信度と精度が対応づけられている望ましい状態です。較正（キャリブレーション）図の引⽤︓[EMNLP 2021]
Calibration of Pre-trained Transformers (Pretraining) こんなことはありませんか︖ AIシステム利⽤者から、確信度は⾼いのに、よく分類が間違えている。

n 事前学習の有無による較正の関係 Ø 事前学習済みの⽅が、IDとODで、精度もよく較正誤差は⼩さい。 n 事前学習済みモデル間の⽐較 Ø BERTよりRoBERTaの⽅が較正されている。 n ファインチューニングと較正の関係
Ø 最先端の較正⼿法を⽤いても、IDサンプルは良いが、ODサンプルは較正が悪い。 Ø ODサンプルの確信度が、実務レベルで困るほど、良い加減な値になるのかは実験してみないと不明。 n (+α) ファインチューニングかつ蒸留と較正の関係 Ø 教師モデルの較正性能を⽣徒モデルに蒸留できることが実験的に⽰された。 n 分類タスクでなく、系列出⼒タスクの場合 Ø BERT系はIDサンプルで、較正誤差が⼩さく、ODは較正誤差が悪い結果が得られている。タスク︓GLUEタスク/NLI, ⾔い換え検出, 常識推論/名前付き固有表現認識、品詞認識、質問応答事前学習-ファインチューニングにおける較正の調査 [EMNLP 2021] Calibration of Pre-trained Transformers (Pretraining) [RepL4NLP 2021] An Overview of Uncertainty Calibration for Text Classification and the Role of Distillation (Fine-Tuning) [ACL 2021] Calibrating Structured Output Predictors for Natural Language Processing (Sequence Output) ID: In Domain OD: Out of Domain

n SNSでは、誤った情報でさえ急速に広まり、事実確認の検証をする前に多くの⼈に届いてしまいます。 n 誤って広まる情報の例︓⾃然災害の被害状況、感染症、政治など n 事実確認をするべき内容を素早く検出し、ファクトチェッカーに伝える必要があります。 n
論⽂では、噂が真実か、嘘か、未検証かを予測するタスクでした。 n 予測の不確実性が⾼いツイートをファクトチェッカーに伝えています。ファクトチェッカー⽀援（rumor verification） [ACL 2020] Estimating predictive uncertainty for rumour verification models [COLING 2018] All-in-one: Multi-task Learning for Rumour Verification ファクトチェックの例

n 単語レベルの不確実性の定量化 n ⼀般的な不確実性の定量化は、どの特徴（単語）が予測の不確実性につながっているかを説明することはないです。 n どの単語が原因か明らかになると、⼈はデータ拡張戦略など、次の意思決定につなげやすいです。 n 下図は、感情分析で単語レベルの不確実性を定量化した例です。 n 左図はネガポジを⾊付け。右図は、不確実性の減少時が⻘、上昇時がオレンジ⾊で⽰されており、直感通りです。
モデル解釈の⽀援 [COLING 2020] Word-Level Uncertainty Estimation for Black-Box Text Classifiers using RNNs

n 不確実性の⾼い⽣成要約をフィルタリングすることにより、エンドユーザーの体験を向上させることができます。 n 不確実性の指標は⽣成要約の品質とよく相関し、品質に疑問のある要約ケースを特定するのに有効でした。 n 最新のテキスト要約モデルBARTとPEGASUSを変分ベイズ推論。テキスト要約 [ACL 2022] Should
We Trust This Summary? Bayesian Abstractive Summarization to The Rescue [EMNLP 2020] Understanding Neural Abstractive Summarization Models via Uncertainty 不確実性が⾼い場合、結果がばらつく不確実性が低い場合、⼀貫している

n 予測の不確実性が⾼い場合は、予測結果を使わない問題設定です。 n 選択的予測の評価では、Human–Model CollaborationとX%棄却法が主流になっています。 n Human–Model Collaborationは、不確実性が⾼い場合は⼈（オラクル）が判断します。 n X%棄却は、不確実性が⾼いX%のサンプルは、予測せず残りのサンプルのみで評価します。
⼈とAIの分担 Selective Prediction [RepL4NLP 2022] Towards Improving Selective Prediction Ability of NLP Systems [ACL 2022] Uncertainty Estimation of Transformer Predictions for Misclassification Detection オラクル︓⼈間が正しく判定できると仮定不確実性閾値

⽇頃から精度⾼く、頑健な信頼性のあるモデルを構築しようと励む開発者向け 1. ⾼コストなアノテーション向け学習⽀援（能動学習） 2. サンプル品質の確認 3. 精度の⾼いモデル構築⽀援（カリキュラム学習向け） 4. ⾔い換え表現、スペルミスによるロバスト性の確認 5.
ドメインシフトの検知 6. 新規クラスの検知開発者向け

n 専⾨性が⾼い⽂章だと、データ量も少なく、アノテーションコストが⾼いことが多いです。 n ⽂章要約の場合も、アノテーションコストが⾼いです。 n BERTを⽤いて、クラスが不均衡で少ないラベル付きデータと困難な設定で、サンプルを逐次的に増やした結果 n ランダムな場合に⽐べて早い段階で性能に差が⽣まれています。⾼コストなアノテーション向け学習⽀援（能動学習） [EMNLP
2020] Active Learning for BERT: An Empirical Study [ACL 2022] Revisiting Uncertainty-based Query Strategies for Active Learning with Transformers

n モデルを解釈することも⼤事ですが、データセット内に内在する外れ値や学習を困難にするサンプルを⾒つけることも⼤事です。 n ⼀⽅で、学習を簡単にしすぎるとショートカット学習（擬似相関）になるので注意が必要です。 n 擬似相関対策として、少数の曖昧なサンプルがあると汎化も頑健性も向上するようです。サンプル品質の確認確信
度 RoBERTa-largeに基づくSNLI訓練集合のデータマップ Variability︓エポックごとの予測のばらつき [EMNLP 2020] Dataset Cartography:Mapping and Diagnosing Datasets with Training Dynamics [TACL 2020] An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models (擬似相関) 外れ値か検討誤差分析ラベルミス確認テキスト修正検討

n テキストの回帰タスクでも、不確実性の定量化ができます。 n 例えば、意味的テキストの類似性、感情分析の5段階評価、機械翻訳品質推定のタスクなど n 論⽂では、学習を綺麗なサンプルのみからはじめ、不確実性の⾼い⽂章らを徐々に加える学習（カリキュラム学習）で精度を⾼めるために⽤いています。精度の⾼いモデル構築⽀援（テキスト回帰を例に） [TACL 2022]
Uncertainty Estimation and Reduction of Pre-trained Models for Text Regression テキスト回帰の不確実性の定量化テキスト回帰の不確実性の定量化⽅法

頑健性（⾔い換え、スペルミスなど） [TACL 2020] An Empirical Study on Robustness to Spurious
Correlations using Pre-trained Language Models [EMNLP 2021] Evaluating the Robustness of Neural Language Models to Input Perturbations [ACL 2020] Beyond Accuracy: Behavioral Testing of NLP Models with CheckList n ⼈の不完全な⽂章やスペルミスに対して、最先端の⾔語モデルでも予測を誤ることがあります。 n データやモデルの不確実性を定量化することで、ユーザーが⼊⼒⽂章の複雑さや誤りに気づくきっかけになります。 n RoBERTaを⽤いたNLPタスクで、⽂字レベルや単語レベルの⼊⼒摂動に敏感な場合もあります（下図）。

n 学習したドメインと運⽤中のドメインが異なると精度が悪化する場合があります。 n 例）Language Style Drift, Topical Drift n 例えば⾔語スタイルの違いは、オンライン会議の会話と、対⾯の会話があります。
n テキストでのドメインシフトは、テーブルデータと違い、気づきにくいです。 n まだ研究レベルですが、不確実性の定量化では、ドメインシフト時に不確実性が⾼くなることで開発者にフィードバックしようとしています。ドメインシフト検知 Out-of-domain detection 共変量シフトの設定 [IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification [ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions 学習運⽤

n テキストデータの場合、学習時のクラス数から徐々に新規クラスが⽣まれることがあります。 n 故障レポートの原因の分類問題では、新しい製品が出るたび、原因が徐々に増えてくる恐れがあります。 n そこで、⼊⼒空間は近いがラベル空間が異なるデータで評価します。新規クラス検知 Novelty Detection [IEEE
Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification [ICML 2020] Predictive Uncertainty for Probabilistic Novelty Detection in Text Classification 新規クラス検知の設定評価⽅法不確実性の定量値とOODラベル（0がソースデータ、1が新規クラスデータとする）を⽐較し、不確実性の定量値が2つのグループをどの程度分離するかを測定するためにAUROCを使⽤する。予測分散予測分散

n NLPにおける予測の不確実性の定量化について紹介しました。 n 定量化⼿法に関しては、⼀つのネットワークの⼀回の推論で不確実性を定量化する⼿法の研究が盛んです。 n しかし、まだ計算時間がかかる深層アンサンブルした際の多様性には届いていないようです。 n 最先端の⼤規模⾔語モデルにおける不確実性としてPlexを紹介しました。 n 信頼性のあるAIシステムには、不確実性、頑健性、適応が必要であると述べていまいた。
n 最後に、実際の予測の不確実性の応⽤事例をエンドユーザー向けと開発者向けで分けて紹介しました。 n 安全性が必要な業界、ユーザー体験、⼈との協調など、⼈に関わるタスクが多い印象を受けました。 n 個⼈的に調査した結果、NLPの定量的な精度合戦がCVより多い印象を受けました。 n もう少し定性的にどんな⽂章で精度が悪化するのか、など詳細な分析が報告されることを期待します。 n また、NLPではMC dropout系が多く、CVでは深層アンサンブルが多いので界隈のギャップを感じました。最後に

深層学習を用いた予測の不確実性-自然言語処理編-

深層学習を用いた予測の不確実性-自然言語処理編-

masatoto

More Decks by masatoto

Other Decks in Research

Featured

Transcript

深層学習を⽤いた予測の不確実性⾃然⾔語処理編 2022/8/22 株式会社電通国際情報サービス X（クロス）イノベーション本部 AIトランスフォーメーションセンター太⽥真⼈

⾃⼰紹介 n 太⽥真⼈ n ISIDでデータサイエンティストをしています。 n お仕事は、AI製品開発、データ分析案件、研究など n 最近は、⼈とAIの協調など、HCIに興味があります。

n NLPにおける予測の不確実性 n 最先端の不確実性の定量化⼿法 ØBatch Ensemble ØSNGP ØHeteroscedastic n T5-Plex︓⼤規模モデルの信頼性

定量化評価応⽤予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

予測の不確実性とは︖ モデルの不確実性データの不確実性系列予測の不確実性

モデルとデータの不確実性の計算⽅法の例 Model Uncertainty Data Uncertainty Predictive Uncertainty 異なるモデル構造での予測平均のばらつき異なるモデル構造での出⼒の不均⼀分散の期待値 [AAAI

不確実性の定量化⼿法 Ø Batch Ensemble [ICLR 2020] Ø SNGP [NeurIPS 2020]

定量化評価応⽤予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

n Deep Ensemblesの近似で決定論的な⼿法 n 右図のように緑のDeep Ensemblesに⽐べ、メモリ・テスト時間も抑えられます。 n ⼀つのNN構造の⼀度の推論で複数のモデルの計算結果を得ます。 n ポイント

n Spectral-normalized Neural Gaussian Process (SNGP)は決定論的な⼿法 n 出⼒層を結合層からガウス過程（GP）層に置き換え、データ分布外でモデルの不確実性を⾼めます。 n BERTとも組み合わせられています。

n 紹介した３つの⼿法以外にも実際のコードはEdward2や不確実性のベースラインで公開されています。実装コード https://github.com/google/edward2 https://github.com/google/uncertainty-baselines Batch Ensemble SNGP Plex

T5-Plex Ø Plexとは Ø 信頼性の⾼いAIシステムに求められること Ø ⼤規模⾔語モデルの信頼性の調査結果 Ø UQ⼿法間⽐較 Ø

定量化評価応⽤予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

n AIシステム⾃⾝の不確実性を表現可能なこと n 新しいシナリオに対して頑健であること n 新しいデータに素早く適応し、できるだけ少ないラベル付けで効率的に学習できること信頼性の⾼いAIシステムに求められること

n Calibration Ø 確信度と確信度に対応するサンプルの予測精度の誤差を評価する。 n Selective Prediction Ø 予測モデルの値を⽤いるか、⼈が予測するかを不確実性の閾値で決め、最終精度を評価する。

n 不確実性、ロバスト汎化、適応の３つのうち、適応に関するタスクを紹介します。 n Active learning Ø マージンサンプリングを⽤いて、訓練サンプル数を徐々に増やし、速く⾼い精度を⽬指す。 n Few-shot learning

n 全体感として、T5-PlexとViT-Plexの両⽅とも、複数のタスクで従来⼿法を凌駕しています。 n 不確実性を定量化するがゆえに精度が悪化することもありますが、今回は改善しています。 Plexと従来⼿法との性能⽐較

n T5-Plexの右図のみ説明します。 n ⿊点が各タスクでの、横軸７つのモデルを⽐較したときの最終性能の順位です。 n BE B, Het B, GP

n 具体的な⾔語タスクの⼀部の具体的な評価結果です。 n DE-GP は、Deep Ensemble(DE)のため、メモリと計算コストが10倍以上かかる⾼価な⼿法です。 n 決定論的な定量化⼿法に限定すると、Plex かBE が良い精度を出しています。

応⽤事例紹介 Ø エンドユーザー向け６選 Ø 開発者向け６選

定量化評価応⽤予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

エンドユーザー向け 1. 信頼性が必要なアプリケーション（医療） 2. 校正（キャリブレーション） 3. ファクトチェッカー⽀援 4. モデル解釈の⽀援 5.

n 事前学習の有無による較正の関係 Ø 事前学習済みの⽅が、IDとODで、精度もよく較正誤差は⼩さい。 n 事前学習済みモデル間の⽐較 Ø BERTよりRoBERTaの⽅が較正されている。 n ファインチューニングと較正の関係

頑健性（⾔い換え、スペルミスなど） [TACL 2020] An Empirical Study on Robustness to Spurious

n 学習したドメインと運⽤中のドメインが異なると精度が悪化する場合があります。 n 例）Language Style Drift, Topical Drift n 例えば⾔語スタイルの違いは、オンライン会議の会話と、対⾯の会話があります。