n この資料は、NLPにおける深層学習を⽤いた予測の不確実性の調査資料です。 n 基礎技術、最新技術、応⽤事例を3パートに分けて紹介しています。 n サーベイ論⽂をまとめたわけではなく、⾃分で検索して調べたため、⾼い網羅性があるとは⾔えません。 n 各スライドの末尾に引⽤論⽂名と国際会議名を載せました。 はじめに
Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 深層モデルに定量化⼿法を適応し、評価を通して、応⽤に活⽤していきます。 基本的に、ロードマップに沿って、説明していきます。
Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 全体感を⽰しつつ、Single Deterministic Methods を中⼼に掘り下げて説明します。
サマリー 決定論的な⽅法よりDeep Ensembleの⽅がいい結果を⽰していた調査論⽂︓[IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification 図の引⽤︓ [arXiv 2021] A Survey of Uncertainty in Deep Neural Networks
Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 T5-Plexの紹介を通して、評価部分を説明します。
実証しています。 n ⼤規模⾔語モデルではT5を⽤い、不確実性の定量化(UQ)には決定論的な⼿法が⽤いられています。 Plex [ICML 2022] [ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions 図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html
n Open-set intent detection Ø Out of the scope(OOS)サービスである⾃然な発話を検出する ための意図検出タスクで評価する。 n Label Uncertainty Ø 画像のタスクのみ。ラベルノイズの多いサンプルを検出するタスクで、デー タ分布と予測分布のKL距離で評価する。 信頼性タスク(不確実性) n 不確実性、ロバスト汎化、適応の3つのうち、不確実性に関するタスクを紹介します。 図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html
Ø 少数の学習サンプルのみで、モデルがどの程度ダウンストリームタスクの予測を⾏えるかを評価する。 Ø 1-shot, 5-shot, 10-shot, and 25-shot (x-shot means x examples per class). n Few-shot uncertainty Ø Few-shotの設定でのキャリブレーションとOpen-set recognitionを評価する。 n 以後、不確実性、ロバスト汎化、適応の精度結果に意外性はないので、要約を述べて省略します。 n 要約 Ø モデルサイズが⼤きい⽅が良い。 Ø 不確実性の定量化の決定論的な⼿法の中では、Plexが良い。 Ø コストかかるけど、モデルのアンサンブルができるならばアンサンブルの⽅が良い。 信頼性タスク(適応)
効率的なアンサンブル Ø Batch Ensemble (BE) n 最終層の変更 Ø SNGPのうち最終層のGPを使⽤(GP) Ø Heteroscedastic (Het) n モデルの種類 T5-Plex name parameters embedding size encoder / decoder blocks headed attention Small (T5-Plex S) ∼77 million 512 8 6 Base (T5-Plex B) ∼250 million 768 12 12 Large (T5-Plex L) ∼880 million 1024 24 16
n 結果的に、多くのタスクで最先端の精度を更新しました。 n また、モデルのスケーリング、アンサンブル数、異なる不確実性の定量化⼿法を様々なタスクで⽐較実験していま した。 n 結果的に、モデルが⼤きく、アンサンブル数が増えるほど精度が上がり、現実的な計算コストではPlexが最も精度 が⾼かったです。 まとめ
Ø 最先端の較正⼿法を⽤いても、IDサンプルは良いが、ODサンプルは較正が悪い。 Ø ODサンプルの確信度が、実務レベルで困るほど、良い加減な値になるのかは実験してみないと不明。 n (+α) ファインチューニングかつ蒸留と較正の関係 Ø 教師モデルの較正性能を⽣徒モデルに蒸留できることが実験的に⽰された。 n 分類タスクでなく、系列出⼒タスクの場合 Ø BERT系はIDサンプルで、較正誤差が⼩さく、ODは較正誤差が悪い結果が得られている。 タスク︓GLUEタスク/NLI, ⾔い換え検出, 常識推論/名前付き固有表現認識、品詞認識、質問応答 事前学習-ファインチューニングにおける較正の調査 [EMNLP 2021] Calibration of Pre-trained Transformers (Pretraining) [RepL4NLP 2021] An Overview of Uncertainty Calibration for Text Classification and the Role of Distillation (Fine-Tuning) [ACL 2021] Calibrating Structured Output Predictors for Natural Language Processing (Sequence Output) ID: In Domain OD: Out of Domain
We Trust This Summary? Bayesian Abstractive Summarization to The Rescue [EMNLP 2020] Understanding Neural Abstractive Summarization Models via Uncertainty 不確実性が⾼い場合、結果がばらつく 不確実性が低い場合、⼀貫している
度 RoBERTa-largeに基づくSNLI訓練集合のデータマップ Variability︓エポックごとの予測のばらつき [EMNLP 2020] Dataset Cartography:Mapping and Diagnosing Datasets with Training Dynamics [TACL 2020] An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models (擬似相関) 外れ値か検討 誤差分析 ラベルミス確認 テキスト修正検討
Correlations using Pre-trained Language Models [EMNLP 2021] Evaluating the Robustness of Neural Language Models to Input Perturbations [ACL 2020] Beyond Accuracy: Behavioral Testing of NLP Models with CheckList n ⼈の不完全な⽂章やスペルミスに対して、最先端の⾔語モデルでも予測を誤ることがあります。 n データやモデルの不確実性を定量化することで、ユーザーが⼊⼒⽂章の複雑さや誤りに気づくきっかけになります。 n RoBERTaを⽤いたNLPタスクで、⽂字レベルや単語レベルの⼊⼒摂動に敏感な場合もあります(下図)。
n テキストでのドメインシフトは、テーブルデータと違い、気づきにくいです。 n まだ研究レベルですが、不確実性の定量化では、ドメインシフト時に不確実性が⾼くなることで開発者にフィード バックしようとしています。 ドメインシフト検知 Out-of-domain detection 共変量シフトの設定 [IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification [ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions 学習 運⽤
n 最後に、実際の予測の不確実性の応⽤事例をエンドユーザー向けと開発者向けで分けて紹介しました。 n 安全性が必要な業界、ユーザー体験、⼈との協調など、⼈に関わるタスクが多い印象を受けました。 n 個⼈的に調査した結果、NLPの定量的な精度合戦がCVより多い印象を受けました。 n もう少し定性的にどんな⽂章で精度が悪化するのか、など詳細な分析が報告されることを期待します。 n また、NLPではMC dropout系が多く、CVでは深層アンサンブルが多いので界隈のギャップを感じました。 最後に