Upgrade to Pro — share decks privately, control downloads, hide ads and more …

深層学習を用いた予測の不確実性-自然言語処理編-

masatoto
September 21, 2022

 深層学習を用いた予測の不確実性-自然言語処理編-

社内の合宿で利用した資料です。

masatoto

September 21, 2022
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. ⾃⼰紹介 n 太⽥ 真⼈ n ISIDでデータサイエンティストをしています。 n お仕事は、AI製品開発、データ分析案件、研究など n 最近は、⼈とAIの協調など、HCIに興味があります。

    n この資料は、NLPにおける深層学習を⽤いた予測の不確実性の調査資料です。 n 基礎技術、最新技術、応⽤事例を3パートに分けて紹介しています。 n サーベイ論⽂をまとめたわけではなく、⾃分で検索して調べたため、⾼い網羅性があるとは⾔えません。 n 各スライドの末尾に引⽤論⽂名と国際会議名を載せました。 はじめに
  2. 定量化 評価 応⽤ 予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

    Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 深層モデルに定量化⼿法を適応し、評価を通して、応⽤に活⽤していきます。 基本的に、ロードマップに沿って、説明していきます。
  3. 予測の不確実性︓⼊⼒に対する出⼒の不確かさには⼤きく2種類あります。 n モデルの不確実性(Model Uncertainty ) Ø NN構造とモデルパラメータが、データ分布をよく表現できるかどうかの不確かさ • 訓練時のデータ分布と乖離する単語か⽂章の場合、不確かさは⼤きくなります。 •

    ラベルの組み合わせ数が多くなる⾼カーディナリティなマルチクラス分類のときやデータの分布シフトが起きるときに必要 n データの不確実性(Data Uncertainty ) Ø 収集されたデータのノイズに関する不確かさ Ø homoscedastic uncertainty • ⼊⼒空間全体で不確実性が同じであり、系統的な観測ノイズによって引き起こされる可能性があります。 Ø heteroscedastic uncertainty • ⼊⼒に依存する不確かさ 例えば、Yelpのレビューのネガポジ判定の場合 • 単⼀単語のレビューで「良い」は3、4、5つ星の評価の可能性があります(不確実性が⾼い) • 強いポジティブな感情のフレーズを含む⻑めのレビューは間違いなく5つ星の評価(不確実性が低い) 予測の不確実性 [AAAI 2019] Quantifying Uncertainties in Natural Language Processing Tasks
  4. ⾔語の不確実性︓⽂の内容に関する不確実性は⼤きく2種類あります。(調査外) n 意味的不確実性(semantic uncertainty) Ø Epistemic uncertainty︓⽂章の意味から考え、誰も事実かわからない不確実性 • 例えば「⾬が降るかもしれない」のようにその命題が事実であるかどうかは誰もわからない。 •

    単語例 “suggest”, ”may”, ”probable”, ”indicate” Ø Hypothetical uncertainty︓会話主が信じているが、検証していない不確実性 • 「彼は地球が平らであると信じている」が、これは仮定であり、昔は確認されていない。 • 単語例 “think”, ”believe”, ”if”, ”consider”, “would” n 談話レベルの不確実性(discourse-level uncertainty) Ø 話し⼿の⽂に情報が⽋落しており、問いに対して判断できない際の不確実性 Ø 例︓「何⼈かがパーティーに来た。」 「何⼈いたのか」という問いに対して、情報がなく不確実性が残る。 Ø 何⼈いたかは、⽂脈、話者、談話に依存し、⼀⽂から判断することはできない。 調査の対象外︓⾔語の不確実性 [Thesis 2015] Uncertainty Detection in Natural Language Texts [WIMS 2016] Uncertainty detection in natural language: a probabilistic model
  5. 定量化 評価 応⽤ 予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

    Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 全体感を⽰しつつ、Single Deterministic Methods を中⼼に掘り下げて説明します。
  6. n Deep Ensemblesの近似で決定論的な⼿法 n 右図のように緑のDeep Ensemblesに⽐べ、メモリ・テスト時間も抑えられます。 n ⼀つのNN構造の⼀度の推論で複数のモデルの計算結果を得ます。 n ポイント

    Ø ミニバッチの全サンプルをアンサンブルメンバー数だけ複製 Ø 複製された各サンプルは共通の重み とそれぞれ個別メンバーの重み を掛け合わせ出⼒します。 Ø 異なる重みごとに繰り返しフォワードパスする必要がなくなった。 Batch Ensemble [ICLR 2020] [ICLR 2020] BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning メンバー i ⽤の複製した⼊⼒ とその出⼒ 共通の重み 個別メンバーの重み
  7. n Spectral-normalized Neural Gaussian Process (SNGP)は決定論的な⼿法 n 出⼒層を結合層からガウス過程(GP)層に置き換え、データ分布外でモデルの不確実性を⾼めます。 n BERTとも組み合わせられています。

    ポイント Ø 意味的な距離(distance awareness)を得るため、中間表現でスペクトル正規化をおこなう。 Ø 予測分散にラプラス近似を適⽤し、GP事後分布をスケーラブルに計算する。 SNGP [NeurIPS 2020] 図の引⽤ [arXiv 2022] A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness
  8. n データセットにおける⼊⼒依存、また不均⼀分散として知られるラベルノイズをモデル化 n マルチクラス分類になるほど、ラベルノイズが多くなるため、データの不確実性の推定が重要です。 n ポイント Ø NN分類器の最終隠れ層に多変量ガウス分布を配置する。 Ø 共分散⾏列が、意味的に類似したクラスや共起するクラス間のラベルノイズを捕らえる。

    Heteroscedastic [CVPR 2021] NN 1 出⼒ ILSVRC12の共起しやすいラベルの例 推定共分散も⼤きくなっている [CVPR 2021] Correlated Input-Dependent Label Noise in Large-Scale Image Classification Edward2で実装されています: https://github.com/google/edward2/blob/main/edward2/tensorflow/layers/heteroscedastic.py#L508 ⼊⼒
  9. 定量化 評価 応⽤ 予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

    Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 T5-Plexの紹介を通して、評価部分を説明します。
  10. n Plexは、事前学習済み⼤規模⾔語モデルやViTモデルの予測の不確実性を定量化した⼿法です。 n ICML 2022 pre-training workshop で発表されたGoogleの論⽂です。 n 論⽂内では、信頼性のあるモデルは、不確実性、ロバスト汎化、適応を満たす必要があると主張しています。

    n 先ほど紹介した不確実性の定量化⼿法を⾔語モデルのT5に適応しています。 n モデルサイズが⼤きくなると信頼性のスコアが向上し、従来の⼿法を凌駕する結果が出ています。 サマリー +UQ→ T5-Plex UQ︓Uncertainty Quantification 図の引⽤︓ https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
  11. n Calibration Ø 確信度と確信度に対応するサンプルの予測精度の誤差を評価する。 n Selective Prediction Ø 予測モデルの値を⽤いるか、⼈が予測するかを不確実性の閾値で決め、 最終精度を評価する。

    n Open-set intent detection Ø Out of the scope(OOS)サービスである⾃然な発話を検出する ための意図検出タスクで評価する。 n Label Uncertainty Ø 画像のタスクのみ。ラベルノイズの多いサンプルを検出するタスクで、デー タ分布と予測分布のKL距離で評価する。 信頼性タスク(不確実性) n 不確実性、ロバスト汎化、適応の3つのうち、不確実性に関するタスクを紹介します。 図の引⽤︓https://ai.googleblog.com/2022/07/towards-reliability-in-deep-learning.html
  12. n 不確実性、ロバスト汎化、適応の3つのうち、ロバスト汎化に関するタスクを紹介します。 n In-distribution generalization Ø モデルが下流のデータセットでfine-tuningをおこなった後、どの程度予測を⾏うことができるかを評価する。 n Covariate shift

    Ø 条件つき分布は変化しないが、⼊⼒の分布が変化するシナリオを指し、分布内と同様に評価する。 n Subpopulation shift Ø 訓練集合のある部分集合(ロングテールの部分)に対する予測性能を向上させることを⽬指し評価する。 信頼性タスク(ロバスト汎化)
  13. n 不確実性、ロバスト汎化、適応の3つのうち、適応に関するタスクを紹介します。 n Active learning Ø マージンサンプリングを⽤いて、訓練サンプル数を徐々に増やし、速く⾼い精度を⽬指す。 n Few-shot learning

    Ø 少数の学習サンプルのみで、モデルがどの程度ダウンストリームタスクの予測を⾏えるかを評価する。 Ø 1-shot, 5-shot, 10-shot, and 25-shot (x-shot means x examples per class). n Few-shot uncertainty Ø Few-shotの設定でのキャリブレーションとOpen-set recognitionを評価する。 n 以後、不確実性、ロバスト汎化、適応の精度結果に意外性はないので、要約を述べて省略します。 n 要約 Ø モデルサイズが⼤きい⽅が良い。 Ø 不確実性の定量化の決定論的な⼿法の中では、Plexが良い。 Ø コストかかるけど、モデルのアンサンブルができるならばアンサンブルの⽅が良い。 信頼性タスク(適応)
  14. n 事前学習データ Ø ウェブからかき集めた数百GBの英⽂テキストからなるC4データセット n T5-Plexの学習⽅法 Ø 公式の事前学習済みT5チェックポイントから初期化され、ファインチューニングの際に効率的なアンサンブルと最終層の 変更を適⽤します。 n

    効率的なアンサンブル Ø Batch Ensemble (BE) n 最終層の変更 Ø SNGPのうち最終層のGPを使⽤(GP) Ø Heteroscedastic (Het) n モデルの種類 T5-Plex name parameters embedding size encoder / decoder blocks headed attention Small (T5-Plex S) ∼77 million 512 8 6 Base (T5-Plex B) ∼250 million 768 12 12 Large (T5-Plex L) ∼880 million 1024 24 16
  15. n T5-Plexの右図のみ説明します。 n ⿊点が各タスクでの、横軸7つのモデルを⽐較したときの最終性能の順位です。 n BE B, Het B, GP

    B はファインチューニング時に定量化⼿法を適応させた結果です。 n Plex はBE+GPになります。モデルサイズを除けば、Plexが最も⾼く、時点でBEと読み取れます。 不確実性の定量化⼿法の⽐較
  16. n 信頼性の⾼い深層モデルを考えるためのフレームワークを提案しています。 Ø 予測に対する信頼性を定量化、分布の変化に頑健であること、新しい分布に素早く適応できること n ⼤規模な事前学習済みモデルの信頼性を⾼めるため、Plexという⼿法を提案しています。 n ⾔語モデルでは、T5-Plexとして、T5に最先端の不確実性の定量化⼿法のSNGPとBatch Ensembleを組 み合わせています。

    n 結果的に、多くのタスクで最先端の精度を更新しました。 n また、モデルのスケーリング、アンサンブル数、異なる不確実性の定量化⼿法を様々なタスクで⽐較実験していま した。 n 結果的に、モデルが⼤きく、アンサンブル数が増えるほど精度が上がり、現実的な計算コストではPlexが最も精度 が⾼かったです。 まとめ
  17. 定量化 評価 応⽤ 予測の不確かさの活⽤のロードマップ MC dropout Deep Ensemble Bayesian methods

    Test-Time Augmentation Single Deterministic Methods Robustness Adaptation Uncertainty Human + AI Safety AI ユーザー体験向上 データセット分析 誰に役⽴つのかで分けて説明します。
  18. エンドユーザー向け 1. 信頼性が必要なアプリケーション(医療) 2. 校正(キャリブレーション) 3. ファクトチェッカー⽀援 4. モデル解釈の⽀援 5.

    ⾼品質なテキスト要約 6. ⼈とAIの分担業務(協調) AI開発者向け 1. ⾼コストなアノテーション向け学習⽀援(能動学習) 2. サンプル品質の確認 3. 精度の⾼いモデル構築⽀援(カリキュラム学習向け) 4. ⾔い換え表現、スペルミスによるロバスト性の確認 5. 共変量シフトの検知 6. 新規クラスの検知 NLPにおける予測の不確実性の活⽤事例12選
  19. n 事前学習の有無による較正の関係 Ø 事前学習済みの⽅が、IDとODで、精度もよく較正誤差は⼩さい。 n 事前学習済みモデル間の⽐較 Ø BERTよりRoBERTaの⽅が較正されている。 n ファインチューニングと較正の関係

    Ø 最先端の較正⼿法を⽤いても、IDサンプルは良いが、ODサンプルは較正が悪い。 Ø ODサンプルの確信度が、実務レベルで困るほど、良い加減な値になるのかは実験してみないと不明。 n (+α) ファインチューニングかつ蒸留と較正の関係 Ø 教師モデルの較正性能を⽣徒モデルに蒸留できることが実験的に⽰された。 n 分類タスクでなく、系列出⼒タスクの場合 Ø BERT系はIDサンプルで、較正誤差が⼩さく、ODは較正誤差が悪い結果が得られている。 タスク︓GLUEタスク/NLI, ⾔い換え検出, 常識推論/名前付き固有表現認識、品詞認識、質問応答 事前学習-ファインチューニングにおける較正の調査 [EMNLP 2021] Calibration of Pre-trained Transformers (Pretraining) [RepL4NLP 2021] An Overview of Uncertainty Calibration for Text Classification and the Role of Distillation (Fine-Tuning) [ACL 2021] Calibrating Structured Output Predictors for Natural Language Processing (Sequence Output) ID: In Domain OD: Out of Domain
  20. n SNSでは、誤った情報でさえ急速に広まり、事実確認の検証 をする前に多くの⼈に届いてしまいます。 n 誤って広まる情報の例︓⾃然災害の被害状況、感染症、政 治など n 事実確認をするべき内容を素早く検出し、ファクトチェッカーに 伝える必要があります。 n

    論⽂では、噂が真実か、嘘か、未検証かを予測するタスクでし た。 n 予測の不確実性が⾼いツイートをファクトチェッカーに伝えてい ます。 ファクトチェッカー⽀援(rumor verification) [ACL 2020] Estimating predictive uncertainty for rumour verification models [COLING 2018] All-in-one: Multi-task Learning for Rumour Verification ファクトチェックの例
  21. n 予測の不確実性が⾼い場合は、予測結果を使わない問題設定です。 n 選択的予測の評価では、Human–Model CollaborationとX%棄却法が主流になっています。 n Human–Model Collaborationは、不確実性が⾼い場合は⼈(オラクル)が判断します。 n X%棄却は、不確実性が⾼いX%のサンプルは、予測せず残りのサンプルのみで評価します。

    ⼈とAIの分担 Selective Prediction [RepL4NLP 2022] Towards Improving Selective Prediction Ability of NLP Systems [ACL 2022] Uncertainty Estimation of Transformer Predictions for Misclassification Detection オラクル︓⼈間が正しく判定できると仮定 不確実性 閾値
  22. n モデルを解釈することも⼤事ですが、データセット内に内在する外れ値や学習を困難にするサンプルを⾒つけるこ とも⼤事です。 n ⼀⽅で、学習を簡単にしすぎるとショートカット学習(擬似相関)になるので注意が必要です。 n 擬似相関対策として、少数の曖昧なサンプルがあると汎化も頑健性も向上するようです。 サンプル品質の確認 確 信

    度 RoBERTa-largeに基づくSNLI訓練集合のデータマップ Variability︓エポックごとの予測のばらつき [EMNLP 2020] Dataset Cartography:Mapping and Diagnosing Datasets with Training Dynamics [TACL 2020] An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models (擬似相関) 外れ値か検討 誤差分析 ラベルミス確認 テキスト修正検討
  23. 頑健性(⾔い換え、スペルミスなど) [TACL 2020] An Empirical Study on Robustness to Spurious

    Correlations using Pre-trained Language Models [EMNLP 2021] Evaluating the Robustness of Neural Language Models to Input Perturbations [ACL 2020] Beyond Accuracy: Behavioral Testing of NLP Models with CheckList n ⼈の不完全な⽂章やスペルミスに対して、最先端の⾔語モデルでも予測を誤ることがあります。 n データやモデルの不確実性を定量化することで、ユーザーが⼊⼒⽂章の複雑さや誤りに気づくきっかけになります。 n RoBERTaを⽤いたNLPタスクで、⽂字レベルや単語レベルの⼊⼒摂動に敏感な場合もあります(下図)。
  24. n 学習したドメインと運⽤中のドメインが異なると精度が悪化する場合があります。 n 例)Language Style Drift, Topical Drift n 例えば⾔語スタイルの違いは、オンライン会議の会話と、対⾯の会話があります。

    n テキストでのドメインシフトは、テーブルデータと違い、気づきにくいです。 n まだ研究レベルですが、不確実性の定量化では、ドメインシフト時に不確実性が⾼くなることで開発者にフィード バックしようとしています。 ドメインシフト検知 Out-of-domain detection 共変量シフトの設定 [IEEE Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification [ICML 2022] Plex: Towards Reliability Using Pretrained Large Model Extensions 学習 運⽤
  25. n テキストデータの場合、学習時のクラス数から徐々に新規クラスが⽣まれることがあります。 n 故障レポートの原因の分類問題では、新しい製品が出るたび、原因が徐々に増えてくる恐れがあります。 n そこで、⼊⼒空間は近いがラベル空間が異なるデータで評価します。 新規クラス検知 Novelty Detection [IEEE

    Access 2021] Benchmarking Scalable Predictive Uncertainty in Text Classification [ICML 2020] Predictive Uncertainty for Probabilistic Novelty Detection in Text Classification 新規クラス検知の設定 評価⽅法 不確実性の定量値とOODラベル(0がソースデータ、1が新規クラスデータとする)を⽐較し、 不確実性の定量値が2つのグループをどの程度分離するかを測定するためにAUROCを使⽤する。 予測分散 予測分散
  26. n NLPにおける予測の不確実性の定量化について紹介しました。 n 定量化⼿法に関しては、⼀つのネットワークの⼀回の推論で不確実性を定量化する⼿法の研究が盛んです。 n しかし、まだ計算時間がかかる深層アンサンブルした際の多様性には届いていないようです。 n 最先端の⼤規模⾔語モデルにおける不確実性としてPlexを紹介しました。 n 信頼性のあるAIシステムには、不確実性、頑健性、適応が必要であると述べていまいた。

    n 最後に、実際の予測の不確実性の応⽤事例をエンドユーザー向けと開発者向けで分けて紹介しました。 n 安全性が必要な業界、ユーザー体験、⼈との協調など、⼈に関わるタスクが多い印象を受けました。 n 個⼈的に調査した結果、NLPの定量的な精度合戦がCVより多い印象を受けました。 n もう少し定性的にどんな⽂章で精度が悪化するのか、など詳細な分析が報告されることを期待します。 n また、NLPではMC dropout系が多く、CVでは深層アンサンブルが多いので界隈のギャップを感じました。 最後に