NLP2023 分類タスクにおける不確実性の高い文章の傾向調査

by masatoto

Slide 1

Slide 1 text

1 株式会社電通国際情報サービス（ISID）太⽥真⼈, ファイサルハディプトラ 2023/3/14 (⽕) 分類タスクにおける不確実性の⾼い⽂章の傾向調査 A4-4

Slide 2

Slide 2 text

2 サマリー AIシステムを機械学習による予測を内在するシステムとする。 AIシステムを提供するITベンダーの多くは、運⽤時の予測の劣化に負債を抱える。顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムが必要。 Ø⾃動前処理、⾼い予測精度、予測傾向の理解、精度改善⽀援、ユーザービリティ研究内容：予測の不確実性に基づく⽂章分析から分類⽂章の傾向調査 üNLP初学者が11種類の⽂章傾向を発⾒ ü⽂章傾向から誤分類要因の把握が可能今後は、発⾒した誤分類要因から精度改善の⽀援⽅法を取り組む。

Slide 3

Slide 3 text

3 アジェンダ実験結果５：まとめ実験設定４：３：分析⽅法２：背景１：

Slide 4

Slide 4 text

4 背景 01

Slide 5

Slide 5 text

5 AIビジネスモデルの⼀例 ITベンダーがPoCを経てAIシステムを事業会社に導⼊する。事業会社はデータをアップロードし予測結果を⾒て業務する。 ITベンダー事業会社 AIシステム開発ユーザー AIシステム担当者 AIシステムデータ分析 & 精度改善導⼊⽀援データアップロード予測結果予測結果

Slide 6

Slide 6 text

6 AIシステムが信頼できないと起こる負の連鎖 AIモデルの精度が低く、原因や精度改善⽅法も不明な場合、ITベンダーに依頼。対応できるデータサイエンティストは限られ、双⽅にコストがかかる。 ITベンダー事業会社ユーザー AIシステム担当者 AIシステム急なデータ分析対応⽀援 💦 💦 データアップロード予測結果予測結果 💦 依頼データサイエンティスト

Slide 7

Slide 7 text

7 ⾃⼰完結型の信頼されるAIシステムの実現に向けて AIシステムに不信感を抱かれると解約につながる。顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。 • ユーザーから信頼を得る Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応 • AIシステム担当者から信頼を得る Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ

Slide 8

Slide 8 text

8 ⾃⼰完結型の信頼される⽂章分類システムの実現顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。 • ユーザーからの信頼を得る Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応 • 分析担当者からの信頼を得る Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ hugging Faceに学習済みモデルが公開され、ベースラインができた。

Slide 9

Slide 9 text

9 信頼される⽂章分類システムの実現の課題 AIシステムの中でモデルの分類傾向を理解できるプロセスが求められる。 • ユーザーからの信頼を得る Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応 • 分析担当者からの信頼を得る Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティどの⽂章なら正しく分類でき、どの⽂章だと難しいのか。分析者の経験・⼒量にかかっている。発⾒できるバグ数に差が⽣まれる [Balayn22]。 [Balayn22] How can Explainability Methods be Used to Support Bug Identification in Computer Vision Models?, CHI’22

Slide 10

Slide 10 text

10 分類傾向を理解する既存研究 • 説明性⼿法による解釈 [Lertvittayakumjorn21] ØSHAP、ベクトル近傍⽂章、アテンションによる判断根拠の解釈 • 予測の不確実性による解釈 [Xiao19] Ø確信度やエントロピーによる分類境界付近⽂章の理解 Ø事前学習済みモデルに対する不確実性の⾼い⽂章の分析はまだない • 擬似相関の発⾒による解釈 [Du22] Øあるクラスにしか出現しない単語のみで分類している単語を発⾒ [Lertvittayakumjorn21] “Explanation-Based Human Debugging of NLP Models: A Survey”, Arxiv:2104.15135 [Xiao19] “Quantifying Uncertainties in Natural Language Processing Tasks”, AAAI19 [Du22] “Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey”, Arxiv:2208.11857

Slide 11

Slide 11 text

11 本研究の主題予測の不確実性に基づく⽂章分析は分類傾向の理解につながるか？分類傾向の理解 Ø分析者が精度改善のため、モデルが未知なことを知り、分類境界を把握する。本研究の取り組み • 事前学習済みモデルを⽤いて予測の不確実性を2種類定量化 • NLP初学者がそれぞれの不確実性の⾼い/低い⽂章傾向を調査 • 発⾒した傾向が誤分類要因か検証

Slide 12

Slide 12 text

12 分析⽅法 03

Slide 13

Slide 13 text

13 予測の不確実性とは信頼されるAIを実現する技術予測の不確実性をデータの不確実性とモデルの不確実性に分けて考える。 • モデルの不確実性 Øデータ分布外サンプル（モデルが未知なこと）に対し、不確かさが⾼くなる。 • データの不確実性 Ø分類境界上の複雑な⼊⼒に対し、不確かさが⾼くなる。 Model 1 Model 2 Model 3 Model 1 Model 2 Model 3 Model 3 Data Uncertainty Model Uncertainty

Slide 14

Slide 14 text

14 予測の不確実性に基づく⽂章分析分析⼿順 • テストデータの不確実性スコアを計算する。 • 不確実性が⾼い⽂章と低い⽂章を上位 5% を分析者が読む。 • 発⾒した⽂章の共通傾向を記録する。 Uncertain Certain ⽂章数

Slide 15

Slide 15 text

15 実験設定 04

Slide 16

Slide 16 text

16 分類器と不確実性の定量化⼿法 • 分類モデル：cl-tohoku/bert-base-Japanese-v2 Ø事前学習データ：2019年9⽉1⽇までのJapanese Wikipedia 2.6GB サイズ • 不確実性の定量化⼿法：Deep Ensembles [Lakshminarayanan 2017] Ø分類器のヘッドの初期値を変えて学習（アンサンブルメンバー数：５） • データの不確実性：期待値エントロピー • モデルの不確実性：相互情報量モデル: https://huggingface.co/cl-tohoku/bert-base-japanese-v2 [Lakshminarayanan 2017] Simple and scalable predictive uncertainty estimation using deep ensembles. NeurIPS2017.

Slide 17

Slide 17 text

17 実験データセット⽇本語の⽂章分類データセットを使⽤ BERT精度はファインチューニング済みデータセット名分類タスククラス訓練テスト BERT 精度 MARC-ja Amazon 商品レビュー 2 10,000 5,654 94.32 WRIME twitterの感情分析 3 30,000 2,500 71.32 Livedoor-news ニュース記事トピック分類 9 4,421 1,474 96.46 ※ MARC-jaは訓練データのネガポジ⽐率を1:1に変更 ※ WRIMEは5クラスをタスク簡単化のため3クラスに変更強いネガティブと弱いネガティブ->ネガティブ強いポジティブと弱いポジティブ->ポジティブ

Slide 18

Slide 18 text

18 実験結果 05

Slide 19

Slide 19 text

19 データの不確実性が⾼くなる⽂章傾向（ MARC-ja ）分類境界上の複雑な⽂章が多いとされる。 Ø明⽰的にネガポジの感情を表す単語が含まれていない説明的な⽂章が多い。 Øレビュー対象でなく⽐較商品を褒める⽂章が多い。

Slide 20

Slide 20 text

20 モデルの不確実性が⾼くなる⽂章傾向（ MARC-ja ）モデルが知らない未知な⽂章が多いとされる。 Ø⽂中に固有名詞、特殊記号が多い Ø単語の意味変化：“良い意味で”, “嬉しい誤算”, ”今後に期待”

Slide 21

Slide 21 text

21 発⾒した⽂章傾向の誤分類要因評価⼈が⾒つけた不確実性の⾼い⽂章傾向は誤分類と関係があるのか分析対象：各不確実性の⾼い 300件と低い300件以下を満たす傾向を誤分類要因とする。 1. 不確実性の⾼い⽅に多く出現 2. 不確実性の⾼い⽅が分類率が悪い⽇本語評価極性辞書（名詞編）ver.1.0でネガポジを定義 ※”別商品と⽐較” など⼀部カウントルールの定義が難しいものは除外した。

Slide 22

Slide 22 text

22 発⾒した誤分類要因 • 7種類中5種類は誤分類要因 “同じ⽂字の繰り返し”が本質的な要因でなく、⽂章の意味合いや出現単語が原因だった。

Slide 23

Slide 23 text

23 まとめ 06

Slide 24

Slide 24 text

24 まとめ予測の不確実性に基づく⽂章分析は分類傾向の理解につながるのか分類傾向の理解 Ø分析者が精度改善のため、モデルが未知なことを知り、分類境界を把握する。 • 分類境界上とモデルが未知なとき⾼くなる不確実性から⽂章傾向の調査 • 11種類の傾向を発⾒し、定量化可能な傾向の7種類中5種類は誤分類要因だった。 • 結果、予測の不確実性は精度改善に向けた分類傾向の把握に活⽤できる。

Slide 25

Slide 25 text

25 今後の研究⾃⼰完結型の信頼されるAIシステムの実現に向けて顧客⾃⾝で精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。 • ユーザーから信頼を得る Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応 • 社内分析担当者から信頼を得る Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ不確実性の⾼い⽂章を対象に精度改善⽅法の検証プロトタイプ開発からユーザービリティテスト

Slide 26

Slide 26 text

26 Appendix 06

Slide 27

Slide 27 text

27 不確実性の定量化指標予測分布の不確実性はデータの不確実性とモデルの不確実性に分けられる。相互情報量（モデルの不確実性）各予測分布のエントロピーが⼩さくとも、事後予測エントロピーが⼤きい場合に不確実性が⾼まる。ここで，事後予測分布は，パラメータの事後分布のサンプリングによる予測分布の期待値で表される。，

Slide 28

Slide 28 text

28 WRIMEの⽂章傾向カテゴリ傾向⽂章例未知・低頻出単語固有名詞かねちいぃぃぃ，かねちの眼鏡⿊髪店員姿が⽬に焼き付いて忘れられ… 未知語吉⽥栄作，今⽇のホンマでっかおもしろ！！若者⾔葉今⽇の名作君はよいちょだのあげみざわだのだの，ぎゃんきゃわ，ぴゃー！きゃわー！，やさすぃ⽪⾁・悪評夫がダイエット中なのにお菓⼦を買ってきて勧めてくる笑不確実性が低い完全⽂で感情が明確ラグビー観るたびルール覚えてくから楽しい！感動したーサーヤとよしこほんと良かったカテゴリ傾向⽂章例ハードサンプルネガポジ・ポジネガ⽂御岳百草丸は1回に20粒数えて飲むのが⾯倒くさい。…でも腹痛治るからいいや。，うわ、うれし… ポジネガ形容詞なしおひるごはんを調達してこようお腹が減ってフラフラ説明にポジ形容詞あり好きなものに対して「〜だから好き」って⾔葉にするの勇気がいるよなあ “美味しそう” ポジ分類おはぎ美味しそう，すき焼きに卵美味しそう〜，雲パン美味しそうデータノイズ同じ⽂字の繰り返しまた⾬。。。，可愛い；；；；短⽂わーいレポート終わった(⽩⽬)，はっしーやべーよ

Slide 29

Slide 29 text

29 Livedoor-Newsの⽂章傾向カテゴリ傾向⽂章例未知・低頻出単語固有名詞 “和製レディー・ガガ”きゃりーぱみゅぱみゅ「ジワジワと世界征服したい」DVD - TSUTAYA・スカイライン征服 - きゃりーぱみゅぱみゅのウェイウェイブログ' 英単語快適なスマホライフのための必須アプリ「マトリックスレボリューションズ」(c)Warner Bros. Entertainment Inc.「チャーリーズ・エンジェル」(c)2003 Columbia Pictures Industries, … 歴史、イベント次回以降の“放送テーマ”・2回⽬（2/26）『世界が認めた⽇本外交』陸奥宗光・⼩村寿太郎と伊藤博⽂・3回⽬（3/4）『政党政治の興隆と終焉』⽇本近代化を進めた政治家列伝⼤隈重信 … ⽅⾔ …売れへんかったらどうしよとかいう発想が無かったですからね。⼤体、サラリーマンとかできひんやろなとか思ってたし… ラベルミス？ kaden-channelで旅⾏の内容不確実性が低い位置バイアス【Sports Watch】が⽂頭にあるとクラスが定まる。カテゴリ傾向⽂章例ハードサンプル⻑⽂ 512⽂字を超える⻑さ短⽂ 6⽉9⽇「ロックの⽇」10周年記念に“MIWA ROCK!!”に新モード「HARD」が追加MIWA ROCK!! クラス被覆 dokujo-tsushinクラスが複数のクラスの内容を包含しているクラス類似 kaden-channelの記事とsmaxの記事が類似

Slide 30

Slide 30 text

30 不確実性と誤分類の精度関係 RCC-AUC が⼩さいほど、誤分類リスクのある⽂章を棄却できる。 • データの不確実性（DU）が最も誤分類と関係が⾼い指標だった。 • モデルの不確実性（MU）が⾼くとも誤分類率が⾼いわけではなかった。 Uncertain Certain AI ⼈誤分類多く含むか ※Total Uncertainty (TU) = Data Uncertainty (DU) + Model Uncertainty (MU)