Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP2023 分類タスクにおける不確実性の高い文章の傾向調査

masatoto
March 28, 2023

NLP2023 分類タスクにおける不確実性の高い文章の傾向調査

NLP2023の発表資料になります。

masatoto

March 28, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 1
    株式会社 電通国際情報サービス(ISID)
    太⽥ 真⼈, ファイサル ハディプトラ
    2023/3/14 (⽕)
    分類タスクにおける不確実性の⾼い⽂章の傾向調査
    A4-4

    View Slide

  2. 2
    サマリー
    AIシステムを機械学習による予測を内在するシステムとする。
    AIシステムを提供するITベンダーの多くは、運⽤時の予測の劣化に負債を抱える。
    顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムが必要。
    Ø⾃動前処理、⾼い予測精度、予測傾向の理解、精度改善⽀援、ユーザービリティ
    研究内容:予測の不確実性に基づく⽂章分析から分類⽂章の傾向調査
    üNLP初学者が11種類の⽂章傾向を発⾒
    ü⽂章傾向から誤分類要因の把握が可能
    今後は、発⾒した誤分類要因から精度改善の⽀援⽅法を取り組む。

    View Slide

  3. 3
    アジェンダ
    実験結果
    5: まとめ
    実験設定
    4:
    3:
    分析⽅法
    2:
    背景
    1:

    View Slide

  4. 4
    背景
    01

    View Slide

  5. 5
    AIビジネスモデルの⼀例
    ITベンダーがPoCを経てAIシステムを事業会社に導⼊する。
    事業会社はデータをアップロードし予測結果を⾒て業務する。
    ITベンダー 事業会社
    AIシステム開発
    ユーザー
    AIシステム担当者
    AIシステム
    データ分析 & 精度改善
    導⼊
    ⽀援
    データ
    アップロード
    予測結果 予測結果

    View Slide

  6. 6
    AIシステムが信頼できないと起こる負の連鎖
    AIモデルの精度が低く、原因や精度改善⽅法も不明な場合、ITベンダーに依頼。
    対応できるデータサイエンティストは限られ、双⽅にコストがかかる。
    ITベンダー 事業会社
    ユーザー
    AIシステム担当者
    AIシステム
    急なデータ分析対応
    ⽀援
    💦
    💦
    データ
    アップロード
    予測結果 予測結果
    💦
    依頼
    データサイエンティスト

    View Slide

  7. 7
    ⾃⼰完結型の信頼されるAIシステムの実現に向けて
    AIシステムに不信感を抱かれると解約につながる。
    顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。
    • ユーザーから信頼を得る
    Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応
    • AIシステム担当者から信頼を得る
    Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ

    View Slide

  8. 8
    ⾃⼰完結型の信頼される⽂章分類システムの実現
    顧客⾃⾝が精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。
    • ユーザーからの信頼を得る
    Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応
    • 分析担当者からの信頼を得る
    Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ
    hugging Faceに学習済みモデルが公開され、ベースラインができた。

    View Slide

  9. 9
    信頼される⽂章分類システムの実現の課題
    AIシステムの中でモデルの分類傾向を理解できるプロセスが求められる。
    • ユーザーからの信頼を得る
    Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応
    • 分析担当者からの信頼を得る
    Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ
    どの⽂章なら正しく分類でき、どの⽂章だと難しいのか。
    分析者の経験・⼒量にかかっている。
    発⾒できるバグ数に差が⽣まれる [Balayn22]。
    [Balayn22] How can Explainability Methods be Used to Support Bug Identification in Computer Vision Models?, CHI’22

    View Slide

  10. 10
    分類傾向を理解する既存研究
    • 説明性⼿法による解釈 [Lertvittayakumjorn21]
    ØSHAP、ベクトル近傍⽂章、アテンションによる判断根拠の解釈
    • 予測の不確実性による解釈 [Xiao19]
    Ø確信度やエントロピーによる分類境界付近⽂章の理解
    Ø事前学習済みモデルに対する不確実性の⾼い⽂章の分析はまだない
    • 擬似相関の発⾒による解釈 [Du22]
    Øあるクラスにしか出現しない単語のみで分類している単語を発⾒
    [Lertvittayakumjorn21] “Explanation-Based Human Debugging of NLP Models: A Survey”, Arxiv:2104.15135
    [Xiao19] “Quantifying Uncertainties in Natural Language Processing Tasks”, AAAI19
    [Du22] “Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey”, Arxiv:2208.11857

    View Slide

  11. 11
    本研究の主題
    予測の不確実性に基づく⽂章分析は分類傾向の理解につながるか?
    分類傾向の理解
    Ø分析者が精度改善のため、モデルが未知なことを知り、分類境界を把握する。
    本研究の取り組み
    • 事前学習済みモデルを⽤いて予測の不確実性を2種類定量化
    • NLP初学者がそれぞれの不確実性の⾼い/低い⽂章傾向を調査
    • 発⾒した傾向が誤分類要因か検証

    View Slide

  12. 12
    分析⽅法
    03

    View Slide

  13. 13
    予測の不確実性とは信頼されるAIを実現する技術
    予測の不確実性をデータの不確実性とモデルの不確実性に分けて考える。
    • モデルの不確実性
    Øデータ分布外サンプル(モデルが未知なこと)に対し、不確かさが⾼くなる。
    • データの不確実性
    Ø分類境界上の複雑な⼊⼒に対し、不確かさが⾼くなる。
    Model 1
    Model 2
    Model 3
    Model 1
    Model 2
    Model 3
    Model 3
    Data Uncertainty
    Model
    Uncertainty

    View Slide

  14. 14
    予測の不確実性に基づく⽂章分析
    分析⼿順
    • テストデータの不確実性スコアを計算する。
    • 不確実性が⾼い⽂章と低い⽂章を上位 5% を分析者が読む。
    • 発⾒した⽂章の共通傾向を記録する。
    Uncertain
    Certain



    View Slide

  15. 15
    実験設定
    04

    View Slide

  16. 16
    分類器と不確実性の定量化⼿法
    • 分類モデル:cl-tohoku/bert-base-Japanese-v2
    Ø事前学習データ:2019年9⽉1⽇までのJapanese Wikipedia 2.6GB サイズ
    • 不確実性の定量化⼿法:Deep Ensembles [Lakshminarayanan 2017]
    Ø分類器のヘッドの初期値を変えて学習(アンサンブルメンバー数:5)
    • データの不確実性:期待値エントロピー
    • モデルの不確実性:相互情報量
    モデル: https://huggingface.co/cl-tohoku/bert-base-japanese-v2
    [Lakshminarayanan 2017] Simple and scalable predictive uncertainty estimation using deep ensembles. NeurIPS2017.

    View Slide

  17. 17
    実験データセット
    ⽇本語の⽂章分類データセットを使⽤
    BERT精度はファインチューニング済み
    データセット名 分類タスク クラス 訓練 テスト BERT 精度
    MARC-ja Amazon 商品レビュー 2 10,000 5,654 94.32
    WRIME twitterの感情分析 3 30,000 2,500 71.32
    Livedoor-news ニュース記事トピック
    分類
    9 4,421 1,474 96.46
    ※ MARC-jaは訓練データのネガポジ⽐率を1:1に変更
    ※ WRIMEは5クラスをタスク簡単化のため3クラスに変更
    強いネガティブと弱いネガティブ->ネガティブ
    強いポジティブと弱いポジティブ->ポジティブ

    View Slide

  18. 18
    実験結果
    05

    View Slide

  19. 19
    データの不確実性が⾼くなる⽂章傾向( MARC-ja )
    分類境界上の複雑な⽂章が多いとされる。
    Ø明⽰的にネガポジの感情を表す単語が含まれていない説明的な⽂章が多い。
    Øレビュー対象でなく⽐較商品を褒める⽂章が多い。

    View Slide

  20. 20
    モデルの不確実性が⾼くなる⽂章傾向( MARC-ja )
    モデルが知らない未知な⽂章が多いとされる。
    Ø⽂中に固有名詞、特殊記号が多い
    Ø単語の意味変化:“良い意味で”, “嬉しい誤算”, ”今後に期待”

    View Slide

  21. 21
    発⾒した⽂章傾向の誤分類要因評価
    ⼈が⾒つけた不確実性の⾼い⽂章傾向は誤分類と関係があるのか
    分析対象:各不確実性の⾼い 300件と低い300件
    以下を満たす傾向を誤分類要因とする。
    1. 不確実性の⾼い⽅に多く出現
    2. 不確実性の⾼い⽅が分類率が悪い
    ⽇本語評価極性辞書(名詞編)ver.1.0でネガポジを定義
    ※”別商品と⽐較” など⼀部カウントルールの定義が難しいものは除外した。

    View Slide

  22. 22
    発⾒した誤分類要因
    • 7種類中5種類は誤分類要因
    “同じ⽂字の繰り返し”が本質的な要
    因でなく、⽂章の意味合いや出現単
    語が原因だった。

    View Slide

  23. 23
    まとめ
    06

    View Slide

  24. 24
    まとめ
    予測の不確実性に基づく⽂章分析は分類傾向の理解につながるのか
    分類傾向の理解
    Ø分析者が精度改善のため、モデルが未知なことを知り、分類境界を把握する。
    • 分類境界上とモデルが未知なとき⾼くなる不確実性から⽂章傾向の調査
    • 11種類の傾向を発⾒し、定量化可能な傾向の7種類中5種類は誤分類要因だった。
    • 結果、予測の不確実性は精度改善に向けた分類傾向の把握に活⽤できる。

    View Slide

  25. 25
    今後の研究
    ⾃⼰完結型の信頼されるAIシステムの実現に向けて
    顧客⾃⾝で精度改善まで可能な⾃⼰完結型の信頼されるAIシステムを⽬指す。
    • ユーザーから信頼を得る
    Ø⾼い分類精度、誤分類の納得感、誤分類リスクが⾼い場合のシステム対応
    • 社内分析担当者から信頼を得る
    Ø⾼い分類精度、モデルの分類傾向の理解、精度改善の⽀援、ユーザービリティ
    不確実性の⾼い⽂章を対象に精度改善⽅法の検証
    プロトタイプ開発からユーザービリティテスト

    View Slide

  26. 26
    Appendix
    06

    View Slide

  27. 27
    不確実性の定量化指標
    予測分布の不確実性はデータの不確実性とモデルの不確実性に分けられる。
    相互情報量(モデルの不確実性)
    各予測分布のエントロピーが⼩さくとも、事後予測エントロピーが⼤きい場合に不確実性が⾼まる。
    ここで,事後予測分布は,パラメータの事後分布のサンプリングによる予測分布の期待値で表される。

    View Slide

  28. 28
    WRIMEの⽂章傾向
    カテゴリ 傾向 ⽂章例
    未知・低頻出単語 固有名詞 かねちいぃぃぃ,かねちの眼鏡⿊髪店員姿が⽬に焼き付いて忘れられ…
    未知語 吉⽥栄作,今⽇のホンマでっかおもしろ!!
    若者⾔葉 今⽇の名作君はよいちょだのあげみざわだのだの,ぎゃんきゃわ,
    ぴゃー!きゃわー!,やさすぃ
    ⽪⾁・悪評 夫がダイエット中なのにお菓⼦を買ってきて勧めてくる笑
    不確実性が低い 完全⽂で感情が明確 ラグビー観るたびルール覚えてくから楽しい!感動したー
    サーヤとよしこほんと良かった
    カテゴリ 傾向 ⽂章例
    ハードサンプル ネガポジ・ポジネガ⽂ 御岳百草丸は1回に20粒数えて飲むのが⾯倒くさい。…でも腹痛治るか
    らいいや。,うわ、うれし…
    ポジネガ形容詞なし おひるごはんを調達してこよう お腹が減ってフラフラ
    説明にポジ形容詞あり 好きなものに対して「〜だから好き」って⾔葉にするの勇気がいるよ
    なあ
    “美味しそう” ポジ分類 おはぎ美味しそう,すき焼きに卵美味しそう〜,雲パン美味しそう
    データノイズ 同じ⽂字の繰り返し また⾬。。。,可愛い;;;;
    短⽂ わーいレポート終わった(⽩⽬),はっしーやべーよ

    View Slide

  29. 29
    Livedoor-Newsの⽂章傾向
    カテゴリ 傾向 ⽂章例
    未知・低頻出単語 固有名詞 “和製レディー・ガガ”きゃりーぱみゅぱみゅ「ジワジワと世界征服し
    たい」DVD - TSUTAYA・スカイライン征服 - きゃりーぱみゅぱみゅの
    ウェイウェイブログ'
    英単語 快適なスマホライフのための必須アプリ「マトリックス レボリュー
    ションズ」(c)Warner Bros. Entertainment Inc.「チャーリーズ・エン
    ジェル」(c)2003 Columbia Pictures Industries, …
    歴史、イベント 次回以降の“放送テーマ”・2回⽬(2/26)『世界が認めた⽇本外交』陸
    奥宗光・⼩村寿太郎と伊藤博⽂・3回⽬(3/4)『政党政治の興隆と終
    焉』⽇本近代化を進めた政治家列伝 ⼤隈重信 …
    ⽅⾔ …売れへんかったらどうしよとかいう発想が無かったですからね。⼤体、
    サラリーマンとかできひんやろなとか思ってたし…
    ラベルミス? kaden-channelで旅⾏の内容
    不確実性が低い 位置バイアス 【Sports Watch】が⽂頭にあるとクラスが定まる。
    カテゴリ 傾向 ⽂章例
    ハードサンプル ⻑⽂ 512⽂字を超える⻑さ
    短⽂ 6⽉9⽇「ロックの⽇」10周年記念に“MIWA ROCK!!”に新モード
    「HARD」が追加MIWA ROCK!!
    クラス被覆 dokujo-tsushinクラスが複数のクラスの内容を包含している
    クラス類似 kaden-channelの記事とsmaxの記事が類似

    View Slide

  30. 30
    不確実性と誤分類の精度関係
    RCC-AUC が⼩さいほど、誤分類リスクのある⽂章を棄却できる。
    • データの不確実性(DU)が最も誤分類と関係が⾼い指標だった。
    • モデルの不確実性(MU)が⾼くとも誤分類率が⾼いわけではなかった。
    Uncertain
    Certain
    AI ⼈
    誤分類多く含むか
    ※Total Uncertainty (TU) = Data Uncertainty (DU) + Model Uncertainty (MU)

    View Slide