判断根拠の不確実性を活用したデータ改善手法の提案

by masatoto

Embed

Start on current slide

Slide 1

Slide 1 text

⽂章分類モデルの不確実性に基づく⼈間によるデバッグ⼿法の提案太⽥真⼈(ISID) ファイサルハディプトラ (ISID) 2023年6⽉8⽇

Slide 2

Slide 2 text

ISIDのAI専⾨部署 AITCとは 2023年度⼈⼯知能学会全国⼤会 2 ①AI製品開発 DXを強⼒に⽀援する AI製品の提供図⾯活⽤AI ⽂書活⽤AI AIプラットフォーム AI 画像認識 ②AIコンサルティング顧客業務やAI技術に精通したコンサルタントによるDX⽀援 AI 需要予測 EngineeringAI ③AI⼈材育成 DXを加速させるための AI/データ活⽤⼈材育成⽀援 ④研究開発 ISIDのAIビジネスをリードする為の最新AI研究開発や研究事例の対外発表 ■ 登壇実績 - ⼈⼯知能学会 - ⾔語処理学会 AI製品開発やコンサルティング、AI⼈材育成のビジネスに加えて、ISIDのAIビジネスを下⽀えする研究開発を展開

Slide 3

Slide 3 text

n 業務担当者でも直感的に理解できる精度改善⼿法が求められる n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø ⼈間フィードバック︓⽂章の修正・追加 Ø 対象データの選択︓予測の不確実性の⾼い順 Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤ n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし研究概要 3 2023年度⼈⼯知能学会全国⼤会⽂章説明・不確実性

Slide 4

Slide 4 text

背景 2023年度⼈⼯知能学会全国⼤会

Slide 5

Slide 5 text

n AI製品単体では精度改善する⼿順までサポートされていないことが多い n 導⼊から継続的活⽤まで別のデータサイエンティストの⽀援が必要予測モデルの精度改善が容易でない実情 2023年度⼈⼯知能学会全国⼤会 5 AIソリューション AutoML 製品含む 1. データをアップロード 2. プルダウン選択 3. 訓練実⾏と精度確認 4. 外部の精度改善⽀援 5. デプロイ業務担当者＋データサイエンティスト

Slide 6

Slide 6 text

n 予測モデルの精度改善コストが⾼い n 分析の属⼈化 Ø 運⽤中の精度低下に対する急な対応 Ø 海外ではAIベビーシッターと⾔われている。既に起きている諸問題 2023年度⼈⼯知能学会全国⼤会 6 業務担当者データサイエンティストコスト 💦 💦 精度維持 💦 💦 AIソリューション AutoML 製品含む＋

Slide 7

Slide 7 text

AIシステムデータ分析者（AIエンジニア） AIを見守るモデル・データ・予測結果の監視ドメイン専門家（業務担当者）予測の結果・説明・不確実性の提供知識の追加・データ改善 AIを育てるモデル改善実現したい世界 2023年度⼈⼯知能学会全国⼤会 7 MLOps • 属⼈的になりやすい • AIの専⾨的知識を必要とする。 • データ管理のみ • 顧客の専⾨知識をデータに組み込む。

Slide 8

Slide 8 text

既存研究 2023年度⼈⼯知能学会全国⼤会

Slide 9

Slide 9 text

Explanation-Based Human Debugging (EBHD) 2023年度⼈⼯知能学会全国⼤会 9 n 予測根拠を⼈間が判断し、モデルにフィードバックする精度改善⼿法 n 本研究もこの枠組みを採⽤ [Lertvittayakumjorn+ 2021] 研究のスコープ

Slide 10

Slide 10 text

1. 評価データからランダムに⽂章を選択 2. 判断根拠をLIME[Ribeiro 2016] で算出 3. ⼈間が間違った説明箇所をフィードバック 4. 説明箇所をランダム単語や同位置単語に変換しデータ拡張 5. 訓練データに追加し再学習寄与度を⽤いたデータ改善⼿法 [Teso19] 2023年度⼈⼯知能学会全国⼤会 10 ⽂章︓この玩具シリーズは初めて買ったけど、素晴らしい。。。。（⼈間判断）不適切拡張１︓この玩具シリーズは初めて買ったけど、素晴らしい。だよね。拡張２︓この玩具シリーズは初めて買ったけど、素晴らしい。︕︕︕ 拡張３︓この玩具シリーズは初めて買ったけど、素晴らしい。うん単語変換

Slide 11

Slide 11 text

1) ⼈間の⽂章確認の労⼒ Ø間違った説明箇所を探し、正しい箇所を発⾒する作業負荷 Ø⽂章の選択基準がランダムによる⾮効率さ ü 予測・説明の不確かさを活⽤して効率化できないか 2) ルールベースなデータ拡張により、異なる意味で学習される懸念 Ø製造や⾦融では専⾨⽤語や事前知識が多く、簡単なデータ拡張では難しい。 ü業務知識のある⼈が⽂章を修正・拡張すれば安⼼か従来⼿法の課題 2023年度⼈⼯知能学会全国⼤会 11 単語削除で⽂意が失われる懸念どこを指摘すればいいのか…

Slide 12

Slide 12 text

n 業務担当者が実施可能なデータ改善による精度向上プロセスの構築 Ø⼈間がデータ拡張をおこなうことで分類精度は改善するのか Ø予測と説明の不確実性を活⽤し、⼈間データ拡張の負荷軽減を⽬指す研究⽬的 2023年度⼈⼯知能学会全国⼤会 12 AIシステムデータ分析者（AIエンジニア） AIを見守るモデル・データ・予測結果の監視ドメイン専門家（業務担当者）予測の結果・説明・不確実性の提供知識の追加・データ改善 AIを育てるモデル改善

Slide 13

Slide 13 text

提案⼿法 2023年度⼈⼯知能学会全国⼤会

Slide 14

Slide 14 text

提案⼿法の全体像 2023年度⼈⼯知能学会全国⼤会 14 1. 予測の不確実性が⾼い順に選択 2. 判断根拠の不確実性が⾼い箇所を提⽰ 3. 拡張後の⽂章をフィードバック n 寄与度を⽤いたデータ改善⼿法 [Teso19] がベース

Slide 15

Slide 15 text

n Deep Ensembles で推定した予測の不確実性の⾼い⽂章から選ぶ狙い︓モデルが未知・分類境界上の正解データを増やすこと Ø モデルの不確実性が⾼い︓訓練データ分布外サンプル Ø データの不確実性が⾼い︓分類境界上の複雑な⼊⼒ 1. データ改善対象⽂章の選定 2023年度⼈⼯知能学会全国⼤会 15 Model 1 Model 2 Model 3 Model 1 Model 2 Model 3 Model 3 Data Uncertainty Model Uncertainty 確信度確信度

Slide 16

Slide 16 text

n 判断根拠で有名な⼿法 SHAPの不確実性を定量化 [Shaikhina 21] 狙い︓⼈間が⽂章中からデータ改善すべき箇所を把握すること 2. 判断根拠の不確実性が⾼い箇所を提⽰ 2023年度⼈⼯知能学会全国⼤会 16 正規化・離散化分散を推定閾値処理ネガティブの判断根拠⾚︓貢献度⼤、⻘︓貢献度⼩モデル１モデル２モデル３モデル４モデル５

Slide 17

Slide 17 text

n ネガポジ判定の場合、感情・⽐喩・⽐較・⽪⾁に関する表現で⾼くなる傾向補⾜）判断根拠の不確実性が⾼い例 2023年度⼈⼯知能学会全国⼤会 17 真のクラス: Negative、予測︓Negative 真のクラス: Negative、予測︓Positive ”100均の品質” はネガティンブなのか他の作品を褒める⾔い回しはポジティブなのか

Slide 18

Slide 18 text

n 判断根拠の不確かな箇所を中⼼に修正・⾔い換え・削除する。狙い︓モデルが学習するのに難しいフレーズを簡易化させること 3. ⼈間によるデータ拡張後の⽂章をフィードバック 2023年度⼈⼯知能学会全国⼤会 18 • そのくらい24は名作です。 • それ位24は傑作です。 • それくらい24に熱中してます。 • 他の作品と⽐べられないほど24は⾯⽩いです。 • 他の作品が⾒れなくなるほど⾯⽩いです。データ改善例

Slide 19

Slide 19 text

実験 2023年度⼈⼯知能学会全国⼤会

Slide 20

Slide 20 text

n 予測の不確実性に基づくサンプル選択の有効性 n 判断根拠の不確実性に基づく⼈間によるデータ拡張の有効性 n 訓練データ量を変更した際の提案⼿法の限界調査検証事項 2023年度⼈⼯知能学会全国⼤会 20

Slide 21

Slide 21 text

n モデルとデータセット Ø Amazon 商品レビュー MARC-ja • 訓練︓{1000件, 5000件, 10,000件}、評価︓5654件 Ø事前学習済みモデル bert-base-Japanese nサンプル選択⽤データ︓100/10,000件 Ø モデルの不確実性（MU）︓相互情報量 Ø データの不確実性（EU）︓期待値予測エントロピー Ø ランダム（RA） n⽐較︓ルールベースなデータ拡張 Øランダム削除・単語スワップ，語彙置換，BERT の⽂脈付き単語置換実験設定 2023年度⼈⼯知能学会全国⼤会 21

Slide 22

Slide 22 text

n 参加者︓NLP経験の浅いエンジニア3名 n データ拡張時の注意事項は反実仮想⽂章を作成する研究を参考にした。[Kaushik 20] n 作業は休憩を⼊れて2時間程度 Jupyter Notebookでの作業⼿順 2023年度⼈⼯知能学会全国⼤会 22

Slide 23

Slide 23 text

n ルールベースと⼈間によるデータ拡張ともに不確実性基準の⽅が精度が⾼い。 n データ量が増えると効果が鈍化するのは能動学習の研究と同様の結果予測の不確実性に基づくサンプル選択の有効性 2023年度⼈⼯知能学会全国⼤会 23 データ量データ拡張 RA DU MU 1000 ルール 91.36 91.66 91.77 ⼈間 92.92 93.79 93.79 5000 ルール 93.86 94.45 94.77 ⼈間 94.71 95.17 95.48 10,000 ルール 95.38 95.86 94.65 ⼈間 95.48 95.29 94.95 ＜＜＜＞＜〜〜 Win! 効果が薄い

Slide 24

Slide 24 text

n ルールベースなデータ拡張と⽐較するとデータ少量時に効果があった。 n 1000件に500件のデータを追加すると平均して5000件のデータ量に匹敵した。⼈間によるデータ拡張の有効性 2023年度⼈⼯知能学会全国⼤会 24 80 82 84 86 88 90 92 94 96 98 1000 5000 10000 ベースラインルール⼈間正答率

Slide 25

Slide 25 text

n 業務担当者でもおこなえる精度改善⼿法が求められる。 n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø 対象データの選択︓予測の不確実性の⾼い順 Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤ n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし n 今後は⼤規模⾔語モデルを活⽤し、データ改善を⽬指す。 Ø 不確実性の⾼い部分のデータ拡張の代⾏ Ø ⼈間の作業負荷の軽減が本当に可能か評価まとめ 2023年度⼈⼯知能学会全国⼤会 25

Slide 26

Slide 26 text

n Lertvittayakumjorn, P., & Toni, F. (2021). Explanation-based human debugging of nlp models: A survey. Transactions of the Association for Computational Linguistics, 9, 1508-1528. n Ribeiro, M. T., et al. 2016. Why should i trust you?: Ex- plaining the predictions of any classifier. In Proc. of KDD, 1135– 1144. n Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2017). Simple and scalable predictive uncertainty estimation using deep ensembles. Advances in neural information processing systems, 30. n Shaikhina, T., Bhatt, U., Zhang, R., Georgatzis, K., Xiang, A., and Weller, A.: Effects of Uncertainty on the Quality of Feature Importance Explanations, in AAAI Workshop on Explainable Agency in Artificial Intelligence (2021) n Kaushik, D., Hovy, E., and Lipton, Z. C.: Learning the Difference that Makes a Difference with Counterfactually Augmented Data, International Conference on Learning Representations (ICLR) (2020 参考⽂献 2023年度⼈⼯知能学会全国⼤会 26