Slide 1

Slide 1 text

⽂章分類モデルの不確実性に基づく ⼈間によるデバッグ⼿法の提案 太⽥ 真⼈(ISID) ファイサル ハディプトラ (ISID) 2023年6⽉8⽇

Slide 2

Slide 2 text

ISIDのAI専⾨部署 AITCとは 2023年度 ⼈⼯知能学会全国⼤会 2 ①AI製品開発 DXを強⼒に⽀援する AI製品の提供 図⾯活⽤AI ⽂書活⽤AI AIプラット フォーム AI 画像認識 ②AIコンサルティング 顧客業務やAI技術に精通した コンサルタントによるDX⽀援 AI 需要予測 EngineeringAI ③AI⼈材育成 DXを加速させるための AI/データ活⽤⼈材育成⽀援 ④研究開発 ISIDのAIビジネスをリードする為の 最新AI研究開発や研究事例の対外発表 ■ 登壇実績 - ⼈⼯知能学会 - ⾔語処理学会 AI製品開発やコンサルティング、AI⼈材育成のビジネスに加えて、ISIDのAIビジネスを下⽀えする 研究開発を展開

Slide 3

Slide 3 text

n 業務担当者でも直感的に理解できる精度改善⼿法が求められる n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø ⼈間フィードバック︓⽂章の修正・追加 Ø 対象データの選択︓予測の不確実性の⾼い順 Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤ n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし 研究概要 3 2023年度 ⼈⼯知能学会全国⼤会 ⽂章 説明・不確実性

Slide 4

Slide 4 text

背景 2023年度 ⼈⼯知能学会全国⼤会

Slide 5

Slide 5 text

n AI製品単体では精度改善する⼿順までサポートされていないことが多い n 導⼊から継続的活⽤まで別のデータサイエンティストの⽀援が必要 予測モデルの精度改善が容易でない実情 2023年度 ⼈⼯知能学会全国⼤会 5 AIソリューション AutoML 製品含む 1. データをアップロード 2. プルダウン選択 3. 訓練実⾏と精度確認 4. 外部の精度改善⽀援 5. デプロイ 業務担当者 + データサイエンティスト

Slide 6

Slide 6 text

n 予測モデルの精度改善コストが⾼い n 分析の属⼈化 Ø 運⽤中の精度低下に対する急な対応 Ø 海外ではAIベビーシッターと⾔われている。 既に起きている諸問題 2023年度 ⼈⼯知能学会全国⼤会 6 業務担当者 データサイエンティスト コスト 💦 💦 精度維持 💦 💦 AIソリューション AutoML 製品含む +

Slide 7

Slide 7 text

AIシステム データ分析者 (AIエンジニア) AIを見守る モデル・データ・予測結果の監視 ドメイン専門家 (業務担当者) 予測の結果・説明・不確実性の提供 知識の追加・データ改善 AIを育てる モデル改善 実現したい世界 2023年度 ⼈⼯知能学会全国⼤会 7 MLOps • 属⼈的になりやすい • AIの専⾨的知識を必要とする。 • データ管理のみ • 顧客の専⾨知識をデータに組み込む。

Slide 8

Slide 8 text

既存研究 2023年度 ⼈⼯知能学会全国⼤会

Slide 9

Slide 9 text

Explanation-Based Human Debugging (EBHD) 2023年度 ⼈⼯知能学会全国⼤会 9 n 予測根拠を⼈間が判断し、モデルにフィードバックする精度改善⼿法 n 本研究もこの枠組みを採⽤ [Lertvittayakumjorn+ 2021] 研究のスコープ

Slide 10

Slide 10 text

1. 評価データからランダムに⽂章を選択 2. 判断根拠をLIME[Ribeiro 2016] で算出 3. ⼈間が間違った説明箇所をフィードバック 4. 説明箇所をランダム単語や同位置単語に変換しデータ拡張 5. 訓練データに追加し再学習 寄与度を⽤いたデータ改善⼿法 [Teso19] 2023年度 ⼈⼯知能学会全国⼤会 10 ⽂章︓この玩具シリーズは初めて買ったけど、素晴らしい。。。。 (⼈間判断)不適切 拡張1︓この玩具シリーズは初めて買ったけど、素晴らしい。だよね。 拡張2︓この玩具シリーズは初めて買ったけど、素晴らしい。︕︕︕ 拡張3︓この玩具シリーズは初めて買ったけど、素晴らしい。うん 単語変換

Slide 11

Slide 11 text

1) ⼈間の⽂章確認の労⼒ Ø間違った説明箇所を探し、正しい箇所を発⾒する作業負荷 Ø⽂章の選択基準がランダムによる⾮効率さ ü 予測・説明の不確かさを活⽤して効率化できないか 2) ルールベースなデータ拡張により、異なる意味で学習される懸念 Ø製造や⾦融では専⾨⽤語や事前知識が多く、簡単なデータ拡張では難しい。 ü業務知識のある⼈が⽂章を修正・拡張すれば安⼼か 従来⼿法の課題 2023年度 ⼈⼯知能学会全国⼤会 11 単語削除で⽂意が失われる懸念 どこを指摘すればいいのか…

Slide 12

Slide 12 text

n 業務担当者が実施可能なデータ改善による精度向上プロセスの構築 Ø⼈間がデータ拡張をおこなうことで分類精度は改善するのか Ø予測と説明の不確実性を活⽤し、⼈間データ拡張の負荷軽減を⽬指す 研究⽬的 2023年度 ⼈⼯知能学会全国⼤会 12 AIシステム データ分析者 (AIエンジニア) AIを見守る モデル・データ・予測結果の監視 ドメイン専門家 (業務担当者) 予測の結果・説明・不確実性の提供 知識の追加・データ改善 AIを育てる モデル改善

Slide 13

Slide 13 text

提案⼿法 2023年度 ⼈⼯知能学会全国⼤会

Slide 14

Slide 14 text

提案⼿法の全体像 2023年度 ⼈⼯知能学会全国⼤会 14 1. 予測の不確実性が⾼い順に選択 2. 判断根拠の不確実性が⾼い箇所を提⽰ 3. 拡張後の⽂章をフィードバック n 寄与度を⽤いたデータ改善⼿法 [Teso19] がベース

Slide 15

Slide 15 text

n Deep Ensembles で推定した予測の不確実性の⾼い⽂章から選ぶ 狙い︓モデルが未知・分類境界上の正解データを増やすこと Ø モデルの不確実性が⾼い︓訓練データ分布外サンプル Ø データの不確実性が⾼い︓分類境界上の複雑な⼊⼒ 1. データ改善対象⽂章の選定 2023年度 ⼈⼯知能学会全国⼤会 15 Model 1 Model 2 Model 3 Model 1 Model 2 Model 3 Model 3 Data Uncertainty Model Uncertainty 確信度 確信度

Slide 16

Slide 16 text

n 判断根拠で有名な⼿法 SHAPの不確実性を定量化 [Shaikhina 21] 狙い︓⼈間が⽂章中からデータ改善すべき箇所を把握すること 2. 判断根拠の不確実性が⾼い箇所を提⽰ 2023年度 ⼈⼯知能学会全国⼤会 16 正規化・離散化 分散を推定 閾値処理 ネガティブの判断根拠 ⾚︓貢献度⼤、⻘︓貢献度⼩ モデル1 モデル2 モデル3 モデル4 モデル5

Slide 17

Slide 17 text

n ネガポジ判定の場合、感情・⽐喩・⽐較・⽪⾁に関する表現で⾼くなる傾向 補⾜)判断根拠の不確実性が⾼い例 2023年度 ⼈⼯知能学会全国⼤会 17 真のクラス: Negative、予測︓Negative 真のクラス: Negative、予測︓Positive ”100均の品質” はネガティンブなのか 他の作品を褒める⾔い回しはポジティブなのか

Slide 18

Slide 18 text

n 判断根拠の不確かな箇所を中⼼に修正・⾔い換え・削除する。 狙い︓モデルが学習するのに難しいフレーズを簡易化させること 3. ⼈間によるデータ拡張後の⽂章をフィードバック 2023年度 ⼈⼯知能学会全国⼤会 18 • そのくらい24は名作です。 • それ位24は傑作です。 • それくらい24に熱中してます。 • 他の作品と⽐べられないほど24は⾯⽩いです。 • 他の作品が⾒れなくなるほど⾯⽩いです。 データ改善例

Slide 19

Slide 19 text

実験 2023年度 ⼈⼯知能学会全国⼤会

Slide 20

Slide 20 text

n 予測の不確実性に基づくサンプル選択の有効性 n 判断根拠の不確実性に基づく⼈間によるデータ拡張の有効性 n 訓練データ量を変更した際の提案⼿法の限界調査 検証事項 2023年度 ⼈⼯知能学会全国⼤会 20

Slide 21

Slide 21 text

n モデルとデータセット Ø Amazon 商品レビュー MARC-ja • 訓練︓{1000件, 5000件, 10,000件}、評価︓5654件 Ø事前学習済みモデル bert-base-Japanese nサンプル選択⽤データ︓100/10,000件 Ø モデルの不確実性(MU)︓相互情報量 Ø データの不確実性(EU)︓期待値予測エントロピー Ø ランダム(RA) n⽐較︓ルールベースなデータ拡張 Øランダム削除・単語スワップ,語彙置換,BERT の⽂脈付き単語置換 実験設定 2023年度 ⼈⼯知能学会全国⼤会 21

Slide 22

Slide 22 text

n 参加者︓NLP経験の浅いエンジニア3名 n データ拡張時の注意事項は反実仮想⽂章を作成す る研究を参考にした。[Kaushik 20] n 作業は休憩を⼊れて2時間程度 Jupyter Notebookでの作業⼿順 2023年度 ⼈⼯知能学会全国⼤会 22

Slide 23

Slide 23 text

n ルールベースと⼈間によるデータ拡張ともに不確実性基準の⽅が精度が⾼い。 n データ量が増えると効果が鈍化するのは能動学習の研究と同様の結果 予測の不確実性に基づくサンプル選択の有効性 2023年度 ⼈⼯知能学会全国⼤会 23 データ量 データ拡張 RA DU MU 1000 ルール 91.36 91.66 91.77 ⼈間 92.92 93.79 93.79 5000 ルール 93.86 94.45 94.77 ⼈間 94.71 95.17 95.48 10,000 ルール 95.38 95.86 94.65 ⼈間 95.48 95.29 94.95 < < < > < 〜 〜 Win! 効果が薄い

Slide 24

Slide 24 text

n ルールベースなデータ拡張と⽐較するとデータ少量時に効果があった。 n 1000件に500件のデータを追加すると平均して5000件のデータ量に匹敵した。 ⼈間によるデータ拡張の有効性 2023年度 ⼈⼯知能学会全国⼤会 24 80 82 84 86 88 90 92 94 96 98 1000 5000 10000 ベースライン ルール ⼈間 正 答 率

Slide 25

Slide 25 text

n 業務担当者でもおこなえる精度改善⼿法が求められる。 n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø 対象データの選択︓予測の不確実性の⾼い順 Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤ n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし n 今後は⼤規模⾔語モデルを活⽤し、データ改善を⽬指す。 Ø 不確実性の⾼い部分のデータ拡張の代⾏ Ø ⼈間の作業負荷の軽減が本当に可能か評価 まとめ 2023年度 ⼈⼯知能学会全国⼤会 25

Slide 26

Slide 26 text

n Lertvittayakumjorn, P., & Toni, F. (2021). Explanation-based human debugging of nlp models: A survey. Transactions of the Association for Computational Linguistics, 9, 1508-1528. n Ribeiro, M. T., et al. 2016. Why should i trust you?: Ex- plaining the predictions of any classifier. In Proc. of KDD, 1135– 1144. n Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2017). Simple and scalable predictive uncertainty estimation using deep ensembles. Advances in neural information processing systems, 30. n Shaikhina, T., Bhatt, U., Zhang, R., Georgatzis, K., Xiang, A., and Weller, A.: Effects of Uncertainty on the Quality of Feature Importance Explanations, in AAAI Workshop on Explainable Agency in Artificial Intelligence (2021) n Kaushik, D., Hovy, E., and Lipton, Z. C.: Learning the Difference that Makes a Difference with Counterfactually Augmented Data, International Conference on Learning Representations (ICLR) (2020 参考⽂献 2023年度 ⼈⼯知能学会全国⼤会 26