Upgrade to Pro — share decks privately, control downloads, hide ads and more …

判断根拠の不確実性を活用したデータ改善手法の提案

masatoto
June 08, 2023

 判断根拠の不確実性を活用したデータ改善手法の提案

JSAI2023で発表しました。

masatoto

June 08, 2023
Tweet

More Decks by masatoto

Other Decks in Technology

Transcript

  1. ISIDのAI専⾨部署 AITCとは 2023年度 ⼈⼯知能学会全国⼤会 2 ①AI製品開発 DXを強⼒に⽀援する AI製品の提供 図⾯活⽤AI ⽂書活⽤AI

    AIプラット フォーム AI 画像認識 ②AIコンサルティング 顧客業務やAI技術に精通した コンサルタントによるDX⽀援 AI 需要予測 EngineeringAI ③AI⼈材育成 DXを加速させるための AI/データ活⽤⼈材育成⽀援 ④研究開発 ISIDのAIビジネスをリードする為の 最新AI研究開発や研究事例の対外発表 ▪ 登壇実績 - ⼈⼯知能学会 - ⾔語処理学会 AI製品開発やコンサルティング、AI⼈材育成のビジネスに加えて、ISIDのAIビジネスを下⽀えする 研究開発を展開
  2. n 業務担当者でも直感的に理解できる精度改善⼿法が求められる n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø ⼈間フィードバック︓⽂章の修正・追加 Ø 対象データの選択︓予測の不確実性の⾼い順

    Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤ n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし 研究概要 3 2023年度 ⼈⼯知能学会全国⼤会 ⽂章 説明・不確実性
  3. n 予測モデルの精度改善コストが⾼い n 分析の属⼈化 Ø 運⽤中の精度低下に対する急な対応 Ø 海外ではAIベビーシッターと⾔われている。 既に起きている諸問題 2023年度

    ⼈⼯知能学会全国⼤会 6 業務担当者 データサイエンティスト コスト 💦 💦 精度維持 💦 💦 AIソリューション AutoML 製品含む +
  4. AIシステム データ分析者 (AIエンジニア) AIを見守る モデル・データ・予測結果の監視 ドメイン専門家 (業務担当者) 予測の結果・説明・不確実性の提供 知識の追加・データ改善 AIを育てる

    モデル改善 実現したい世界 2023年度 ⼈⼯知能学会全国⼤会 7 MLOps • 属⼈的になりやすい • AIの専⾨的知識を必要とする。 • データ管理のみ • 顧客の専⾨知識をデータに組み込む。
  5. 1. 評価データからランダムに⽂章を選択 2. 判断根拠をLIME[Ribeiro 2016] で算出 3. ⼈間が間違った説明箇所をフィードバック 4. 説明箇所をランダム単語や同位置単語に変換しデータ拡張

    5. 訓練データに追加し再学習 寄与度を⽤いたデータ改善⼿法 [Teso19] 2023年度 ⼈⼯知能学会全国⼤会 10 ⽂章︓この玩具シリーズは初めて買ったけど、素晴らしい。。。。 (⼈間判断)不適切 拡張1︓この玩具シリーズは初めて買ったけど、素晴らしい。だよね。 拡張2︓この玩具シリーズは初めて買ったけど、素晴らしい。︕︕︕ 拡張3︓この玩具シリーズは初めて買ったけど、素晴らしい。うん 単語変換
  6. n 業務担当者が実施可能なデータ改善による精度向上プロセスの構築 Ø⼈間がデータ拡張をおこなうことで分類精度は改善するのか Ø予測と説明の不確実性を活⽤し、⼈間データ拡張の負荷軽減を⽬指す 研究⽬的 2023年度 ⼈⼯知能学会全国⼤会 12 AIシステム データ分析者

    (AIエンジニア) AIを見守る モデル・データ・予測結果の監視 ドメイン専門家 (業務担当者) 予測の結果・説明・不確実性の提供 知識の追加・データ改善 AIを育てる モデル改善
  7. n 判断根拠で有名な⼿法 SHAPの不確実性を定量化 [Shaikhina 21] 狙い︓⼈間が⽂章中からデータ改善すべき箇所を把握すること 2. 判断根拠の不確実性が⾼い箇所を提⽰ 2023年度 ⼈⼯知能学会全国⼤会

    16 正規化・離散化 分散を推定 閾値処理 ネガティブの判断根拠 ⾚︓貢献度⼤、⻘︓貢献度⼩ モデル1 モデル2 モデル3 モデル4 モデル5
  8. n 判断根拠の不確かな箇所を中⼼に修正・⾔い換え・削除する。 狙い︓モデルが学習するのに難しいフレーズを簡易化させること 3. ⼈間によるデータ拡張後の⽂章をフィードバック 2023年度 ⼈⼯知能学会全国⼤会 18 • そのくらい24は名作です。

    • それ位24は傑作です。 • それくらい24に熱中してます。 • 他の作品と⽐べられないほど24は⾯⽩いです。 • 他の作品が⾒れなくなるほど⾯⽩いです。 データ改善例
  9. n モデルとデータセット Ø Amazon 商品レビュー MARC-ja • 訓練︓{1000件, 5000件, 10,000件}、評価︓5654件

    Ø事前学習済みモデル bert-base-Japanese nサンプル選択⽤データ︓100/10,000件 Ø モデルの不確実性(MU)︓相互情報量 Ø データの不確実性(EU)︓期待値予測エントロピー Ø ランダム(RA) n⽐較︓ルールベースなデータ拡張 Øランダム削除・単語スワップ,語彙置換,BERT の⽂脈付き単語置換 実験設定 2023年度 ⼈⼯知能学会全国⼤会 21
  10. n ルールベースと⼈間によるデータ拡張ともに不確実性基準の⽅が精度が⾼い。 n データ量が増えると効果が鈍化するのは能動学習の研究と同様の結果 予測の不確実性に基づくサンプル選択の有効性 2023年度 ⼈⼯知能学会全国⼤会 23 データ量 データ拡張

    RA DU MU 1000 ルール 91.36 91.66 91.77 ⼈間 92.92 93.79 93.79 5000 ルール 93.86 94.45 94.77 ⼈間 94.71 95.17 95.48 10,000 ルール 95.38 95.86 94.65 ⼈間 95.48 95.29 94.95 < < < > < 〜 〜 Win! 効果が薄い
  11. n 業務担当者でもおこなえる精度改善⼿法が求められる。 n 私たちの考え︓データ改善こそ、業務知識のある担当者にしかできない n ⼈によるデータ拡張に基づく分類モデルの精度改善フローを提案 Ø 対象データの選択︓予測の不確実性の⾼い順 Ø 改善箇所の提案︓予測モデルの判断根拠とその不確実性を利⽤

    n ⽂章データが数千件のとき、提案⼿法の有効性を確認 Ø ルールベースなデータ拡張より精度改善がされた Ø 数万件データがある場合は効果なし n 今後は⼤規模⾔語モデルを活⽤し、データ改善を⽬指す。 Ø 不確実性の⾼い部分のデータ拡張の代⾏ Ø ⼈間の作業負荷の軽減が本当に可能か評価 まとめ 2023年度 ⼈⼯知能学会全国⼤会 25
  12. n Lertvittayakumjorn, P., & Toni, F. (2021). Explanation-based human debugging

    of nlp models: A survey. Transactions of the Association for Computational Linguistics, 9, 1508-1528. n Ribeiro, M. T., et al. 2016. Why should i trust you?: Ex- plaining the predictions of any classifier. In Proc. of KDD, 1135– 1144. n Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2017). Simple and scalable predictive uncertainty estimation using deep ensembles. Advances in neural information processing systems, 30. n Shaikhina, T., Bhatt, U., Zhang, R., Georgatzis, K., Xiang, A., and Weller, A.: Effects of Uncertainty on the Quality of Feature Importance Explanations, in AAAI Workshop on Explainable Agency in Artificial Intelligence (2021) n Kaushik, D., Hovy, E., and Lipton, Z. C.: Learning the Difference that Makes a Difference with Counterfactually Augmented Data, International Conference on Learning Representations (ICLR) (2020 参考⽂献 2023年度 ⼈⼯知能学会全国⼤会 26