Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルLLM 実践的活用と課題

SakaguchiKou
December 11, 2024
130

 マルチモーダルLLM 実践的活用と課題

マルチモーダルLLMが実務において活用できるのかを映像の監視、コールセンター応答の2業務で検証した

SakaguchiKou

December 11, 2024
Tweet

Transcript

  1. 6 継続利用者はわずか7.8% 背景 継続利用している 7.8% 利用経験あるが未継続 7.8% 利用経験なし 84.4% AI

    inside. 生成AI、ビジネス継続利用者はわずか7.8%、活用障壁は使い勝手や信頼性に関する項目が上位を占め、サービス導入時は セキュリティを最重視. https://prtimes.jp/main/html/rd/p/000000139.000024457.html n=1,161 生成AIを職場でどれくらい活用しているか
  2. 7 企業での導入、利用率の低さ 背景 30.6% 21.8% 17.8% 13.3% 10.9% 7.9% 6.1%

    0.0% 50.0% 100.0% 1,000人以上 500~999人 300~499人 100~299人 50~99人 10~49人 10人未満 ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 企業の生成AI導入・利用率 全社で導入している、 もしくは一部で利用 している会社の割合 (n=112,021) 7割以上の企業が未導入
  3. 8 知識不足や正確性への懸念 生成AIを利用する中での課題 54% 活用ノウハウや知識不足 50.1% 正確性が確認できない、確認に時間を要する 35.5% 著作権侵害のリスク 課題

    生成AIを利用している従業員の状況(複数回答 n=3,347) ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 活用ノウハウや知識不足に着目
  4. 10 実験方法 顧客応対の改善 感情推定の精度を評価 目的 検証内容 監視業務の効率化 不審行動の検出精度を評価 AI Gemini1.5-Pro

    GPT-4o(Voice Mode) 感情表現や 感情推定が可能 映像を理解する 能力に優れている ①映像の監視 ②コールセンター応対 目的 検証内容 AI
  5. 11 監視したいものによって学習が必要 ①映像監視 従来AIとマルチモーダルLLMの違い 従来のAI 汎用性 学習の必要 性 コスト マルチモーダルLLM

    低い(特化) 専用の学習が必要 学習ごとにコストがかかる 高い(言葉で指示可能) 多様な異常を検出 コスト削減 マルチモーダルLLMを使用することで汎用性向上、コスト削減の可能性
  6. 19 トークスクリプトを各10件作成(計30件) ②実験方法 データ数 感情 会話内容 10 満足、感謝 ポジティブ 10

    平常心 ニュートラル 10 怒り、不満 ネガティブ ポジティブ 感情をこめて会話
  7. 21 予測 ネガティブ ニュートラル ポジティブ 0 3 7 ポジティブ (n=10)

    正解 0 8 2 ニュートラル (n=10) 8 2 0 ネガティブ (n=10) ②結果 基本的な感情推定が可能 ・ポジティブ⇔ネガティブのように大きく間違える予測はしなかった ・微妙な感情の識別が難しい 正解率:76%
  8. 23 マルチモーダルLLMの業務への実用可能性を検証  背景を理解し、適切な不審行動の検出が可能  誤判定時のリスク管理  コスト削減と汎用性向上  明確な顧客の感情を推定可能

     微妙な感情の差異を捉える難しさ  顧客満足度向上に貢献できる可能性 まとめ 業務効率化やサービス向上に貢献できる可能性を示した