マルチモーダルLLM　実践的活用と課題

マルチモーダルLLMの実践的活用と課題坂口航 2024/12/10

2 Large Language Model(大規模言語モデル)  ChatGPTのように言葉を理解し、会話が可能なAI LLMとは何か？

3 テキストデータの入力と出力を行う通常のLLM テキストテキスト要約翻訳解説 LLM

4 複数の情報を一度に扱えるマルチモーダルLLMとは？テキスト動画音統合判断より精度の高い結果が得られるマルチモーダルLLM 結果

5 生成AIの注目度が高まっている背景総務省. 進化するデジタルテクノロジーとの共生. https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/nd131210.html 15倍の達成速度 Instagramを基準に１億ユーザー達成速度を比較

6 継続利用者はわずか7.8% 背景継続利用している 7.8% 利用経験あるが未継続 7.8% 利用経験なし 84.4% AI
inside. 生成AI、ビジネス継続利用者はわずか7.8%、活用障壁は使い勝手や信頼性に関する項目が上位を占め、サービス導入時はセキュリティを最重視. https://prtimes.jp/main/html/rd/p/000000139.000024457.html n=1,161 生成AIを職場でどれくらい活用しているか

7 企業での導入、利用率の低さ背景 30.6% 21.8% 17.8% 13.3% 10.9% 7.9% 6.1%
0.0% 50.0% 100.0% 1,000人以上 500～999人 300～499人 100～299人 50～99人 10～49人 10人未満 ICR.【報道発表】企業における生成AI活用の格差浮き彫りに－規模別・業種別の利用状況・課題と今後の展望－. https://www.icr.co.jp/publicity/5135.html 企業の生成AI導入・利用率全社で導入している、もしくは一部で利用している会社の割合（n=112,021）７割以上の企業が未導入

8 知識不足や正確性への懸念生成AIを利用する中での課題 54% 活用ノウハウや知識不足 50.1% 正確性が確認できない、確認に時間を要する 35.5% 著作権侵害のリスク課題
生成AIを利用している従業員の状況(複数回答 n=3,347) ICR.【報道発表】企業における生成AI活用の格差浮き彫りに－規模別・業種別の利用状況・課題と今後の展望－. https://www.icr.co.jp/publicity/5135.html 活用ノウハウや知識不足に着目

9 業務へ実用可能性を検証し、知見を提供する 1) 最新のマルチモーダルLLMを使用 2) カメラ映像の監視とコールセンター応対という2つの業務を対象に検証目的業務への実用可能性を検証し、知見を提供する動画
音テキスト音複数の情報をもとに業務を行う必要があり、マルチモーダルLLMの強みを活かせる映像監視コールセンター

10 実験方法顧客応対の改善感情推定の精度を評価目的検証内容監視業務の効率化不審行動の検出精度を評価 AI Gemini1.5-Pro
GPT-4o（Voice Mode）感情表現や感情推定が可能映像を理解する能力に優れている ①映像の監視 ②コールセンター応対目的検証内容 AI

11 監視したいものによって学習が必要 ①映像監視従来AIとマルチモーダルLLMの違い従来のAI 汎用性学習の必要性コストマルチモーダルLLM
低い（特化）専用の学習が必要学習ごとにコストがかかる高い（言葉で指示可能）多様な異常を検出コスト削減マルチモーダルLLMを使用することで汎用性向上、コスト削減の可能性

12 不審行動の検出精度を検証 ①実験方法公共の場キッチン公共の場でナイフを持つ行為は危険調理中のナイフ使用は通常

13 ①実験方法

14 適切に異常の判断をすることが可能であった ①結果各シナリオにおける検出結果キッチン (N=10) 公共の場（N=10） Gemini 1.5-Pro
0 10 異常 10 0 異常でない正答率100%

15 ①考察 • 誤判定の低減やリスクを減らす工夫が必要 • 夜間や視界の悪い状況で検証と対策が必要マルチモーダルLLMは背景や文脈に適した回答が可能高い精度での異常検出限界と課題

コールセンターにおける応対

17 ②コールセンター応対の課題 ※本研究では基盤となる「感情推定の精度」を検証 • 声のトーンなどから感情を推定可能 • 感情に応じた対応→満足度向上が期待従来のAIシステムマルチモーダルLLM •
お客様の感情を理解できない • どの顧客にも同様の対応→満足度向上が難しい

18 ②実験方法 A社の情報・製品情報・在庫・返品ポリシー A社のオペレーター感情推定の精度 1.専用のオペレーターを作成 2.顧客として会話・評価

19 トークスクリプトを各10件作成（計30件） ②実験方法データ数感情会話内容 10 満足、感謝ポジティブ 10
平常心ニュートラル 10 怒り、不満ネガティブポジティブ感情をこめて会話

20 ポジティブな会話例 ②実験方法

21 予測ネガティブニュートラルポジティブ 0 3 7 ポジティブ（n=10）
正解 0 8 2 ニュートラル（n=10） 8 2 0 ネガティブ（n=10） ②結果基本的な感情推定が可能・ポジティブ⇔ネガティブのように大きく間違える予測はしなかった・微妙な感情の識別が難しい正解率:76%

22 感情推定の精度  ポジティブ、ネガティブ間の誤認識がなかった  会話内容から明確な感情の推定が可能  微妙な感情の識別  テキスト依存性が高く、声のトーンや抑揚を十分に活用できてい
ない可能性 ②考察微妙な感情の推定精度向上によって顧客満足度向上が期待される

23 マルチモーダルLLMの業務への実用可能性を検証  背景を理解し、適切な不審行動の検出が可能  誤判定時のリスク管理  コスト削減と汎用性向上  明確な顧客の感情を推定可能
 微妙な感情の差異を捉える難しさ  顧客満足度向上に貢献できる可能性まとめ業務効率化やサービス向上に貢献できる可能性を示した

24 精度向上と実用性拡大に向けた取り組みが必要  さらなる状況での検証 夜や雨天時など視界が悪い状況  感情表現の評価 感情推定の精度向上  実証実験の実施と評価
リスク低減策の構築今後の課題

マルチモーダルLLM　実践的活用と課題

マルチモーダルLLM　実践的活用と課題

SakaguchiKou

More Decks by SakaguchiKou

Featured

Transcript

マルチモーダルLLMの実践的活用と課題坂口航 2024/12/10

2 Large Language Model(大規模言語モデル)  ChatGPTのように言葉を理解し、会話が可能なAI LLMとは何か？

3 テキストデータの入力と出力を行う通常のLLM テキストテキスト要約翻訳解説 LLM

4 複数の情報を一度に扱えるマルチモーダルLLMとは？テキスト動画音統合判断より精度の高い結果が得られるマルチモーダルLLM 結果

5 生成AIの注目度が高まっている背景総務省. 進化するデジタルテクノロジーとの共生. https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/nd131210.html 15倍の達成速度 Instagramを基準に１億ユーザー達成速度を比較

6 継続利用者はわずか7.8% 背景継続利用している 7.8% 利用経験あるが未継続 7.8% 利用経験なし 84.4% AI

7 企業での導入、利用率の低さ背景 30.6% 21.8% 17.8% 13.3% 10.9% 7.9% 6.1%

8 知識不足や正確性への懸念生成AIを利用する中での課題 54% 活用ノウハウや知識不足 50.1% 正確性が確認できない、確認に時間を要する 35.5% 著作権侵害のリスク課題

9 業務へ実用可能性を検証し、知見を提供する 1) 最新のマルチモーダルLLMを使用 2) カメラ映像の監視とコールセンター応対という2つの業務を対象に検証目的業務への実用可能性を検証し、知見を提供する動画

10 実験方法顧客応対の改善感情推定の精度を評価目的検証内容監視業務の効率化不審行動の検出精度を評価 AI Gemini1.5-Pro

11 監視したいものによって学習が必要 ①映像監視従来AIとマルチモーダルLLMの違い従来のAI 汎用性学習の必要性コストマルチモーダルLLM

12 不審行動の検出精度を検証 ①実験方法公共の場キッチン公共の場でナイフを持つ行為は危険調理中のナイフ使用は通常

13 ①実験方法

14 適切に異常の判断をすることが可能であった ①結果各シナリオにおける検出結果キッチン (N=10) 公共の場（N=10） Gemini 1.5-Pro

15 ①考察 • 誤判定の低減やリスクを減らす工夫が必要 • 夜間や視界の悪い状況で検証と対策が必要マルチモーダルLLMは背景や文脈に適した回答が可能高い精度での異常検出限界と課題

コールセンターにおける応対

17 ②コールセンター応対の課題 ※本研究では基盤となる「感情推定の精度」を検証 • 声のトーンなどから感情を推定可能 • 感情に応じた対応→満足度向上が期待従来のAIシステムマルチモーダルLLM •

18 ②実験方法 A社の情報・製品情報・在庫・返品ポリシー A社のオペレーター感情推定の精度 1.専用のオペレーターを作成 2.顧客として会話・評価

19 トークスクリプトを各10件作成（計30件） ②実験方法データ数感情会話内容 10 満足、感謝ポジティブ 10

20 ポジティブな会話例 ②実験方法

21 予測ネガティブニュートラルポジティブ 0 3 7 ポジティブ（n=10）

22 感情推定の精度  ポジティブ、ネガティブ間の誤認識がなかった  会話内容から明確な感情の推定が可能  微妙な感情の識別  テキスト依存性が高く、声のトーンや抑揚を十分に活用できてい

23 マルチモーダルLLMの業務への実用可能性を検証  背景を理解し、適切な不審行動の検出が可能  誤判定時のリスク管理  コスト削減と汎用性向上  明確な顧客の感情を推定可能

24 精度向上と実用性拡大に向けた取り組みが必要  さらなる状況での検証 夜や雨天時など視界が悪い状況  感情表現の評価 感情推定の精度向上  実証実験の実施と評価

マルチモーダルLLM 実践的活用と課題

マルチモーダルLLM 実践的活用と課題

More Decks by SakaguchiKou

Featured

Transcript

マルチモーダルLLM　実践的活用と課題

マルチモーダルLLM　実践的活用と課題