Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダルLLM 実践的活用と課題
Search
SakaguchiKou
December 11, 2024
0
130
マルチモーダルLLM 実践的活用と課題
マルチモーダルLLMが実務において活用できるのかを映像の監視、コールセンター応答の2業務で検証した
SakaguchiKou
December 11, 2024
Tweet
Share
More Decks by SakaguchiKou
See All by SakaguchiKou
AImeet_06/12
sakaguchikou
0
170
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Thoughts on Productivity
jonyablonski
69
4.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
A Philosophy of Restraint
colly
203
16k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
4 Signs Your Business is Dying
shpigford
182
22k
Optimising Largest Contentful Paint
csswizardry
33
3k
Building Your Own Lightsaber
phodgson
104
6.2k
Being A Developer After 40
akosma
89
590k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Transcript
マルチモーダルLLMの 実践的活用と課題 坂口航 2024/12/10
2 Large Language Model(大規模言語モデル) ChatGPTのように言葉を理解し、会話が可能なAI LLMとは何か?
3 テキストデータの入力と出力を行う 通常のLLM テキスト テキスト 要約 翻訳 解説 LLM
4 複数の情報を一度に扱える マルチモーダルLLMとは? テキスト 動画 音 統合判断 より精度の高い結果が得られる マルチモーダルLLM 結果
5 生成AIの注目度が高まっている 背景 総務省. 進化するデジタルテクノロジーとの共生. https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/nd131210.html 15倍の達成速度 Instagramを基準に1億ユーザー達成速度を比較
6 継続利用者はわずか7.8% 背景 継続利用している 7.8% 利用経験あるが未継続 7.8% 利用経験なし 84.4% AI
inside. 生成AI、ビジネス継続利用者はわずか7.8%、活用障壁は使い勝手や信頼性に関する項目が上位を占め、サービス導入時は セキュリティを最重視. https://prtimes.jp/main/html/rd/p/000000139.000024457.html n=1,161 生成AIを職場でどれくらい活用しているか
7 企業での導入、利用率の低さ 背景 30.6% 21.8% 17.8% 13.3% 10.9% 7.9% 6.1%
0.0% 50.0% 100.0% 1,000人以上 500~999人 300~499人 100~299人 50~99人 10~49人 10人未満 ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 企業の生成AI導入・利用率 全社で導入している、 もしくは一部で利用 している会社の割合 (n=112,021) 7割以上の企業が未導入
8 知識不足や正確性への懸念 生成AIを利用する中での課題 54% 活用ノウハウや知識不足 50.1% 正確性が確認できない、確認に時間を要する 35.5% 著作権侵害のリスク 課題
生成AIを利用している従業員の状況(複数回答 n=3,347) ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 活用ノウハウや知識不足に着目
9 業務へ実用可能性を検証し、知見を提供する 1) 最新のマルチモーダルLLMを使用 2) カメラ映像の監視とコールセンター応対という2つの 業務を対象に検証 目的 業務への実用可能性を検証し、知見を提供する 動画
音 テキスト 音 複数の情報をもとに業務を行う必要があり、マルチモーダルLLMの強みを活かせる 映像監視 コールセンター
10 実験方法 顧客応対の改善 感情推定の精度を評価 目的 検証内容 監視業務の効率化 不審行動の検出精度を評価 AI Gemini1.5-Pro
GPT-4o(Voice Mode) 感情表現や 感情推定が可能 映像を理解する 能力に優れている ①映像の監視 ②コールセンター応対 目的 検証内容 AI
11 監視したいものによって学習が必要 ①映像監視 従来AIとマルチモーダルLLMの違い 従来のAI 汎用性 学習の必要 性 コスト マルチモーダルLLM
低い(特化) 専用の学習が必要 学習ごとにコストがかかる 高い(言葉で指示可能) 多様な異常を検出 コスト削減 マルチモーダルLLMを使用することで汎用性向上、コスト削減の可能性
12 不審行動の検出精度を検証 ①実験方法 公共の場 キッチン 公共の場でナイフを 持つ行為は危険 調理中のナイフ使用 は通常
13 ①実験方法
14 適切に異常の判断をすることが可能であった ①結果 各シナリオにおける検出結果 キッチン (N=10) 公共の場 (N=10) Gemini 1.5-Pro
0 10 異常 10 0 異常でない 正答率100%
15 ①考察 • 誤判定の低減やリスクを減らす工夫が必要 • 夜間や視界の悪い状況で検証と対策が必要 マルチモーダルLLMは背景や文脈に適した回答が可能 高い精度での異常検出 限界と課題
コールセンターにおける応対
17 ②コールセンター応対の課題 ※本研究では基盤となる「感情推定の精度」を検証 • 声のトーンなどから感情を推定可能 • 感情に応じた対応→満足度向上が期待 従来のAIシステム マルチモーダルLLM •
お客様の感情を理解できない • どの顧客にも同様の対応→満足度向上が難しい
18 ②実験方法 A社の情報 ・製品情報 ・在庫 ・返品ポリシー A社のオペレーター 感情推定の精度 1.専用のオペレーターを作成 2.顧客として会話・評価
19 トークスクリプトを各10件作成(計30件) ②実験方法 データ数 感情 会話内容 10 満足、感謝 ポジティブ 10
平常心 ニュートラル 10 怒り、不満 ネガティブ ポジティブ 感情をこめて会話
20 ポジティブな会話例 ②実験方法
21 予測 ネガティブ ニュートラル ポジティブ 0 3 7 ポジティブ (n=10)
正解 0 8 2 ニュートラル (n=10) 8 2 0 ネガティブ (n=10) ②結果 基本的な感情推定が可能 ・ポジティブ⇔ネガティブのように大きく間違える予測はしなかった ・微妙な感情の識別が難しい 正解率:76%
22 感情推定の精度 ポジティブ、ネガティブ間の誤認識がなかった 会話内容から明確な感情の推定が可能 微妙な感情の識別 テキスト依存性が高く、声のトーンや抑揚を十分に活用できてい
ない可能性 ②考察 微妙な感情の推定精度向上によって 顧客満足度向上が期待される
23 マルチモーダルLLMの業務への実用可能性を検証 背景を理解し、適切な不審行動の検出が可能 誤判定時のリスク管理 コスト削減と汎用性向上 明確な顧客の感情を推定可能
微妙な感情の差異を捉える難しさ 顧客満足度向上に貢献できる可能性 まとめ 業務効率化やサービス向上に貢献できる可能性を示した
24 精度向上と実用性拡大に向けた取り組みが必要 さらなる状況での検証 夜や雨天時など視界が悪い状況 感情表現の評価 感情推定の精度向上 実証実験の実施と評価
リスク低減策の構築 今後の課題