Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダルLLM 実践的活用と課題
Search
SakaguchiKou
December 11, 2024
0
270
マルチモーダルLLM 実践的活用と課題
マルチモーダルLLMが実務において活用できるのかを映像の監視、コールセンター応答の2業務で検証した
SakaguchiKou
December 11, 2024
Tweet
Share
More Decks by SakaguchiKou
See All by SakaguchiKou
AImeet_06/12
sakaguchikou
0
240
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Writing Fast Ruby
sferik
629
62k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Bash Introduction
62gerente
615
210k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
How to Ace a Technical Interview
jacobian
280
24k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
53k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Transcript
マルチモーダルLLMの 実践的活用と課題 坂口航 2024/12/10
2 Large Language Model(大規模言語モデル) ChatGPTのように言葉を理解し、会話が可能なAI LLMとは何か?
3 テキストデータの入力と出力を行う 通常のLLM テキスト テキスト 要約 翻訳 解説 LLM
4 複数の情報を一度に扱える マルチモーダルLLMとは? テキスト 動画 音 統合判断 より精度の高い結果が得られる マルチモーダルLLM 結果
5 生成AIの注目度が高まっている 背景 総務省. 進化するデジタルテクノロジーとの共生. https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/html/nd131210.html 15倍の達成速度 Instagramを基準に1億ユーザー達成速度を比較
6 継続利用者はわずか7.8% 背景 継続利用している 7.8% 利用経験あるが未継続 7.8% 利用経験なし 84.4% AI
inside. 生成AI、ビジネス継続利用者はわずか7.8%、活用障壁は使い勝手や信頼性に関する項目が上位を占め、サービス導入時は セキュリティを最重視. https://prtimes.jp/main/html/rd/p/000000139.000024457.html n=1,161 生成AIを職場でどれくらい活用しているか
7 企業での導入、利用率の低さ 背景 30.6% 21.8% 17.8% 13.3% 10.9% 7.9% 6.1%
0.0% 50.0% 100.0% 1,000人以上 500~999人 300~499人 100~299人 50~99人 10~49人 10人未満 ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 企業の生成AI導入・利用率 全社で導入している、 もしくは一部で利用 している会社の割合 (n=112,021) 7割以上の企業が未導入
8 知識不足や正確性への懸念 生成AIを利用する中での課題 54% 活用ノウハウや知識不足 50.1% 正確性が確認できない、確認に時間を要する 35.5% 著作権侵害のリスク 課題
生成AIを利用している従業員の状況(複数回答 n=3,347) ICR.【報道発表】企業における生成AI活用の格差浮き彫りに -規模別・業種別の利用状況・課題と今後の展望-. https://www.icr.co.jp/publicity/5135.html 活用ノウハウや知識不足に着目
9 業務へ実用可能性を検証し、知見を提供する 1) 最新のマルチモーダルLLMを使用 2) カメラ映像の監視とコールセンター応対という2つの 業務を対象に検証 目的 業務への実用可能性を検証し、知見を提供する 動画
音 テキスト 音 複数の情報をもとに業務を行う必要があり、マルチモーダルLLMの強みを活かせる 映像監視 コールセンター
10 実験方法 顧客応対の改善 感情推定の精度を評価 目的 検証内容 監視業務の効率化 不審行動の検出精度を評価 AI Gemini1.5-Pro
GPT-4o(Voice Mode) 感情表現や 感情推定が可能 映像を理解する 能力に優れている ①映像の監視 ②コールセンター応対 目的 検証内容 AI
11 監視したいものによって学習が必要 ①映像監視 従来AIとマルチモーダルLLMの違い 従来のAI 汎用性 学習の必要 性 コスト マルチモーダルLLM
低い(特化) 専用の学習が必要 学習ごとにコストがかかる 高い(言葉で指示可能) 多様な異常を検出 コスト削減 マルチモーダルLLMを使用することで汎用性向上、コスト削減の可能性
12 不審行動の検出精度を検証 ①実験方法 公共の場 キッチン 公共の場でナイフを 持つ行為は危険 調理中のナイフ使用 は通常
13 ①実験方法
14 適切に異常の判断をすることが可能であった ①結果 各シナリオにおける検出結果 キッチン (N=10) 公共の場 (N=10) Gemini 1.5-Pro
0 10 異常 10 0 異常でない 正答率100%
15 ①考察 • 誤判定の低減やリスクを減らす工夫が必要 • 夜間や視界の悪い状況で検証と対策が必要 マルチモーダルLLMは背景や文脈に適した回答が可能 高い精度での異常検出 限界と課題
コールセンターにおける応対
17 ②コールセンター応対の課題 ※本研究では基盤となる「感情推定の精度」を検証 • 声のトーンなどから感情を推定可能 • 感情に応じた対応→満足度向上が期待 従来のAIシステム マルチモーダルLLM •
お客様の感情を理解できない • どの顧客にも同様の対応→満足度向上が難しい
18 ②実験方法 A社の情報 ・製品情報 ・在庫 ・返品ポリシー A社のオペレーター 感情推定の精度 1.専用のオペレーターを作成 2.顧客として会話・評価
19 トークスクリプトを各10件作成(計30件) ②実験方法 データ数 感情 会話内容 10 満足、感謝 ポジティブ 10
平常心 ニュートラル 10 怒り、不満 ネガティブ ポジティブ 感情をこめて会話
20 ポジティブな会話例 ②実験方法
21 予測 ネガティブ ニュートラル ポジティブ 0 3 7 ポジティブ (n=10)
正解 0 8 2 ニュートラル (n=10) 8 2 0 ネガティブ (n=10) ②結果 基本的な感情推定が可能 ・ポジティブ⇔ネガティブのように大きく間違える予測はしなかった ・微妙な感情の識別が難しい 正解率:76%
22 感情推定の精度 ポジティブ、ネガティブ間の誤認識がなかった 会話内容から明確な感情の推定が可能 微妙な感情の識別 テキスト依存性が高く、声のトーンや抑揚を十分に活用できてい
ない可能性 ②考察 微妙な感情の推定精度向上によって 顧客満足度向上が期待される
23 マルチモーダルLLMの業務への実用可能性を検証 背景を理解し、適切な不審行動の検出が可能 誤判定時のリスク管理 コスト削減と汎用性向上 明確な顧客の感情を推定可能
微妙な感情の差異を捉える難しさ 顧客満足度向上に貢献できる可能性 まとめ 業務効率化やサービス向上に貢献できる可能性を示した
24 精度向上と実用性拡大に向けた取り組みが必要 さらなる状況での検証 夜や雨天時など視界が悪い状況 感情表現の評価 感情推定の精度向上 実証実験の実施と評価
リスク低減策の構築 今後の課題