Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LL...
Search
Mr. Bay Area
August 06, 2024
Technology
1.1k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LLM Meetup 20240807
Mr. Bay Area
August 06, 2024
Other Decks in Technology
See All in Technology
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
830
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
How Timee Delivers Day 1 Production Ready LLM Features
tomoyks
0
140
失敗を資産に変えるClaude Code
shinyasaita
0
500
新しいVibe Codingと”自走”について
watany
5
290
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
230
Building applications in the Gemini API family.
line_developers_tw
PRO
0
3.1k
やさしいA2A入門
minorun365
PRO
12
1.7k
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
210
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
150
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
100
Featured
See All Featured
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
160
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
330
Ethics towards AI in product and experience design
skipperchong
2
310
So, you think you're a good person
axbom
PRO
2
2.1k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
830
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Believing is Seeing
oripsolob
1
140
Building Adaptive Systems
keathley
44
3k
WENDY [Excerpt]
tessaabrams
11
38k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
Evolving SEO for Evolving Search Engines
ryanjones
0
210
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Transcript
その「⼈間らしさ」、本当に必要ですか? 〜タスクにあわせた対話評価指標定義のススメ〜 べいえりあ @ 株式会社IVRy
⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム(の中の一チーム)でテックリードをやったり
IVRyって何やってるの? LLMを⽤いた電話の⾃動応答システムなどを作ってます
今回お話ししたいこと
UX的に良さげなAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
⼈間らしいAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
今回お話ししたいこと 今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか? についてお話しします。
⼈間っぽいAIの機能:会話割り込み - GPT-4oのvoice modeでも実装される(された)機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できる ライブデモやります (…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します)
会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結 構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要
会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご!」みたいな呟きをする⼈は 実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる 現状だと悪い点が勝ったため結局採⽤せず (ユースケースには依るはず)
実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要
タスクに応じて評価指標を正しく選択する タスク指向型対話 雑談(Cotomoなどはこっち) 電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的 タスクによってドメインが絞られる 短いほど良い
タスク完了率がゴールドスタンダード 特に⽬的は無い オープンドメイン ⻑いほど良い ユーザーの印象が重要
タスク完了率(Task Success Rate) 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました ⽇時を教えてください 予約したい すみません、認識できませんでした えーと何だっけ? えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率
タスク完了率以外の評価指標について タスク完了率以外にも⾒る指標はある(Deriu, et al. 2019 が詳しい) タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要 電話転送に繋がるか? 「会話の⻑さ」 サブシステム評価
まとめ
まとめ - AIと⾔えども「(中途半端な)⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる