Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LL...
Search
Mr. Bay Area
August 06, 2024
Technology
2
860
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LLM Meetup 20240807
Mr. Bay Area
August 06, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
AWS全冠芸人が見た世界 ~資格取得より大切なこと~
masakiokuda
5
6.2k
4/17/25 - CIJUG - Java Meets AI: Build LLM-Powered Apps with LangChain4j (part 2)
edeandrea
PRO
0
110
Cross Data Platforms Meetup LT 20250422
tarotaro0129
1
690
Making a MIDI controller device with PicoRuby/R2P2 (RubyKaigi 2025 LT)
risgk
1
250
LangfuseでAIエージェントの 可観測性を高めよう!/Enhancing AI Agent Observability with Langfuse!
jnymyk
1
240
AIでめっちゃ便利になったけど、結局みんなで学ぶよねっていう話
kakehashi
PRO
0
180
AWSのマルチアカウント管理 ベストプラクティス最新版 2025 / Multi-Account management on AWS best practice 2025
ohmura
4
310
勝手に!深堀り!Cloud Run worker pools / Deep dive Cloud Run worker pools
iselegant
2
390
持続可能なドキュメント運用のリアル: 1年間の成果とこれから
akitok_
1
190
AIと開発者の共創: エージェント時代におけるAIフレンドリーなDevOpsの実践
bicstone
1
320
ガバクラのAWS長期継続割引 ~次の4/1に慌てないために~
hamijay_cloud
1
240
日経電子版 for Android の技術的課題と取り組み(令和最新版)/android-20250423
nikkei_engineer_recruiting
0
400
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
137
6.9k
For a Future-Friendly Web
brad_frost
176
9.7k
How to train your dragon (web standard)
notwaldorf
90
6k
Agile that works and the tools we love
rasmusluckow
328
21k
Building Applications with DynamoDB
mza
94
6.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Designing for humans not robots
tammielis
252
25k
Automating Front-end Workflow
addyosmani
1369
200k
Six Lessons from altMBA
skipperchong
27
3.7k
4 Signs Your Business is Dying
shpigford
183
22k
Visualization
eitanlees
146
16k
We Have a Design System, Now What?
morganepeng
52
7.5k
Transcript
その「⼈間らしさ」、本当に必要ですか? 〜タスクにあわせた対話評価指標定義のススメ〜 べいえりあ @ 株式会社IVRy
⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム(の中の一チーム)でテックリードをやったり
IVRyって何やってるの? LLMを⽤いた電話の⾃動応答システムなどを作ってます
今回お話ししたいこと
UX的に良さげなAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
⼈間らしいAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
今回お話ししたいこと 今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか? についてお話しします。
⼈間っぽいAIの機能:会話割り込み - GPT-4oのvoice modeでも実装される(された)機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できる ライブデモやります (…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します)
会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結 構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要
会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご!」みたいな呟きをする⼈は 実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる 現状だと悪い点が勝ったため結局採⽤せず (ユースケースには依るはず)
実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要
タスクに応じて評価指標を正しく選択する タスク指向型対話 雑談(Cotomoなどはこっち) 電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的 タスクによってドメインが絞られる 短いほど良い
タスク完了率がゴールドスタンダード 特に⽬的は無い オープンドメイン ⻑いほど良い ユーザーの印象が重要
タスク完了率(Task Success Rate) 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました ⽇時を教えてください 予約したい すみません、認識できませんでした えーと何だっけ? えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率
タスク完了率以外の評価指標について タスク完了率以外にも⾒る指標はある(Deriu, et al. 2019 が詳しい) タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要 電話転送に繋がるか? 「会話の⻑さ」 サブシステム評価
まとめ
まとめ - AIと⾔えども「(中途半端な)⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる