Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LL...
Search
Mr. Bay Area
August 06, 2024
Technology
2
1k
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LLM Meetup 20240807
Mr. Bay Area
August 06, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
20260204_Midosuji_Tech
takuyay0ne
1
150
CDKで始めるTypeScript開発のススメ
tsukuboshi
1
410
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
350
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
1.9k
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
150
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
350
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
230
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
230
プロポーザルに込める段取り八分
shoheimitani
1
240
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
120
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
150
小さく始めるBCP ― 多プロダクト環境で始める最初の一歩
kekke_n
1
410
Featured
See All Featured
How to make the Groovebox
asonas
2
1.9k
So, you think you're a good person
axbom
PRO
2
1.9k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
A designer walks into a library…
pauljervisheath
210
24k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
140
Typedesign – Prime Four
hannesfritz
42
2.9k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
30 Presentation Tips
portentint
PRO
1
220
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
160
Discover your Explorer Soul
emna__ayadi
2
1.1k
Leo the Paperboy
mayatellez
4
1.4k
New Earth Scene 8
popppiees
1
1.5k
Transcript
その「⼈間らしさ」、本当に必要ですか? 〜タスクにあわせた対話評価指標定義のススメ〜 べいえりあ @ 株式会社IVRy
⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム(の中の一チーム)でテックリードをやったり
IVRyって何やってるの? LLMを⽤いた電話の⾃動応答システムなどを作ってます
今回お話ししたいこと
UX的に良さげなAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
⼈間らしいAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
今回お話ししたいこと 今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか? についてお話しします。
⼈間っぽいAIの機能:会話割り込み - GPT-4oのvoice modeでも実装される(された)機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できる ライブデモやります (…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します)
会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結 構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要
会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご!」みたいな呟きをする⼈は 実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる 現状だと悪い点が勝ったため結局採⽤せず (ユースケースには依るはず)
実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要
タスクに応じて評価指標を正しく選択する タスク指向型対話 雑談(Cotomoなどはこっち) 電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的 タスクによってドメインが絞られる 短いほど良い
タスク完了率がゴールドスタンダード 特に⽬的は無い オープンドメイン ⻑いほど良い ユーザーの印象が重要
タスク完了率(Task Success Rate) 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました ⽇時を教えてください 予約したい すみません、認識できませんでした えーと何だっけ? えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率
タスク完了率以外の評価指標について タスク完了率以外にも⾒る指標はある(Deriu, et al. 2019 が詳しい) タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要 電話転送に繋がるか? 「会話の⻑さ」 サブシステム評価
まとめ
まとめ - AIと⾔えども「(中途半端な)⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる