Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LL...
Search
Mr. Bay Area
August 06, 2024
Technology
2
810
その「人間らしさ」、本当に必要ですか? ~タスクにあわせた対話評価指標定義のススメ~ / LLM Meetup 20240807
Mr. Bay Area
August 06, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
Exadata Database Service on Cloud@Customer セキュリティ、ネットワーク、および管理について
oracle4engineer
PRO
2
1.5k
NFV基盤のOpenStack更新 ~9世代バージョンアップへの挑戦~
vtj
0
340
コンテナサプライチェーンセキュリティ
kyohmizu
1
140
AWSではじめる Web APIテスト実践ガイド / A practical guide to testing Web APIs on AWS
yokawasa
7
600
Raycast Favorites × Script Command で実現するお手軽情報チェック
smasato
1
140
RayでPHPのデバッグをちょっと快適にする
muno92
PRO
0
190
ディスプレイ広告(Yahoo!広告・LINE広告)におけるバックエンド開発
lycorptech_jp
PRO
0
290
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
11k
内製化を加速させるlaC活用術
nrinetcom
PRO
2
130
Oracle Database Technology Night #87-1 : Exadata Database Service on Exascale Infrastructure(ExaDB-XS)サービス詳細
oracle4engineer
PRO
1
140
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
100
組織におけるCCoEの役割とAWS活用事例
nrinetcom
PRO
4
120
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
44
14k
Become a Pro
speakerdeck
PRO
26
5.2k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
360
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Embracing the Ebb and Flow
colly
84
4.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
4 Signs Your Business is Dying
shpigford
182
22k
BBQ
matthewcrist
87
9.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.2k
It's Worth the Effort
3n
184
28k
Transcript
その「⼈間らしさ」、本当に必要ですか? 〜タスクにあわせた対話評価指標定義のススメ〜 べいえりあ @ 株式会社IVRy
⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -
理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Gemini作ってるチーム(の中の一チーム)でテックリードをやったり
IVRyって何やってるの? LLMを⽤いた電話の⾃動応答システムなどを作ってます
今回お話ししたいこと
UX的に良さげなAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
⼈間らしいAI ≠ ユーザーの役に⽴つAI (本番運⽤サービスを作るのはそんなに⽢くはない)
今回お話ししたいこと 今回のLTでは、 - 社内で作った⼈間らしい機能があまり使えなかった失敗談 - その機能が良いか悪いかを判別するためにどうすれば良いか? についてお話しします。
⼈間っぽいAIの機能:会話割り込み - GPT-4oのvoice modeでも実装される(された)機能 - ちなみに、⾒た⽬とは裏腹に割と簡単に実装できる ライブデモやります (…と思ったのですが、⽤意できなかったのでGPT-4oのデモ流します)
会話割り込み機能の良かった点 - ⼈間のような対話が実現できる - デモ受けはとても良い - AIの発話に被せるように話すユーザーは結 構存在する - 全体的な会話時間が短くなる
- 会話時間の短さはUX上重要
会話割り込み機能の悪かった点 - 「呟き」で認識失敗する - 「AIすご!」みたいな呟きをする⼈は 実トラフィックでも結構いる - ノイズが乗った場合にリカバリが困難 - ノイズが永遠にカットインし続ける
- 倍くらい⾳声認識API代がかかる 現状だと悪い点が勝ったため結局採⽤せず (ユースケースには依るはず)
実装した機能の良し悪しをどう評価するか →それを測るための評価指標が必要
タスクに応じて評価指標を正しく選択する タスク指向型対話 雑談(Cotomoなどはこっち) 電話の⾃動応答はタスク指向型対話 → タスク完了率を⽤いる VS タスクの完了が⽬的 タスクによってドメインが絞られる 短いほど良い
タスク完了率がゴールドスタンダード 特に⽬的は無い オープンドメイン ⻑いほど良い ユーザーの印象が重要
タスク完了率(Task Success Rate) 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました
⽇時を教えてください ⭕ 予約したい 8⽉8⽇の11時に3⼈で空きがありま す。名前を教えてください 明⽇の11時で3⼈です ⽥中です ありがとうございます。 予約が確定しました ⽇時を教えてください 予約したい すみません、認識できませんでした えーと何だっけ? えー… ⽇時を教えてください ❌ 終話 ⭕な対話の割合がタスク完了率
タスク完了率以外の評価指標について タスク完了率以外にも⾒る指標はある(Deriu, et al. 2019 が詳しい) タスク完了率に上記を加味して、総合的にリリース判断を⾏うのが重要 電話転送に繋がるか? 「会話の⻑さ」 サブシステム評価
まとめ
まとめ - AIと⾔えども「(中途半端な)⼈間らしさ」が正ではない - タスクに合わせて適した評価指標を使うべし - タスク指向型対話についてはタスク完了率が⼀番重要 - 実際にはタスク完了率以外にも様々な指標を組み合わせて⽤いる