Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声AIエージェントの世界とRetell AI入門 / Introduction to th...

r-kagaya
September 05, 2024

音声AIエージェントの世界とRetell AI入門 / Introduction to the World of Voice AI Agents and Retell AI

StudyCo 【LT大会#8】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれようの資料です
https://studyco.connpass.com/event/328389/

スライド内(P20)のデモ動画リンク:
https://x.com/ry0_kaga/status/1831657645755003369

Retell AIの公式デモ動画:
https://www.youtube.com/watch?v=0LT64_mgkro

r-kagaya

September 05, 2024
Tweet

More Decks by r-kagaya

Other Decks in Technology

Transcript

  1. © 2024 Loglass Inc. 音声AIエージェントの世界と Retell AI入門 2024.9.5 r.kagaya StudyCo

    【LT大会#8】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれよう
  2. © 2024 Loglass Inc. おことわり / 前提 • デモ動画が多いので、時間の都合上スライド内容は薄めです •

    個人的関心に基づくスライド内容になってます ◦ 単純に音声系に関心がある(業務経験があるわけではない) ◦ Retell AI触りたい、触ってみた!系の内容 • 既存の音声AI系サービス・実装への言及/比較はないので、その辺りが知りたい方はあし からず
  3. © 2024 Loglass Inc. Agentic AI • エージェント性(Agenticness) ◦ 直接の監視が制限された複雑な環境において、システムが適応的に複雑な目標を達成できる度合い

    ▪ 目標の複雑さ(goal complexity) ▪ 環境の複雑さ(environmental complexity) ▪ 適応性(adaptability) ▪ 独立した実行(independent execution) • Agentic AI system ◦ 高度なエージェント性を示すシステム ◦ 限定的な直接的な監督のもとで複雑な目標を追求できる What’s AI Voice Agent 出典:OpenAI - Practices for Governing Agentic AI Systems
  4. © 2024 Loglass Inc. 大雑把に伝えるなら、こういう体験 What’s AI Voice Agent 出典:Live

    demo of GPT-4o realtime conversational speech / https://www.youtube.com/watch?v=1uM8jhcqDP0
  5. © 2024 Loglass Inc. • Speech to Text、回答生 成、Text to

    Speech、スト リーミングなどやることが 多々ある AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/
  6. © 2024 Loglass Inc. • 現状はSpeech to Text、 Text to

    Speech等を個別 にクラウドサービス・API利 用、自前実装等を行ってる例 が多い認識 • 一方で、LLMをベースに音声 AIに必要な要素をフルスタッ クに提供するサービスが登場 AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/
  7. © 2024 Loglass Inc. • 現状はSpeech to Text、 Text to

    Speech等を個別 にクラウドサービス・API利 用、自前実装等を行ってる例 が多い認識 • 一方で、LLMをベースに音声 AIに必要な要素をフルスタッ クに提供するサービスが登場 AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/ この辺り 今回はRetell AIを試してみる
  8. © 2024 Loglass Inc. • 2024年にY Combinator に採択された音声AIスタート アップ •

    LLMベースの Conversational Voice APIを提供 • 音声AIに必要なTTSやSTTや らをまとめてこなしてくれる Retell AIの概要 出典:https://www.retellai.com/
  9. © 2024 Loglass Inc. Retell AIの公式デモ 出典:Retell AI - API

    That Turns Your LLM Into A Human-Like Voice Agent / https://www.youtube.com/watch?v=0LT64_mgkro
  10. © 2024 Loglass Inc. • 日本語ベースの英会話レッスン • 女性の声がRetell AI •

    ダッシュボード上でプロンプト書 いて、エージェント追加。JS SDKで組み込み • フロントエンドはRemix (AI音声の方が明瞭で良い声......) Retell AI組み込んでみた簡易デモ デモ動画リンク(speakerdeckの説明欄にも記載): https://x.com/ry0_kaga/status/1831657645755003369
  11. © 2024 Loglass Inc. 触ってみての感想 • 普通に日本語で会話はできる!すごい! • 言語設定を日本語にすると、日本語で話してくれるし、会話の中で英語を混ぜることもできる •

    Node/Python/Frontend JS SDK、APIもあるので、組み込みは比較的やりやすそう ◦ Retell AI上で購入した電話番号を利用して、インバウンド・アウトバンドコールが可能(未 検証) ◦ Create Phone Call API経由でアウトバンドコールもできるらしい • TTSプロパイダー/Voiceモデルによって差分あるが、日本語が怪しい瞬間はある ◦ 発音覚えさせるオプションはある 所感
  12. © 2024 Loglass Inc. TTSプロバイダーごとの差分 • 特定のTTSプロバイダー・英語以外では使えないオプションがちらほら • 同一プロバイダーでもVoice /

    モデルによってかなり差分ある ◦ 同一プロバイダー・別Voiceで日本語が崩れたり、発話できたりした ◦ ざっと触ってる感じ、11labsが最も音声性能・オプション対応でも優れている印象 • 設定によっても変わるだろう、チューニングしがいがありそう 所感 11labs $0.10/min 最も自然な日本語を話してくれた 抑揚とかテンションの高低も たまに単語ベースで謎の言語で話し てくる Deepgram $0.08/min 日本語未対応。英語で試したが、英 語力の問題で違いわからず... 後述するが、公式Doc的にはレイテ ンシー最も優秀そう OpenAI $0.08/min 時たま壊れるが、基本日本語で会話 は出来る 比較的ローテンション・落ち着いた会 話ができる(印象)
  13. © 2024 Loglass Inc. • カスタマイズをすればするほど基本的にレイテンシーは悪化する ◦ 公式ドキュメントにも記載。出来るだけ処理が走りそうな設定はない方が当然レスポンスは早い • 電話番号を読み上げる時だけゆっくり話す等の設定ができる(試してはない)

    • デフォルトで便利そうなツールがちらほら ◦ Add a Press Digit Tool / 番号を選択するツールがあるので、ダイヤル入力が求められる番号への荷 電自動化もできそう ◦ Call Transfer Toolもあるので、途中で電話をかけ直すことができる • Prompt Engineering Guide ◦ セクションに分ける、タスク分割・順序付け、明示的に行動を規定 ◦ NO_RESPONSE_NEEDEDを出力すると音声を止めることが可能、荷電時に留守番電話だった場合など に使う想定らしい Tips的な何か
  14. © 2024 Loglass Inc. • 「電話は世界へのAPIであり - AIはこれを次のレベルに引き上げる」 by a16z

    • TTS、STT/ASR等のAPIに加え、フルスタックにお任せできるAI Voice as a Serivce(勝手 な呼称)が登場してきている ◦ 音声AIエージェントを動かすハードルは下がりつつあることを実感 • とはいえ、そのままだと日本語が怪しい瞬間もあり、日本語前提ならフルスタックPF依存の難し さはありそう • 今でも領域特化 or ライトめなユースケース and チューニングしたら使えるか......?を探索した い気持ち ◦ 社内システムから始めるとか......? まとめ