Slide 1

Slide 1 text

© 2024 Loglass Inc. 音声AIエージェントの世界と Retell AI入門 2024.9.5 r.kagaya StudyCo 【LT大会#8】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれよう

Slide 2

Slide 2 text

© 2024 Loglass Inc. Profile Kagaya(@ry0_kaga) 株式会社ログラス LLMアプリケーションエンジニア 2022年に株式会社ログラスに入社 経営管理SaaSの開発、開発生産性向上に取り組ん だのち、生成AI/LLMチームを立ち上げ、複数LLM 機能の開発をリード 現在はAI事業開発チームに所属

Slide 3

Slide 3 text

© 2024 Loglass Inc. Loglassについて

Slide 4

Slide 4 text

© 2024 Loglass Inc. おことわり / 前提 ● デモ動画が多いので、時間の都合上スライド内容は薄めです ● 個人的関心に基づくスライド内容になってます ○ 単純に音声系に関心がある(業務経験があるわけではない) ○ Retell AI触りたい、触ってみた!系の内容 ● 既存の音声AI系サービス・実装への言及/比較はないので、その辺りが知りたい方はあし からず

Slide 5

Slide 5 text

© 2024 Loglass Inc. 音声AIエージェントとは

Slide 6

Slide 6 text

© 2024 Loglass Inc. Agentic AI ● エージェント性(Agenticness) ○ 直接の監視が制限された複雑な環境において、システムが適応的に複雑な目標を達成できる度合い ■ 目標の複雑さ(goal complexity) ■ 環境の複雑さ(environmental complexity) ■ 適応性(adaptability) ■ 独立した実行(independent execution) ● Agentic AI system ○ 高度なエージェント性を示すシステム ○ 限定的な直接的な監督のもとで複雑な目標を追求できる What’s AI Voice Agent 出典:OpenAI - Practices for Governing Agentic AI Systems

Slide 7

Slide 7 text

© 2024 Loglass Inc. What’s AI Voice Agent 「カスタマイズ可能な設定を備えた会話型エンティティであり、特定のアイデンティティを 想定し、ユーザーとやりとりすることで、あらかじめ設定された目標を達成することがで きます。」 出典:https://docs.retellai.com/agent/agent-overview#whats-ai-voice-agents

Slide 8

Slide 8 text

© 2024 Loglass Inc. 大雑把に伝えるなら、こういう体験 What’s AI Voice Agent 出典:Live demo of GPT-4o realtime conversational speech / https://www.youtube.com/watch?v=1uM8jhcqDP0

Slide 9

Slide 9 text

© 2024 Loglass Inc. ● Speech to Text、回答生 成、Text to Speech、スト リーミングなどやることが 多々ある AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/

Slide 10

Slide 10 text

© 2024 Loglass Inc. ● 現状はSpeech to Text、 Text to Speech等を個別 にクラウドサービス・API利 用、自前実装等を行ってる例 が多い認識 ● 一方で、LLMをベースに音声 AIに必要な要素をフルスタッ クに提供するサービスが登場 AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/

Slide 11

Slide 11 text

© 2024 Loglass Inc. ● 現状はSpeech to Text、 Text to Speech等を個別 にクラウドサービス・API利 用、自前実装等を行ってる例 が多い認識 ● 一方で、LLMをベースに音声 AIに必要な要素をフルスタッ クに提供するサービスが登場 AI Voice Agentsのスタック 出典:https://a16z.com/ai-voice-agents/ この辺り 今回はRetell AIを試してみる

Slide 12

Slide 12 text

© 2024 Loglass Inc. Retell AI

Slide 13

Slide 13 text

© 2024 Loglass Inc. ● 2024年にY Combinator に採択された音声AIスタート アップ ● LLMベースの Conversational Voice APIを提供 ● 音声AIに必要なTTSやSTTや らをまとめてこなしてくれる Retell AIの概要 出典:https://www.retellai.com/

Slide 14

Slide 14 text

© 2024 Loglass Inc. Retell AIの公式デモ 出典:Retell AI - API That Turns Your LLM Into A Human-Like Voice Agent / https://www.youtube.com/watch?v=0LT64_mgkro

Slide 15

Slide 15 text

© 2024 Loglass Inc. ノーコード・プロンプトベースでの挙動制御が可能 ● General Prompt(≒システムプロンプト)でアイデンティ設定・挙動の制御が可能 Retell AIの機能概要①

Slide 16

Slide 16 text

© 2024 Loglass Inc. Stateful Multi Prompt Agent ● 複数のプロンプト・分岐させた、フローエンジニアリングなフローも組める Retell AIの機能概要① 条件が満たされたらcallback に遷移

Slide 17

Slide 17 text

© 2024 Loglass Inc. 複数TTSプロバイダー・音声のサポート ● OpenAI、11labs、Deepgramの3社 ● カスタムボイスも設定可 Retell AIの機能概要②

Slide 18

Slide 18 text

© 2024 Loglass Inc. カスタマイズ性 ● 言語、感情的、肯定表現の利用等々の設定が可能 ● ツールや情報抽出の定義も Retell AIの機能概要③ 電話/音声の中で 抽出したい情報の定義

Slide 19

Slide 19 text

© 2024 Loglass Inc. Retell AI組み込んでみる

Slide 20

Slide 20 text

© 2024 Loglass Inc. ● 日本語ベースの英会話レッスン ● 女性の声がRetell AI ● ダッシュボード上でプロンプト書 いて、エージェント追加。JS SDKで組み込み ● フロントエンドはRemix (AI音声の方が明瞭で良い声......) Retell AI組み込んでみた簡易デモ デモ動画リンク(speakerdeckの説明欄にも記載): https://x.com/ry0_kaga/status/1831657645755003369

Slide 21

Slide 21 text

© 2024 Loglass Inc. 触ってみての感想 ● 普通に日本語で会話はできる!すごい! ● 言語設定を日本語にすると、日本語で話してくれるし、会話の中で英語を混ぜることもできる ● Node/Python/Frontend JS SDK、APIもあるので、組み込みは比較的やりやすそう ○ Retell AI上で購入した電話番号を利用して、インバウンド・アウトバンドコールが可能(未 検証) ○ Create Phone Call API経由でアウトバンドコールもできるらしい ● TTSプロパイダー/Voiceモデルによって差分あるが、日本語が怪しい瞬間はある ○ 発音覚えさせるオプションはある 所感

Slide 22

Slide 22 text

© 2024 Loglass Inc. TTSプロバイダーごとの差分 ● 特定のTTSプロバイダー・英語以外では使えないオプションがちらほら ● 同一プロバイダーでもVoice / モデルによってかなり差分ある ○ 同一プロバイダー・別Voiceで日本語が崩れたり、発話できたりした ○ ざっと触ってる感じ、11labsが最も音声性能・オプション対応でも優れている印象 ● 設定によっても変わるだろう、チューニングしがいがありそう 所感 11labs $0.10/min 最も自然な日本語を話してくれた 抑揚とかテンションの高低も たまに単語ベースで謎の言語で話し てくる Deepgram $0.08/min 日本語未対応。英語で試したが、英 語力の問題で違いわからず... 後述するが、公式Doc的にはレイテ ンシー最も優秀そう OpenAI $0.08/min 時たま壊れるが、基本日本語で会話 は出来る 比較的ローテンション・落ち着いた会 話ができる(印象)

Slide 23

Slide 23 text

© 2024 Loglass Inc. TTS(Text to Speech)のレイテンシーはDeepgramが優秀らしい 所感 出典:https://docs.retellai.com/get-started/reduce-latency#audio-generation-time

Slide 24

Slide 24 text

© 2024 Loglass Inc. ● カスタマイズをすればするほど基本的にレイテンシーは悪化する ○ 公式ドキュメントにも記載。出来るだけ処理が走りそうな設定はない方が当然レスポンスは早い ● 電話番号を読み上げる時だけゆっくり話す等の設定ができる(試してはない) ● デフォルトで便利そうなツールがちらほら ○ Add a Press Digit Tool / 番号を選択するツールがあるので、ダイヤル入力が求められる番号への荷 電自動化もできそう ○ Call Transfer Toolもあるので、途中で電話をかけ直すことができる ● Prompt Engineering Guide ○ セクションに分ける、タスク分割・順序付け、明示的に行動を規定 ○ NO_RESPONSE_NEEDEDを出力すると音声を止めることが可能、荷電時に留守番電話だった場合など に使う想定らしい Tips的な何か

Slide 25

Slide 25 text

© 2024 Loglass Inc. ● 「電話は世界へのAPIであり - AIはこれを次のレベルに引き上げる」 by a16z ● TTS、STT/ASR等のAPIに加え、フルスタックにお任せできるAI Voice as a Serivce(勝手 な呼称)が登場してきている ○ 音声AIエージェントを動かすハードルは下がりつつあることを実感 ● とはいえ、そのままだと日本語が怪しい瞬間もあり、日本語前提ならフルスタックPF依存の難し さはありそう ● 今でも領域特化 or ライトめなユースケース and チューニングしたら使えるか......?を探索した い気持ち ○ 社内システムから始めるとか......? まとめ

Slide 26

Slide 26 text

© 2024 Loglass Inc.