# Title
Conversational AI for Next-Gen Social & Entertainment Solutions
Yohei Yoshimuta, Head of Engineering, Parallel
https://webinars.agora.io/CEE2024/register
# Demo Video Link
Parallel with Realtime API Demo: https://www.youtube.com/watch?v=pWK6Dv5QKPg
# (Japanese) 発表の概要
パラレルアプリでは、複数ユーザーとAIがリアルタイムで会話できるよう、Agoraの音声ミキシング技術とOpenAIのリアルタイムAPIを組み合わせたシステムを構築しました。Agoraの音量イベントを活用して各話者を識別し、個々のユーザーの趣味や嗜好に合わせた応答を生成することで、グループ通話でもパーソナライズされた会話体験を提供しています。また、オセロゲームの進行状況をリアルタイムで把握し、AIによる1vs1のゲーム実況にも対応しました。この際、盤面全体ではなく各手ごとの情報を伝達することで、より精度の高い実況を実現しています。さらに、WhisperエンジンによるWakeワード検出を実装し、ユーザーが音声コマンドでAIを起動・停止しつつ、セッションを継続できる設計を採用しています。実運用にはWakeワード機能は専用のモデルに置き換える必要がありますが、Realtime APIの応答としてWhisperエンジンで書き起こしたテキストを直接受け取れるため、今回のようにプロトタイプを高速に作成する際には便利です。
また、管理画面からプロンプトや命令を柔軟に調整できるようにし、実現したいシナリオに沿った最適な応答を設定できるよう工夫しました。これにより、システムの調整を素早く行い、反復的なイテレーションを高速に回すことが可能になりました。最後に、AIの声の調子が単調になりがちな点については、トーン調整が可能になるような改善を期待しており、今後のOpenAI技術のさらなる進化に期待しています。