実践 Realtime API 〜入力として音声データを扱う〜

実践 Realtime API 〜入力として音声データを扱う〜技術本部 Eight Engineering Unit　藤門莉生

自己紹介藤門莉生（Rio Fujimon） - Sansan株式会社 - 23卒（新卒2年目） - Eight
の iOSアプリを開発 - X（旧 Twitter）：@RioFujimon - iOS開発で主に興味がある領域 - UIKit, SwiftUI - Bluetooth, NFC, Audio, etc

Realtime API https://openai.com/index/introducing-the-realtime-api/

Realtime API 紹介開発者はアプリケーションに高速な音声合成体験を組み込めるようになった

Realtime API を利用するメリット Whisper 音声をテキストに書き起こすテキスト解析モデル目的の
応答を生成 Realtime API

Kanagawa.swift で話した内容目的の応答を生成 Realtime API https://speakerdeck.com/riofujimon/realtime-api-ru-men 👇以下でスライドを公開中 👇 Swift
で Realtime API を扱う基本を中心に話した

本日話す内容目的の応答を生成 Realtime API 音声データを Realtime API への入力として扱う方法を話す

Realtime API Sample App

実装を見ていく 󰳕

https://platform.openai.com/docs/guides/realtime#audio-formats

💡 要点 - 24kHz, PCM16 の形式に変換処理を実施して出力する

💡 要点 - AVAudioSession を設定し、有効化する

👀 AVAudioPCMBuffer のプロパティを表示してみる

💡 要点 - デフォルトでは、 48kHz, 32 bit の形式 - Int16
の値は、nil

💡 要点（⭐⭐⭐） 1. AVAudioFormat で24kHz, 16 bit の形式を作成する 2.
指定の形式に変換するための Converter を作成する 3. 形式変換後の AVAudioPCMBuffer を準備する 4. Converter で変換して AVAudioPCMBuffer に格納する 5. 16bit の値を取得する

👀 変換後のAVAudioPCMBuffer のプロパティを表示してみる

目的の形式（ 16bit PCM Audio, 24kHz, 1channel）に変換完了 🎉

💡 要点 - AVAudioEngine を起動する - AVAudioEngine, Stream を停止する

💡 要点 - 外部への公開メソッドは 2つのみ - startStreaming() -> AsyncStream<Data> -
Data 型に変換した PCM16 形式の音声データを流す - stopStreaming()

💡 要点 - startStreaming() -> AsyncStream<Data> を呼び出してストリーミングを開始する - Data 型に変換した
PCM16 形式の音声データを取得する - APIClient の sendAudioBuffer(_: Data) で Realtime API に音声データを送信 - stopStreaming() でストリーミングを停止する

💡 要点 - Client Event を作成 - 音声データを送信時は、以下 2つを指定する
- type: input_audio_buffer.append - audio: 24kHz, PCM16, base64エンコードされた音声データの文字列 - WebSocket を利用して Client Event を送信する ※ 補足 ( https://platform.openai.com/docs/guides/realtime#server-vad-mode ) - Realtime API では、VAD（Voice Activity Detection）がデフォルトで有効

今後お話する内容目的の応答を生成 Realtime API Realtime API からのレスポンスをを音声としてリアルタイム再生する

Thank You For Listening

実践 Realtime API 〜入力として音声データを扱う〜

実践 Realtime API 〜入力として音声データを扱う〜

RioFujimon

More Decks by RioFujimon

Other Decks in Programming

Featured

Transcript

実践 Realtime API 〜入力として音声データを扱う〜技術本部 Eight Engineering Unit　藤門莉生

自己紹介藤門莉生（Rio Fujimon） - Sansan株式会社 - 23卒（新卒2年目） - Eight

Realtime API https://openai.com/index/introducing-the-realtime-api/

Realtime API 紹介開発者はアプリケーションに高速な音声合成体験を組み込めるようになった

Realtime API を利用するメリット Whisper 音声をテキストに書き起こすテキスト解析モデル目的の

Kanagawa.swift で話した内容目的の応答を生成 Realtime API https://speakerdeck.com/riofujimon/realtime-api-ru-men 👇以下でスライドを公開中 👇 Swift

本日話す内容目的の応答を生成 Realtime API 音声データを Realtime API への入力として扱う方法を話す

Realtime API Sample App

実装を見ていく 󰳕

https://platform.openai.com/docs/guides/realtime#audio-formats

💡 要点 - 24kHz, PCM16 の形式に変換処理を実施して出力する

💡 要点 - AVAudioSession を設定し、有効化する

👀 AVAudioPCMBuffer のプロパティを表示してみる

💡 要点 - デフォルトでは、 48kHz, 32 bit の形式 - Int16

💡 要点（⭐⭐⭐） 1. AVAudioFormat で24kHz, 16 bit の形式を作成する 2.

👀 変換後のAVAudioPCMBuffer のプロパティを表示してみる

目的の形式（ 16bit PCM Audio, 24kHz, 1channel）に変換完了 🎉

💡 要点 - AVAudioEngine を起動する - AVAudioEngine, Stream を停止する

💡 要点 - 外部への公開メソッドは 2つのみ - startStreaming() -> AsyncStream<Data> -

💡 要点 - startStreaming() -> AsyncStream<Data> を呼び出してストリーミングを開始する - Data 型に変換した

💡 要点 - Client Event を作成 - 音声データを送信時は、以下 2つを指定する

今後お話する内容目的の応答を生成 Realtime API Realtime API からのレスポンスをを音声としてリアルタイム再生する

Thank You For Listening