Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Realtime API 入門
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
RioFujimon
November 03, 2024
Programming
0
370
Realtime API 入門
Kanagawa.swift #1 で発表した Realtime APIに関する入門スライドです。
RioFujimon
November 03, 2024
Tweet
Share
More Decks by RioFujimon
See All by RioFujimon
Foundation Models を 活用するための Tips
riofujimon
1
330
2025.01.17_Sansan × DMM.swift
riofujimon
3
910
実践 Realtime API 〜入力として音声データを扱う〜
riofujimon
1
97
Let's learn code review
riofujimon
3
1.2k
Other Decks in Programming
See All in Programming
Fundamentals of Software Engineering In the Age of AI
therealdanvega
2
290
それはエンジニアリングの糧である:AI開発のためにAIのOSSを開発する現場より / It serves as fuel for engineering: insights from the field of developing open-source AI for AI development.
nrslib
1
510
AI Assistants for Your Angular Solutions
manfredsteyer
PRO
0
160
PHP 7.4でもOpenTelemetryゼロコード計装がしたい! / PHPerKaigi 2026
arthur1
1
390
Codexに役割を持たせる 他のAIエージェントと組み合わせる実務Tips
o8n
4
1.4k
守る「だけ」の優しいEMを抜けて、 事業とチームを両方見る視点を身につけた話
maroon8021
3
1.3k
Feature Toggle は捨てやすく使おう
gennei
0
320
ふつうのRubyist、ちいさなデバイス、大きな一年 / Ordinary Rubyists, Tiny Devices, Big Year
chobishiba
1
500
ポーリング処理廃止によるイベント駆動アーキテクチャへの移行
seitarof
3
1.3k
The free-lunch guide to idea circularity
hollycummins
0
340
クライアントワークでSREをするということ。あるいは事業会社におけるSREと同じこと・違うこと
nnaka2992
1
360
「接続」—パフォーマンスチューニングの最後の一手 〜点と点を結ぶ、その一瞬のために〜
kentaroutakeda
3
1.9k
Featured
See All Featured
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
450
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.2k
How to Think Like a Performance Engineer
csswizardry
28
2.5k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
For a Future-Friendly Web
brad_frost
183
10k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
Transcript
Realtime API 入門 藤門 莉生(Rio Fujimon)
自己紹介 藤門 莉生(Rio Fujimon) - Sansan株式会社 - 23卒(新卒2年目) - Eight
の iOSアプリを開発 - X(旧 Twitter):@RioFujimon - iOS開発で主に興味がある領域 - UIKit, SwiftUI - Bluetooth, NFC, Audio, etc
None
Realtime API 紹介文 開発者はアプリケーションに 高速な音声合成体験 を組み込めるようになった
Realtime API 登場以前の手法 Whisper 音声を テキストに 書き起こす テキスト 解析モデル 目的の
応答を生成
Realtime API 登場以前の問題 Whisper 音声を テキストに 書き起こす テキスト 解析モデル 目的の
応答を生成 プロセス全体で感情やアクセントが失われたり、遅延が発生
Realtime API を利用した場合 Whisper 音声を テキストに 書き起こす テキスト 解析モデル 目的の
応答を生成 Realtime API
実装を見ていく
まずはRealtime API のチュートリアル 🔰
公式のドキュメントは JavaScript の例しか載ってない 😭 https://platform.openai.com/docs/ guides/realtime#overview 自力で読み解いて Swift で書き直す or
AIツールを利用して Swiftで書き直す
💡 要点 ・URLSessionWebSocketDelegate を利用 ・urlSession(_, webSocketTask:, didOpenWithProtocol:) で以下を記述 ・URLSessionWebSocketTask.Messageを作成 ・URLSessionWebSocketTask
の send()で送信 ・receiveMessage() でWebSocketを利用したデータ受信
💡 要点 ・URLSessionWebSocketTask の receive() で受信 ・URLSessionWebSocketTask.Message として取得 ・.string(String) と
.data(Data) で取得可能
None
実行してみる ▶
None
None
None
😵 様々な形式の JSONデータが返却されてよく分からん
🖐 JSONの重要な部分を見てみる
JSONデータを1行取り出してみる 👀 - type: response.text.delta - delta: 【差分のテキスト文】
別なJSONデータを1行取り出してみる 👀 - type: response.text.done - text: 【テキストの完全文】
💡 要点 ・JSON から type を取得 ・type で場合分けを実施 ・response.text.delta の場合、
delta を取得して表示 ・response.text.done の text を取得して表示
None
🗣 会話の内容を変更する
💡 要点 ・type を指定することで Client からのイベントが変更可能 ・type の種類 ・conversation.item.create の場合、会話内容を追加
・response.create の場合、レスポンスの生成 を指示
会話・質問の内容を変えることに成功 🎉
テキストは、無事に扱えるようになった 🎉
音声データはどう取得するの? 🧐
💡 要点 ・modalities に audio を指定
JSONデータを1行取り出してみる 👀 - type: response.audio.delta - delta: 【base64エンコードされた逐次の音声データ】
別なJSONデータを1行取り出してみる 👀 - type: response.audio_transcript.delta - delta: 【トランスクリプトの差分】
別なJSONデータを1行取り出してみる 👀 - type: response.audio_transcript.done - transcript: 【トランスクリプトの完全文】
💡 要点 ・JSON から type を取得 ・type で場合分けを実施 ・response.audio.delta の場合、
delta を表示 ・response.audio_transcript.delta の delta を表示 ・response.audio_transcript.done の transcript を表示
音声データの取得が行えるようになった 🎉
本日話した内容 目的の 応答を生成 Realtime API
残っている内容 目的の 応答を生成 Realtime API AVFoundation(AVAudioEngine, AVAudioSession)で扱う
AVFoundationの 部分をお話する予定 ご参加 お待ちしてます 🙏 connpassのリンクは こちら
【参考】 Realtime API のライブラリも 開発されているみたい https://github.com/m1guelp f/swift-realtime-openai
- https://openai.com/index/introducing-the-realtime-api/ - https://platform.openai.com/docs/guides/realtime?text-generation-quickstart-e xample=stream - https://platform.openai.com/docs/api-reference/realtime-client-events - https://platform.openai.com/docs/api-reference/realtime-server-events -
https://openai.com/brand/ - https://developer.apple.com/documentation/foundation/urlsessionwebsocketd elegate - https://developer.apple.com/documentation/foundation/urlsessionwebsocketta sk - https://github.com/m1guelpf/swift-realtime-openai 参考リンク
ご清聴ありがとうございました!