Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Core Audio tapを使ったリアルタイム音声処理のお話
Search
Sloth
July 02, 2025
Technology
0
230
Core Audio tapを使ったリアルタイム音声処理のお話
Flutter Tokyo #9の5分LTでの資料です。
Sloth
July 02, 2025
Tweet
Share
More Decks by Sloth
See All by Sloth
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
370
Other Decks in Technology
See All in Technology
トヨタ生産方式(TPS)入門
recruitengineers
PRO
3
320
ドキュメントはAIの味方!スタートアップのアジャイルを加速するADR
kawauso
3
390
現場が抱える様々な問題は “組織設計上” の問題によって生じていることがある / Team-oriented Organization Design 20250827
mtx2s
6
1.4k
LLMエージェント時代に適応した開発フロー
hiragram
1
420
Claude Code x Androidアプリ 開発
kgmyshin
1
600
Preferred Networks (PFN) とLLM Post-Training チームの紹介 / 第4回 関東Kaggler会 スポンサーセッション
pfn
PRO
1
240
mruby(PicoRuby)で ファミコン音楽を奏でる
kishima
1
280
どこで動かすか、誰が動かすか 〜 kintoneのインフラ基盤刷新と運用体制のシフト 〜
ueokande
0
190
GitHub Copilot coding agent を推したい / AIDD Nagoya #1
tnir
4
4.7k
事業価値と Engineering
recruitengineers
PRO
2
380
人と組織に偏重したEMへのアンチテーゼ──なぜ、EMに設計力が必要なのか/An antithesis to the overemphasis of people and organizations in EM
dskst
6
630
実践アプリケーション設計 ①データモデルとドメインモデル
recruitengineers
PRO
3
350
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Thoughts on Productivity
jonyablonski
69
4.8k
Gamification - CAS2011
davidbonilla
81
5.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
How to train your dragon (web standard)
notwaldorf
96
6.2k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
184
54k
It's Worth the Effort
3n
187
28k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
Transcript
Core Audio tapを使った リアルタイム⾳声処理のお話 ML Engineer @ Kotoba Technologies Japan
佐々木 裕多 Flutter Tokyo #9
⾃⼰紹介 名前:佐々⽊ 裕多 所属:Kotoba Technologies Japan, 東京科学⼤ (休学中) 肩書:ML Engineer 興味:対話エージェントとかマルチモーダル⾳声認識とか(研究話)
Flutter歴 :3週間くらい.... X: @Sloth65557166 GitHub: @yuta0306
会社紹介&今⽇の本題! 話すよりデモ
聴きながら話す⾳声アプリの難しさ • 外部⾳声、周辺ノイズの影響 • 出⼒⾳声のループバック • Speech-to-speech翻訳アプリを考えると... ◦ 翻訳元⾔語の⾳声ソースは? ▪
オンラインミーティングや動画の翻訳だと、マイクを使わず にPC⼀つで完結したい → とりうる選択肢は? ScreenCaptureKit or Core Audio tap 新しいAPIだし、 こっち使ってみた
Core Audio tapをざっくり • macOS 14.2+, Xcode 15.1+で使えるApple公式API • アプリ/プロセス単位で出⼒⾳声をタップして取得
• 複数のアプリやプロセスをまとめることも可能
Core Audio tapを使って広がる⾳声アプリの世界 • 単⼀/複数プロセスの⾳声に絞って録⾳できる! • 聴きながら話すアプリでも、ループバックが起きないよ! ◦ 綺麗なシステム⾳声だけが取れて、 周辺環境のノイズに影響されない!
App BridgePlugin Process Tap Recorder Audio Queue 録⾳リクエスト Process tap
起動 成功 バッファ追加 … ポーリング まとまった⾳声バッファ ⾳声バッファ … FlutterMethodChannel FlutterEventChannel
Core Audio tapで踏みがちな地雷もあって... 5分LTなので今⽇は割愛...
結びに 踏みやすい地雷は多いけど、、、 Core Audio tapで、 デスクトップ⾳声アプリケーションの幅が 広がるよ!!🚀
References 1. Core Audio taps: https://developer.apple.com/documentation/coreaudio/capturing-system-audio-with-core-audio- taps 2. MethodChannel: https://api.flutter.dev/flutter/services/MethodChannel-class.html
3. EventChannel: https://api.flutter.dev/flutter/services/EventChannel-class.html