Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Core Audio tapを使ったリアルタイム音声処理のお話
Search
Sloth
July 02, 2025
Technology
0
330
Core Audio tapを使ったリアルタイム音声処理のお話
Flutter Tokyo #9の5分LTでの資料です。
Sloth
July 02, 2025
Tweet
Share
More Decks by Sloth
See All by Sloth
AVSRの世界と日本語特化モデル開発の裏側.pdf
yuta0306
1
460
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
440
Other Decks in Technology
See All in Technology
夢の無限スパゲッティ製造機 #phperkaigi
o0h
PRO
0
380
Cursor Subagentsはいいぞ
yug1224
2
110
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
11k
Phase06_ClaudeCode実践
overflowinc
0
2.3k
契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話
sansantech
PRO
3
300
スケーリングを封じられたEC2を救いたい
senseofunity129
0
110
PostgreSQL 18のNOT ENFORCEDな制約とDEFERRABLEの関係
yahonda
0
140
Zephyr(RTOS)でOpenPLCを実装してみた
iotengineer22
0
140
Astro Islandsの 内部実装を 「日本で一番わかりやすく」 ざっくり解説!
knj
0
300
Amazon Qはアマコネで頑張っています〜 Amazon Q in Connectについて〜
yama3133
1
150
How to install a gem
indirect
0
1.8k
AIエージェント×GitHubで実現するQAナレッジの資産化と業務活用 / QA Knowledge as Assets with AI Agents & GitHub
tknw_hitsuji
0
260
Featured
See All Featured
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
360
The browser strikes back
jonoalderson
0
850
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
270
How to Think Like a Performance Engineer
csswizardry
28
2.5k
A Soul's Torment
seathinner
5
2.5k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
130
AI: The stuff that nobody shows you
jnunemaker
PRO
3
490
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
120
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.2k
Transcript
Core Audio tapを使った リアルタイム⾳声処理のお話 ML Engineer @ Kotoba Technologies Japan
佐々木 裕多 Flutter Tokyo #9
⾃⼰紹介 名前:佐々⽊ 裕多 所属:Kotoba Technologies Japan, 東京科学⼤ (休学中) 肩書:ML Engineer 興味:対話エージェントとかマルチモーダル⾳声認識とか(研究話)
Flutter歴 :3週間くらい.... X: @Sloth65557166 GitHub: @yuta0306
会社紹介&今⽇の本題! 話すよりデモ
聴きながら話す⾳声アプリの難しさ • 外部⾳声、周辺ノイズの影響 • 出⼒⾳声のループバック • Speech-to-speech翻訳アプリを考えると... ◦ 翻訳元⾔語の⾳声ソースは? ▪
オンラインミーティングや動画の翻訳だと、マイクを使わず にPC⼀つで完結したい → とりうる選択肢は? ScreenCaptureKit or Core Audio tap 新しいAPIだし、 こっち使ってみた
Core Audio tapをざっくり • macOS 14.2+, Xcode 15.1+で使えるApple公式API • アプリ/プロセス単位で出⼒⾳声をタップして取得
• 複数のアプリやプロセスをまとめることも可能
Core Audio tapを使って広がる⾳声アプリの世界 • 単⼀/複数プロセスの⾳声に絞って録⾳できる! • 聴きながら話すアプリでも、ループバックが起きないよ! ◦ 綺麗なシステム⾳声だけが取れて、 周辺環境のノイズに影響されない!
App BridgePlugin Process Tap Recorder Audio Queue 録⾳リクエスト Process tap
起動 成功 バッファ追加 … ポーリング まとまった⾳声バッファ ⾳声バッファ … FlutterMethodChannel FlutterEventChannel
Core Audio tapで踏みがちな地雷もあって... 5分LTなので今⽇は割愛...
結びに 踏みやすい地雷は多いけど、、、 Core Audio tapで、 デスクトップ⾳声アプリケーションの幅が 広がるよ!!🚀
References 1. Core Audio taps: https://developer.apple.com/documentation/coreaudio/capturing-system-audio-with-core-audio- taps 2. MethodChannel: https://api.flutter.dev/flutter/services/MethodChannel-class.html
3. EventChannel: https://api.flutter.dev/flutter/services/EventChannel-class.html