Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Core Audio tapを使ったリアルタイム音声処理のお話
Search
Sloth
July 02, 2025
Technology
0
150
Core Audio tapを使ったリアルタイム音声処理のお話
Flutter Tokyo #9の5分LTでの資料です。
Sloth
July 02, 2025
Tweet
Share
More Decks by Sloth
See All by Sloth
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
360
Other Decks in Technology
See All in Technology
AWS Summit Japan 2025 Community Stage - App workflow automation by AWS Step Functions
matsuihidetoshi
1
300
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
370
Tokyo_reInforce_2025_recap_iam_access_analyzer
hiashisan
0
130
mrubyと micro-ROSが繋ぐロボットの世界
kishima
2
380
「Chatwork」の認証基盤の移行とログ活用によるプロダクト改善
kubell_hr
1
230
急成長を支える基盤作り〜地道な改善からコツコツと〜 #cre_meetup
stefafafan
0
150
無意味な開発生産性の議論から抜け出すための予兆検知とお金とAI
i35_267
0
740
MySQL5.6から8.4へ 戦いの記録
kyoshidaxx
1
290
SpringBoot x TestContainerで実現するポータブル自動結合テスト
demaecan
0
120
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
3
1k
Claude Code Actionを使ったコード品質改善の取り組み
potix2
PRO
6
2.6k
さくらのIaaS基盤のモニタリングとOpenTelemetry/OSC Hokkaido 2025
fujiwara3
2
180
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Fireside Chat
paigeccino
37
3.5k
Designing Experiences People Love
moore
142
24k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
Automating Front-end Workflow
addyosmani
1370
200k
A better future with KSS
kneath
239
17k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Agile that works and the tools we love
rasmusluckow
329
21k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Transcript
Core Audio tapを使った リアルタイム⾳声処理のお話 ML Engineer @ Kotoba Technologies Japan
佐々木 裕多 Flutter Tokyo #9
⾃⼰紹介 名前:佐々⽊ 裕多 所属:Kotoba Technologies Japan, 東京科学⼤ (休学中) 肩書:ML Engineer 興味:対話エージェントとかマルチモーダル⾳声認識とか(研究話)
Flutter歴 :3週間くらい.... X: @Sloth65557166 GitHub: @yuta0306
会社紹介&今⽇の本題! 話すよりデモ
聴きながら話す⾳声アプリの難しさ • 外部⾳声、周辺ノイズの影響 • 出⼒⾳声のループバック • Speech-to-speech翻訳アプリを考えると... ◦ 翻訳元⾔語の⾳声ソースは? ▪
オンラインミーティングや動画の翻訳だと、マイクを使わず にPC⼀つで完結したい → とりうる選択肢は? ScreenCaptureKit or Core Audio tap 新しいAPIだし、 こっち使ってみた
Core Audio tapをざっくり • macOS 14.2+, Xcode 15.1+で使えるApple公式API • アプリ/プロセス単位で出⼒⾳声をタップして取得
• 複数のアプリやプロセスをまとめることも可能
Core Audio tapを使って広がる⾳声アプリの世界 • 単⼀/複数プロセスの⾳声に絞って録⾳できる! • 聴きながら話すアプリでも、ループバックが起きないよ! ◦ 綺麗なシステム⾳声だけが取れて、 周辺環境のノイズに影響されない!
App BridgePlugin Process Tap Recorder Audio Queue 録⾳リクエスト Process tap
起動 成功 バッファ追加 … ポーリング まとまった⾳声バッファ ⾳声バッファ … FlutterMethodChannel FlutterEventChannel
Core Audio tapで踏みがちな地雷もあって... 5分LTなので今⽇は割愛...
結びに 踏みやすい地雷は多いけど、、、 Core Audio tapで、 デスクトップ⾳声アプリケーションの幅が 広がるよ!!🚀
References 1. Core Audio taps: https://developer.apple.com/documentation/coreaudio/capturing-system-audio-with-core-audio- taps 2. MethodChannel: https://api.flutter.dev/flutter/services/MethodChannel-class.html
3. EventChannel: https://api.flutter.dev/flutter/services/EventChannel-class.html