WebRTC の映像を Python から自由に加工する sora-python-sdk の仕組み

WebRTC の映像を Python から自由に加工する sora-python-sdk の仕組み @tnoho

自己紹介 @tnoho うぇぶふろんとえんどえんじにゃー🐈 良く書く組み合わせ: React, Redux, TypeScript, BootStrap, Sass, Java,
Go 最近書きたいの: Svelte 書いてると自己満足できるの: C++ (14 以降に限る) 書かないか？と言われるとイラっとするの: Rust

Sora Python SDK って？時雨堂社の WebRTC SFU Sora に Python
から接続できるライブラリ特徴 • Python で WebRTC のメディアチャネルとデータチャネルを扱える • Chrome の WebRTC 実装である libwebrtc を採用 • Sora C++ SDK をベースとし、各種メディアアクセラレータに対応 ←Python が 36% あるように見えますが、ほとんどビルドスクリプトなので　ライブラリ本体の Python は 28 行しかありません

Sora Python SDK で目指したところ WebRTC のメディアストリームを手軽に扱えるようにする気を遣ったところ • Python らしく雑に扱える
• 既存の機械学習が使いやすいよう OpenCV や Pillow が併用できる • サーバーとかでも動かせるようにデバイスは巻き込まない • JavaScript レベルの WebRTC の自由度は損なわない

サンプル1: 映像送信 VideoSource を作って OpenCV の VideoCapture で取得したフレームを VideoSource
に投げればそのまま送れる！

サンプル2: 映像受信 OnTrack で受け取った VideoTrack を VideoSink にセットすれば、フレームが来るたび VideoSink
の OnFrame が呼ばれる！引数で渡される frame はそのまま、 OpenCV の imshow に渡せる！

なにがいいのか機械学習のサンプルコードに良くあるやつ → と In, Out の形式が共通化されているなのでローカルで動作確認したものの、 In や
Out を簡単に WebRTC 化できる

サンプル3: 1 に顔隠し追加というわけで、割と簡単に Google の機械学習ライブラリ mediapipe の高速顔検出で検出した顔に Python
で一般的な画像加工ライブラリ Pillow を使って画像を重ねるとかできる！座標変換とかの方がだるい！

デモが動かなかった時用

サンプル4: 音声受信 OnTrack で受け取った AudioTrack を AudioSink にセットすれば、受信データを read
で読みだせる！ read で読み出したデータを sounddevice に渡せば再生できる！

libwebrtc エキスパートレベルテスト libwebrtc を使っているかたなにか違和感に気づけませんか

libwebrtc エキスパートレベルテスト - 答え Audio デバイスがないのに Audio データを Track ごとに出せている
AudioSink に出力サンプリング周波数と出力チャネル数の設定がある

libwebrtc のデフォルトの Audio 処理 RemoteAudioTrack … … EchoCanceller AudioInputDevice …
AudioMixer AudioOutputDevice Remix Resample OnData … LocalAudioTrack 特に設定しないと 3 本まで出力音でエコキャンする当たり前だけどブラウザは違うよ AudioMixer の前に出力するRemoteTrack のチャネル数とサンプリングレートを合わせるループを回してるのはコイツ AudioTrack の OnData はここで呼ばれる発表後追加今後は制限がなくなるようです

sora-python-sdk の Audio 処理 RemoteAudioTrack … … … DummyAudioMixer DummyAudioOutputDevice
Remix Resample OnData … SoraAudioSink Remix Resample Buffer Read 全 RemoteTrack をカバーするループを回してるのはコイツ出力もエコキャンもしないのでループを回すだけ全 Track のチャネル数とサンプリングレートを合わせる必要はないのでここでやる 10ms ごと 10ms ごとにコールバックされると辛い貯めてユーザープログラム側から読む

Sora Python SDK の構造 Sora C++ SDK libwebrtc nanobind ユーザープログラム
シグナリングメディアアクセラレーター Audio 処理系 PeerConnection Track Source Sink Python nanobind だけだと GC がうまくいかなかった Sora C++ SDK はアシストライブラリみたいなものなので、メディア処理は自由にカスタムできる Momo の匂いが残ってる libwebrtc って PeerConnectionFactory 経由で中の挙動弄れるんです pybind11 っていう幅広く使われてる兄がいる ndarray のハンドリングが早くなったと聞いて採用

なぜ libwebrtc を使うのか WebRTC のプロトコルスタック実装自体はいくつかあるが、 WebRTC と同時に生まれた libwebrtc にクライアントとして匹敵するものはない •
C++ で書かれていて高速である • フィードバック制御が網羅されている • 全ての SFU や WebRTC クライアントのチューニングの基準になっている • Simulcast がちゃんと動く • リップシンクで音声と映像の同期が取れるようにケアされる • ペーサーでビットレートがコントロールされる…などなど

今後についてなんだかんだで GIL (排他制御) が辛いのでなるべく SDK にオフロードしたい例： Audio のルートをもう少し変えたい
OnData には流れてこない AudioFrame に含まれる VAD の情報などが欲しい VAD があれば、機械学習などに流す時に全てを流す必要がなくなる PeerConnection 受信のみ RemoteVideoTrack RemoteAudioTrack PeerConnection 送信のみ VideoSink Python(加工) VideoSource

WebRTC の映像を Python から自由に加工する sora-python-sdk の仕組み

WebRTC の映像を Python から自由に加工する sora-python-sdk の仕組み

tnoho

More Decks by tnoho

Other Decks in Programming

Featured

Transcript