音信号の電子透かし

AI 2024.05.30 nagiss 株式会社ディー・エヌ・エー音信号の電子透かし Audio watermark

AI 2 項目 01｜音信号の電子透かしとは 02｜OSS: audiowmark 03｜OSS: audioseal 04｜まとめ・所感

AI 3 01 音信号の電子透かしとは

AI 4 ▪ 聞き手が知覚できないように音信号に情報を埋め込む技術 ▪ 評価軸 ▪ 変化が知覚できないほど良い ▪ 除去しづらいほど良い
▪ (波形を変形した後でも) 検出精度が高いほど良い ▪ など (色々あるし場合による) 音信号の電子透かしとは

AI 5 ▪ 用途 ▪ (歴史的には) 音コンテンツの著作権保護 ▪ 劇場向けの音コンテンツを民生用機器で再生できなくする、など ▪
(最近では) 合成音声の悪用対策 ▪ 真の音声に透かしを入れ、真正性を担保 ▪ 生成音声に透かしを入れ、技術の悪用を検知 ▪ 悪用例: ジョー・バイデンを騙って投票の棄権を呼びかけた自動電話 https://wired.jp/article/biden-robocall-deepfake-elevenlabs/ 音信号の電子透かしとは

AI 6 ▪ OSSを例に、実用的な電子透かしがどういう仕組みで動いているか紹介する ▪ audiowmark ▪ 信号処理で透かしを生成・検出 ▪
固定されたコンテンツ向きな感じ ▪ AudioSeal ▪ NNで透かしを生成・検出 ▪ 生成AIには生成AIをぶつけんだよ ▪ 音声向きな感じこの発表の目的基礎的なところを知るのは玉森先生の音声情報処理n本ノックが良さそう (これも紹介しようと思ったけど時間が足りず)

AI 7 02 audiowmark

AI 8 ▪ OSS (論文があるわけではない) ▪ 信号処理で埋め込み・検出をそれぞれ頑張る ▪ 860Hz ~
4300Hz くらいの帯域を強弱させて埋め込む ▪ 44100Hz/1024*20, 44100Hz/1024*100 ▪ 強弱のパターンで埋め込まれた情報を検出する ▪ 最大128bitの情報を埋め込む ▪ 128bit埋め込む場合、52秒ほどのデータが必要っぽい ▪ それより短く切り出されても検出はできるっぽい audiowmark - 概要 https://github.com/swesterfeld/audiowmark

AI 9 ▪ むずい；； ▪ おそらくこうだろうという想像で + 所々簡略化して説明します ▪ 細かいところの正確性はないものとして
見てください audiowmark - 埋め込み図はドキュメントより引用

AI 10 ▪ 入力 ▪ 埋め込む情報 (最大 128bit) ▪ 暗号の鍵
▪ これによって埋め込まれ方が変わる ▪ 音信号 ▪ 出力 ▪ 情報が埋め込まれた音信号 audiowmark - 埋め込み - 入出力図はドキュメントより引用

AI 11 1. 情報を冗長化(誤り訂正符号化)する 2. 検出用の情報を付加する 3. 埋め込み方を決める 4. 埋め込む
audiowmark - 埋め込み - 処理の流れ図はドキュメントより引用

AI 13 ▪ 15次の畳み込み符号によって情報を6倍に冗長化する audiowmark - 埋め込み - 冗長化
図はドキュメントより引用

AI 14 ▪ PyTorch 風に書くと、こう nn.Conv1d( in_channels=1, out_channels=6, kernel_size=16, padding=15,
bias=False )(x) % 2 ▪ 重みは 0 と 1 のいずれかからなる固定値 (ハードコードされている) ▪ パディングされるので出力は入力より長くなる (128bit -> 143bit) ▪ 143bit * 6 = 858bit が出力畳み込み符号ってなんだよ

AI 16 ▪ 検出時に位置合わせに使うための情報を付加する ▪ 255bit相当の固定データが末尾に追加されると考えて差し支え無さそう ▪ 合わせると1113bit
audiowmark - 埋め込み - 検出用の情報付加本当は結構違うことをしている気がするが、まあ実質同じ図はドキュメントより引用

AI 17 1. 情報を暗号化する 2. 情報を冗長化(誤り訂正符号化)する 3. 検出用の情報を付加する 4. 埋め込み方を決める
5. 埋め込む audiowmark - 埋め込み - 処理の流れ図はドキュメントより引用

AI 18 ▪ まず80(帯域) * 2226(フレーム)の行列を用意する audiowmark - 埋め込み
- 埋め込み方を決定 1/4 ※心の清らかな人には 80x2226に見える 80 2226 図はドキュメントより引用

AI 19 ▪ 各フレームに+と−を30個ずつ割り当てる ▪ 鍵をシード値にしてランダムに割り当て audiowmark - 埋め込み -
埋め込み方を決定 2/4 80 ※心の清らかな人には 30個ずつに見える 2226 図はドキュメントより引用

AI 20 ▪ 各ビットに2個ずつフレームを割り当てる ▪ 鍵をシード値にしてランダムに割り当て audiowmark - 埋め込み -
埋め込み方を決定 3/4 3 1 0 3 0 2 2 1 図はドキュメントより引用

AI 21 ▪ 立っているビットに対応するフレームの +と−を反転 ▪ これで完成 audiowmark - 埋め込み
- 埋め込み方を決定 4/4 3 1 0 3 0 2 2 1 図はドキュメントより引用

5. 埋め込む audiowmark - 埋め込み - 処理の流れ図はドキュメントより引用

AI 23 audiowmark - 埋め込み - 埋め込む - ざっくり ▪
ざっくりとした説明 ▪ さっきの行列の、 +の部分の振幅をちょっと大きく −の部分の振幅をちょっと小さくする図はドキュメントより引用

AI 24 1. 音信号(44.1kHz) を1024サンプル(23ms) ごとに区切ってフレームにする 2. 連続した2226フレーム(52秒) を取り出す ▪
音信号がこれより長ければ複数種類を繰り返し埋め込む 3. ハン窓かけてFFT(0Hzから22kHzまで513帯域に分割される) 4. 860Hzから4300Hzまで80帯域を取り出す 5. さっきの行列と要素毎の積を計算する 6. 逆FFTして繋げて1つの波形に戻す ▪ 取り出されなかった部分は0 ▪ 分析した時の窓よりも広い窓で戻す小技が使われている？謎 7. 振幅を0.01倍(-40dB) くらいにする 8. 元の音信号に重ねる ▪ クリッピングしそうな部分はいい感じに音量を調整する audiowmark - 埋め込み - 埋め込む - 詳しく (わかりやすくするのを諦めた) 図はドキュメントより引用

5. 埋め込むできた！で、どうやって埋め込まれた情報を取り出すの？ audiowmark - 埋め込み図はドキュメントより引用

AI 26 ▪ むずい；； ▪ こちらも想像で説明します audiowmark - 検出図はドキュメントより引用

AI 27 ▪ 入力 ▪ 情報が埋め込まれた(であろう)音信号 ▪ 埋め込みに使った暗号の鍵 ▪ これがないと検出できない
▪ 出力 ▪ 埋め込まれた情報 ▪ 検出された位置、信頼度など audiowmark - 検出 - 入出力図はドキュメントより引用

AI 28 1. 検出用の情報を作成する 2. 検出用の情報を音声から探す 3. 強弱から冗長化されたビットを読み出す 4. 畳み込み符号を復号する
audiowmark - 検出 - 処理の流れ図はドキュメントより引用

AI 30 ▪ 鍵から、検出用に予め付加されていた情報の埋め込みパターンを復元 audiowmark - 検出 - 検出用の情報作成
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 3 1 0 3 0 2 2 1 図はドキュメントより引用

AI 32 ▪ ちょっとずつずらしながら総当たり的に一番それっぽいところを見つける ▪ 色々細かい工夫とかしてるっぽいけど飽きてきたので省略 audiowmark -
検出 - 同期図はドキュメントより引用

AI 34 ▪ 各ビットが0の時のパターンと1の時のパターンは鍵から計算できる audiowmark - 検出 - ビット読み出し
1/2 3 1 0 3 0 2 2 1 図はドキュメントより引用

AI 35 ▪ どちらがそれっぽいかを検出する ▪ 以下のことを考えていい感じにやる ▪ +の部分はその周辺よりも音量が大きい可能性が高い ▪ −の部分はその周辺よりも音量が小さい可能性が高い
▪ 0/1の確率が出力される ▪ 858bit埋め込んだので858個それぞれの確率 audiowmark - 検出 - ビット読み出し 2/2 図はドキュメントより引用

AI 37 ▪ 858bit((128+15)*6bit) それぞれの確率が得られているが、元は128bitの情報 ▪ 最尤推定によって元の情報を復元する ▪ ビタビアルゴリズムとか使うらしい
▪ 生成モデル(原義)という感じ ▪ 元の情報が得られた！ audiowmark - 検出 - 復号図はドキュメントより引用

AI 39 ▪ 信号処理で頑張る ▪ 鍵がないと情報埋め込んだ情報がわからず安全 ▪ 埋め込んだ情報がわからないと除去も難しい ▪ 広い範囲に情報を埋め込むことで頑健になっている
▪ 実用を強く意識している印象 audiowmark - まとめ

AI 40 03 AudioSeal

AI 41 ▪ 論文 ▪ San Roman et al. “Proactive
Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 ▪ Meta から今年の1月に出たもの ▪ 推論コードは公開されているが学習コードは準備中とのこと ▪ 声に特化 ▪ 合成音声の悪用を意識している ▪ GeneratorとDetectorを学習 ▪ Generator: 音声を入力して透かしを出力するNN ▪ Detector: 音声を入力して透かしの有無と埋め込まれた情報を出力するNN ▪ Detectorの出力はサンプル(1/16000秒)ごと ▪ 局所的な音声の改変を検知できるようにしている ▪ 16bitの情報を埋め込む AudioSeal - 概要

AI 42 ▪ 論文中の図の通り ▪ 注: GeneratorとDetectorの関係はGANではない ▪ 2つの部品からなる1つのネットワークをマルチタスク学習するようなもの ▪
なおDiscriminatorは別で存在する(Perceptual Lossesに敵対的lossが含まれている) AudioSeal - 学習の全体像 1/4 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 43 ▪ Generator ▪ 透かしを出力する ▪ 入力音声と足し合わせて「透かし入り音声」になる ▪ 図では足し合わせる部分が省略されている
AudioSeal - 学習の全体像 2/4 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI ▪ Mask ▪ 部分的に元の音声に戻したり0埋めしたり別の音声に置換したり ▪ → 透かしが消える ▪ Augment
▪ フィルタをかけたりノイズを重ねたりmp3圧縮したり (かなり多様・検出精度の低い種類が頻度高く選ばれる) ▪ → 透かしは存在したまま (Detectorで検知できなければならない) 44 AudioSeal - 学習の全体像 3/4　✨ここが面白い部分✨ 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 45 ▪ Detector ▪ 音声に透かしが埋め込まれたかサンプル単位で判定する AudioSeal - 学習の全体像 4/4
図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI ▪ アーキテクチャ ▪ EnCodecの構造をベースにしたもの 46 AudioSeal - Generator -
アーキテクチャ図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 47 ▪ NNでエンコード/デコードする音声の圧縮方式 (これもMeta) ▪ 量子化部分は今回関係ない ▪ 音楽生成AIはこういったモデルによる量子化表現を出力したりする EnCodecってなんだよ？
1/3 図は Défossez, et al. “High Fidelity Neural Audio Compression,” arXiv preprint arXiv:2210.13438, 2022. より引用

AI 48 ▪ 波形in波形outのNN ▪ Encはブロックごとに時間方向の解像度が下がりチャンネル数が増える、Decはその逆 ▪ 学習可能パラメータのほとんどは時間方向の解像度が低い中央付近 ▪ 一番外側の時間方向の解像度ってつまりサンプリングレート(秒間数万)なので、そこでチャンネル数のでかいConv使えないのはそれはそう
▪ ConvとLSTMでできていて、時間軸方向の大域的な関係性は見ない EnCodecってなんだよ？ 2/3 図は Défossez, et al. “High Fidelity Neural Audio Compression,” arXiv preprint arXiv:2210.13438, 2022. より引用

AI 49 ▪ 余談: 波形レベルで音声を扱うのは今でもConv/LSTM/GANがち ▪ もちろんタスクによる ▪ 大域的な関係性を扱う必要が無いことが多い →
Transformerに対して Conv/LSTMが有力 ▪ 生成波形の多様性が不要な場合が多い → Diﬀusionに対してGANが有力 * EnCodecってなんだよ？ 3/3 * Shibuya, et al. “BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network,” ICASSP, 2024. のイントロに書いてあった

AI ▪ アーキテクチャ ▪ EnCodecの構造をベースにしたもの ▪ 量子化の代わりに情報の埋め込みがある ▪ 2 x
channels の embedding層がメッセージのbit数(16)個ある感じ 50 AudioSeal - Generator - アーキテクチャ図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 51 ▪ Encoderはさっきと同じ、その後雑に元の解像度に戻した感じ ▪ 出力チャンネル数は 1 + bit数 ▪
1は透かしの有無の判定 AudioSeal - Detector - アーキテクチャ図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 52 AudioSeal - loss ▪ 2種類のloss ▪ Perceptual losses
▪ 透かしの有無で聴覚上の差が小さくなるようにする ▪ EnCodecと同じもの + TF-Loudness ▪ Detection loss ▪ 各時刻に透かしがあるか/埋め込まれたメッセージは何か正しく判定できるようにする ▪ 普通にバイナリクロスエントロピー図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 53 AudioSeal - loss - EnCodecと同じものってなんだよ ▪ 2種類のloss ▪
Perceptual losses ▪ 透かしの有無で聴覚上の差が小さくなるようにする ▪ EnCodecと同じもの + TF-Loudness ▪ Detection loss ▪ 各時刻に透かしがあるか/埋め込まれたメッセージは何か正しく判定できるようにする ▪ 普通にバイナリクロスエントロピー波形の L1 loss メルスペクトログラムの L1 loss, L2 loss GAN の Hinge loss EnCodecと一緒ならFeature matching lossもあるはずだが……？ :thinking_face: 図は Défossez, et al. “High Fidelity Neural Audio Compression,” arXiv preprint arXiv:2210.13438, 2022. より引用

AI 54 AudioSeal - loss - TF-Loudnessってなんだよ ▪ ▪ Perceptual
losses ▪ 透かしの有無で聴覚上の差が小さくなるようにする ▪ EnCodecと同じもの + TF-Loudness ▪ Detection loss ▪ 各時刻に透かしがあるか/埋め込まれたメッセージは何か正しく判定できるようにする ▪ 普通にバイナリクロスエントロピー透かしを帯域毎に分けて、窓関数で時間毎に切り出した信号の b帯域目・w時刻目入力信号に対して同じ処理をしたものラウドネス関数人間は高域の方が音を知覚しやすいのでそれを反映させた音量を計算している出力される値の単位はたぶんdB lossの重み付け透かしが入力信号と比べて大きい時刻/帯域に大きいペナルティを与えるようにしている time-frequency ▪ 音量の大きい時刻/周波数に透かしが仕込まれるようにする

AI 55 AudioSeal - loss - Generatorまで逆伝播するDetection loss ▪ ▪
Perceptual losses ▪ 透かしの有無で聴覚上の差が小さくなるようにする ▪ EnCodecと同じもの + TF-Loudness ▪ Detection loss ▪ 各時刻に透かしがあるか/埋め込まれたメッセージは何か正しく判定できるようにする ▪ 普通にバイナリクロスエントロピー ▪ Augmentはなるべく微分可能なように実装されている (無理ならVQ-VAEみたいに勾配をそのまま伝える) ▪ → Generatorも識別しやすい透かしを生成するように学習される図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用

AI 56 ▪ 提案法はハイパスフィルタ以外全部に頑健で、先行研究はハイパスフィルタには頑健らしい ▪ 提案法は低域に情報を忍ばせている ▪ Detectorの重みを公開してしまうと、Detectorの勾配を利用して学習したNNによる透かし除去攻撃が可能になってしまう
▪ 逆に、透かし無しの音声 * や重みなどの情報を隠せば透かし除去が難しいことを実験結果を元に主張している AudioSeal - 実験結果とか (一部を抜粋) * 合成音声に透かしを入れる前提で、その透かしを入れる前の合成音声という意味先行研究より性能が良いみたいな部分は省略

AI 57 ▪ NNで透かしを生成・検出 ▪ 情報量の効率が良さそう ▪ 波形の変形に頑健 ▪ 透かし除去攻撃に対抗するには自分で学習する必要がある
AudioSeal - まとめ

AI 58 04 まとめ・所感

AI 59 ▪ OSSで使われている手法2つを紹介した ▪ 長めのコンテンツであればaudiowmarkは使いやすそう ▪ 局所的に情報を埋め込もうとするとNNの力が頼りになる ▪ 2つともよくできてるよなあ
まとめ・所感

音信号の電子透かし

音信号の電子透かし

More Decks by nagiss

Other Decks in Technology

Featured

Transcript