なおDiscriminatorは別で存在する(Perceptual Lossesに敵対的lossが含まれている) AudioSeal - 学習の全体像 1/4 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用
channels の embedding層がメッセージのbit数(16)個ある感じ 50 AudioSeal - Generator - アーキテクチャ 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用
▪ 透かしの有無で聴覚上の差が小さくなるようにする ▪ EnCodecと同じもの + TF-Loudness ▪ Detection loss ▪ 各時刻に透かしがあるか/埋め込まれたメッセージは何か正しく判定できるようにする ▪ 普通にバイナリクロスエントロピー 図は San Roman et al. “Proactive Detection of Voice Cloning with Localized Watermarking,” ICML, 2024 より引用