Kawata, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Atsushi Ando, Ryo Masumura, "SOMSRED: Sequential Output Modeling for Joint Multi-talker Overlapped Speech Recognition and Speaker Diarization", INTERSPEECH 2024. Naoki Makishima, Naotaka Kawata, Taiga Yamane, Mana Ihori, Tomohiro Tanaka, Satoshi Suzuki,Shota Orihashi, Ryo Masumura, "SOMSRED-SVC: Sequential Output Modeling with Speaker Vector Constraints for Joint Multi-Talker Overlapped ASR and Speaker Diarization", INTERSPEECH2025 ◼ 自己回帰モデルの中で直接話者ベクトルを出力し、それをもとにクリップ間の ダイアライゼーションを実施 [Makishima+2024][Makishima+ 2025] ⚫ 動機:クリップ間の話者クラスタリングに向けて、 内部的に話者ベクトルを得たい 発話境界を越えた対応付けは、得られた話者ベクトルを 用いてクラスタリングベースのダイアライゼーション 話者ベクトルは、 出力層の1つ前から得る ⚫ 手法のポイント: 離散化された話者情報を予測する ようにモデル化したうえで、d-vector等と同様に、 話者ベクトルはその際の出力層の1つ前から得る ⚫ 結果: 別モデルで話者ベクトル抽出モデルを得る方法 よりも、大幅にダイアライゼーション精度を改善