IR Reading 2021 秋にて紹介した "Multimodal Activation: Awakening Dialog Robots without Wake Words" の概要スライドです.Dialog Robots (AI スピーカー) のWake Word (ロボットを activate する合図) を省略する研究です.不適切な記述などがあればご指摘頂ければ幸いです .
欅 惇志デンソーアイティーラボラトリ[email protected]Multimodal Activation: AwakeningDialog Robots without Wake Words(SIGIR2021)*33FBEJOHळ※ 図表は論⽂中・Web からの引⽤
View Slide
この論⽂で解決したこと• Dialog Robots (AI スピーカー) からWake Word (ロボットに指⽰する合図) を省略2021.10.30IRReading2021秋 2SIGIR にこんな論⽂が…!不便L
• ⼊⼒o 動画 (顔画像 + ⾳声) + 発話内容 (テキスト)• つまり,カメラ画⾯外からの発話には⾮対応• activate (対話ロボットを起こす) 条件o 顔と⾳声が⼀致している (consistency)• 認識対象の⼈が発話しているo 対話意図がある (intention)• 対話ロボットに指⽰を出している2021.10.30IRReading2021秋 3Wake word 省略の戦略
MAS (Multimodal Activation Scheme)2021.10.30IRReading2021秋 4consistencyintention
要約• 貢献o データセット作成o multimodal activate 判別タスクの部分問題への切り分け• consistency, intentiono consistency に顔のランドマーク情報利⽤• 顔について詳細な情報 (平常時からの動き) を利⽤• (特徴量抽出を DNN に任せるのではなく) ⼈⼿で作られた次元を使っている点で上⼿く学習できた?• 評価実験o F 尺度: 0.924 (P: 0.903, R: 0.947)o その他の実験• コンポーネントの交換,アブレーションテスト,マイクロ分析など• ⾳声処理,画像処理,⾃然⾔語処理いずれにも精通してて凄かった (語彙)2021.10.30IRReading2021秋 5
Audio-Visual Consistency Detection2021.10.30IRReading2021秋 6
Audio-Visual Consistency Detection• Facial Landmark Featureo 68 点のランドマーク (ライブラリで抽出)o 各点と顔の重⼼からの距離を特徴量化• 縦軸・横軸それぞれ• Speech Featureo フレームレート 30 でサンプリングo MFCC (既存⼿法) で特徴量化2021.10.30IRReading2021秋 7
Audio-Visual Consistency Detection2021.10.30IRReading2021秋 8
Audio-Visual Consistency Detection1. 各特徴量セットを畳み込み2. 畳み込み結果 (分散表現) を concatate3. 多層パーセプトロンに⼊れて学習2021.10.30IRReading2021秋 9
Semantic Talking Intention Inference2021.10.30IRReading2021秋 10
Semantic Talking Intention Inference• Textual Featureo ASR: automatic speech recognition• ⾳声をテキスト化o XLNet に⼊れて embedding 化 (特徴量化)2021.10.30IRReading2021秋 11
Semantic Talking Intention Inference2021.10.30IRReading2021秋 12
Semantic Talking Intention Inference1. 意図推定成功データの抽出o 並べて⾏列化 (Positive Transcript Matric)2. MF で Topic Pattern Matrix 作成o MF (matrix factorization): 次元圧縮⼿法o データを⾒てたら対話にパターンがあった• MF でトピックを抽出したい3. テキスト特徴量とのコサイン類似度算出4. 多層パーセプトロンに⼊れて学習2021.10.30IRReading2021秋 13
Multimodal Activation2021.10.30IRReading2021秋 14
Multimodal Activation1. consistency とintention それぞれを畳み込み2. concat3. フル結合2021.10.30IRReading2021秋 15
評価実験• データセットo D{c+, t+}• 被験者集めて動画撮影しながら対話ロボットに指⽰o D{c-, t-}• 被験者集めて動画撮影しながら⼝パク + テレビの⾳声流すo D{c-, t+}• D{c+, t+} の映像を有名⼈発話コーパスの映像に変更o D{c-, t+}• D{c+, t+} の映像を他のサブセットからランダムに変更2021.10.30IRReading2021秋 16
実験結果• F 尺度: 0.924 (P: 0.903, R: 0.947)o ⼗分実⽤的なレベルでは?• その他の実験o コンポーネントの交換,アブレーションテスト,マイクロ分析など2021.10.30IRReading2021秋 17