Slide 1

Slide 1 text

欅 惇志 デンソーアイティーラボラトリ akeyaki@mail.d-itlab.co.jp Multimodal Activation: Awakening Dialog Robots without Wake Words (SIGIR2021) *33FBEJOHळ ※ 図表は論⽂中・Web からの引⽤

Slide 2

Slide 2 text

この論⽂で解決したこと • Dialog Robots (AI スピーカー) から Wake Word (ロボットに指⽰する合図) を省略 2021.10.30 IRReading2021秋 2 SIGIR にこんな論⽂が…! 不便L

Slide 3

Slide 3 text

• ⼊⼒ o 動画 (顔画像 + ⾳声) + 発話内容 (テキスト) • つまり,カメラ画⾯外からの発話には⾮対応 • activate (対話ロボットを起こす) 条件 o 顔と⾳声が⼀致している (consistency) • 認識対象の⼈が発話している o 対話意図がある (intention) • 対話ロボットに指⽰を出している 2021.10.30 IRReading2021秋 3 Wake word 省略の戦略

Slide 4

Slide 4 text

MAS (Multimodal Activation Scheme) 2021.10.30 IRReading2021秋 4 consistency intention

Slide 5

Slide 5 text

要約 • 貢献 o データセット作成 o multimodal activate 判別タスクの部分問題への切り 分け • consistency, intention o consistency に顔のランドマーク情報利⽤ • 顔について詳細な情報 (平常時からの動き) を利⽤ • (特徴量抽出を DNN に任せるのではなく) ⼈⼿で作られた次 元を使っている点で上⼿く学習できた? • 評価実験 o F 尺度: 0.924 (P: 0.903, R: 0.947) o その他の実験 • コンポーネントの交換,アブレーションテスト,マイクロ分 析など • ⾳声処理,画像処理,⾃然⾔語処理いずれにも 精通してて凄かった (語彙) 2021.10.30 IRReading2021秋 5

Slide 6

Slide 6 text

Audio-Visual Consistency Detection 2021.10.30 IRReading2021秋 6

Slide 7

Slide 7 text

Audio-Visual Consistency Detection • Facial Landmark Feature o 68 点のランドマーク (ライブラリで抽出) o 各点と顔の重⼼からの距離を特徴量化 • 縦軸・横軸それぞれ • Speech Feature o フレームレート 30 でサンプリング o MFCC (既存⼿法) で特徴量化 2021.10.30 IRReading2021秋 7

Slide 8

Slide 8 text

Audio-Visual Consistency Detection 2021.10.30 IRReading2021秋 8

Slide 9

Slide 9 text

Audio-Visual Consistency Detection 1. 各特徴量セットを畳み込み 2. 畳み込み結果 (分散表現) を concatate 3. 多層パーセプトロンに⼊れて学習 2021.10.30 IRReading2021秋 9

Slide 10

Slide 10 text

Semantic Talking Intention Inference 2021.10.30 IRReading2021秋 10

Slide 11

Slide 11 text

Semantic Talking Intention Inference • Textual Feature o ASR: automatic speech recognition • ⾳声をテキスト化 o XLNet に⼊れて embedding 化 (特徴量化) 2021.10.30 IRReading2021秋 11

Slide 12

Slide 12 text

Semantic Talking Intention Inference 2021.10.30 IRReading2021秋 12

Slide 13

Slide 13 text

Semantic Talking Intention Inference 1. 意図推定成功データの抽出 o 並べて⾏列化 (Positive Transcript Matric) 2. MF で Topic Pattern Matrix 作成 o MF (matrix factorization): 次元圧縮⼿法 o データを⾒てたら対話にパターンがあった • MF でトピックを抽出したい 3. テキスト特徴量とのコサイン類似度算出 4. 多層パーセプトロンに⼊れて学習 2021.10.30 IRReading2021秋 13

Slide 14

Slide 14 text

Multimodal Activation 2021.10.30 IRReading2021秋 14

Slide 15

Slide 15 text

Multimodal Activation 1. consistency と intention それぞれ を畳み込み 2. concat 3. フル結合 2021.10.30 IRReading2021秋 15

Slide 16

Slide 16 text

評価実験 • データセット o D{c+, t+} • 被験者集めて動画撮影しながら対話ロボットに指⽰ o D{c-, t-} • 被験者集めて動画撮影しながら⼝パク + テレビの⾳声 流す o D{c-, t+} • D{c+, t+} の映像を有名⼈発話コーパスの映像に変更 o D{c-, t+} • D{c+, t+} の映像を他のサブセットからランダムに変更 2021.10.30 IRReading2021秋 16

Slide 17

Slide 17 text

実験結果 • F 尺度: 0.924 (P: 0.903, R: 0.947) o ⼗分実⽤的なレベルでは? • その他の実験 o コンポーネントの交換,アブレーションテスト, マイクロ分析など 2021.10.30 IRReading2021秋 17