$30 off During Our Annual Pro Sale. View Details »

論文紹介: "Multimodal Activation: Awakening Dialog Robots without Wake Words (SIGIR2021)"

keyakkie
October 30, 2021

論文紹介: "Multimodal Activation: Awakening Dialog Robots without Wake Words (SIGIR2021)"

IR Reading 2021 秋にて紹介した "Multimodal Activation: Awakening Dialog Robots without Wake Words" の概要スライドです.Dialog Robots (AI スピーカー) のWake Word (ロボットを activate する合図) を省略する研究です.不適切な記述などがあればご指摘頂ければ幸いです .

keyakkie

October 30, 2021
Tweet

More Decks by keyakkie

Other Decks in Research

Transcript

  1. 欅 惇志
    デンソーアイティーラボラトリ
    [email protected]
    Multimodal Activation: Awakening
    Dialog Robots without Wake Words
    (SIGIR2021)
    *33FBEJOHळ
    ※ 図表は論⽂中・Web からの引⽤

    View Slide

  2. この論⽂で解決したこと
    • Dialog Robots (AI スピーカー) から
    Wake Word (ロボットに指⽰する合図) を省略
    2021.10.30
    IRReading2021秋 2
    SIGIR にこんな論⽂が…!
    不便L

    View Slide

  3. • ⼊⼒
    o 動画 (顔画像 + ⾳声) + 発話内容 (テキスト)
    • つまり,カメラ画⾯外からの発話には⾮対応
    • activate (対話ロボットを起こす) 条件
    o 顔と⾳声が⼀致している (consistency)
    • 認識対象の⼈が発話している
    o 対話意図がある (intention)
    • 対話ロボットに指⽰を出している
    2021.10.30
    IRReading2021秋 3
    Wake word 省略の戦略

    View Slide

  4. MAS (Multimodal Activation Scheme)
    2021.10.30
    IRReading2021秋 4
    consistency
    intention

    View Slide

  5. 要約
    • 貢献
    o データセット作成
    o multimodal activate 判別タスクの部分問題への切り
    分け
    • consistency, intention
    o consistency に顔のランドマーク情報利⽤
    • 顔について詳細な情報 (平常時からの動き) を利⽤
    • (特徴量抽出を DNN に任せるのではなく) ⼈⼿で作られた次
    元を使っている点で上⼿く学習できた?
    • 評価実験
    o F 尺度: 0.924 (P: 0.903, R: 0.947)
    o その他の実験
    • コンポーネントの交換,アブレーションテスト,マイクロ分
    析など
    • ⾳声処理,画像処理,⾃然⾔語処理いずれにも
    精通してて凄かった (語彙)
    2021.10.30
    IRReading2021秋 5

    View Slide

  6. Audio-Visual Consistency Detection
    2021.10.30
    IRReading2021秋 6

    View Slide

  7. Audio-Visual Consistency Detection
    • Facial Landmark Feature
    o 68 点のランドマーク (ライブラリで抽出)
    o 各点と顔の重⼼からの距離を特徴量化
    • 縦軸・横軸それぞれ
    • Speech Feature
    o フレームレート 30 でサンプリング
    o MFCC (既存⼿法) で特徴量化
    2021.10.30
    IRReading2021秋 7

    View Slide

  8. Audio-Visual Consistency Detection
    2021.10.30
    IRReading2021秋 8

    View Slide

  9. Audio-Visual Consistency Detection
    1. 各特徴量セットを畳み込み
    2. 畳み込み結果 (分散表現) を concatate
    3. 多層パーセプトロンに⼊れて学習
    2021.10.30
    IRReading2021秋 9

    View Slide

  10. Semantic Talking Intention Inference
    2021.10.30
    IRReading2021秋 10

    View Slide

  11. Semantic Talking Intention Inference
    • Textual Feature
    o ASR: automatic speech recognition
    • ⾳声をテキスト化
    o XLNet に⼊れて embedding 化 (特徴量化)
    2021.10.30
    IRReading2021秋 11

    View Slide

  12. Semantic Talking Intention Inference
    2021.10.30
    IRReading2021秋 12

    View Slide

  13. Semantic Talking Intention Inference
    1. 意図推定成功データの抽出
    o 並べて⾏列化 (Positive Transcript Matric)
    2. MF で Topic Pattern Matrix 作成
    o MF (matrix factorization): 次元圧縮⼿法
    o データを⾒てたら対話にパターンがあった
    • MF でトピックを抽出したい
    3. テキスト特徴量とのコサイン類似度算出
    4. 多層パーセプトロンに⼊れて学習
    2021.10.30
    IRReading2021秋 13

    View Slide

  14. Multimodal Activation
    2021.10.30
    IRReading2021秋 14

    View Slide

  15. Multimodal Activation
    1. consistency と
    intention それぞれ
    を畳み込み
    2. concat
    3. フル結合
    2021.10.30
    IRReading2021秋 15

    View Slide

  16. 評価実験
    • データセット
    o D{c+, t+}
    • 被験者集めて動画撮影しながら対話ロボットに指⽰
    o D{c-, t-}
    • 被験者集めて動画撮影しながら⼝パク + テレビの⾳声
    流す
    o D{c-, t+}
    • D{c+, t+} の映像を有名⼈発話コーパスの映像に変更
    o D{c-, t+}
    • D{c+, t+} の映像を他のサブセットからランダムに変更
    2021.10.30
    IRReading2021秋 16

    View Slide

  17. 実験結果
    • F 尺度: 0.924 (P: 0.903, R: 0.947)
    o ⼗分実⽤的なレベルでは?
    • その他の実験
    o コンポーネントの交換,アブレーションテスト,
    マイクロ分析など
    2021.10.30
    IRReading2021秋 17

    View Slide