ビジネス電話応対における音声感情認識

by Ken57

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Copyright © 2021 RevComm Inc. MiiTelユーザ内での感情認識のニーズについて ● MiiTelユーザからの電話応対の音声の感情認識の機能追加の要望 ○ 怒りの感情を含む応対の抽出 ■ 顧客を怒らせてしまっている応対を抽出して、顧客対応の改善に生かしたい ○ 感情をもとにした受注率の推定 ■ 顧客の発話内容や感情を分析して、受注率を出したい ● 2020年から筑波大学・早稲田大学と音声感情認識の共同研究を開始 ○ 成果を音声関連のトップ国際会議の一つであるInterspeech 2021で発表 9

Slide 10

Slide 10 text

Copyright © 2021 RevComm Inc. Interspeech2021の音声感情認識論文の紹介 Speech Emotion Recognition Based on Attention Weight Correction Using Word-level Conﬁdence Measure Jennifer Santoso Takeshi Yamada University of Tsukuba Shoji Makino Waseda University Kenkichi Ishizuka Takekatsu Hiramura RevComm, Inc

Slide 11

Slide 11 text

Copyright © 2021 RevComm Inc. 音声とテキストを利用した音声感情認識(1) ● 音声とテキストを利用した音声感情認識の手法 ○ テキスト: 音声認識結果 ○ State of the artな手法 [Mirsamadi+, 2017] ■ BLSTMで時系列的な情報を捉える ■ Self-attentionで重要な音響セグメントと単語に注目する ● 改善可能なポイント ○ 音声認識は感情音声に対して頑健でない ■ 音声認識誤りが発生しやすい ○ 誤認識された単語が、Self-attentionによりフォーカスされてしまう可能性がある 11 Dense Dense Bi-LSTM Self-attention Dense Spectrogram etc. Sentence Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier

Slide 12

Slide 12 text

Copyright © 2021 RevComm Inc. 音声とテキストを利用した音声感情認識(2) ● 音声認識誤りへの対策 ○ End-to-End Speech Emotion Recognition Combined with Acoustic-to-Word ASR [Feng+, 2020] ■ 音声感情認識と、音声認識のモデルをEnd-to-endで結合して学習 ■ 事前学習された音声認識モデルを利用し、感情音声データセットで、音声感情認識-音声認識のマルチタスク学習でファインチューニング ○ 感情音声に対してファインチューニングするために大きな計算コストがかかる 12 FC with ReLU Concatenation Self-attention Mechanism Bi-LSTM ASR decoder with attention ASR encoder Self-attention Mechanism Bi-LSTM Acoustic features Word Emotion Class

Slide 13

Slide 13 text

Copyright © 2021 RevComm Inc. 提案手法の概要 ● 音声とテキストを利用した感情認識の手法 [Mirsamadi+, 2017] の構成をベースとする ● 誤認識された単語にSelf-Attentionで注目してしまう事を防ぎ、音声感情認識精度の向上を目指す ● Self-Attentionの重みを単語レベルの単語信頼度で補正する 13 Dense Dense Bi-LSTM Self-attention Dense Spectrogram etc. Sentence Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier

Slide 14

Slide 14 text

Copyright © 2021 RevComm Inc. 単語信頼度について ● 単語信頼度(Conﬁdence Measure)とは？ ○ 音声認識結果の単語ごとの信頼度を0.0 - 1.0の値で表現したもの ● 赤: 誤認識された単語 ● 黄: 正しく認識されているが、低い信頼度となっている単語 14 正解文 I NEED YOUR BIRTH CERTIFICATE 音声認識結果 (単語信頼度) I (1.0) READ (0.5) YOUR (0.3) BURST (0.4) CERTIFICATE (1.0) 例

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Copyright © 2021 RevComm Inc. 入力特徴量 ● 音響特徴量 ○ 20次元のMFCC (Mel Frequency Cepstral Coeﬃcients) ○ 12次元のCQT (Constant-Q Transform) ○ 1次元のF0 (Fundamental Frequency) ● テキスト特徴量 ○ Kaldi (Povey+, 2011)のLibrispeechデータセットのPretrainedモデルにより得られる音声認識結果 ■ 1,000hの学習データ ■ IEMOCAPに対するWER: 43.5% ○ Pretrained BERT (bert-base-uncased) model (12 layers, 12 heads)により得られる768次元の特徴量 18

Slide 19

Slide 19 text

Copyright © 2021 RevComm Inc. 分類器 19 Acoustic Feature Extractor BLSTM (33 - 128), Attention unit: 128 Text Feature Extractor BLSTM (768 - 128), Attention unit: 128 Emotion Clasifier Dense (128 - 64 - 4) Optimizer (Learning rate) Adam (0.0001) Dropout 0.3 Loss function Softmax cross entropy Epoch Best of 1,2, …, 100

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Copyright © 2021 RevComm Inc. 実験の結果 21 ● 発話の音響特徴と人手による書き起こしテキストを組み合わせて利用すると、発話の音響特徴のみの時より14.1%、書き起こしテキストのみの時より2.8%感情認識精度が高い ● 発話の音響特徴と音声認識テキストを組み合わせて利用すると、発話の音響特徴のみの時より 9.9%、音声認識テキストのみの時より2.3%感情認識精度が高い

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Copyright © 2021 RevComm Inc. まとめ ● 本研究では、誤認識された単語に注目することを避け感情認識の精度を改善するために、音声認識器により得られるテキスト情報と単語信頼度を利用する感情認識アルゴリズムを提案した ● 単語信頼度とSelf-Attentionの仕組みを組み合わせて、音声認識誤りの影響を小さくできることを IEMOCAPのデータセットを利用して調査した ● 単語信頼度の組み合わせ方法の中では、アテンション重みの補正に単語信頼度を利用する方法が最もパフォーマンスが良かった 24

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Copyright © 2021 RevComm Inc. MiiTelへの感情認識機能の組み込みに向けて ● Interspeech論文の実験で使用した感情音声データセット: IEMOCAP ○ 言語: 英語 ○ いくつかのシチュエーションの感情を表現する演技をしている音声 ● MiiTelへの感情認識機能の組み込みに向けてやるべきこと ○ ビジネスシーンでのリアルな感情音声データセットの構築　 ○ RevCommが保有する大量のビジネス応対の音声データをもとに、感情音声データセットを構築する 26

Slide 27

Slide 27 text

Copyright © 2021 RevComm Inc. RevCommが保有する音声データ 27 ● 音声データは100万時間（8万時間/月） ○ 電話によるビジネス営業（一対一） ■ 1.5分〜2時間/対話 ■ 話者分離済み ○ ビデオ会議による商談（多対多） ■ 映像かつ話者混合 ○ 業種: テック、不動産、医療 etc. ○ 音声認識済み（全部） ○ 人手で書き起こし（一部） 80,000 月ごとの平均通話時間 (h)

Slide 28

Slide 28 text

Copyright © 2021 RevComm Inc. ビジネスシーンでのリアルな感情音声データセット ● 感情音声データセットの構築 ○ 100万時間分(数千万件)の応対の中から、感情音声が含まれる応対の音声を抽出 ○ VADで得られた音声区間ごとに、３名のアノテータに書き起こしと感情ラベル付けを依頼 ■ 感情はEkmanの基本6感情+無感情 ■ 3名中2名以上が感情ラベルをつけた音声を利用 ○ 得られたデータセット ■ 怒り: 約3,000件以上 (3.8h) ■ 喜び: 約1,000件以上 (1.5h) ■ 嫌悪: 約450件以上 (0.6h) ● MiiTelへの組み込みに向けて実験中 28 ビジネス応対なので、「悲しみ」「驚き」「恐れ」の感情音声は集まりにくい

Slide 29

Slide 29 text

Copyright © 2021 RevComm Inc. まとめ ● 株式会社RevCommは「電話営業や顧客対応を可視化するIP電話 MiiTel」を開発・提供している ● MiiTelユーザからの音声感情認識のニーズを受け、筑波大学・早稲田大学と音声感情認識の共同研究を実施した ○ 単語信頼度を用いたアテンション重み補正に基づく音声感情認識の手法を提案 ○ Interspeech 2021で成果を発表 ● ビジネスシーンでのリアルな感情音声データセットを構築 ● 今後は、MiiTelへの感情認識機能の組み込みに向けて、実験や開発などを進めていく 29