Slide 1

Slide 1 text

Copyright © 2021 RevComm Inc. ビジネス電話応対における音声感情認識

Slide 2

Slide 2 text

Copyright © 2021 RevComm Inc. contents 1. 自己紹介 2. MiiTelについて 3. MiiTelユーザ内での感情認識のニーズについて 4. Interspeech2021の音声感情認識論文の紹介 5. MiiTelへの感情認識機能の組み込みに向けて 6. まとめ

Slide 3

Slide 3 text

Copyright © 2021 RevComm Inc. 自己紹介 ● 発表者 ○ 石塚賢吉 ● 肩書き ○ シニアリサーチエンジニア ● 略歴 ○ 2013年-2019年: 株式会社ドワンゴ ■ 全文検索システム開発 ○ 2019年-現在: 株式会社RevComm ■ 音声認識と全文検索を担当 ● 趣味 ○ ダイビング、DTM(引退気味) 3

Slide 4

Slide 4 text

Copyright © 2021 RevComm Inc. MiiTelについて

Slide 5

Slide 5 text

Copyright © 2021 RevComm Inc. MiiTelについて 5 第一弾プロダクトとして「電話営業や顧客対応を可視化するIP電話 MiiTel」を開発・提供しています。

Slide 6

Slide 6 text

Copyright © 2021 RevComm Inc. MiiTelが実現する新たな電話営業のUX 6 電話営業・顧客対応担当 (インサイドセールス) 取引先 従来の電話営業の情報共有プロセス 電話による商談・サポート 案件担当者 上司 製品開発 ブラックボックス ? ? ?

Slide 7

Slide 7 text

Copyright © 2021 RevComm Inc. MiiTelが実現する新たな電話営業のUX 7 MiiTelを活用した新しい電話営業の情報共有プロセス クラウド PBX (電話機能) Analytics Dashboard 音声解析 (音声認識/NLP) 製品開発 取引先 案件担当者 上司 電話営業・顧客対応担当 (インサイドセールス)

Slide 8

Slide 8 text

Copyright © 2021 RevComm Inc. MiiTelユーザ内での感情認識のニーズについて

Slide 9

Slide 9 text

Copyright © 2021 RevComm Inc. MiiTelユーザ内での感情認識のニーズについて ● MiiTelユーザからの電話応対の音声の感情認識の機能追加の要望 ○ 怒りの感情を含む応対の抽出 ■ 顧客を怒らせてしまっている応対を抽出して、顧客対応の改善に生かしたい ○ 感情をもとにした受注率の推定 ■ 顧客の発話内容や感情を分析して、受注率を出したい ● 2020年から筑波大学・早稲田大学と音声感情認識の共同研究を開始 ○ 成果を音声関連のトップ国際会議の一つであるInterspeech 2021で発表 9

Slide 10

Slide 10 text

Copyright © 2021 RevComm Inc. Interspeech2021の音声感情認識論文の紹介 Speech Emotion Recognition Based on Attention Weight Correction Using Word-level Confidence Measure Jennifer Santoso Takeshi Yamada University of Tsukuba Shoji Makino Waseda University Kenkichi Ishizuka Takekatsu Hiramura RevComm, Inc

Slide 11

Slide 11 text

Copyright © 2021 RevComm Inc. 音声とテキストを利用した音声感情認識(1) ● 音声とテキストを利用した音声感情認識の手法 ○ テキスト: 音声認識結果 ○ State of the artな手法 [Mirsamadi+, 2017] ■ BLSTMで時系列的な情報を捉える ■ Self-attentionで重要な音響セグメントと単語に注目する ● 改善可能なポイント ○ 音声認識は感情音声に対して頑健でない ■ 音声認識誤りが発生しやすい ○ 誤認識された単語が、Self-attentionによりフォーカス されてしまう可能性がある 11 Dense Dense Bi-LSTM Self-attention Dense Spectrogram etc. Sentence Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier

Slide 12

Slide 12 text

Copyright © 2021 RevComm Inc. 音声とテキストを利用した音声感情認識(2) ● 音声認識誤りへの対策 ○ End-to-End Speech Emotion Recognition Combined with Acoustic-to-Word ASR [Feng+, 2020] ■ 音声感情認識と、音声認識のモデルをEnd-to-endで結合して学習 ■ 事前学習された音声認識モデルを利用し、感情音声データセットで、 音声感情認識-音声認識のマルチタスク学習でファインチューニング ○ 感情音声に対してファインチューニングするために 大きな計算コストがかかる 12 FC with ReLU Concatenation Self-attention Mechanism Bi-LSTM ASR decoder with attention ASR encoder Self-attention Mechanism Bi-LSTM Acoustic features Word Emotion Class

Slide 13

Slide 13 text

Copyright © 2021 RevComm Inc. 提案手法の概要 ● 音声とテキストを利用した感情認識の手法 [Mirsamadi+, 2017] の構成をベースとする ● 誤認識された単語にSelf-Attentionで注目してしまう事を防ぎ、 音声感情認識精度の向上を目指す ● Self-Attentionの重みを単語レベルの単語信頼度で補正する 13 Dense Dense Bi-LSTM Self-attention Dense Spectrogram etc. Sentence Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier

Slide 14

Slide 14 text

Copyright © 2021 RevComm Inc. 単語信頼度について ● 単語信頼度(Confidence Measure)とは? ○ 音声認識結果の単語ごとの信頼度を0.0 - 1.0の値で表現したもの ● 赤: 誤認識された単語 ● 黄: 正しく認識されているが、低い信頼度となっている単語 14 正解文 I NEED YOUR BIRTH CERTIFICATE 音声認識結果 (単語信頼度) I (1.0) READ (0.5) YOUR (0.3) BURST (0.4) CERTIFICATE (1.0) 例

Slide 15

Slide 15 text

Copyright © 2021 RevComm Inc. 提案手法の仕組み 15 CM: Confidence Measure

Slide 16

Slide 16 text

Copyright © 2021 RevComm Inc. テキスト特徴抽出器での単語信頼度の利用方法 16 単語信頼度を入力と組み合わせて、テ キストの特徴量の一部として使用する 単語信頼度を中間特徴量と組み合 わせて使用する 単語信頼度をアテンションの重みと組み合わせて使用す る。単語信頼度のテキストの特徴に対する依存度が小さい

Slide 17

Slide 17 text

Copyright © 2021 RevComm Inc. 評価実験 17 データセット IEMOCAP [Busso+, 2008] 話者数 10 (男性: 5, 女性: 5) 発話長 1 - 19s # 発話 Happy + excited 1689 Sad 1084 Neutral 1761 Angry 1103 Cross-validation 5-fold (speaker open)

Slide 18

Slide 18 text

Copyright © 2021 RevComm Inc. 入力特徴量 ● 音響特徴量 ○ 20次元のMFCC (Mel Frequency Cepstral Coefficients) ○ 12次元のCQT (Constant-Q Transform) ○ 1次元のF0 (Fundamental Frequency) ● テキスト特徴量 ○ Kaldi (Povey+, 2011)のLibrispeechデータセットのPretrainedモデルにより得られる音声認識結果 ■ 1,000hの学習データ ■ IEMOCAPに対するWER: 43.5% ○ Pretrained BERT (bert-base-uncased) model (12 layers, 12 heads)により得られる768次元の特徴量 18

Slide 19

Slide 19 text

Copyright © 2021 RevComm Inc. 分類器 19 Acoustic Feature Extractor BLSTM (33 - 128), Attention unit: 128 Text Feature Extractor BLSTM (768 - 128), Attention unit: 128 Emotion Clasifier Dense (128 - 64 - 4) Optimizer (Learning rate) Adam (0.0001) Dropout 0.3 Loss function Softmax cross entropy Epoch Best of 1,2, …, 100

Slide 20

Slide 20 text

Copyright © 2021 RevComm Inc. 実験の結果 20 発話の音響特徴のみを利用した時よりも、人手による書き起こしテキストを 利用した時で11.3%、音声認識テキストを利用した時で7.6%感情認識精度が高い

Slide 21

Slide 21 text

Copyright © 2021 RevComm Inc. 実験の結果 21 ● 発話の音響特徴と人手による書き起こしテキストを組み合わせて利用すると、発話の音響特徴のみ の時より14.1%、書き起こしテキストのみの時より2.8%感情認識精度が高い ● 発話の音響特徴と音声認識テキストを組み合わせて利用すると、発話の音響特徴のみの時より 9.9%、音声認識テキストのみの時より2.3%感情認識精度が高い

Slide 22

Slide 22 text

Copyright © 2021 RevComm Inc. 実験の結果 22 ● 単語信頼度を導入した3つの手法は、音声認識テキストと音響特徴量を組み合わせた 手法より認識精度が高くなった ● 提案した3つの手法のうち、単語信頼度をAttentionの補正に利用するProposed 3がもっとも良い 結果となった

Slide 23

Slide 23 text

Copyright © 2021 RevComm Inc. 実験の結果 23 ● 単語信頼度をアテンションの重み補正に利用した提案手法により、これまでの研究で提案された 他の手法よりも高い音声感情認識精度を得られている

Slide 24

Slide 24 text

Copyright © 2021 RevComm Inc. まとめ ● 本研究では、誤認識された単語に注目することを避け感情認識の精度を改善するために、 音声認識器により得られるテキスト情報と単語信頼度を利用する感情認識アルゴリズムを提案した ● 単語信頼度とSelf-Attentionの仕組みを組み合わせて、音声認識誤りの影響を小さくできることを IEMOCAPのデータセットを利用して調査した ● 単語信頼度の組み合わせ方法の中では、アテンション重みの補正に単語信頼度を利用する方法が 最もパフォーマンスが良かった 24

Slide 25

Slide 25 text

Copyright © 2021 RevComm Inc. MiiTelへの感情認識機能の組み込みに向けて

Slide 26

Slide 26 text

Copyright © 2021 RevComm Inc. MiiTelへの感情認識機能の組み込みに向けて ● Interspeech論文の実験で使用した感情音声データセット: IEMOCAP ○ 言語: 英語 ○ いくつかのシチュエーションの感情を表現する演技をしている音声 ● MiiTelへの感情認識機能の組み込みに向けてやるべきこと ○ ビジネスシーンでのリアルな感情音声データセットの構築   ○ RevCommが保有する大量のビジネス応対の音声データをもとに、 感情音声データセットを構築する 26

Slide 27

Slide 27 text

Copyright © 2021 RevComm Inc. RevCommが保有する音声データ 27 ● 音声データは100万時間(8万時間/月) ○ 電話によるビジネス営業(一対一) ■ 1.5分〜2時間/対話 ■ 話者分離済み ○ ビデオ会議による商談(多対多) ■ 映像かつ話者混合 ○ 業種: テック、不動産、医療 etc. ○ 音声認識済み(全部) ○ 人手で書き起こし(一部) 80,000 月ごとの平均通話時間 (h)

Slide 28

Slide 28 text

Copyright © 2021 RevComm Inc. ビジネスシーンでのリアルな感情音声データセット ● 感情音声データセットの構築 ○ 100万時間分(数千万件)の応対の中から、感情音声が含まれる応対の音声を抽出 ○ VADで得られた音声区間ごとに、3名のアノテータに書き起こしと感情ラベル付けを依頼 ■ 感情はEkmanの基本6感情+無感情 ■ 3名中2名以上が感情ラベルをつけた音声を利用 ○ 得られたデータセット ■ 怒り: 約3,000件以上 (3.8h) ■ 喜び: 約1,000件以上 (1.5h) ■ 嫌悪: 約450件以上 (0.6h) ● MiiTelへの組み込みに向けて実験中 28 ビジネス応対なので、 「悲しみ」「驚き」「恐れ」 の感情音声は集まりにくい

Slide 29

Slide 29 text

Copyright © 2021 RevComm Inc. まとめ ● 株式会社RevCommは「電話営業や顧客対応を可視化するIP電話 MiiTel」を開発・提供している ● MiiTelユーザからの音声感情認識のニーズを受け、筑波大学・早稲田大学と音声感情認識の共同研究を実施した ○ 単語信頼度を用いたアテンション重み補正に基づく音声感情認識の手法を提案 ○ Interspeech 2021で成果を発表 ● ビジネスシーンでのリアルな感情音声データセットを構築 ● 今後は、MiiTelへの感情認識機能の組み込みに向けて、実験や開発などを進めていく 29

Slide 30

Slide 30 text

Copyright © 2021 RevComm Inc. Thank you! 30