対話コンテキストを扱うターン交替点検出の検討

 対話コンテキストを扱うターン交替点検出の検討

076978ba3b6ec28940701c3aea2ddcab?s=128

Ryo Masumura

March 07, 2019
Tweet

Transcript

  1. 1.

    Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを扱う ターン交替点検出の検討 ◦増村 亮,田中

    智大,安藤 厚志, 石井 亮,東中 竜一郎,青野 裕司 日本電信電話株式会社 NTTメディアインテリジェンス研究所
  2. 2.

    Copyright©2019 NTT corp. All Rights Reserved. 2 研究背景  ターン交替はインタラクティブな音声対話において重要

    であり、高度なターン交替点検出が求められる えーと、新宿の 紀伊国屋のー (「今のお勧めの本 は?」と続けて話し たかったのに…) 0.3秒 新宿の紀伊国屋は いいですよね ターンテイキング 閾値が短いと割り込みが多発 新宿の おすすめは? (システムの 返答が遅いな…) 1.0秒 新宿のおすすめは 都庁です ターンテイキング 閾値が長いとインタラクション性が悪化 音声区間 非音声区間 システム  非音声区間の時間長に閾値を設けるのみでは不十分
  3. 3.

    Copyright©2019 NTT corp. All Rights Reserved. 3 本研究のターン交替点検出の問題定義 発話終端点 久保田と

    申しますけども えーとですね、 ちょっとあのー おたくの えーとキャッシュ カードをなくしたん ですけども 発話終端点 発話終端点 0.1秒 0.08秒 0.05秒 音声区間 非音声区間  対象話者の各発話の終端点において ターン交替を行うかどうかの2値を識別する問題を扱う  Internal Pause Unit (IPU)を発話とする [Koiso+ 1998]  非音声区間が短い場合(100ms以下)は、発話を構成しない  音声・非音声区間は音声区間検出に基づき決定  オンラインでのインプリメンテーションを想定するため、 ターン交替点検出の判断に使える情報は発話終端点より前の情報
  4. 4.

    Copyright©2019 NTT corp. All Rights Reserved. ターン交替点検出の研究 4  従来、発話内の情報を用いるのみの方法が主流であったが、

    近年は発話系列の長距離コンテキストを捉える検討が進む  対象発話から人手で決めた固定長の特徴量を抽出して、 SVMや決定木、DNNなどでモデル化  終端から数単語の言語特徴、数百msの音響特徴 [Schlangen+ 2006]  平均・分散・最大値・最小値・傾き [Ferrer+ 2002]  リカレントニューラルネットワークを用いた特徴量系列の 発話境界を越えた長距離コンテキストを考慮するモデル化  階層LSTM-RNNを用いたターン交替点検出 [Masumura+ 2017]  LSTM-RNNを用いたターン交替点検出 [Skanze 2017]
  5. 5.

    Copyright©2019 NTT corp. All Rights Reserved. 5 従来手法 [Masumura+ 2017]

     複数の非同期特徴量系列と階層LSTM-RNNを用いた、 長距離コンテキストを考慮したターン交替点検出 (−1) () (−1) () (−1) () ( | 1: ) 特徴量単位 LSTM-RNN Softmax  入力: 1番目の発話からt番目の発話までの 対象話者の複数の非同期特徴量系列:(1:) = { 1 , … , }  出力: t番目の発話のターン交替点かどうか確率分布: ( | 1: ) 現在の発話の始端から終端まで の各特徴系列(MFCCやF0系列)を 特徴量ごとのLSTMを用いて 固定長ベクトル化 会話始端から現在の発話終端 までの発話単位系列を LSTMを用いてさらに 固定長ベクトル化して識別 ( | 1:−1 ) 発話単位 LSTM-RNN 検出点 検出点 えーっとー、確かー 先週の金曜日だったとおもいます
  6. 6.

    Copyright©2019 NTT corp. All Rights Reserved. 6 課題  従来手法は、対象話者の発話のみを情報に用いており、

    応対者(システム側)の情報を一切考慮していない  例えば、「はい」や「ええ」等の発話の時は、 応対者の発話が分かっていないと判断が難しい  応対者が直前で質問を投げかけていれば、 対象話者はその質問に答え終わるまでターン交替を行わないはず ~のご確認という ことですね? ええ 音声区間 非音声区間 システム ターン交替点 の可能性が高い ご住所を お願い致します えー ターン交替点 の可能性が低い 神奈川県 川崎市
  7. 7.

    Copyright©2019 NTT corp. All Rights Reserved. 提案手法  対象話者の発話系列と応対者の発話系列の会話始端から 現在までのインタラクション情報を用いたターン交替点検出

     入力①: 1番目の発話からt番目の発話までの 対象話者の複数の非同期特徴量系列: (1:) = { 1 , … , }  出力: 対象話者のt番目の発話終端点が ターン交替点かどうか確率分布: ( | 1: , (1:))  入力②: 1番目の発話からt番目の発話までの 応対者の複数の非同期特徴量系列: (1:) = { 1 , … , } (−1) () (−1) () 検出点 検出点 応対者の発話区間 対象話者の発話区間 提案手法のモデル ( | 1: , (1:))
  8. 8.

    Copyright©2019 NTT corp. All Rights Reserved. 8 提案手法のモデル構造  応対者の発話系列を扱うLSTM-RNNと

    インタラクションを考慮するLSTM-RNNを従来手法に結合 (−1) () (−1) () (−1) () (−1) () (−1) () 対象話者の発話区間 応対者の発話区間 検出点 検出点 会話開始点から 応対者の全ての発話情報 をLSTM-RNNを用いて 固定長ベクトルに埋め込む ( | 1: , (1:)) ( −1 | 1:−1 , (1:−1)) 会話始端から対象話者の 現在の発話終端までの インタラクション情報 を用いて識別 会話開始点からの 対象話者の全ての発話情報 をLSTM-RNNを用いて 固定長ベクトルに埋め込む
  9. 9.

    Copyright©2019 NTT corp. All Rights Reserved. 9 提案手法の学習  会話単位のデータ集合から、対象話者の各発話終端点の

    ターン交替点推定の性能が最大化するように学習 = arg min − ∈ =1 log ( | 1: , 1: , )  対数尤度最大化基準 (クロスエントロピー最小化)  会話を単位としてミニバッチを形成し、 確率的勾配降下法により、パラメータを最適化可能  会話に含まれる発話数が多くて、 ミニバッチ形成が難しい場合は途中で打ち切り
  10. 10.

    Copyright©2019 NTT corp. All Rights Reserved. 10 評価実験 業種 通話数

    発話数 ターン交替点数 金融会社 50 3,991 2,166 インターネットプロバイダ会社 64 3,860 1,799 地方自治体 58 3,741 1,598 通信販売会社 52 3,752 1,828 パソコン修理会社 45 2,838 1,934 携帯電話会社 61 4,453 2,016  6業種のコンタクトセンタの模擬通話データを用い、 業種オープンとなるクロスバリデーションにより評価  CSJ等から学習したLSTM-RNNに基づく音声区間検出後、 100ms以上の非音声区間で囲まれた音声区間を発話と定義  コンタクトセンタにおけるカスタマーを対象話者、 オペレータを応対者(システム)として評価  ラベルのアノテーションは、人手で実施
  11. 11.

    Copyright©2019 NTT corp. All Rights Reserved. 実験条件 11  音声対話での利用を想定して、対象話者側の音響特徴量、

    応対者(システム)側の言語特徴量を利用 対象話者の 音響特徴量系列 F0 対象話者の音声からフレームシフト5ms で抽出可能な基本周 波数、およびそのΔ成分の2 次元特徴量系列 SENONE 対象話者の音声からフレームシフト10ms で抽出可能な256 次元のSenone ボトルネック特徴量系列.日本語話し言葉 コーパスから学習した256 ユニット3 層LSTM-RNN 音響モデ ルに対して,出力のソフトマックス層を除去 応対者の 言語特徴量系列 PRON 応対者のテキストから抽出可能な音素系列. 128 次元の線形 の埋め込み層を設けることで,連続ベクトルに変換して利用 WORD 応対者のテキストから抽出可能な単語系列.128 次元の線形 の埋め込み層を設けることで,連続ベクトルに変換して利用  その他のセットアップ(ネットワーク構造と最適化)  各LSTM-RNNのユニットサイズ: 256 ※リアルタイムでCPU動作可能  最適化: 2通話でミニバッチを構成してAdamにより最適化し、 学習データの一部でアーリーストッピング
  12. 12.

    Copyright©2019 NTT corp. All Rights Reserved. 12 評価  ターン交替点検出のF値による評価

    対象話者の 音響特徴量系列 応対者の 言語特徴量系列 F値 F0 - 74.8 SENONE - 80.4 F0+SENONE - 80.8 - PRON 54.0 - WORD 65.4 - PRON+WORD 66.2 SENONE WORD 81.2 F0+SENONE PRON+WORD 82.1 従来 手法 提案 手法  応対者側の情報だけでも、チャンスレート以上の予測が可能  対象話者の複数特徴量系列と応対者の複数特徴量系列を 同時に用いてモデル化することで最高性能を達成
  13. 13.

    Copyright©2019 NTT corp. All Rights Reserved. 13 考察  数としては多くはないが、対象話者の発話だけでは

    判断が難しいケースでの改善効果を確認 対象話者の 発話 直前の応対者 の発話 正解ラベル はい 鈴木様でよろしい でしょうか? ターン交替点 ええ ~のご確認ということ ですね? ターン交替点 はい、えー ご住所を お願い致します ターン交替点 ではない あのー八王子支店 ですけどー どこの支店を ご利用になって いらっしゃいますか? ターン交替点 「はい」や 「ええ」は、 間投詞とも 捉えられれる ので難しい 「けど」 終わりは判断 が難しい
  14. 14.

    Copyright©2019 NTT corp. All Rights Reserved. 14 まとめ  対象話者だけでなく応対者(システム)の発話内容も

    同時に考慮したターン交替点検出を提案  階層LSTMを用いたモデル化[Masumura+ 2017]に、 応対者の発話系列、そして対象話者と応対者のインタラクション を考慮できるように拡張  コールセンター会話を用いた実験(カスタマーが対象話者、 オペレータが応対者)から、提案手法の有効性を確認  対象話者の発話だけでは判断が難しいケースでの改善効果が確認