対話コンテキストを扱うターン交替点検出の検討

Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを扱うターン交替点検出の検討 ◦増村亮，田中
智大，安藤厚志，石井亮，東中竜一郎，青野裕司日本電信電話株式会社 NTTメディアインテリジェンス研究所

Copyright©2019 NTT corp. All Rights Reserved. 2 研究背景  ターン交替はインタラクティブな音声対話において重要
であり、高度なターン交替点検出が求められるえーと、新宿の紀伊国屋のー（「今のお勧めの本は？」と続けて話したかったのに…） 0.3秒新宿の紀伊国屋はいいですよねターンテイキング閾値が短いと割り込みが多発新宿のおすすめは？（システムの返答が遅いな…） 1.0秒新宿のおすすめは都庁ですターンテイキング閾値が長いとインタラクション性が悪化音声区間非音声区間システム  非音声区間の時間長に閾値を設けるのみでは不十分

Copyright©2019 NTT corp. All Rights Reserved. 3 本研究のターン交替点検出の問題定義発話終端点久保田と
申しますけどもえーとですね、ちょっとあのーおたくのえーとキャッシュカードをなくしたんですけども発話終端点発話終端点 0.1秒 0.08秒 0.05秒音声区間非音声区間  対象話者の各発話の終端点においてターン交替を行うかどうかの2値を識別する問題を扱う  Internal Pause Unit (IPU)を発話とする [Koiso+ 1998]  非音声区間が短い場合(100ms以下)は、発話を構成しない  音声・非音声区間は音声区間検出に基づき決定  オンラインでのインプリメンテーションを想定するため、ターン交替点検出の判断に使える情報は発話終端点より前の情報

Copyright©2019 NTT corp. All Rights Reserved. ターン交替点検出の研究 4  従来、発話内の情報を用いるのみの方法が主流であったが、
近年は発話系列の長距離コンテキストを捉える検討が進む  対象発話から人手で決めた固定長の特徴量を抽出して、 SVMや決定木、DNNなどでモデル化  終端から数単語の言語特徴、数百msの音響特徴 [Schlangen+ 2006]  平均・分散・最大値・最小値・傾き [Ferrer+ 2002]  リカレントニューラルネットワークを用いた特徴量系列の発話境界を越えた長距離コンテキストを考慮するモデル化  階層LSTM-RNNを用いたターン交替点検出 [Masumura+ 2017]  LSTM-RNNを用いたターン交替点検出 [Skanze 2017]

Copyright©2019 NTT corp. All Rights Reserved. 5 従来手法 [Masumura+ 2017]
 複数の非同期特徴量系列と階層LSTM-RNNを用いた、長距離コンテキストを考慮したターン交替点検出 (−1) () (−1) () (−1) () ( | 1: ) 特徴量単位 LSTM-RNN Softmax  入力: 1番目の発話からt番目の発話までの対象話者の複数の非同期特徴量系列:(1:) = { 1 , … , }  出力: t番目の発話のターン交替点かどうか確率分布: ( | 1: ) 現在の発話の始端から終端までの各特徴系列(MFCCやF0系列)を特徴量ごとのLSTMを用いて固定長ベクトル化会話始端から現在の発話終端までの発話単位系列を LSTMを用いてさらに固定長ベクトル化して識別 ( | 1:−1 ) 発話単位 LSTM-RNN 検出点検出点えーっとー、確かー先週の金曜日だったとおもいます

Copyright©2019 NTT corp. All Rights Reserved. 6 課題  従来手法は、対象話者の発話のみを情報に用いており、
応対者(システム側)の情報を一切考慮していない  例えば、「はい」や「ええ」等の発話の時は、応対者の発話が分かっていないと判断が難しい  応対者が直前で質問を投げかけていれば、対象話者はその質問に答え終わるまでターン交替を行わないはず～のご確認ということですね？ええ音声区間非音声区間システムターン交替点の可能性が高いご住所をお願い致しますえーターン交替点の可能性が低い神奈川県川崎市

Copyright©2019 NTT corp. All Rights Reserved. 提案手法  対象話者の発話系列と応対者の発話系列の会話始端から現在までのインタラクション情報を用いたターン交替点検出
 入力①: 1番目の発話からt番目の発話までの対象話者の複数の非同期特徴量系列: (1:) = { 1 , … , }  出力: 対象話者のt番目の発話終端点がターン交替点かどうか確率分布: ( | 1: , (1:))  入力②: 1番目の発話からt番目の発話までの応対者の複数の非同期特徴量系列: (1:) = { 1 , … , } (−1) () (−1) () 検出点検出点応対者の発話区間対象話者の発話区間提案手法のモデル ( | 1: , (1:))

Copyright©2019 NTT corp. All Rights Reserved. 8 提案手法のモデル構造  応対者の発話系列を扱うLSTM-RNNと
インタラクションを考慮するLSTM-RNNを従来手法に結合 (−1) () (−1) () (−1) () (−1) () (−1) () 対象話者の発話区間応対者の発話区間検出点検出点会話開始点から応対者の全ての発話情報をLSTM-RNNを用いて固定長ベクトルに埋め込む ( | 1: , (1:)) ( −1 | 1:−1 , (1:−1)) 会話始端から対象話者の現在の発話終端までのインタラクション情報を用いて識別会話開始点からの対象話者の全ての発話情報をLSTM-RNNを用いて固定長ベクトルに埋め込む

Copyright©2019 NTT corp. All Rights Reserved. 9 提案手法の学習  会話単位のデータ集合から、対象話者の各発話終端点の
ターン交替点推定の性能が最大化するように学習 = arg min − ∈ =1 log ( | 1: , 1: , )  対数尤度最大化基準 (クロスエントロピー最小化)  会話を単位としてミニバッチを形成し、確率的勾配降下法により、パラメータを最適化可能  会話に含まれる発話数が多くて、ミニバッチ形成が難しい場合は途中で打ち切り

Copyright©2019 NTT corp. All Rights Reserved. 10 評価実験業種通話数
発話数ターン交替点数金融会社 50 3,991 2,166 インターネットプロバイダ会社 64 3,860 1,799 地方自治体 58 3,741 1,598 通信販売会社 52 3,752 1,828 パソコン修理会社 45 2,838 1,934 携帯電話会社 61 4,453 2,016  6業種のコンタクトセンタの模擬通話データを用い、業種オープンとなるクロスバリデーションにより評価  CSJ等から学習したLSTM-RNNに基づく音声区間検出後、 100ms以上の非音声区間で囲まれた音声区間を発話と定義  コンタクトセンタにおけるカスタマーを対象話者、オペレータを応対者(システム)として評価  ラベルのアノテーションは、人手で実施

Copyright©2019 NTT corp. All Rights Reserved. 実験条件 11  音声対話での利用を想定して、対象話者側の音響特徴量、
応対者(システム)側の言語特徴量を利用対象話者の音響特徴量系列 F0 対象話者の音声からフレームシフト5ms で抽出可能な基本周波数、およびそのΔ成分の2 次元特徴量系列 SENONE 対象話者の音声からフレームシフト10ms で抽出可能な256 次元のSenone ボトルネック特徴量系列．日本語話し言葉コーパスから学習した256 ユニット3 層LSTM-RNN 音響モデルに対して，出力のソフトマックス層を除去応対者の言語特徴量系列 PRON 応対者のテキストから抽出可能な音素系列． 128 次元の線形の埋め込み層を設けることで，連続ベクトルに変換して利用 WORD 応対者のテキストから抽出可能な単語系列．128 次元の線形の埋め込み層を設けることで，連続ベクトルに変換して利用  その他のセットアップ（ネットワーク構造と最適化）  各LSTM-RNNのユニットサイズ: 256 ※リアルタイムでCPU動作可能  最適化: 2通話でミニバッチを構成してAdamにより最適化し、学習データの一部でアーリーストッピング

Copyright©2019 NTT corp. All Rights Reserved. 12 評価  ターン交替点検出のF値による評価
対象話者の音響特徴量系列応対者の言語特徴量系列 F値 F0 - 74.8 SENONE - 80.4 F0+SENONE - 80.8 - PRON 54.0 - WORD 65.4 - PRON+WORD 66.2 SENONE WORD 81.2 F0+SENONE PRON+WORD 82.1 従来手法提案手法  応対者側の情報だけでも、チャンスレート以上の予測が可能  対象話者の複数特徴量系列と応対者の複数特徴量系列を同時に用いてモデル化することで最高性能を達成

Copyright©2019 NTT corp. All Rights Reserved. 13 考察  数としては多くはないが、対象話者の発話だけでは
判断が難しいケースでの改善効果を確認対象話者の発話直前の応対者の発話正解ラベルはい鈴木様でよろしいでしょうか？ターン交替点ええ～のご確認ということですね？ターン交替点はい、えーご住所をお願い致しますターン交替点ではないあのー八王子支店ですけどーどこの支店をご利用になっていらっしゃいますか？ターン交替点「はい」や「ええ」は、間投詞とも捉えられれるので難しい「けど」終わりは判断が難しい

Copyright©2019 NTT corp. All Rights Reserved. 14 まとめ  対象話者だけでなく応対者(システム)の発話内容も
同時に考慮したターン交替点検出を提案  階層LSTMを用いたモデル化[Masumura+ 2017]に、応対者の発話系列、そして対象話者と応対者のインタラクションを考慮できるように拡張  コールセンター会話を用いた実験(カスタマーが対象話者、オペレータが応対者)から、提案手法の有効性を確認  対象話者の発話だけでは判断が難しいケースでの改善効果が確認

対話コンテキストを扱うターン交替点検出の検討

対話コンテキストを扱うターン交替点検出の検討

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Research

Featured

Transcript

Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを扱うターン交替点検出の検討 ◦増村亮，田中

Copyright©2019 NTT corp. All Rights Reserved. 2 研究背景  ターン交替はインタラクティブな音声対話において重要

Copyright©2019 NTT corp. All Rights Reserved. 3 本研究のターン交替点検出の問題定義発話終端点久保田と

Copyright©2019 NTT corp. All Rights Reserved. ターン交替点検出の研究 4  従来、発話内の情報を用いるのみの方法が主流であったが、

Copyright©2019 NTT corp. All Rights Reserved. 5 従来手法 [Masumura+ 2017]

Copyright©2019 NTT corp. All Rights Reserved. 6 課題  従来手法は、対象話者の発話のみを情報に用いており、

Copyright©2019 NTT corp. All Rights Reserved. 提案手法  対象話者の発話系列と応対者の発話系列の会話始端から現在までのインタラクション情報を用いたターン交替点検出

Copyright©2019 NTT corp. All Rights Reserved. 8 提案手法のモデル構造  応対者の発話系列を扱うLSTM-RNNと

Copyright©2019 NTT corp. All Rights Reserved. 9 提案手法の学習  会話単位のデータ集合から、対象話者の各発話終端点の

Copyright©2019 NTT corp. All Rights Reserved. 10 評価実験業種通話数

Copyright©2019 NTT corp. All Rights Reserved. 実験条件 11  音声対話での利用を想定して、対象話者側の音響特徴量、

Copyright©2019 NTT corp. All Rights Reserved. 12 評価  ターン交替点検出のF値による評価

Copyright©2019 NTT corp. All Rights Reserved. 13 考察  数としては多くはないが、対象話者の発話だけでは

Copyright©2019 NTT corp. All Rights Reserved. 14 まとめ  対象話者だけでなく応対者(システム)の発話内容も