対話コンテキストを考慮したニューラル通話シーン分割

076978ba3b6ec28940701c3aea2ddcab?s=47 Ryo Masumura
February 07, 2019

 対話コンテキストを考慮したニューラル通話シーン分割

076978ba3b6ec28940701c3aea2ddcab?s=128

Ryo Masumura

February 07, 2019
Tweet

Transcript

  1. Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを考慮した ニューラル通話シーン分割 増村 亮,

    田中 智大, 安藤 厚志, 神山 歩相名, 大庭 隆伸, 青野 裕司 日本電信電話株式会社 NTTメディアインテリジェンス研究所
  2. Copyright©2019 NTT corp. All Rights Reserved. 本発表の概要 2  提案手法にはどんなキーアイデアがある?

     オペレータとカスタマーのインタラクションの纏まりをうまく捉 えるために、「どの役割の話者がどんな内容を話したか」の長距 離系列を捉えるためのモデル化をニューラルネットワークで実現  評価実験  6業種のコンタクトセンタ模擬通話データを用いて有効性を検証  通話シーン分割とは?  人手で定めたいくつかのシーンに通話全体を自動分割する技術  どんな問題を扱うのか?  複数人会話テキストに対する発話単位の系列ラベリング問題  コンタクトセンタ通話を利用したアプリケーションの 高度化のために、”通話シーン分割”手法を提案
  3. Copyright©2019 NTT corp. All Rights Reserved. 3 本発表の流れ 1. 研究背景と本研究のアプローチ

    2. 提案手法の詳細 3. 評価実験 4. まとめ
  4. Copyright©2019 NTT corp. All Rights Reserved. 4 研究背景  データマイニングシステム

     オペレータ支援システム オペレータ カスタマー 音声認識 音声言語処理 データマイニングシステム やオペレータ支援システム  大量に蓄積された通話群から、 ビジネスの改善に有用な情報(カスタマーのニーズや不満)を発見  オペレータにリアルタイムで仕事をサポートする情報を提示、 またアフタコールワークである個人情報の登録等を通話中に実施  コンタクトセンタに集まるカスタマーの声の情報を 活用するアプリケーションを高度化する技術が求められる
  5. Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話向けの技術  テキストの内容に基づく技術 

    通話要約 [Byrd+ 2008][Higashinaka+ 2010]  通話検索 [Mamou+ 2006]  通話分類 [Haffner+ 2003][Sawada+ 2017]  テキスト以外の情報も利用した技術  カスタマーの怒り推定 [Chastagnol+ 2011]  カスタマーの満足度推定 [Ando+ 2017]  2者対話であるコンタクトセンタに特化した技術が これまで数多く提案されている 5
  6. Copyright©2019 NTT corp. All Rights Reserved. 本研究の目的 オペレータ カスタマー 通話シーン1

    通話シーン2 通話シーン3  データマイニングシステムやオペレータ支援システム の高度化につながることが期待される  カスタマーの要件や個人情報の抽出性能の高度化に寄与  これまでのコンタクトセンタ通話向け技術のさらなる高度化に寄与  コンタクトセンタ通話をいくつかの通話シーンに分割 する通話シーン分割技術の確立 6
  7. Copyright©2019 NTT corp. All Rights Reserved. 関連研究 7  教師なし手法:

    カテゴリが明確に定まっていない場合に有用  テキストタイリング [Hearst+ 1997][Song+ 2016]  潜在変数モデルの利用 [Yamron+ 1998][Leung+ 2013]  パッセージ(複数文)間の関連性を算出しクラスタリング  潜在変数を発話単位の話題ラベルに対応させてモデル化  教師あり手法: 識別したいカテゴリが定まっている場合に有用  識別モデルを用いた発話単位の系列ラベリング [Yu+2016][Tsunoo+2017]  DNN-HMMやRNNを用いたアプローチで系列ラベリング  通話シーン分割は文書や談話等の話題分割と類似した タスクであり、教師なし手法と教師あり手法が存在
  8. Copyright©2019 NTT corp. All Rights Reserved. 8 本研究における通話シーン分割の問題設定  次の5種類の通話シーンごとの発話区間にラベリングする問題と定義

     オープニング: コンタクトセンタ通話の開始点から, 挨拶等のオープニングの終了点までの発話区間  用件把握: オペレータがカスタマーの用件を聞き始めてから, 用件を把握し終えるまでの発話区間.  要件対応: 把握した用件について,オペレータが対応している 発話区間.  カスタマー情報把握: オペレータがカスタマーの名前,住所, 電話番号等の個人情報を確認している発話区間  クロージング: クロージングの開始点から,コンタクトセンタ 通話の終了点までの発話区間.  教師ありのアプローチに基づく複数人会話のテキスト に対する発話単位の系列ラベリングとして問題を設定
  9. Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話の通話シーンの例 9 オープニング 用件把握

    要件対応 カスタマー情報把握 クロージング  通話ごとに異なり決定が難しい区間は「要件把握」の通話シーン 通話開始点 通話終了点 3種類の異なる通話の通話シーン遷移の例  通話ごとに、通話シーンの遷移は異なる
  10. Copyright©2019 NTT corp. All Rights Reserved. 10 従来手法と課題  単語単位と発話単位の2種類のリカレントニューラルネットワークと

    を組み合わせ長距離コンテキストを考慮してラベリング  課題: 単一話者による談話を対象としていたため、 話者間のインタラクションを捉えることはできない  要件把握パートなら・・・ カスタマーが質問してオペレータがそれに答える  カスタマー情報把握パートなら・・・ カスタマーが個人情報を話してオペレータが復唱する  階層リカレントニューラルネットワークに基づく 教師あり話題分割手法 [Tsunoo+ 2017]
  11. Copyright©2019 NTT corp. All Rights Reserved. 11 本研究のアプローチ  オペレータ支援システム向けのアプローチ:

    発話が入力されるたびに通話シーンを逐次推定可能な オンライン処理向けの手法  データマイニングシステム向けのアプローチ: 通話全体が終わってから全体の通話シーンラベルを 想定するバッチ処理向けの手法  アイデア: 「どの役割の話者がどんな内容を話したか」を陽に捉える ために、話者役割ラベルも同時に考慮すればよいのでは?  コンタクトセンタにおけるオペレータとカスタマーの発話が, それぞれ異なるチャンネルから収録されるという性質が活かせる  実用を見据えた2種類のアプローチ  対話コンテキストを考慮可能なニューラルネットワーク に基づく通話シーン分割手法を提案
  12. Copyright©2019 NTT corp. All Rights Reserved. 12 本発表の流れ 1. 研究背景と本研究のアプローチ

    2. 提案手法の詳細 3. 評価実験 4. まとめ
  13. Copyright©2019 NTT corp. All Rights Reserved. 提案手法のモデル化の定義 13  発話文系列:

    (1:) = { 1 , … , }  発話文は単語系列: = { 1 (), … , () () }  発話単位の通話シーンラベル系列: (1:) = { 1 , … , }  通話シーンラベル: = {opening, requirement confirimation, response, customer confirmation, closing}  発話単位の話者役割ラベル系列: (1:) = { 1 , … , }  話者役割ラベル: = {oeperator, customer}  モデルの出力  ニューラル通話シーン分割のモデル化  オンライン処理向けのモデル化: ( | 1: , 1: , )  バッチ処理向けのモデル化: ((1:)| 1: , 1: , )  モデルの入力
  14. Copyright©2019 NTT corp. All Rights Reserved. 14 ニューラル通話シーン分割のモデル構造  「どの役割の話者がどんな内容を話したか」

    の長距離コンテキストを捉えるためのモデル構造を導入 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) … … … … (−1) 1 () 2 () ()−1 () () () … … … … () (−1) 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) (−1) () 1 () 2 () ()−1 () () () () (−1) () (−1) () (−1) () 系列ラベリングの ためのネットワーク  発話ベクトル生成のためのネットワーク  系列ラベリングのためのネットワーク  オンライン処理向けとバッチ処理向けで異なる構造  オンライン処理向けとバッチ処理向けで同一の構造 発話ベクトル生成の ためのネットワーク
  15. Copyright©2019 NTT corp. All Rights Reserved. 15 発話ベクトル生成のためのネットワーク  通話シーン分割に有用な情報を埋め込んだ

    発話ベクトルを構成するためのネットワーク 単語埋め込み層: 単語を単語ベクトルに変換 1 () 2 () ()−1 () () () … … () 1 () 2 () ()−1 () () () 1 () 2 () ()−1 () () () 単語単位BLSTM層: 前後コンテキストを考慮した 埋め込みベクトルに変換 発話文埋め込み層: 注意機構を用いて、 発話全体の情報を埋め込んだ 発話文ベクトルに変換 () () 話者役割ラベル埋め込み層: 話者役割ラベルを 話者役割ベクトルに変換  発話文ベクトルと話者役割ベクトルの結合ベクトルを出力
  16. Copyright©2019 NTT corp. All Rights Reserved. 16 系列ラベリングのためのネットワーク  発話間の関係を長距離にわたって考慮可能な構造を導入

    () () () () (1) (1) (1) (1) … 発話単位LSTM層: 過去の全ての発話系列も考慮した 埋め込みベクトルを構成する ソフトマックス層: 予測確率分布 を構成する () () () () (1) (1) (1) (1) … 発話単位BLSTM層: 通話全体の発話系列を考慮した 埋め込みベクトルを構成する CRF層: 通話全体の整合性 まで考慮して 予測確率分布を構成  オンライン処理向け: 発話を得るたびに逐次現在の通話シーン を決定可能なネットワーク構造  バッチ処理向け: 通話全体の情報を得てから全体の通話シーン を決定可能なネットワーク構造 オンライン処理向け バッチ処理向け
  17. Copyright©2019 NTT corp. All Rights Reserved. 学習方法 17  各層のモデルパラメータは、

    通話単位のデータを用いて最尤基準で最適化可能 = arg min − ∈ log ( | , , )  ミニバッチ勾配法が利用可能 : 学習データ全体 : オペレータとカスタマーのある通話  本研究では、単語ベクトルのみは、 大量のテキストデータから事前学習して利用
  18. Copyright©2019 NTT corp. All Rights Reserved. 18 本発表の流れ 1. 研究背景と本研究のアプローチ

    2. 提案手法の詳細 3. 評価実験 4. まとめ
  19. Copyright©2019 NTT corp. All Rights Reserved. 評価実験 19  6業種のコンタクトセンタの模擬通話データを用い、

    提案手法の有効性を検証 業種 通話数 単語数 金融会社 59 55,933 インターネットプロバイダ会社 57 47,668 地方自治体 73 48,998 通信販売会社 56 46,574 パソコン修理会社 55 55,101 携帯電話会社 61 51,061  各通話は平均100発話程度含まれており、 各発話はオペレータかカスタマーのどちらが発話したかが既知  各発話は平均で10単語程度含まれる  本評価実験では、音声認識結果ではなく書き起こしを使用  通話シーンのアノテーションは、単一のアノテータにより実施
  20. Copyright©2019 NTT corp. All Rights Reserved. 各業種の通話シーンの割合 20 0% 20%

    40% 60% 80% 100% 金融会社 インターネット プロバイダ会社 地方自治体 通信販売会社 パソコン修理会社 携帯電話会社 オープニング 要件把握 要件対応 カスタマー 情報把握 クロージング  業種によって、各通話シーンの割合が少し異なる  本タスクにおいて、もっとも難しいものは「要件把握」
  21. Copyright©2019 NTT corp. All Rights Reserved. 評価方法 21  6業種中5業種で学習し、1業種で評価することにより、

    業種についてオープンな評価を実施 話者役割ラベルの考慮 ベースライン (オンライン処理) - 提案手法 (オンライン処理) ✓ ベースライン (バッチ処理) - 提案手法 (バッチ処理) ✓  ベースライン: 話者役割ラベルを用いないモデル化 (オンライン処理の場合は[Tsunoo+ 2017]とほぼ同等)  比較手法  提案手法: 話者役割ラベルを用いるモデル化  発話単位の識別結果に対するF値  評価指標
  22. Copyright©2019 NTT corp. All Rights Reserved. 22 実験条件  単語連続ベクトルの次元数:

    128  単語単位のBLSTMのユニット数: 400  最適化方法: Adam  ベースラインと提案手法で統一的なパラメータを利用  話者役割ベクトルの次元数: 32  約20 億単語を含む話し言葉Webテキストから Continuous Bag-of-Words モデルを事前学習して利用  ミニバッチの構成単位: 5通話  学習データの一部をアーリーストッピングのため利用  Utterance-level LSTM unit size: 400  初期値を変化させて1 条件につき5 回ネットワークを構築し、 開発データについて最もロスが減少したモデルを用いて評価
  23. Copyright©2019 NTT corp. All Rights Reserved. 実験結果 23 50 55

    60 65 70 75 80 85 90 95 オープニング 要件把握 要件対応 カスタマー 情報把握 クロージング ベースライン (オンライン処理) 提案手法 (オンライン処理) ベースライン (バッチ処理) 提案手法 (バッチ処理) F値  ベースライン手法だと「要件把握」を「要件対応」に間違えることが 多かったが、提案手法ではインタラクションの塊を捉えることで、 その問題を大きく軽減  提案手法により、各通話シーンの分割性能が向上し、 特に「要件把握」で大きく性能改善
  24. Copyright©2019 NTT corp. All Rights Reserved. 考察 24  単語連続ベクトルの事前学習は有効であったか?

     有効であり、事前学習によって大きく性能がかわっていた 手法 事前学習なし 事前学習あり ベースライン (オンライン処理) 76.6 84.5 提案手法(オンライン処理) 79.3 85.5  なぜオンライン手法の性能の方が優れていたのか?  通話シーン分割は出力が頻繁に変わる問題ではないため、 CRF層がなくても安定的に動作しており、 バッチ手法におけるCRF層の学習の難しさが上回ってしまったため  話者役割ベクトルは1-hotベクトルではダメなのか?  連続ベクトルに変換することで、若干の改善効果があった 手法 1-hotベクトル 連続値ベクトル 提案手法(オンライン処理) 85.1 85.5
  25. Copyright©2019 NTT corp. All Rights Reserved. 25 本発表の流れ 1. 研究背景と本研究のアプローチ

    2. 提案手法の詳細 3. 評価実験 4. まとめ
  26. Copyright©2019 NTT corp. All Rights Reserved. まとめ 26  コンタクトセンタ通話のために、

    教師あり学習に基づく通話シーン分割手法を提案  評価結果  提案手法を用いることにより、単一話者向けの手法よりも性能が 改善し、特に難易度が高い「要件把握」の性能を大きく改善  提案手法の強み  「どの役割の話者がどんな内容を話したか」の長距離系列を 捉えることが可能な発話単位系列ラベリングを実現  今後の予定  他のコンタクトセンタ系技術において、 通話シーン分割を組み合わせることによる有効性を検証