複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)

複数人会話データを活用した音声言語処理とアプリケーション NTTメディアインテリジェンス研究所増村亮第91回言語・音声理解と対話処理研究会

2 自己紹介本日はこのような機会を頂きありがとうございます  名前: 増村亮 (ますむらりょう) 
略歴： 2011年3月東北大学大学院工学研究科博士前期課程修了 2011年4月日本電信電話株式会社（NTT研究所）入社 2016年9月東北大学大学院工学研究科博士後期課程修了現在は、NTTメディアインテリジェンス研究所特別研究員  専門分野：音声認識、音声言語処理全般、自然言語処理全般、動画像処理全般、音声対話システム  「複数メディア処理の知識集約モデリング」を包括的な研究テーマに掲げ、メディア処理全般の基礎＆応用研究開発に力を入れており、基礎的な技術理論の創出や、人のセンシングアプリケーション、人対人の会話理解アプリケーション、および人対機械の対話アプリケーションの実用化を行っています

3 本日の私の講演のメインの話題「複数人会話を自動で理解する」ために、「複数人会話データから機械学習でモデル化する」ということがメインの話題コンタクトセンタの会話会議の会話雑談アノテーション付き＋なし複数人会話データ実際の複数人会話
モデルを使った会話理解機械学習によるモデル化コンタクトセンタの会話会議の会話雑談モデル

4 アジェンダ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

5 複数人会話の理解（ビデオ）人間は、会話の内容や人々の属性や内面、インタラクションを精緻に理解できる、機械も人間と同じように理解できるようになることが目標 ※ 私の同僚たち

6 機械が複数人会話を自動で理解するために複数人会話を自動で理解するアプリケーションを作っています

7 このアプリケーションの中でやっていること「複数人会話を自動で理解する」ために、「音声、画像映像、テキストの様々なデータから機械学習でモデル化する」モデルを使った会話理解機械学習によるモデル化
アノテーション付き＆なしマルチメディアデータ音声認識モデル機械翻訳モデル書き言葉変換モデル顔画像認証モデル音声認証モデル感情推定モデル人物物体検出モデル年齢性別推定モデル音声データ画像映像データテキストデータコンタクトセンタの会話会議の会話雑談実際の複数人会話

8 複数人会話を自動で理解する要素  会話の内容を理解する  会話に登場する人の属性情報を理解する  会話に登場する各人の内面を理解するこのアプリケーションの範囲内でやっている「複数人会話を自動で理解する」ための主な要素は以下
音声認識モデル機械翻訳モデル書き言葉変換モデル顔画像認証モデル音声認証モデル年齢性別推定モデル感情推定モデル  会話環境を理解する人物物体検出モデル

9 会話の内容を理解する（ビデオ）

10 「会話の内容を理解する」とは？

11 会話に登場する人の属性情報を理解する（ビデオ）

12 「会話に登場する人の属性情報を理解する」とは？

13 会話に登場する各人の内面を理解する（ビデオ）

14 「会話に登場する各人の内面を理解する」とは？

15 複数人会話を理解するアプリケーションの価値（ビデオ）複数人会話理解は、現状の到達点でもアプリケーションに活かすことができる

16 もっと深めていかなければならない観点「会話のインタラクションをコンテキストとして考慮する」という観点が重要、また「様々な情報を相互的にコンテキストとして考慮する」という観点も重要 • (基本的に)話者独立・発話独立の処理 • 誰が何をどんな順番で話してきたのか、といったインタラクションコンテキストの考慮 •
ある言葉を発するときの表情はどうだったのか、等の複数情報の相互コンテキストの考慮先ほどのアプリケーションの仕組みさらに深めていく先にあるもの音声認識モデル感情推定モデル音声認識モデル感情推定モデル • (基本的に)機能独立の処理会話コンテキストを考慮した音声認識＋感情推定の統合モデル ※ もちろん、これらの範囲内でも、まだまだ深めていくべき課題は多いのですが…

18 機械学習のための複数人会話データインタラクションコンテキストの考慮や複数情報の相互的なコンテキストの考慮のためには、複数人会話データを積極的に利用してモデル化することが重要コンタクトセンタの会話会議の会話雑談アノテーション  本講演における複数人会話データの定義としては、
「話者ラベルがあること」「マルチターン情報が保たれていること」  複数人会話データを使えるようにするためにはアノテーションが必要クリーニング、書き起こし、ラベリング、など

19 機械学習のための複数人会話データの種類対象とする複数人会話データごとに、入力のモダリティの種類数が異なる  会話テキスト+アノテーションのデータ  会話テキスト+音声+アノテーションのデータ  会話テキスト+音声+映像+アノテーションのデータ 
テキストチャット会話、など  電話会話、など  TVの中の会話、など ※ 会話にタスク(達成すべき目標)があるかないかの話題は本日は除外

20 [Li+ 2017] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie
Li, Ziqiang Cao, Shuzi Niu, "DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset", In Proc. IJCNLP, 986-995, 2017. 会話テキスト+そのアノテーションのデータ例マルチターンのテキストチャットに対して感情や対話行為をアノテーション  DailyDialog [Li+ 2017]では、英語による日常チャットに感情や対話行為を付与  テキストというモダリティの範囲内でなされている会話を利用

21 会話テキスト+音声+そのアノテーションのデータ例① コンタクトセンタ会話に対して、書き起こしテキストを作成(アノテーション) [Masumura+ 2021] Ryo Masumura, Naoki Makishima, Mana
Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents" In Proc. SLT, 1012-1019, 2021.  音声というモダリティが入ると、交互に発話するわけではない点にも注意  以下は、コンタクトセンタ会話の書き起こしテキスト例 [Masumura+ 2021]

22 会話テキスト+音声+そのアノテーションのデータ例② コンタクトセンタ会話に対するターン交替点と相槌のアノテーション [Masumura+ 2018] Ryo Masumura, Tomohiro Tanaka, Atsushi
Ando, Ryo Ishii, Ryuichiro Higashinaka, Yushi Aono, "Neural Dialogue Context Online End-of-Turn Detection", In Proc. Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pp.224-228, 2018. ターン交替点でない久保田と申しますけどもえーとですねちょっとあのーおたくのえーとキャッシュカードをなくしたんですけどもはい相槌ターン交替点でないターン交替点でないはいどうしたらいいか分からなくてはい、それでははじめに… 相槌ターン交替点  交互に発話するわけではない音声の会話において、ターンの概念は非常に重要で、実時間上の発話タイミングも関わってくる  ターン交替点の予測のために利用 [Masumura+ 2018]

23  オープニング: コンタクトセンタ通話の開始点から，挨拶等のオープニングの終了点までの発話区間  用件把握: オペレータがカスタマーの用件を聞き始めてから，用件を把握し終えるまでの発話区間． 
要件対応: 把握した用件について，オペレータが対応している発話区間．  カスタマー情報把握: オペレータがカスタマーの名前，住所，電話番号等の個人情報を確認している発話区間  クロージング: クロージングの開始点から，コンタクトセンタ通話の終了点までの発話区間．会話テキスト+音声+そのアノテーションのデータ例③ コンタクトセンタ会話をいくつかの通話シーンに分割するようにアノテーション通話シーン1 通話シーン2 通話シーン3 [Masumura+ 2018] Ryo Masumura, Setsuo Yamada, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Yushi Aono, "Online Call Scene Segmentation of Contact Center Dialogues based on Role Aware Hierarchical LSTM-RNNs", In Proc. APSIPA ASC, pp.811-815, 2018.  人対人のタスク会話（ゴールがある会話）においては、タスク依存の会話理解が必要となることもしばしば  応用を想定して、5つの通話シーンにアノテーション [Masumura+ 2018]

24 会話テキスト+音声+そのアノテーションのデータ例④ コンタクトセンタ会話に対して顧客満足度を表す感情をアノテーションオペレータカスタマー不満発話普通発話満足発話満足通話 
通話全体を通した顧客満足度、および顧客の各発話に対しても顧客満足度をアノテーション [Ando+ 2020] [Ando+ 2020]Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, Tomoki Toda, "Customer Satisfaction Estimation in Contact Center Calls Based on a Hierarchical Multi-Task Model", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.715-728, 2020. 顧客満足度が高い会話顧客満足度が低い会話

25 [Poria+ 2019] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam
Naik, Erik Cambria, Rada Mihalcea, "MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations", In Proc. ACL, pp. 527-536, 2019. 発話に加えてその際の顔表情まで含めた上で、各人の感情をアノテーション会話テキスト+音声+映像+アノテーションのデータ例①  MELD [Poria+ 2019]というデータセットでは、 Friendsというテレビ番組の会話に対して感情ラベルをアノテーション

26 会話テキスト+音声+映像+アノテーションのデータ例② 発話に加えてその際の顔表情や態度に対して皮肉を言っているかアノテーション  MUStARD [Castro+ 2019]というデータセットでは、 Youtubeから「皮肉」という検索キーワードで番組を探し、そのデータに対して皮肉を言っているかどうかをアノテーション [Castro+
2019] Santiago Castro, Devamanyu Hazarika, Veronica Perez-Rosas, Roger Zimmermann, Rada Mihalcea, Soujanya Poria, "Towards Multimodal Sarcasm Detection", In Proc. ACL, 4619-4629, 2019.

27 複数人会話データのアノテーションの実情複数人会話データのアノテーションは簡単ではない…  音声の書き起こし以外は、基本的に決定的なアノテーションを行うことは困難  複数人会話単位のデータ作成コストはそもそも非常に大きい  複数人によるアノテーションがやはり必須、
また工学的なアプローチで解けるくらいにラベラー間で評価が一致するタスクの設計が必要  クラウドソーシングなどの活用が重要となる  とはいえ、どんなに頑張っても、膨大なデータを集めることは非現実的（これをどう乗り越えるかは後述） [Chen+, 2018] Sheng-Yeh Chen, Chao-Chun Hsu, Chuan-Chun Kuo, Ting-Hao (Kenneth) Huang, Lun-Wei Ku, "EmotionLines: An Emotion Corpus of Multi-Party Conversations", In Proc. LREC, pp.1597-1601, 2018. EmotionLines [Chen+, 2018]のアノテーション用UI

29 深層学習時代のモデリングとは？特別な特徴量を人手で設計することなく、入力と出力のペアデータから目的の問題を直接解けるようにEnd-to-Endでモデル化するのが有望な方法論  基本的に、モデルのネットワーク構造+最適化の設計が特徴量設計に相当  事前学習、自己教師あり学習、半教師あり学習などで、他のデータを活用するのも深層学習時代の代表的な戦略 
「何を解けるように最適化するか？」の目的関数のおき方がポイント入力出力数字1 数字2 数字3 数字4 数字5 できる限り生の情報を入力で渡す直接解きたい問題に対して最適化することで、どんな特徴が重要かは自動的にモデル化手書き文字認識の例

30 複数人会話データの特性を活かすとは？「会話開始から誰が何をどんな順番で話してきたか？」を出来る限り厳密にコンテキストとして考慮してモデル化することが重要  (再掲) 本講演における複数人会話データの定義としては、「話者ラベルがあること」「マルチターン情報が保たれていること」  「話者ラベルがあること」を活かして「誰が」を考慮すれば活かせそう…
 「マルチターン情報が保たれていること」を活かして、マルチターンの「何をどんな順番で」の系列情報を考慮すれば活かそう… 青と赤を分けて扱いつつ、系列情報を明示的に考慮できれば、複数人会話データの特性を活かすことが可能  ここまでやったら、どんな特徴が効果があるかのモデル化は深層学習側に任せられる

31 複数人会話を対象とした技術の紹介主にテキストと音声のモダリティの範囲内で、我々がこれまで検討してきた複数人会話データの特性を活かした深層学習時代のモデリングをいくつか紹介  複数人会話の発話単位系列ラベリングのモデリング  複数人会話の会話コンテキストを考慮した音声認識のモデリング  会話コンテキストを考慮するための
ラベルなしデータを活用した自己教師あり学習

32 会話中の発話ごとにラベルを推定するような問題設定すみませんプラン変更をお勧めしますはい通信速度
が遅くて困ってます会話全体の長期文脈を理解するネットワーク識別ネットワーク識別ネットワーク識別ネットワーク識別ネットワーク複数人会話の発話単位系列ラベリング発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク  話者と発話内容とその長期系列を考慮したモデリング [Masumura+ 2018] [Masumura+ 2018] Ryo Masumura, Setsuo Yamada, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Yushi Aono, "Online Call Scene Segmentation of Contact Center Dialogues based on Role Aware Hierarchical LSTM-RNNs", In Proc. APSIPA ASC, pp.811-815, 2018.  下段のネットワークで、発話内に閉じて誰がどんな内容の発話をしたかを捉える  中段のネットワークで、発話間のインタラクション等の会話コンテキストを捉える

この問題設定をモデリングするとなると？複数人会話発話単位系列ラベリングの確率モデルとしての定式化  入力①: 発話文系列: 𝑺(1:𝑇) = {𝒔 1 ,
… , 𝒔 𝑇 } ※各発話文はトークン系列  入力②: 発話単位の話者役割ラベル系列: 𝑹(1:𝑇) = {𝑟 1 , … , 𝑟 𝑇 }  出力: 発話単位の通話シーンラベル系列: 𝑳(1:𝑇) = {𝑙 1 , … , 𝑙 𝑇 }  モデル化したいこと:入力が与えられた時の出力の条件付き確率 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑹 1:𝑡 , 𝜣) 会話全体の長期文脈を理解するネットワーク識別ネットワーク識別ネットワーク識別ネットワーク識別ネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク 𝒔 1 𝑟 1 𝒔 2 𝑟 2 𝒔 3 𝑟 3 𝒔 4 𝑟 4 𝑃(𝑙 1 |𝑺 1 , 𝑹 1 , 𝜣) 𝑃(𝑙 3 |𝑺 1:3 , 𝑹 1:3 , 𝜣) 𝑃(𝑙 2 |𝑺 1:2 , 𝑹 1:2 , 𝜣) 𝑃(𝑙 4 |𝑺 1:4 , 𝑹 1:4 , 𝜣)

34 … … 𝑟(𝑡−1) … … 𝑟(𝑡) 𝒔(𝑡−1) 𝒓(𝑡−1) 𝒔(𝑡)
𝒓(𝑡) 𝒐(𝑡) 𝒗(𝑡−1) 𝒗(𝑡) 𝒖(𝑡−1) 𝒖(𝑡) 通話シーン分割における具体的なネットワーク構造例階層リカレントニューラルネットワークを拡張したネットワーク構造 𝒐(𝑡−1) … … 𝑟(𝑡−2) 𝒔(𝑡−2) 𝒓(𝑡−2) 𝒗(𝑡−2) 𝒖(𝑡−2) 𝒐(𝑡−2) 発話単位LSTMを用いて過去の全ての発話系列も考慮した埋め込みベクトルを構成するトークン単位LSTMと注意機構を用いて、発話全体の情報を埋め込んだ発話文ベクトルに変換話者情報を線形変換によりベクトル化して結合  系列情報を捉えるために、2種類のリカレントニューラルネットワーク(LSTM)を導入  話者情報もベクトルに埋め込んで利用１つの〇のイメージはこんなもの

35 「複数人会話データを用いて学習する」とは？複数人会話データを多数用いて、入力が与えられた時の出力の条件付き確率が最大となるように学習  深層学習では、このような問題設定は負の対数尤度を最小化する問題とすることで、特別なアルゴリズム（誤差逆伝搬法）により最適化することが可能 ෡ 𝚯 =
arg min 𝚯 − ෍ 𝑑∈𝐷 log 𝑃(𝑙 1:𝑇 |𝑺 1:𝑇 , 𝑹 1:𝑇 , 𝚯) 𝐷:アノテーション付き複数人会話データセット 𝑑:1つのアノテーション付き複数人会話データコンタクトセンタの会話会議の会話雑談アノテーション付き複数人会話データ機械学習によるモデル化モデル：𝚯

36 発話単位系列ラベリングにおいて話者の考慮は有用か？ 50 55 60 65 70 75 80 85
90 95 オープニング要件把握要件対応カスタマー情報把握クロージング話者情報を考慮するにより、通話シーン分割タスクでは、各通話シーンの分割性能が向上  話者の考慮がないと「要件把握」を「要件対応」に間違えることが多かったが、話者を考慮するではインタラクションの塊を明示的にとらえることで性能改善 F値話者の考慮無し話者の考慮あり実験条件：通話シーン分割（発話単位系列ラベリング5クラス分類） ※ 各通話は100-200発話程度含む

複数人会話発話単位系列ラベリングの特殊なケース 37 会話コンテキストを考慮しつつも、「ある特定話者に対してのみのラベルを推定」する際の発話単位系列ラベリング  話者ごとに系列を長期コンテキストを考慮しその情報をマージ [Masumura+ 2018] すみませんプラン変更
をお勧めしますはい通信速度が遅くて困ってますオペレータ側の長期文脈を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワークユーザ側の長期文脈を理解するネットワーク会話全体の長期文脈を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク識別ネットワーク識別ネットワーク [Masumura+ 2018] Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, Yushi Aono, "Neural Dialogue Context Online End-of-Turn Detection", In Proc. Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pp.224-228, 2018.

ターン交替点検出における具体的なネットワーク構造例 38 デュアルな階層リカレントニューラルネットワークを用いたネットワーク構造 𝑺(𝑡−1) 𝑺(𝑡) 𝑪(𝑡−1) 𝑪(𝑡) 𝒚(𝑡−1) 𝒚(𝑡) 𝒙(𝑡−1)
𝒙(𝑡) 𝒁(𝑡−1) 𝒁(𝑡) カスタマーの発話区間オペレータの発話区間検出点検出点会話開始点から応対者の全ての発話情報をLSTM-RNNを用いて固定長ベクトルに埋め込む 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑪(1:𝑡)) 𝑃(𝑙 𝑡−1 |𝑺 1:𝑡−1 , 𝑪(1:𝑡−1)) 会話始端から対象話者の現在の発話終端までのインタラクション情報を用いて識別会話開始点からの対象話者の全ての発話情報をLSTM-RNNを用いて固定長ベクトルに埋め込む  以下のネットワークでは、カスタマーの発話終端のタイミングでのみラベリング

深層学習時代のモデリングのその他のメリット 39 異なる複数の特徴量を明示的に与え、早期融合として最適化することが容易  例えば、テキスト・音声・映像の複数の特徴量系列を早期融合することも容易 𝑺(𝑡−1) 𝑺(𝑡) 𝑪(𝑡−1) 𝑪(𝑡) 𝒚(𝑡−1)
𝒚(𝑡) 𝒙(𝑡−1) 𝒙(𝑡) 𝒁(𝑡−1) 𝒁(𝑡) カスタマーの発話区間オペレータの発話区間検出点検出点 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑪(1:𝑡)) 𝑃(𝑙 𝑡−1 |𝑺 1:𝑡−1 , 𝑪(1:𝑡−1)) 音素情報応対者のテキストから抽出可能な音素系列単語系列応対者のテキストから抽出可能な単語系列 F0系列対象話者の音声からフレームシフト5ms で抽出可能な基本周波数系列 MFCC系列対象話者の音声からフレームシフト10ms で抽出可能なMFCC38次元の特徴量系列各系列情報の長さが異なってでも統合する術はいろいろ存在、話者ごとに異なる特徴を使うといった細かい設計も可能

41 話題音声認識結果正解文北海道旅行解散物がおいしいっていう海産物がおいしいっていう音声関連それから第二世と第四声それから第二声と第四声
男女の違いこれは生産の比較ですこれは性差の比較ですそもそも音声認識は通常どのように動いている？最近主流となってきているEnd-to-End方式を含め、基本的に発話単位のモデル化であり、発話境界を越えたコンテキストを考慮できない  例えば、複数人会話のような長い音声を扱う場合でも、発話ごとに区切って、発話独立に考慮することなく音声認識を実施  発話境界を越えた会話コンテキスト(これまで誰が何を話してきたか)を捉えないと誤るケースごとに独立に音声認識システムに投げて、結果を得る久保田と申しますけどもえーとですねちょっとあのーおたくのえーとキャッシュカードをなくしたんですけどもどうしたらいいか分からなくてはいはいはい、久保田様…

42 会話コンテキストを考慮した音声認識のモデリングすみませんプラン変更をお勧めしますはい通信速度
が遅くて困ってます会話全体の長期文脈を理解するネットワーク音声認識のネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話境界を跨ぐ会話コンテキストと対象発話の音声を考慮 [Masumura+ 2019] 音声認識のネットワーク音声認識のネットワーク音声認識のネットワーク認識結果を予測し自己回帰  音声認識した結果を、次の音声を音声認識する際のコンテキストとして自己回帰的に利用認識結果を予測し自己回帰認識結果を予測し自己回帰認識結果を予測し自己回帰 [Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019

43 この問題設定をモデリングするとなると？条件付き自己回帰生成モデルとしての確率モデルとしての定式化 Hierarchical Text Encoder Extended Attention Decoder Speech
Encoder 𝑿𝑡 𝑾𝑡−1 𝑪𝑡 Hierarchical Text Encoder 𝑾𝑡−2 𝑪𝑡−1 𝑯𝑡 𝑃(𝑾𝑡) Extended Attention Decoder Speech Encoder 𝑿𝑡−1 𝑯𝑡−1 𝑃(𝑾𝑡−1) 𝑪𝑡−2 𝑃(𝑾𝑡−2) 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣) = ෑ 𝑛=1 𝑁𝑡 𝑃(𝑤𝑛 𝑡|𝑤1 𝑡, … , 𝑤𝑡−1 𝑡 , 𝑾1,..., 𝑾𝑡−1, 𝑿𝑡, 𝜣) モデル化学習 (複数人会話データを用いた最適化) ෡ 𝜣 = arg min 𝜣 − ෍ 𝑑=1 𝐷 ෍ 𝑡=1 𝑇𝑑 log 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣)  音声をテキストに一気通貫で変換するEnd-to-End音声認識に対して、会話コンテキストも考慮できるようにモデル化 [Masumura+ 2019] [Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019

44 会話コンテキストを考慮する音声認識の効果会話コンテキストを考慮することで定量的・定性的に性能改善話題発話単位会話コンテキスト北海道旅行解散物がおいしいっていう海産物がおいしいっていう北海道旅行
講演の公園の ※大通り公園舞台演出アドリブの子音をアドリブのシーンを音声関連それから第二世と第四声それから第二声と第四声男女の違いこれは生産の比較ですこれは性差の比較です End-to-End音声認識考慮する過去コンテキスト文字誤り率発話単位 - 8.8 会話コンテキスト直前の1発話 8.5 会話コンテキスト会話開始から直前までの全て 8.1  発話境界を越えた会話コンテキストを考慮することにより、文字誤り率が改善  発話内の情報だけでは難しい or 不可能な場合の性能を改善

精緻なモデル化には常にそれなりのデータ量が必要 46 大量のラベル付き複数人会話データを集めることは困難、その一方で精緻なモデル化を狙っているので大量にないとモデル化できない学習に用いたラベル付き複数人会話データ正解率 (例) 複数人会話発話単位系列ラベリングによる通話シーン分割の性能評価実験条件：通話シーン分割
（発話単位系列ラベリング5クラス分類） ※ 各通話は100-200発話程度含む 0.4 0.5 0.6 0.7 0.8 0.9 1 10 20 50 100 200 400 800 1649 通話シーン分割の場合、ラベル付きデータ数がある程度大量に得られないと、高い性能は実現できない  「会話開始から誰が何をどんな順番で話してきたか？」を精緻にモデル化するためには、大量に複数人会話から学ばないといけないはず…

そんな時に近年流行りの自己教師あり学習 47 自己教師あり学習は、入力のみのデータ（ラベルなしデータ）から、入力を理解する上で有用な表現を獲得するための学習方法  ELMo [Peters+2018]、 BERT [Debrin+2018]など、テキストのみのデータから自己教師あり学習することで、短期文脈を理解するネットワークをモデル化、
しかしこれらの技術は会話コンテキストを考慮する機構を事前学習できない ELMoやBERTの学習方法  文内の前後コンテキストの単語列から間の単語を予測する言語モデルを大量のテキストで学習今日の？は晴れ ELMoやBERTの利用方法  短期文脈を理解するネットワークを転移し、目的タスク向けの識別問題を学習することで、少ない学習データでも高精度を実現発話内の系列（短期文脈）を理解するネットワーク？単語穴埋めネットワーク今日の天気は晴れ発話内の系列（短期文脈）を理解するネットワーク例えば話題推定や固有表現抽出目的タスク識別ネットワーク知識転移これを言語モデルと呼ぶ [Peters+ 2018] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” In Proc. NAACL-HLT, pp. 2227–2237, 2018 [Devlin+2019] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” In Proc. NAACL-HLT, pp. 4171–4186, 2019.

複数人会話のモデリングに特化した自己教師あり学習 48 会話中のある発話に対する発話文と話者の穴埋めタスクによる自己教師あり学習  ある発話を見えなくして、前後のコンテキストから話者推定と発話文推定をモデリングすることで、会話全体の長期文脈を理解するネットワークを鍛える [Masumura+ 2021] すみませんプラン
変更をお勧めしますはい会話全体の長期文脈を理解するネットワーク発話文推定ネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話内の系列（短期文脈）を理解するネットワーク発話文: ???????? 話者: ?? 話者推定ネットワーク会話中のある発話が消えていることを想定与えられた周辺の発話から、空欄の発話を穴埋めするためのモデル化を行えばよいのでは？ [Masumura+ 2021] Ryo Masumura, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents" In Proc. SLT, 1012-1019, 2021.  ラベルなしの入力のみの複数人会話データからモデリングが可能

49 この問題設定をモデリングするとなると？双方向長期コンテキスト言語モデルの拡張としての定式化 Past-context encoder 𝑈𝑡−1 𝑳𝑡 Utterance decoder 𝑃(𝑈𝑡−1|𝑈1:𝑡−2,
𝑈𝑡:𝑇) Utterance encoder 𝑺𝑡−1 Past-context encoder 𝑈𝑡 𝑳𝑡+1 Utterance decoder 𝑃(𝑈𝑡|𝑈1:𝑡−1, 𝑈𝑡+1:𝑇) Utterance encoder 𝑺𝑡 Past-context encoder 𝑈𝑡+1 𝑳𝑡+2 Utterance decoder 𝑃(𝑈𝑡+1|𝑈1:𝑡, 𝑈𝑡+2:𝑇) Utterance encoder 𝑺𝑡+1 Future-context encoder 𝑹𝑡−2 Future-context encoder 𝑹𝑡−1 Future-context encoder 𝑹𝑡 話者推定発話文推定モデル化  文境界を越えた過去と未来の文脈を固定長ベクトルに埋め込み、条件付き自己回帰モデルにより話者と発話文穴埋め問題の自己教師あり学習を実現学習 (複数人会話データを用いた最適化)

50 ラベル付き複数人会話データの数が少ない場合でも高精度、ラベル付き複数人会話データがある程度得られる場合でもさらに上乗せの改善効果 0.75 0.77 0.79 0.81 0.83 0.85 0.87
0.89 0.91 10 20 50 100 300 学習に用いたラベル付き複数人会話データ数 (通話) 正解率事前学習なし単語穴埋めの自己教師あり学習 (Webテキストを利用) 複数人会話に対する自己教師あり学習 (ラベルなし複数人会話データを利用) 自己教師あり学習の効果  本技術は単語穴埋めの自己教師あり学習では得られない改善効果を得られる学習に用いたラベルなしデータ： Webテキスト約5億文複数人会話データ約4000通話実験条件：通話シーン分割（発話単位系列ラベリング5クラス分類） ※ 各通話は100-200発話程度含む

51 長期のコンテキストを考慮するようになっているので、「なぜそう推定しているのかの根拠」を明示的に明らかにできない複数人会話データに対する深層学習時代のモデリングの課題  問題を解けることをゴールとしてEnd-to-Endで最適化していることが理由だが、会話分析という観点では有益ではないかも…  特に工学的に近年重要となっている事前学習なども含めだすと「会話データ以外から事前に獲得している知識の度合い」もコンテキストに
含まれてきており、「なぜそう推定しているのかの根拠」の導出はより複雑化  「入力にXXの情報を加えたら性能が上がる」くらいは明らかにできるが、「YYの状況でZZしていることがクリティカルに寄与している」などは明らかにできない

本講演のまとめ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング  「複数人会話を自動で理解する」には、様々なことをモデリングする必要があるが、「会話のインタラクションを考慮する」モデリングの重要性が高まっている
 「会話のインタラクションを考慮する」モデリングには、話者ラベルがあり、マルチターン情報が保たれている複数人会話データとそのアノテーションが重要  「会話開始から誰が何をどんな順番で話してきたか？」を出来る限り厳密にコンテキストとして考慮してモデル化する方法が進展「複数人会話を自動で理解する」ために「複数人会話データから機械学習でモデル化する」という話題で３つのトピックに言及

複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)

複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Technology

Featured

Transcript

複数人会話データを活用した音声言語処理とアプリケーション NTTメディアインテリジェンス研究所増村亮第91回言語・音声理解と対話処理研究会

2 自己紹介本日はこのような機会を頂きありがとうございます  名前: 増村亮 (ますむらりょう) 

4 アジェンダ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

5 複数人会話の理解（ビデオ）人間は、会話の内容や人々の属性や内面、インタラクションを精緻に理解できる、機械も人間と同じように理解できるようになることが目標 ※ 私の同僚たち

6 機械が複数人会話を自動で理解するために複数人会話を自動で理解するアプリケーションを作っています

7 このアプリケーションの中でやっていること「複数人会話を自動で理解する」ために、「音声、画像映像、テキストの様々なデータから機械学習でモデル化する」モデルを使った会話理解機械学習によるモデル化

9 会話の内容を理解する（ビデオ）

10 「会話の内容を理解する」とは？

11 会話に登場する人の属性情報を理解する（ビデオ）

12 「会話に登場する人の属性情報を理解する」とは？

13 会話に登場する各人の内面を理解する（ビデオ）

14 「会話に登場する各人の内面を理解する」とは？

15 複数人会話を理解するアプリケーションの価値（ビデオ）複数人会話理解は、現状の到達点でもアプリケーションに活かすことができる

17 アジェンダ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

20 [Li+ 2017] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie

21 会話テキスト+音声+そのアノテーションのデータ例① コンタクトセンタ会話に対して、書き起こしテキストを作成(アノテーション) [Masumura+ 2021] Ryo Masumura, Naoki Makishima, Mana

22 会話テキスト+音声+そのアノテーションのデータ例② コンタクトセンタ会話に対するターン交替点と相槌のアノテーション [Masumura+ 2018] Ryo Masumura, Tomohiro Tanaka, Atsushi

23  オープニング: コンタクトセンタ通話の開始点から，挨拶等のオープニングの終了点までの発話区間  用件把握: オペレータがカスタマーの用件を聞き始めてから，用件を把握し終えるまでの発話区間． 

24 会話テキスト+音声+そのアノテーションのデータ例④ コンタクトセンタ会話に対して顧客満足度を表す感情をアノテーションオペレータカスタマー不満発話普通発話満足発話満足通話 

25 [Poria+ 2019] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam

28 アジェンダ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

32 会話中の発話ごとにラベルを推定するような問題設定すみませんプラン変更をお勧めしますはい通信速度

この問題設定をモデリングするとなると？複数人会話発話単位系列ラベリングの確率モデルとしての定式化  入力①: 発話文系列: 𝑺(1:𝑇) = {𝒔 1 ,

34 … … 𝑟(𝑡−1) … … 𝑟(𝑡) 𝒔(𝑡−1) 𝒓(𝑡−1) 𝒔(𝑡)

36 発話単位系列ラベリングにおいて話者の考慮は有用か？ 50 55 60 65 70 75 80 85

ターン交替点検出における具体的なネットワーク構造例 38 デュアルな階層リカレントニューラルネットワークを用いたネットワーク構造 𝑺(𝑡−1) 𝑺(𝑡) 𝑪(𝑡−1) 𝑪(𝑡) 𝒚(𝑡−1) 𝒚(𝑡) 𝒙(𝑡−1)

41 話題音声認識結果正解文北海道旅行解散物がおいしいっていう海産物がおいしいっていう音声関連それから第二世と第四声それから第二声と第四声

42 会話コンテキストを考慮した音声認識のモデリングすみませんプラン変更をお勧めしますはい通信速度

43 この問題設定をモデリングするとなると？条件付き自己回帰生成モデルとしての確率モデルとしての定式化 Hierarchical Text Encoder Extended Attention Decoder Speech

44 会話コンテキストを考慮する音声認識の効果会話コンテキストを考慮することで定量的・定性的に性能改善話題発話単位会話コンテキスト北海道旅行解散物がおいしいっていう海産物がおいしいっていう北海道旅行

49 この問題設定をモデリングするとなると？双方向長期コンテキスト言語モデルの拡張としての定式化 Past-context encoder 𝑈𝑡−1 𝑳𝑡 Utterance decoder 𝑃(𝑈𝑡−1|𝑈1:𝑡−2,

50 ラベル付き複数人会話データの数が少ない場合でも高精度、ラベル付き複数人会話データがある程度得られる場合でもさらに上乗せの改善効果 0.75 0.77 0.79 0.81 0.83 0.85 0.87

52 アジェンダ  「複数人会話を自動で理解する」とは？  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング