Slide 1

Slide 1 text

複数人会話データを活用した 音声言語処理とアプリケーション NTTメディアインテリジェンス研究所 増村 亮 第91回 言語・音声理解と対話処理研究会

Slide 2

Slide 2 text

2 自己紹介 本日はこのような機会を頂きありがとうございます  名前: 増村 亮 (ますむら りょう)  略歴: 2011年3月 東北大学大学院 工学研究科 博士前期課程修了 2011年4月 日本電信電話株式会社(NTT研究所) 入社 2016年9月 東北大学大学院 工学研究科 博士後期課程修了 現在は、NTTメディアインテリジェンス研究所 特別研究員  専門分野: 音声認識、音声言語処理全般、自然言語処理全般、 動画像処理全般、音声対話システム  「複数メディア処理の知識集約モデリング」を包括的な研究テーマに掲げ、 メディア処理全般の基礎&応用研究開発に力を入れており、基礎的な技術理論の創出や、 人のセンシングアプリケーション、人対人の会話理解アプリケーション、 および人対機械の対話アプリケーションの実用化を行っています

Slide 3

Slide 3 text

3 本日の私の講演のメインの話題 「複数人会話を自動で理解する」ために、 「複数人会話データから機械学習でモデル化する」ということがメインの話題 コンタクトセンタの会話 会議の会話 雑談 アノテーション付き+なし 複数人会話データ 実際の複数人会話 モデルを 使った 会話理解 機械 学習による モデル化 コンタクトセンタの会話 会議の会話 雑談 モデル

Slide 4

Slide 4 text

4 アジェンダ  「複数人会話を自動で理解する」とは?  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

Slide 5

Slide 5 text

5 複数人会話の理解(ビデオ) 人間は、会話の内容や人々の属性や内面、インタラクションを精緻に理解できる、 機械も人間と同じように理解できるようになることが目標 ※ 私の同僚たち

Slide 6

Slide 6 text

6 機械が複数人会話を自動で理解するために 複数人会話を自動で理解するアプリケーションを作っています

Slide 7

Slide 7 text

7 このアプリケーションの中でやっていること 「複数人会話を自動で理解する」ために、 「音声、画像映像、テキストの様々なデータから機械学習でモデル化する」 モデルを 使った 会話理解 機械 学習による モデル化 アノテーション付き&なし マルチメディアデータ 音声認識モデル 機械翻訳モデル 書き言葉変換モデル 顔画像認証モデル 音声認証モデル 感情推定モデル 人物物体検出モデル 年齢性別推定モデル 音声データ 画像映像データ テキストデータ コンタクトセンタの会話 会議の会話 雑談 実際の複数人会話

Slide 8

Slide 8 text

8 複数人会話を自動で理解する要素  会話の内容を理解する  会話に登場する人の属性情報を理解する  会話に登場する各人の内面を理解する このアプリケーションの範囲内でやっている 「複数人会話を自動で理解する」ための主な要素は以下 音声認識モデル 機械翻訳モデル 書き言葉変換モデル 顔画像認証モデル 音声認証モデル 年齢性別推定モデル 感情推定モデル  会話環境を理解する 人物物体検出モデル

Slide 9

Slide 9 text

9 会話の内容を理解する(ビデオ)

Slide 10

Slide 10 text

10 「会話の内容を理解する」とは?

Slide 11

Slide 11 text

11 会話に登場する人の属性情報を理解する(ビデオ)

Slide 12

Slide 12 text

12 「会話に登場する人の属性情報を理解する」とは?

Slide 13

Slide 13 text

13 会話に登場する各人の内面を理解する(ビデオ)

Slide 14

Slide 14 text

14 「会話に登場する各人の内面を理解する」とは?

Slide 15

Slide 15 text

15 複数人会話を理解するアプリケーションの価値(ビデオ) 複数人会話理解は、現状の到達点でもアプリケーションに活かすことができる

Slide 16

Slide 16 text

16 もっと深めていかなければならない観点 「会話のインタラクションをコンテキストとして考慮する」という観点が重要、 また「様々な情報を相互的にコンテキストとして考慮する」という観点も重要 • (基本的に)話者独立・発話独立の処理 • 誰が何をどんな順番で話してきたのか、 といったインタラクションコンテキストの考慮 • ある言葉を発するときの表情はどうだったのか、 等の複数情報の相互コンテキストの考慮 先ほどのアプリケーションの仕組み さらに深めていく先にあるもの 音声認識モデル 感情推定モデル 音声認識モデル 感情推定モデル • (基本的に)機能独立の処理 会話コンテキストを考慮した 音声認識+感情推定 の統合モデル ※ もちろん、これらの範囲内でも、 まだまだ深めていくべき課題は多いのですが…

Slide 17

Slide 17 text

17 アジェンダ  「複数人会話を自動で理解する」とは?  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

Slide 18

Slide 18 text

18 機械学習のための複数人会話データ インタラクションコンテキストの考慮や複数情報の相互的なコンテキストの考慮 のためには、複数人会話データを積極的に利用してモデル化することが重要 コンタクトセンタの会話 会議の会話 雑談 アノテーション  本講演における複数人会話データの定義としては、 「話者ラベルがあること」「マルチターン情報が保たれていること」  複数人会話データを使えるようにするためにはアノテーションが必要 クリーニング、 書き起こし、 ラベリング、など

Slide 19

Slide 19 text

19 機械学習のための複数人会話データの種類 対象とする複数人会話データごとに、入力のモダリティの種類数が異なる  会話テキスト+アノテーションのデータ  会話テキスト+音声+アノテーションのデータ  会話テキスト+音声+映像+アノテーションのデータ  テキストチャット会話、など  電話会話、など  TVの中の会話、など ※ 会話にタスク(達成すべき目標)があるかないかの話題は本日は除外

Slide 20

Slide 20 text

20 [Li+ 2017] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, Shuzi Niu, "DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset", In Proc. IJCNLP, 986-995, 2017. 会話テキスト+そのアノテーションのデータ例 マルチターンのテキストチャットに対して感情や対話行為をアノテーション  DailyDialog [Li+ 2017]では、 英語による日常チャットに感情や対話行為を付与  テキストというモダリティの範囲内でなされて いる会話を利用

Slide 21

Slide 21 text

21 会話テキスト+音声+そのアノテーションのデータ例① コンタクトセンタ会話に対して、書き起こしテキストを作成(アノテーション) [Masumura+ 2021] Ryo Masumura, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents" In Proc. SLT, 1012-1019, 2021.  音声というモダリティが入ると、交互に発話するわけではない点にも注意  以下は、コンタクトセンタ会話の書き起こしテキスト例 [Masumura+ 2021]

Slide 22

Slide 22 text

22 会話テキスト+音声+そのアノテーションのデータ例② コンタクトセンタ会話に対するターン交替点と相槌のアノテーション [Masumura+ 2018] Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, Yushi Aono, "Neural Dialogue Context Online End-of-Turn Detection", In Proc. Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pp.224-228, 2018. ターン交替点 でない 久保田と 申しますけども えーとですね ちょっとあのー おたくの えーとキャッシュ カードをなくしたん ですけども はい 相槌 ターン交替点 でない ターン交替点 でない はい どうしたらいいか 分からなくて はい、それでは はじめに… 相槌 ターン交替点  交互に発話するわけではない音声の会話において、 ターンの概念は非常に重要で、実時間上の発話タイミングも関わってくる  ターン交替点の予測のために利用 [Masumura+ 2018]

Slide 23

Slide 23 text

23  オープニング: コンタクトセンタ通話の開始点から, 挨拶等のオープニングの終了点までの発話区間  用件把握: オペレータがカスタマーの用件を聞き始めてから, 用件を把握し終えるまでの発話区間.  要件対応: 把握した用件について,オペレータが 対応している発話区間.  カスタマー情報把握: オペレータがカスタマーの名前,住所, 電話番号等の個人情報を確認している発話区間  クロージング: クロージングの開始点から, コンタクトセンタ通話の終了点までの発話区間. 会話テキスト+音声+そのアノテーションのデータ例③ コンタクトセンタ会話をいくつかの通話シーンに分割するようにアノテーション 通話シーン1 通話シーン2 通話シーン3 [Masumura+ 2018] Ryo Masumura, Setsuo Yamada, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Yushi Aono, "Online Call Scene Segmentation of Contact Center Dialogues based on Role Aware Hierarchical LSTM-RNNs", In Proc. APSIPA ASC, pp.811-815, 2018.  人対人のタスク会話(ゴールがある会話)においては、 タスク依存の会話理解が必要となることもしばしば  応用を想定して、5つの通話シーンにアノテーション [Masumura+ 2018]

Slide 24

Slide 24 text

24 会話テキスト+音声+そのアノテーションのデータ例④ コンタクトセンタ会話に対して顧客満足度を表す感情をアノテーション オペレータ カスタマー 不満発話 普通発話 満足発話 満足通話  通話全体を通した顧客満足度、 および顧客の各発話に対しても顧客満足度をアノテーション [Ando+ 2020] [Ando+ 2020]Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, Tomoki Toda, "Customer Satisfaction Estimation in Contact Center Calls Based on a Hierarchical Multi-Task Model", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.715-728, 2020. 顧客満足度が高い会話 顧客満足度が低い会話

Slide 25

Slide 25 text

25 [Poria+ 2019] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, Rada Mihalcea, "MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations", In Proc. ACL, pp. 527-536, 2019. 発話に加えてその際の顔表情まで含めた上で、各人の感情をアノテーション 会話テキスト+音声+映像+アノテーションのデータ例①  MELD [Poria+ 2019]というデータセットでは、 Friendsというテレビ番組の会話に対して感情ラベルをアノテーション

Slide 26

Slide 26 text

26 会話テキスト+音声+映像+アノテーションのデータ例② 発話に加えてその際の顔表情や態度に対して皮肉を言っているかアノテーション  MUStARD [Castro+ 2019]というデータセットでは、 Youtubeから「皮肉」という検索キーワードで番組を探し、 そのデータに対して皮肉を言っているかどうかをアノテーション [Castro+ 2019] Santiago Castro, Devamanyu Hazarika, Veronica Perez-Rosas, Roger Zimmermann, Rada Mihalcea, Soujanya Poria, "Towards Multimodal Sarcasm Detection", In Proc. ACL, 4619-4629, 2019.

Slide 27

Slide 27 text

27 複数人会話データのアノテーションの実情 複数人会話データのアノテーションは簡単ではない…  音声の書き起こし以外は、基本的に決定的なアノテーションを行うことは困難  複数人会話単位のデータ作成コスト はそもそも非常に大きい  複数人によるアノテーションがやはり必須、 また工学的なアプローチで解けるくらいに ラベラー間で評価が一致するタスクの設計が必要  クラウドソーシングなどの活用が重要となる  とはいえ、どんなに頑張っても、 膨大なデータを集めることは非現実的 (これをどう乗り越えるかは後述) [Chen+, 2018] Sheng-Yeh Chen, Chao-Chun Hsu, Chuan-Chun Kuo, Ting-Hao (Kenneth) Huang, Lun-Wei Ku, "EmotionLines: An Emotion Corpus of Multi-Party Conversations", In Proc. LREC, pp.1597-1601, 2018. EmotionLines [Chen+, 2018]のアノテーション用UI

Slide 28

Slide 28 text

28 アジェンダ  「複数人会話を自動で理解する」とは?  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

Slide 29

Slide 29 text

29 深層学習時代のモデリングとは? 特別な特徴量を人手で設計することなく、入力と出力のペアデータから 目的の問題を直接解けるようにEnd-to-Endでモデル化するのが有望な方法論  基本的に、モデルのネットワーク構造+最適化の設計が特徴量設計に相当  事前学習、自己教師あり学習、半教師あり学習などで、 他のデータを活用するのも深層学習時代の代表的な戦略  「何を解けるように最適化するか?」の目的関数のおき方がポイント 入力 出力 数字1 数字2 数字3 数字4 数字5 できる限り生の情報 を入力で渡す 直接解きたい問題 に対して最適化 することで、 どんな特徴が重要か は自動的にモデル化 手書き文字認識の例

Slide 30

Slide 30 text

30 複数人会話データの特性を活かすとは? 「会話開始から誰が何をどんな順番で話してきたか?」を 出来る限り厳密にコンテキストとして考慮してモデル化することが重要  (再掲) 本講演における複数人会話データの定義としては、 「話者ラベルがあること」「マルチターン情報が保たれていること」  「話者ラベルがあること」を活かして「誰が」を考慮すれば活かせそう…  「マルチターン情報が保たれていること」を活かして、 マルチターンの「何をどんな順番で」の系列情報を考慮すれば活かそう… 青と赤を分けて扱いつつ、 系列情報を明示的に 考慮できれば、 複数人会話データの 特性を活かすことが可能  ここまでやったら、どんな特徴が効果があるかのモデル化は深層学習側に任せられる

Slide 31

Slide 31 text

31 複数人会話を対象とした技術の紹介 主にテキストと音声のモダリティの範囲内で、我々がこれまで検討してきた 複数人会話データの特性を活かした深層学習時代のモデリングをいくつか紹介  複数人会話の発話単位系列ラベリングのモデリング  複数人会話の会話コンテキストを考慮した音声認識のモデリング  会話コンテキストを考慮するための ラベルなしデータを活用した自己教師あり学習

Slide 32

Slide 32 text

32 会話中の発話ごとにラベルを推定するような問題設定 すみません プラン 変更 を お勧め します はい 通信速度 が 遅くて 困ってます 会話全体の長期文脈を理解するネットワーク 識別ネットワーク 識別ネットワーク 識別ネットワーク 識別ネットワーク 複数人会話の発話単位系列ラベリング 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク  話者と発話内容とその長期系列を考慮したモデリング [Masumura+ 2018] [Masumura+ 2018] Ryo Masumura, Setsuo Yamada, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Yushi Aono, "Online Call Scene Segmentation of Contact Center Dialogues based on Role Aware Hierarchical LSTM-RNNs", In Proc. APSIPA ASC, pp.811-815, 2018.  下段のネットワークで、発話内に閉じて誰がどんな内容の発話をしたかを捉える  中段のネットワークで、発話間のインタラクション等の会話コンテキストを捉える

Slide 33

Slide 33 text

この問題設定をモデリングするとなると? 複数人会話発話単位系列ラベリングの確率モデルとしての定式化  入力①: 発話文系列: 𝑺(1:𝑇) = {𝒔 1 , … , 𝒔 𝑇 } ※各発話文はトークン系列  入力②: 発話単位の話者役割ラベル系列: 𝑹(1:𝑇) = {𝑟 1 , … , 𝑟 𝑇 }  出力: 発話単位の通話シーンラベル系列: 𝑳(1:𝑇) = {𝑙 1 , … , 𝑙 𝑇 }  モデル化したいこと:入力が与えられた時の出力の条件付き確率 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑹 1:𝑡 , 𝜣) 会話全体の長期文脈を理解するネットワーク 識別ネットワーク 識別ネットワーク 識別ネットワーク 識別ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 𝒔 1 𝑟 1 𝒔 2 𝑟 2 𝒔 3 𝑟 3 𝒔 4 𝑟 4 𝑃(𝑙 1 |𝑺 1 , 𝑹 1 , 𝜣) 𝑃(𝑙 3 |𝑺 1:3 , 𝑹 1:3 , 𝜣) 𝑃(𝑙 2 |𝑺 1:2 , 𝑹 1:2 , 𝜣) 𝑃(𝑙 4 |𝑺 1:4 , 𝑹 1:4 , 𝜣)

Slide 34

Slide 34 text

34 … … 𝑟(𝑡−1) … … 𝑟(𝑡) 𝒔(𝑡−1) 𝒓(𝑡−1) 𝒔(𝑡) 𝒓(𝑡) 𝒐(𝑡) 𝒗(𝑡−1) 𝒗(𝑡) 𝒖(𝑡−1) 𝒖(𝑡) 通話シーン分割における具体的なネットワーク構造例 階層リカレントニューラルネットワークを拡張したネットワーク構造 𝒐(𝑡−1) … … 𝑟(𝑡−2) 𝒔(𝑡−2) 𝒓(𝑡−2) 𝒗(𝑡−2) 𝒖(𝑡−2) 𝒐(𝑡−2) 発話単位LSTMを用いて 過去の全ての発話系列も 考慮した埋め込みベクトル を構成する トークン単位LSTMと 注意機構を用いて、 発話全体の情報を埋め込んだ 発話文ベクトルに変換 話者情報を線形変換 によりベクトル化 して結合  系列情報を捉えるために、2種類のリカレントニューラルネットワーク(LSTM)を導入  話者情報もベクトルに埋め込んで利用 1つの〇 のイメージ はこんなもの

Slide 35

Slide 35 text

35 「複数人会話データを用いて学習する」とは? 複数人会話データを多数用いて、 入力が与えられた時の出力の条件付き確率が最大となるように学習  深層学習では、このような問題設定は負の対数尤度を最小化する問題とすることで、 特別なアルゴリズム(誤差逆伝搬法)により最適化することが可能 ෡ 𝚯 = arg min 𝚯 − ෍ 𝑑∈𝐷 log 𝑃(𝑙 1:𝑇 |𝑺 1:𝑇 , 𝑹 1:𝑇 , 𝚯) 𝐷:アノテーション付き複数人会話データセット 𝑑:1つのアノテーション付き複数人会話データ コンタクトセンタの会話 会議の会話 雑談 アノテーション付き複数人会話データ 機械 学習による モデル化 モデル:𝚯

Slide 36

Slide 36 text

36 発話単位系列ラベリングにおいて話者の考慮は有用か? 50 55 60 65 70 75 80 85 90 95 オープニング 要件把握 要件対応 カスタマー 情報把握 クロージング 話者情報を考慮するにより、 通話シーン分割タスクでは、各通話シーンの分割性能が向上  話者の考慮がないと「要件把握」を「要件対応」に間違えることが多かったが、 話者を考慮するではインタラクションの塊を明示的にとらえることで性能改善 F値 話者の考慮無し 話者の考慮あり 実験条件:通話シーン分割 (発話単位系列ラベリング5クラス分類) ※ 各通話は100-200発話程度含む

Slide 37

Slide 37 text

複数人会話発話単位系列ラベリングの特殊なケース 37 会話コンテキストを考慮しつつも、 「ある特定話者に対してのみのラベルを推定」する際の発話単位系列ラベリング  話者ごとに系列を長期コンテキストを考慮しその情報をマージ [Masumura+ 2018] すみません プラン変更 を お勧めします はい 通信速度 が 遅くて 困ってます オペレータ側の長期文脈を理解するネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク ユーザ側の長期文脈を理解するネットワーク 会話全体の長期文脈を理解するネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 識別ネットワーク 識別ネットワーク [Masumura+ 2018] Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, Yushi Aono, "Neural Dialogue Context Online End-of-Turn Detection", In Proc. Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pp.224-228, 2018.

Slide 38

Slide 38 text

ターン交替点検出における具体的なネットワーク構造例 38 デュアルな階層リカレントニューラルネットワークを用いたネットワーク構造 𝑺(𝑡−1) 𝑺(𝑡) 𝑪(𝑡−1) 𝑪(𝑡) 𝒚(𝑡−1) 𝒚(𝑡) 𝒙(𝑡−1) 𝒙(𝑡) 𝒁(𝑡−1) 𝒁(𝑡) カスタマーの発話区間 オペレータの発話区間 検出点 検出点 会話開始点から 応対者の全ての発話情報 をLSTM-RNNを用いて 固定長ベクトルに埋め込む 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑪(1:𝑡)) 𝑃(𝑙 𝑡−1 |𝑺 1:𝑡−1 , 𝑪(1:𝑡−1)) 会話始端から対象話者の 現在の発話終端までの インタラクション情報 を用いて識別 会話開始点からの 対象話者の全ての発話情報 をLSTM-RNNを用いて 固定長ベクトルに埋め込む  以下のネットワークでは、カスタマーの発話終端のタイミングでのみラベリング

Slide 39

Slide 39 text

深層学習時代のモデリングのその他のメリット 39 異なる複数の特徴量を明示的に与え、早期融合として最適化することが容易  例えば、テキスト・音声・映像の複数の特徴量系列を早期融合することも容易 𝑺(𝑡−1) 𝑺(𝑡) 𝑪(𝑡−1) 𝑪(𝑡) 𝒚(𝑡−1) 𝒚(𝑡) 𝒙(𝑡−1) 𝒙(𝑡) 𝒁(𝑡−1) 𝒁(𝑡) カスタマーの発話区間 オペレータの発話区間 検出点 検出点 𝑃(𝑙 𝑡 |𝑺 1:𝑡 , 𝑪(1:𝑡)) 𝑃(𝑙 𝑡−1 |𝑺 1:𝑡−1 , 𝑪(1:𝑡−1)) 音素情報 応対者のテキストから抽出可能な音素系列 単語系列 応対者のテキストから抽出可能な単語系列 F0系列 対象話者の音声からフレームシフト5ms で抽出可能な基本周波数系列 MFCC系列 対象話者の音声からフレームシフト10ms で抽出可能なMFCC38次元の特徴量系列 各系列情報の長さが異なってでも 統合する術はいろいろ存在、 話者ごとに異なる特徴を使う といった細かい設計も可能

Slide 40

Slide 40 text

40 複数人会話を対象とした技術の紹介 主にテキストと音声のモダリティの範囲内で、我々がこれまで検討してきた 複数人会話データの特性を活かした深層学習時代のモデリングをいくつか紹介  複数人会話の発話単位系列ラベリングのモデリング  複数人会話の会話コンテキストを考慮した音声認識のモデリング  会話コンテキストを考慮するための ラベルなしデータを活用した自己教師あり学習

Slide 41

Slide 41 text

41 話題 音声認識結果 正解文 北海道旅行 解散物がおいしいっていう 海産物がおいしいっていう 音声関連 それから第二世と第四声 それから第二声と第四声 男女の違い これは生産の比較です これは性差の比較です そもそも音声認識は通常どのように動いている? 最近主流となってきているEnd-to-End方式を含め、基本的に発話単位の モデル化であり、発話境界を越えたコンテキストを考慮できない  例えば、複数人会話のような長い音声を扱う場合でも、 発話ごとに区切って、発話独立に考慮することなく音声認識を実施  発話境界を越えた会話コンテキスト(これまで誰が何を話してきたか)を捉えないと誤るケース ごとに独立に 音声認識システムに投げて、 結果を得る 久保田と申しますけども えーとですね ちょっとあのーおたくの えーとキャッシュカード をなくしたんですけども どうしたらいいか 分からなくて はい はい はい、久保田様…

Slide 42

Slide 42 text

42 会話コンテキストを考慮した音声認識のモデリング すみません プラン 変更 を お勧め します はい 通信速度 が 遅くて 困ってます 会話全体の長期文脈を理解するネットワーク 音声認識 のネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話境界を跨ぐ会話コンテキストと対象発話の音声を考慮 [Masumura+ 2019] 音声認識 のネットワーク 音声認識 のネットワーク 音声認識 のネットワーク 認識結果を予測し自己回帰  音声認識した結果を、次の音声を音声認識する際のコンテキストとして自己回帰的に利用 認識結果を予測し自己回帰 認識結果を予測し自己回帰 認識結果を予測し自己回帰 [Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019

Slide 43

Slide 43 text

43 この問題設定をモデリングするとなると? 条件付き自己回帰生成モデルとしての確率モデルとしての定式化 Hierarchical Text Encoder Extended Attention Decoder Speech Encoder 𝑿𝑡 𝑾𝑡−1 𝑪𝑡 Hierarchical Text Encoder 𝑾𝑡−2 𝑪𝑡−1 𝑯𝑡 𝑃(𝑾𝑡) Extended Attention Decoder Speech Encoder 𝑿𝑡−1 𝑯𝑡−1 𝑃(𝑾𝑡−1) 𝑪𝑡−2 𝑃(𝑾𝑡−2) 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣) = ෑ 𝑛=1 𝑁𝑡 𝑃(𝑤𝑛 𝑡|𝑤1 𝑡, … , 𝑤𝑡−1 𝑡 , 𝑾1,..., 𝑾𝑡−1, 𝑿𝑡, 𝜣) モデル化 学習 (複数人会話データを用いた最適化) ෡ 𝜣 = arg min 𝜣 − ෍ 𝑑=1 𝐷 ෍ 𝑡=1 𝑇𝑑 log 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣)  音声をテキストに一気通貫で変換するEnd-to-End音声認識に対して、 会話コンテキストも考慮できるようにモデル化 [Masumura+ 2019] [Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019

Slide 44

Slide 44 text

44 会話コンテキストを考慮する音声認識の効果 会話コンテキストを考慮することで定量的・定性的に性能改善 話題 発話単位 会話コンテキスト 北海道旅行 解散物がおいしいっていう 海産物がおいしいっていう 北海道旅行 講演の 公園の ※大通り公園 舞台演出 アドリブの子音を アドリブのシーンを 音声関連 それから第二世と第四声 それから第二声と第四声 男女の違い これは生産の比較です これは性差の比較です End-to-End音声認識 考慮する過去コンテキスト 文字誤り率 発話単位 - 8.8 会話コンテキスト 直前の1発話 8.5 会話コンテキスト 会話開始から直前までの全て 8.1  発話境界を越えた会話コンテキストを考慮することにより、文字誤り率が改善  発話内の情報だけでは難しい or 不可能な場合の性能を改善

Slide 45

Slide 45 text

45 複数人会話を対象とした技術の紹介 主にテキストと音声のモダリティの範囲内で、我々がこれまで検討してきた 複数人会話データの特性を活かした深層学習時代のモデリングをいくつか紹介  複数人会話の発話単位系列ラベリングのモデリング  複数人会話の会話コンテキストを考慮した音声認識のモデリング  会話コンテキストを考慮するための ラベルなしデータを活用した自己教師あり学習

Slide 46

Slide 46 text

精緻なモデル化には常にそれなりのデータ量が必要 46 大量のラベル付き複数人会話データを集めることは困難、 その一方で精緻なモデル化を狙っているので大量にないとモデル化できない 学習に用いたラベル付き複数人会話データ 正解率 (例) 複数人会話発話単位系列ラベリングによる 通話シーン分割の性能評価 実験条件:通話シーン分割 (発話単位系列ラベリング5クラス分類) ※ 各通話は100-200発話程度含む 0.4 0.5 0.6 0.7 0.8 0.9 1 10 20 50 100 200 400 800 1649 通話シーン分割の場合、ラベル付き データ数がある程度大量に得られないと、 高い性能は実現できない  「会話開始から誰が何をどんな順番で話してきたか?」を精緻に モデル化するためには、大量に複数人会話から学ばないといけないはず…

Slide 47

Slide 47 text

そんな時に近年流行りの自己教師あり学習 47 自己教師あり学習は、入力のみのデータ(ラベルなしデータ)から、 入力を理解する上で有用な表現を獲得するための学習方法  ELMo [Peters+2018]、 BERT [Debrin+2018]など、テキストのみのデータから 自己教師あり学習することで、短期文脈を理解するネットワークをモデル化、 しかしこれらの技術は会話コンテキストを考慮する機構を事前学習できない ELMoやBERTの学習方法  文内の前後コンテキストの単語列から間の 単語を予測する言語モデルを大量のテキストで学習 今日 の ? は 晴れ ELMoやBERTの利用方法  短期文脈を理解するネットワークを転移し、目的タスク向けの 識別問題を学習することで、少ない学習データでも高精度を実現 発話内の系列(短期文脈) を理解する ネットワーク ? 単語穴埋めネットワーク 今日 の 天気 は 晴れ 発話内の系列(短期文脈) を理解する ネットワーク 例えば話題推定や固有表現抽出 目的タスク識別ネットワーク 知識転移 これを言語モデルと呼ぶ [Peters+ 2018] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” In Proc. NAACL-HLT, pp. 2227–2237, 2018 [Devlin+2019] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” In Proc. NAACL-HLT, pp. 4171–4186, 2019.

Slide 48

Slide 48 text

複数人会話のモデリングに特化した自己教師あり学習 48 会話中のある発話に対する発話文と話者の穴埋めタスクによる自己教師あり学習  ある発話を見えなくして、前後のコンテキストから話者推定と発話文推定をモデリングする ことで、会話全体の長期文脈を理解するネットワークを鍛える [Masumura+ 2021] すみません プラン 変更 を お勧め します はい 会話全体の長期文脈を理解するネットワーク 発話文推定 ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話内の系列(短期文脈) を理解する ネットワーク 発話文: ???????? 話者: ?? 話者推定 ネットワーク 会話中のある発話が消えていることを想定 与えられた周辺の発話から、 空欄の発話を穴埋めするため のモデル化を行えばよいのでは? [Masumura+ 2021] Ryo Masumura, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents" In Proc. SLT, 1012-1019, 2021.  ラベルなしの入力のみの複数人会話データからモデリングが可能

Slide 49

Slide 49 text

49 この問題設定をモデリングするとなると? 双方向長期コンテキスト言語モデルの拡張としての定式化 Past-context encoder 𝑈𝑡−1 𝑳𝑡 Utterance decoder 𝑃(𝑈𝑡−1|𝑈1:𝑡−2, 𝑈𝑡:𝑇) Utterance encoder 𝑺𝑡−1 Past-context encoder 𝑈𝑡 𝑳𝑡+1 Utterance decoder 𝑃(𝑈𝑡|𝑈1:𝑡−1, 𝑈𝑡+1:𝑇) Utterance encoder 𝑺𝑡 Past-context encoder 𝑈𝑡+1 𝑳𝑡+2 Utterance decoder 𝑃(𝑈𝑡+1|𝑈1:𝑡, 𝑈𝑡+2:𝑇) Utterance encoder 𝑺𝑡+1 Future-context encoder 𝑹𝑡−2 Future-context encoder 𝑹𝑡−1 Future-context encoder 𝑹𝑡 話者推定 発話文推定 モデル化  文境界を越えた過去と未来の文脈を固定長ベクトルに埋め込み、 条件付き自己回帰モデルにより話者と発話文穴埋め問題の自己教師あり学習を実現 学習 (複数人会話データを用いた最適化)

Slide 50

Slide 50 text

50 ラベル付き複数人会話データの数が少ない場合でも高精度、 ラベル付き複数人会話データがある程度得られる場合でもさらに上乗せの改善効果 0.75 0.77 0.79 0.81 0.83 0.85 0.87 0.89 0.91 10 20 50 100 300 学習に用いたラベル付き複数人会話データ数 (通話) 正解率 事前学習なし 単語穴埋めの自己教師あり学習 (Webテキストを利用) 複数人会話に対する自己教師あり学習 (ラベルなし複数人会話データを利用) 自己教師あり学習の効果  本技術は単語穴埋めの自己教師あり学習では得られない改善効果を得られる 学習に用いたラベルなしデータ: Webテキスト約5億文 複数人会話データ 約4000通話 実験条件:通話シーン分割 (発話単位系列ラベリング5クラス分類) ※ 各通話は100-200発話程度含む

Slide 51

Slide 51 text

51 長期のコンテキストを考慮するようになっているので、 「なぜそう推定しているのかの根拠」を明示的に明らかにできない 複数人会話データに対する深層学習時代のモデリングの課題  問題を解けることをゴールとしてEnd-to-Endで最適化していることが理由だが、 会話分析という観点では有益ではないかも…  特に工学的に近年重要となっている事前学習なども含めだすと 「会話データ以外から事前に獲得している知識の度合い」もコンテキストに 含まれてきており、「なぜそう推定しているのかの根拠」の導出はより複雑化  「入力にXXの情報を加えたら性能が上がる」くらいは明らかにできるが、 「YYの状況でZZしていることがクリティカルに寄与している」などは明らかにできない

Slide 52

Slide 52 text

52 アジェンダ  「複数人会話を自動で理解する」とは?  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング

Slide 53

Slide 53 text

本講演のまとめ  「複数人会話を自動で理解する」とは?  機械学習のための複数人会話データ  複数人会話データの特性を活かした深層学習時代のモデリング  「複数人会話を自動で理解する」には、様々なことをモデリングする必要があるが、 「会話のインタラクションを考慮する」モデリングの重要性が高まっている  「会話のインタラクションを考慮する」モデリングには、話者ラベルがあり、 マルチターン情報が保たれている複数人会話データとそのアノテーションが重要  「会話開始から誰が何をどんな順番で話してきたか?」を 出来る限り厳密にコンテキストとして考慮してモデル化する方法が進展 「複数人会話を自動で理解する」ために「複数人会話データから機械学習でモデル 化する」という話題で3つのトピックに言及