Upgrade to Pro — share decks privately, control downloads, hide ads and more …

発話者分類研究の現状とその応用

Yuki Zenimoto
November 04, 2022

 発話者分類研究の現状とその応用

Yuki Zenimoto

November 04, 2022
Tweet

More Decks by Yuki Zenimoto

Other Decks in Research

Transcript

  1. 発話者分類研究の 現状とその応用 銭本友樹 筑波大学知能機能システム学位プログラムM1 宇津呂研究室 @第2回創作+機械学習LT会

  2. 2 今日お話すること 1. 発話者分類というタスクのざっくりとした説明 2. 日本語小説を対象とした研究の現状 3. 筆者が取り組んでいること 4. 発話者分類の有用性について

    (みなさんの意見もお聞きしたいな~~~|д゚)チラッ)
  3. 発話者分類の概要

  4. 4 発話者分類のより詳しい説明は以下を参照 https://speakerdeck.com/yukizenimoto/snlp2022-what-does-the-sea-say-to-the-shore-a-bert-based- dst-style-approach-for-speaker-to-dialogue-attribution-in-novels

  5. 5 導入:小説の発話者分類 5 Elizabeth Bennet Mr. Collins … Mr. Darcy

    “Do you really think so?” cried Elizabeth, brightening up ... “You are uniformly charming!” cried he, with an air of awkward … “I see your design, Bingley,” said his friend. … Texts in Novels Character List
  6. 6 導入:発話者分類の流れ 6 Direct Speech Identification Mention Extraction Entity Linking

    Speaker Attribution Poole was asleep, and Bowman was reading on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.”
  7. 7 導入:発話者分類の流れ 7 Direct Speech Identification Poole was asleep, and

    Bowman was reading on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.” Mention Extraction Entity Linking Speaker Attribution
  8. 8 導入:発話者分類の流れ 8 Poole was asleep, and Bowman was reading

    on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.” Direct Speech Identification Mention Extraction Entity Linking Speaker Attribution
  9. 9 導入:発話者分類の流れ 9 Poole was asleep, and Bowman was reading

    on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.” BOWMAN POOLE BOWMAN HAL Direct Speech Identification Entity Linking Speaker Attribution Mention Extraction
  10. 10 導入:発話者分類の流れ 10 Poole was asleep, and Bowman was reading

    on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.” BOWMAN POOLE BOWMAN HAL Direct Speech Identification Speaker Attribution Entity Linking Mention Extraction
  11. 11 既存手法-1発話毎に処理[1][2] 11 ⚫Rule Based Speaker Matching … “Do you

    really think so?” cried Elizabeth, ... Utterance by Elizabeth Verb Speaker “My dear Mr. Bennet,…” “Is that his … ” Vocative “Aye, so it …” … “Then, my …” … “Is that a …” by speaker A by speaker B by speaker A by Mr. Bennet ⚫Vocative Detection ⚫Conversational Pattern [1] Muzny et al. A Two-stage Sieve Approach for Quote Attribution, 2017, EACL [2] He et al. Identification of Speakers in Novels, 2013, ACL
  12. 12 3. 小説毎にルールと特徴量の有効性が異なる - ルールと特徴量の網羅性/汎用性の議論も不十分 既存手法の課題と現状のSoTA[3]の取り組み 1. 登場人物リストが必要 - 人手で作成するか、とりあえず近くの人物名に紐づけ

    12 小説全体から人物名を抽出⇛クラスタリングで作成 1パラグラフ全体をBERT/GRUの入力に使用 2. 発話文/地の文の中身を見ていない - 前後の文脈も無視 異なる年代/文体の18小説について評価 [3] Cuesta-Lazaro et al. What does the sea say to the shore? A BERT based DST style approach for speaker to dialogue attribution in novels, 2022, ACL
  13. 日本語小説を対象とした研究の現状

  14. 14 先行研究の紹介 ⚫日本語での研究が少ない ⚫不特定多数の発話者を識別[4] ⚫特定の発話者の分類[5][6][7] ⚫素晴らしい日本語データセットが爆誕[8] ⚫2,932小説 665,828発話文(Entity付与) [8] Yamazaki

    et al.小説会話文への話者情報付与, 2022, 国⽴国語研究所「日常会話コーパス」プロジェクト報告書 5 [4] Du et al.小説からの自由対話コーパスの自動構築, 2019, 言語処理学会第25会年次大会 [5] Miyazaki et al.発話テキストへのキャラクタ性付与のための音変化表現の分類, 2019, 自然言語処理 [6] Ishikawa et al.口調ベクトルを用いた小説発話の話者推定, 2022, 自然言語処理研究発表会 [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  15. ルールベースによる識別

  16. 16 話者特定パターン[4] [4] Du et al.小説からの自由対話コーパスの自動構築, 2019, 言語処理学会第25会年次大会

  17. 17 話者特定パターン[4] [4] Du et al.小説からの自由対話コーパスの自動構築, 2019, 言語処理学会第25会年次大会

  18. 18 識別精度[4] [4] Du et al.小説からの自由対話コーパスの自動構築, 2019, 言語処理学会第25会年次大会 ⚫精度は小説によってマチマチ ⚫評価データ数が少ない

    ⚫ルールごとの有用性が知りた かった…
  19. 口調による識別

  20. 20 アイデア[7] male female 俺の番だな ore no ban da na

    (It is my turn) 俺は家に戻るぜ ore wa ie ni modoru ze (I am going home) 私の番だね watashi no ban da ne (It is my turn) 私は家に戻るわ watashi wa ie ni modoru wa (I am going home) 俺はこの町が好きだぜ ore wa kono machi ga suki da ze (I love this town) 発話者分類に有用 [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  21. 21 アイデア[7] male female 俺の番だな ore no ban da na

    (It is my turn) 俺は家に戻るぜ ore wa ie ni modoru ze (I am going home) 私の番だね watashi no ban da ne (It is my turn) 私は家に戻るわ watashi wa ie ni modoru wa (I am going home) 一人称と性別的な表現は共起しやすい [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  22. 22 訓練データ[7] 小説家になろう Shosetsuka ni naro (Aim to be a

    novelist) 83,571 男性発話文 (“俺”を含む文) 118,997 女性発話文 (“私”を含む文) [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  23. 23 分類例[7] [7] Zenimoto et al. Speaker Identification of Quotes

    in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  24. 24 評価用データセット[7] 対象小説 ➢恋愛をテーマとした現代小説* 登場人物 ➢マリー (女性) : 1,178 発話文

    ➢キュロス (男性) : 1,030 発話文 ➢その他 : 1,785 発話文 発話文例 例文 発話者(性別) ……キュロス様は、今、どちらに……? マリー(female) おはよう、マリー。 キュロス(male) 分類対象 * https://ncode.syosetu.com/n1860fv/ [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  25. 25 性別分類モデルによる発話者分類[7] 女性⇛マリー 男性⇛キュロス 性別分類 モデル 俺の番だな ore no ban

    da na (It is my turn) 96.5% 3.5% 88.4%の分類精度 [7] Zenimoto et al. Speaker Identification of Quotes in Japanese Novels based on Gender Classification Model by BERT, 2022, PACLIC
  26. 今取り組んでいること

  27. 27 日本語End-to-End発話者分類 27 Poole was asleep, and Bowman was reading

    on the control deck, when Hal announced: “Er—Dave, I have a report for you.” “What’s up?” “We have another bad AE-35 unit. My fault predictor indicates failure within twenty-four hours.” BOWMAN POOLE BOWMAN HAL Direct Speech Identification Speaker Attribution Entity Linking Mention Extraction
  28. 28 口調に特化した文ベクトルの埋め込み

  29. 発話者分類の応用

  30. 30 ペルソナ対話システムの訓練 女子高生AI りんな 出典 https://www.rinna.jp/profile なりきりAI 出典 https://narikiri-qa.jp/ NTT

    CS研のjapanese-dialog-transformers 出典 https://github.com/nttcslab/japanese-dialog-transformers
  31. 31 ペルソナ対話システムの訓練 小説C 小説B 小説A 多様なキャラクタ・類似したキャラクタが無数に存在 多数の小説 キャラクタ 発話文 お嬢様(小説A)

    あら、ごきげんよう お嬢様(小説B) 元気ですわ! ・・・ ・・・ お嬢様対話システム 対話データ 発話者分類 様々なキャラクタの言動を 大規模に分析できる
  32. 32 小説の自動生成への応用 自動生成された小説の欠点[9] ⚫登場人物がバラバラ ⚫登場人物の情報に一貫性がない [9] Papalampidi et al. Towards

    Coherent and Consistent Use of Entities in Narrative Generation, 2022, arXiv
  33. 33 小説の自動生成への応用 自動生成された小説の欠点[9] ⚫登場人物がバラバラ ⚫登場人物の情報に一貫性がない [9] Papalampidi et al. Towards

    Coherent and Consistent Use of Entities in Narrative Generation, 2022, arXiv …目を合わせて逸らさない、というのはそれだけで真摯に見える。 内心でどう思っていても、少なくとも見た目は。 <ゼニス>「ルディ、もしかして、この本に書いてあるのを声に出 して読んじゃった?」 <ルーデウス>「ごめんなさい」 俺はこくりと頷き、謝罪を口にする。 悪いことをした時は、潔く謝ったほうがいい。… 発話者を明示的にして改善できないか? 発話者分類結果を挿入した文章* * https://ncode.syosetu.com/n9669bk/