Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[IR Reading 2022秋 論文紹介] Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents (CIKM'22) / IR Reading 2022 Autumn

Shunsuke KITADA
November 11, 2022

[IR Reading 2022秋 論文紹介] Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents (CIKM'22) / IR Reading 2022 Autumn

IR Reading 2022秋(オンライン) 開催案内 - ACM SIGIR 東京支部:
- https://sigir.jp/post/2022-11-12-irreading_2022fall/

Nakagawa et al. "Expressions Causing Differences
in Emotion Recognition in Social Networking Service Documents"
- DOI: https://dl.acm.org/doi/10.1145/3511808.3557599
- Preprint: http://arxiv.org/abs/2208.14244

Shunsuke KITADA

November 11, 2022
Tweet

More Decks by Shunsuke KITADA

Other Decks in Research

Transcript

  1. CIKM2022 short paper Expressions Causing Differences in Emotion Recognition in

    Social Networking Service Documents Tsubasa Nakagawa, Shunsuke Kitada, Hitoshi Iyatomi Graduate School of Science and Engineering, Hosei University Presented by 北田 俊輔 理工学研究科 応用情報工学専攻 博士後期課程 3 年 彌冨研究室 所属 IR Reading 2022 秋, Nov. 12nd, 2022
  2. 研究分野: 人工知能・深層学習 • 🤖 自然言語処理 (Natural Language Processing; NLP) ◦

    文字形状を考慮した自然言語処理 ▪ 日本語の漢字に着目 [Kitada+ AIPRW’18, Aoki+ AACL SRW’20] ▪ アラビア語のアラビア文字に着目 [Daif+ ACL SRW’20] ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Kitada+ Springer APIN’22] ◦ 書き手と読み手の感情認識の差の分析 [Nakagawa+ CIKM’22] • 🏥 医用画像処理 (コンピュータビジョン) ◦ 皮膚画像を用いた画像認識による悪性黒色腫の自動診断システム [Kitada+ CoRR’18] • 📝 計算機広告 (マルチモーダル) ◦ 配信効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] @Gunosy (データサイエンスの最難関国際会議) ◦ 配信効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.‘22] @Gunosy ◦ マルチモーダル情報を集合とみなして効果的に扱うモデル [Kitada+ IEEE Access’22] @CyberAgent 自己紹介 北田 俊輔 Shunsuke KITADA ホームページ: shunk031.me 2 法政大 理工学研究科 D3 (彌冨研) 日本学術振興会 特別研究員 DC2 本日の資料 https://speakerdeck.com/ shunk031/ir-reading-2022 -autumn
  3. 4 神嶌先生のAI系学会マップより https://www.kamishima.net/archive/MLDMAImap.pdf CIKM2022 in Atlanta について • AI /

    Data mining 分野のメジャーカンファレンス ◦ KDD を中心に ICDM, WSDM と同様の分野をカバー • 44ヶ国 計 1,024 人が参加 ◦ 󰏦 からの参加者は全体の... 2% 😰 • 4つの track とその採択率 ◦ Full (23.23%; 274/1175) ◦ Short & resource (29.04%; 196/675) ◦ Applied research (29.64%; 91/307) ◦ Demo (57%; 57/100) 産業応用がされているレベルの 高クオリティ&ユニークな設定の発表が多数
  4. 本論文の貢献 • 書き手と読み手の感情認識の差を引き起こす表現の検出 ◦ 両者の感情値が含まれるデータセットを分析すると 特に「怒り😡」感情に認識差があることを確認 ➜ 「隠れ怒り表現😡」として定義し、検出を試みた ◦ 機械学習の文脈でいうと、そもそも

    2 者間の感情を 分析・考慮した研究が非常に少ない • 書き手が無意識に使っている隠れた感情表現の発見 ◦ 隠れ怒り表現認識くん 🤖 を構築し、隠れ怒り文を検出 ◦ 対象の単語自体に直接怒りを表す意味は ないが、それらの単語が含まれている文を 書いた本人は怒り 😡 を感じている (読み手はその怒りを読み取れていない) 5 隠れ怒り表現 認識くん
  5. 背景 | 書き手と読み手の感情認識の差 • オンラインコミュニケーションにおける 書き手と読み手の感情認識がずれてしまう問題 ◦ SNS を中心にオンラインコミュニケーションの増加 ◦

    書き手の感情と読み手の感情に差が出てしまうことで 意思疎通が円滑に進まない可能性あり [Yang+ WI’09] ➜ 感情の差が生まれてしまうような表現について 事前に警告や修正の提案を出せると◎ • 感情認識の違いを引き起こす表現の検出 ◦ 従来は読み手のみに焦点を当てたデータ 分析が多数を占めている [Aman+ TSD’07, Mohammad+ LREC’18, etc] ◦ 感情分析において書き手と読み手の 感情認識の差は無視できない ➜ 教師ラベルの妥当性には疑問が残る 6 Reader😄 Writer😡
  6. 関連研究 | 主観と客観の感情強度を付与した日本語データセット WRIME: A New Dataset for Emotional Intensity

    Estimation with Subjective and Objective Annotation [Kajiwara+ NAACL’21] • SNS 文書 (Twitter ツイート ) に 書き手 と 読み手 3人 によって注釈された 4 段階の感情強度データセット ◦ Plutchikの基本 8 感情 [Plutchik+ Theories of Emotion’80] を元に、 クラウドソーシングサービス上で雇用された書き手 80 人 から収集されたツイートに注釈 43,200 件が付与 ▪ 喜び😄,悲しみ😭,期待🤩,驚き😳,怒り😡,恐れ😨,嫌悪😖,信頼🥰 7 Text 📝 󰏦 早寝するつもりが飲み物がなくなりコンビニへ。 ん、今日、風が涼しいな。 Joy 😄 Writer: 1 Reader 1: 0 Reader 2: 0 Reader 3: 0 喜び 😄 の感情ラベルが付与されたツイート例 書き手は微妙に 喜んでいる 読み手は書き手の 微妙な喜びを認識 できていない様子
  7. WRIME データセットを用いた 書き手読み手感情の事前分析 8 • 感情強度が2以上である感情 ラベルの共起行列 (図は [中川+ ANLP’21]

    より) ◦ 悲しみ😭 ▪ 書き手: 8,721 ➜ 読み手: 3,584 ◦ 怒り😡 ▪ 書き手: 3,040 ➜ 読み手: 543 ➜ 読者は作者の😡感情を過小評価しがち 本研究では: データセット中の 書き手と読み手の間で感情認識に 大きな差がある「怒り」に着目 書き手の怒りの強さが読み手の強さを 2以上上回った文章を「隠れ怒り文」と定義
  8. WRIME データセットを使用する際の難しさ 対象のツイートだけ見ても感情分析が困難 • WRIME データセットに含まれているツイートには 以下のような文章が少なからず含まれている ◦ 書き手は怒っているが、読み手からは認識できていない 9

    Text 📝 󰏦 雨の日1日1回は見るよねこれ Anger 😡 Writer: 3 Reader 1: 0 Reader 2: 0 Reader 3: 1 Text 📝 󰏦 アッヒョヒョ!ファ????????!!!!!!!!!!!! みたいな鳴き声しとる Anger 😡 Writer: 3 Reader 1: 0 Reader 2: 0 Reader 3: 0 感情分析が極めて困難だと考えられる文例 これらのツイートから深層学習を用いて予測するのが難しいというのは容易に想像できると思います 書き手は 怒っている 読み手は書き手の 怒りを正しく 認識できていない
  9. 提案手法 | 隠れ怒り表現認識くん😡🤖 隠れ怒り表現を検出する非常にシンプルな2段階の枠組み • 1st stage: 隠れ怒り文 (sentence-based) の予測

    ◦ BERT ベースの検出器の構築: 定義した隠れ怒り文に対して 事前学習済み東北大 BERT をfine-tuning して予測できるように • 2nd stage: 隠れ怒り表現 (word-based) の検出 ◦ 検出器で得られた文章を解析: 隠れ怒り文とそれ以外の文の 出現頻度の差が大きい上位 10 単語を抽出 10 BERT-based detector 😡 隠れ怒り文 Predicted: Yes! 🤖 隠れ怒り表現 Detected: “ない”
  10. 予測結果 | ROC曲線を用いた隠れ怒り文検出の性能評価 • AUC = 0.77 で一定の予測性能を達成 ◦ 本研究で学習させた

    BERT ベースのモデルは 隠れ怒りの文の検出器として一定の有効性があった ➜ 予測が非常に難しいツイートを含んでいても効果あり ◦ この結果から我々は今回の検出器を用いて 隠れ怒り表現の検出を試みた 11 BERT-based detector
  11. 予測結果 | 検出された隠れ怒り表現の上位10件 • 隠れ怒りラベル情報のみ(a) と提案法(b) による検出結果 ◦ 隠れ怒り文の頻度の違いが(a)よりも明確に出ており、 隠れ怒り表現としての度合いの大きさを示している

    ◦ 不適切な文章を事前に削除することで、(a) では検出 できなかった表現も検出することが可能になっている 12 (b) 提案法での検出結果 (a) 隠れ怒りラベル情報のみでの検出結果 隠れ怒り文とそれ以外の文の出現頻度の差
  12. • 検出された単語を含む隠れ怒りの文の例 ◦ 単語だけに着目しても、直接的に怒りを表しているとは 限らない表現が多い(”隠れ怒り表現”と呼んで差し支えなさそうな表現ばかり) 定性評価 | 検出された単語を含む隠れ怒りの文の例 13 Text

    📝 草取りと朝マラソンと持久走大会だけはほんと解せなかった。 Anger 😡 Writer: 3 Reader 1: 0 Reader 2: 0 Reader 3: 0 Text 📝 マックでハンバーガーを注文したら店員に「ハンバーガーは無い です」と言われたので、そんなわけ無いでしょと思いながらも チーズバーガーを注文した Anger 😡 Writer: 2 Reader 1: 0 Reader 2: 0 Reader 3: 0 Text 📝 私のバッシュが売り切れになったんだってさ...。 だから、 勝手に私の分がキャンセルになりやがった Anger 😡 Writer: 3 Reader 1: 1 Reader 2: 2 Reader 3: 0
  13. 結論と今後の展望 • 書き手と読み手の間の感情認識の違いを引き起こす 可能性のある表現を検出するための枠組みを提案 ◦ 不適切な文を事前に削除することで、ラベル情報だけ では検出できない表現を検出することが可能 • この研究の結果を共有することは、最終的には 相互の誤解の頻度を減らすことを期待

    ◦ オンライン上のやり取りが多数を占めるように なった現代において円滑なコミュニケーションを支援 • 書き手の直近のツイートを使った分析 ◦ [WIP] 対象のツイートのみでは感情値を予測するのは 難しいものが多い ➜ 対象ツイートの前後も使用して予測 14
  14. 15 おまけ: 本研究に対するレビュアーの反応 • 書き手と読み手の感情の差に着目した設定が評価された ◦ 特に昨今のオンライン上の交流が増えていることを受け 感情差がコミュニケーションに影響を与えることに強く 同意していただけた(3 人のレビュワーが共通して好意的)

    • 各レビュアーのスコアとコメントの概要 ◦ R1 (WR), R2 (WA), R3 (WA) ➜ Accept ▪ WR があったが説明の書き方を軽く指摘されているだけで 今回の研究の重要な点を指摘されている感じではなかった ◦ 今回は怒りにフォーカスしてるけど、他の感情はどう? ▪ 既存のデータを分析したところ感情差が大きかった怒り 感情に着目; 感情差がある程度大きくないと難しいかも? ◦ CIKM のスコープにフィットしないのでは? ▪ 他の学会に投稿することを勧められましたが結果的にOK
  15. 謝辞と各種リンク • 謝辞 ◦ 本スライドの原型は今回紹介した論文の 第一著者である中川翼さん(法政大)のものです ◦ 本研究は JSPS 科研費

    21J14143 の助成を受けました • 各種リンク ◦ 論文 (英語): dl.acm.org/doi/10.1145/3511808.3557599 ◦ 論文 (日本語): www.anlp.jp/proceedings/ annual_meeting/2022/pdf_dir/PT4-14.pdf ◦ プレプリント: arxiv.org/abs/2208.14244 ◦ ポスター: shunk031.me/publication/ nakagawa2022expressions/poster.pdf 16