論文紹介_I Beg to Differ A study of constructive disagreement in online conversations

EACL/NAACL 読み会：2021/08/05 紹介者：B4 凌　志棟 1

概要 • どんな論争 (disagreement) が建設的 (constructive) かを調査 ◦ 「WikiDisputes」というデータセットを作成 ▪
wikipediaの記事のdisputeに関する情報を集めた ◦ 論争が建設的かどうかを予測するタスクを定義 ▪ あるDisputeは最終的にモデレーターが介入して調停されたかどうか ◦ 2種類のモデルを用意 ▪ 特徴量ベースモデル • politeness, collaboration, toxicity, sentiment ▪ ニューラルモデル • Glove , LSTM , HAN(Hierarchical Attention Network) • ニューラルモデルの性能は特徴量ベースモデルを上回った。 ◦ 会話の構造と語順を考慮したモデルが一番性能が高い 2

Introduction • 論争のマイナス面： ◦ Trolling , Hate speech , Harassment
, Personal Attack • 有益な論争に関する研究はDebateに着目 ◦ 利点：勝敗や立場が明確 ◦ 欠点：日常的な会話ではない ▪ 時間や言葉遣いなどの制限、目的は意見の一致ではなく聴衆を説得すること • 本研究は制限を付けられていない建設的な論争に興味を持った ◦ Wikipediaの記事に関するdisputesに着目 3

Disputes on Wikipedia • ある記事に関する中立性や精度の議論があれば、その記事にDispute tagが付けられる • 記事に関する議論はTalk Pageで行われる
• 記事の編集履歴はEdit Summaryで記録される • 議論の参加者の意見が一致にならない場合、調停 (mediation)を求めることができる ⇒Escalation（深刻化、激化）になる 4

WikiDisputes • 3つの部分：Talk Pageの論争、Edit summaries、Escalation tags ◦ Wikipedia revision history
dumpでdisputesを探し、それに関する conversationsはWikiConvで探す（7425 disputes, 99907 utterances） ▪ conversationsに対してフィルタリング • utterance数：5以上50以下　トークン総数： 250以上　参加者：２名以上 ◦ Edit Summariesを利用する理由： ▪ 会話の内容を理解するに大切 ◦ Dispute Resolution Noticeboard archivesから調停されたケースを探す ▪ 2520ケース：成功 237ケース　失敗 149ケース　General closures 2134ケース（放棄） ▪ 成功ケースと失敗ケース合わせて 386ケースをEscalation tag ▪ Escalation tagを建設的かどうかを判断する代理 tagとして使用 5

特徴量ベースモデル • ４つの特徴量： ◦ Politeness: 挨拶、謝罪、Pleaseなどの用語で評価 ◦ Collaboration: アイデアの採用、代名詞の使用、言語スタイルの調整などで捉える ◦
Toxicity: Perspective API (tool) で評価 ◦ Sentiment: 積極的または消極的な感情に関連する単語数で評価 • 各特徴量について、会話全体の平均値と会話全体の特徴量を直線でフィットさせたときの勾配を計算 ◦ 平均値だけで会話中での言葉遣いの変化は捉えられない • ロジスティック回帰を用いて、特徴量と論争の結果との間の線形関係を推測する 6

ニューラルモデル • Averaged embeddings ◦ Gloveで会話の単語ベクトルの平均を取り、全連結層で分類 ◦ 会話の構造も語順もなし • LSTM
◦ Gloveでベクトルを獲得し、双方向 LSTMで処理 ◦ 会話の構造はないが、語順は考慮した • HAN (Hierarchical Attention Network) ◦ Gloveでベクトルを獲得、双方向 LSTMで文脈を考慮した単語ベクトルを計算、 Attention機構で utterance のベクトルを計算し、同じ Attention機構でutteranceのベクトルを利用しconversationのベクトルを計算する ◦ 語順も会話の構造も考慮した 7

実験設定 • タスク：DisputeがEscalated 或いは Not escalatedという２値分類 • 実験で使うデータセットの発言数や発言の長さの影響を排除するため、Escalated
& Not escalatedのサンプルの発言数と長さ、参加者数をできるだけ一致させた • データセットがimbalanceのため、評価基準はPR-AUCを使用する。また、F1値も使用する • distribution-aware random class predictorをランダムべーズライン 8

結果 • ニューラルモデルは特徴量ベースモデルより性能が高い • 特徴量ベースモデルにおいては、gradientを考慮したPoliteness & Collaborationの組み合わせが一番性能が良い
• ニューラルモデルにおいては、Edit Summariesを考慮したHANが一番性能が良い 9

分析 • 挨拶の平均値(Greetings, x ̅ )は建設的でないと関連するが、挨拶の増加(Greetings, ∇)が建設的と関連する ◦ 会話の最初で参加者が堅苦しいからちゃんと挨拶をしても
最終的に建設的な議論になるとは限らない ◦ 会話の後半からの挨拶は新しい参加者が入ったか、返事するまでの時間が長くなったかということを示す（返事するまでの時間は建設的と関連する） • 第２人称の使用は建設的ではないに関連する ◦ Youの使用は相手を責めるように見えるから議論では避けるべきだという心理学の研究の結論があった 10

分析 • LSTMは語順を考慮したから、Average Embeddingより 2%性能を向上させた。HANは会話構造を考慮しただけで LSTMより11％性能を向上させた ⇒会話構造が語順より重要である • Edit summariesを入れたHANが一番良い性能を示したこ
とは、記事の編集に関する情報が会話の理解に必要だということを裏付けた 11

分析 12

分析 13

結論 • escalationを論争が建設的かどうかの代理ラベルとして使用するという方法を提案 • 会話構造がモデルの精度を上げる • Edit summariesはWikipediaのTalk pageに関する研究に対して重要 14

論文紹介_I Beg to Differ A study of constructive di...

論文紹介_I Beg to Differ A study of constructive disagreement in online conversations

ShitoRyo

More Decks by ShitoRyo

Other Decks in Research

Featured

Transcript

EACL/NAACL 読み会：2021/08/05 紹介者：B4 凌　志棟 1

概要 • どんな論争 (disagreement) が建設的 (constructive) かを調査 ◦ 「WikiDisputes」というデータセットを作成 ▪

Introduction • 論争のマイナス面： ◦ Trolling , Hate speech , Harassment

Disputes on Wikipedia • ある記事に関する中立性や精度の議論があれば、その記事にDispute tagが付けられる • 記事に関する議論はTalk Pageで行われる

WikiDisputes • 3つの部分：Talk Pageの論争、Edit summaries、Escalation tags ◦ Wikipedia revision history

特徴量ベースモデル • ４つの特徴量： ◦ Politeness: 挨拶、謝罪、Pleaseなどの用語で評価 ◦ Collaboration: アイデアの採用、代名詞の使用、言語スタイルの調整などで捉える ◦

ニューラルモデル • Averaged embeddings ◦ Gloveで会話の単語ベクトルの平均を取り、全連結層で分類 ◦ 会話の構造も語順もなし • LSTM

実験設定 • タスク：DisputeがEscalated 或いは Not escalatedという２値分類 • 実験で使うデータセットの発言数や発言の長さの影響を排除するため、Escalated

結果 • ニューラルモデルは特徴量ベースモデルより性能が高い • 特徴量ベースモデルにおいては、gradientを考慮したPoliteness & Collaborationの組み合わせが一番性能が良い

分析 • 挨拶の平均値(Greetings, x ̅ )は建設的でないと関連するが、挨拶の増加(Greetings, ∇)が建設的と関連する ◦ 会話の最初で参加者が堅苦しいからちゃんと挨拶をしても

分析 • LSTMは語順を考慮したから、Average Embeddingより 2%性能を向上させた。HANは会話構造を考慮しただけで LSTMより11％性能を向上させた ⇒会話構造が語順より重要である • Edit summariesを入れたHANが一番良い性能を示したこ

分析 12

分析 13

結論 • escalationを論争が建設的かどうかの代理ラベルとして使用するという方法を提案 • 会話構造がモデルの精度を上げる • Edit summariesはWikipediaのTalk pageに関する研究に対して重要 14