Slide 1

Slide 1 text

EACL/NAACL 読み会:2021/08/05 紹介者:B4 凌 志棟 1

Slide 2

Slide 2 text

概要 ● どんな論争 (disagreement) が建設的 (constructive) かを調査 ○ 「WikiDisputes」というデータセットを作成 ■ wikipediaの記事のdisputeに関する情報を集めた ○ 論争が建設的かどうかを予測するタスクを定義 ■ あるDisputeは最終的にモデレーターが介入して調停されたかどうか ○ 2種類のモデルを用意 ■ 特徴量ベースモデル ● politeness, collaboration, toxicity, sentiment ■ ニューラルモデル ● Glove , LSTM , HAN(Hierarchical Attention Network) ● ニューラルモデルの性能は特徴量ベースモデルを上回った。 ○ 会話の構造と語順を考慮したモデルが一番性能が高い 2

Slide 3

Slide 3 text

Introduction ● 論争のマイナス面: ○ Trolling , Hate speech , Harassment , Personal Attack ● 有益な論争に関する研究はDebateに着目 ○ 利点:勝敗や立場が明確 ○ 欠点:日常的な会話ではない ■ 時間や言葉遣いなどの制限、目的は意見の一致ではなく聴衆を説得すること ● 本研究は制限を付けられていない建設的な論争に興味を持った ○ Wikipediaの記事に関するdisputesに着目 3

Slide 4

Slide 4 text

Disputes on Wikipedia ● ある記事に関する中立性や精度の議論があれば、 その記事にDispute tagが付けられる ● 記事に関する議論はTalk Pageで行われる ● 記事の編集履歴はEdit Summaryで記録される ● 議論の参加者の意見が一致にならない場合、調停 (mediation)を求めることができる ⇒Escalation(深刻化、激化)になる 4

Slide 5

Slide 5 text

WikiDisputes ● 3つの部分:Talk Pageの論争、Edit summaries、Escalation tags ○ Wikipedia revision history dumpでdisputesを探し、それに関する conversationsはWikiConvで探 す(7425 disputes, 99907 utterances) ■ conversationsに対してフィルタリング ● utterance数:5以上50以下 トークン総数: 250以上 参加者:2名以上 ○ Edit Summariesを利用する理由: ■ 会話の内容を理解するに大切 ○ Dispute Resolution Noticeboard archivesから調停されたケースを探す ■ 2520ケース:成功 237ケース 失敗 149ケース General closures 2134ケース(放棄) ■ 成功ケースと失敗ケース合わせて 386ケースをEscalation tag ■ Escalation tagを建設的かどうかを判断する代理 tagとして使用 5

Slide 6

Slide 6 text

特徴量ベースモデル ● 4つの特徴量: ○ Politeness: 挨拶、謝罪、Pleaseなどの用語で評価 ○ Collaboration: アイデアの採用、代名詞の使用、言語スタイルの調整などで捉える ○ Toxicity: Perspective API (tool) で評価 ○ Sentiment: 積極的または消極的な感情に関連する単語数で評価 ● 各特徴量について、会話全体の平均値と会話全体の特徴量を直線でフィットさせた ときの勾配を計算 ○ 平均値だけで会話中での言葉遣いの変化は捉えられない ● ロジスティック回帰を用いて、特徴量と論争の結果との間の線形関係を推測する 6

Slide 7

Slide 7 text

ニューラルモデル ● Averaged embeddings ○ Gloveで会話の単語ベクトルの平均を取り、全連結層で分類 ○ 会話の構造も語順もなし ● LSTM ○ Gloveでベクトルを獲得し、双方向 LSTMで処理 ○ 会話の構造はないが、語順は考慮した ● HAN (Hierarchical Attention Network) ○ Gloveでベクトルを獲得、双方向 LSTMで文脈を考慮した単語ベクトルを計算、 Attention機構で utterance のベクトルを計算し、同じ Attention機構でutteranceのベクトルを利用しconversationの ベクトルを計算する ○ 語順も会話の構造も考慮した 7

Slide 8

Slide 8 text

実験設定 ● タスク:DisputeがEscalated 或いは Not escalatedという2 値分類 ● 実験で使うデータセットの発言数や発言の長さの影響を排 除するため、Escalated & Not escalatedのサンプルの発言 数と長さ、参加者数をできるだけ一致させた ● データセットがimbalanceのため、評価基準はPR-AUCを使 用する。また、F1値も使用する ● distribution-aware random class predictorをランダムべー ズライン 8

Slide 9

Slide 9 text

結果 ● ニューラルモデルは特徴量ベースモデルより性能が 高い ● 特徴量ベースモデルにおいては、gradientを考慮し たPoliteness & Collaborationの組み合わせが一番 性能が良い ● ニューラルモデルにおいては、Edit Summariesを考 慮したHANが一番性能が良い 9

Slide 10

Slide 10 text

分析 ● 挨拶の平均値(Greetings, x ̅ )は建設的でないと関連するが、挨拶 の増加(Greetings, ∇)が建設的と関連する ○ 会話の最初で参加者が堅苦しいからちゃんと挨拶をしても 最終的に建設的な議論になるとは限らない ○ 会話の後半からの挨拶は新しい参加者が入ったか、返事す るまでの時間が長くなったかということを示す(返事するまで の時間は建設的と関連する) ● 第2人称の使用は建設的ではないに関連する ○ Youの使用は相手を責めるように見えるから議論では避け るべきだという心理学の研究の結論があった 10

Slide 11

Slide 11 text

分析 ● LSTMは語順を考慮したから、Average Embeddingより 2%性能を向上させた。HANは会話構造を考慮しただけで LSTMより11%性能を向上させた ⇒会話構造が語順より重要である ● Edit summariesを入れたHANが一番良い性能を示したこ とは、記事の編集に関する情報が会話の理解に必要だと いうことを裏付けた 11

Slide 12

Slide 12 text

分析 12

Slide 13

Slide 13 text

分析 13

Slide 14

Slide 14 text

結論 ● escalationを論争が建設的かどうかの代理ラベルとして使用するという方法を提案 ● 会話構造がモデルの精度を上げる ● Edit summariesはWikipediaのTalk pageに関する研究に対して重要 14