Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介_I Beg to Differ A study of constructive di...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ShitoRyo
August 05, 2021
Research
64
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
論文紹介_I Beg to Differ A study of constructive disagreement in online conversations
ShitoRyo
August 05, 2021
More Decks by ShitoRyo
See All by ShitoRyo
論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
lexusd
0
29
Tutorial of Coding Environment for Research by Docker
lexusd
0
44
Computational Approaches for Diachronic Semantic Change Detection_2024_8
lexusd
0
58
論文紹介_Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adptation
lexusd
0
150
論文紹介_Are Embedded Potatoes Still Vegetables_ On the Limitation of WordNet Embeddings for Lexical Semantics
lexusd
0
160
論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis
lexusd
0
130
論文紹介_Twitter Topic Classification
lexusd
0
120
論文紹介_What is Done is Done_ an Incremental Approach to Semantic Shift Detection
lexusd
0
130
Demoの作り方_研究会チュートリアル
lexusd
0
180
Other Decks in Research
See All in Research
Using our influence and power for patient safety
helenbevan
0
360
AIで最適化を解けるか?
mickey_kubo
0
110
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.1k
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
270
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
460
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
990
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
200
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
270
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
310
LOSの検討(λ Kansai 2026 in Winter)
motopu
0
140
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
610
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
440
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
A better future with KSS
kneath
240
18k
Music & Morning Musume
bryan
47
7.2k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
BBQ
matthewcrist
89
10k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1.1k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Transcript
EACL/NAACL 読み会:2021/08/05 紹介者:B4 凌 志棟 1
概要 • どんな論争 (disagreement) が建設的 (constructive) かを調査 ◦ 「WikiDisputes」というデータセットを作成 ▪
wikipediaの記事のdisputeに関する情報を集めた ◦ 論争が建設的かどうかを予測するタスクを定義 ▪ あるDisputeは最終的にモデレーターが介入して調停されたかどうか ◦ 2種類のモデルを用意 ▪ 特徴量ベースモデル • politeness, collaboration, toxicity, sentiment ▪ ニューラルモデル • Glove , LSTM , HAN(Hierarchical Attention Network) • ニューラルモデルの性能は特徴量ベースモデルを上回った。 ◦ 会話の構造と語順を考慮したモデルが一番性能が高い 2
Introduction • 論争のマイナス面: ◦ Trolling , Hate speech , Harassment
, Personal Attack • 有益な論争に関する研究はDebateに着目 ◦ 利点:勝敗や立場が明確 ◦ 欠点:日常的な会話ではない ▪ 時間や言葉遣いなどの制限、目的は意見の一致ではなく聴衆を説得すること • 本研究は制限を付けられていない建設的な論争に興味を持った ◦ Wikipediaの記事に関するdisputesに着目 3
Disputes on Wikipedia • ある記事に関する中立性や精度の議論があれば、 その記事にDispute tagが付けられる • 記事に関する議論はTalk Pageで行われる
• 記事の編集履歴はEdit Summaryで記録される • 議論の参加者の意見が一致にならない場合、調停 (mediation)を求めることができる ⇒Escalation(深刻化、激化)になる 4
WikiDisputes • 3つの部分:Talk Pageの論争、Edit summaries、Escalation tags ◦ Wikipedia revision history
dumpでdisputesを探し、それに関する conversationsはWikiConvで探 す(7425 disputes, 99907 utterances) ▪ conversationsに対してフィルタリング • utterance数:5以上50以下 トークン総数: 250以上 参加者:2名以上 ◦ Edit Summariesを利用する理由: ▪ 会話の内容を理解するに大切 ◦ Dispute Resolution Noticeboard archivesから調停されたケースを探す ▪ 2520ケース:成功 237ケース 失敗 149ケース General closures 2134ケース(放棄) ▪ 成功ケースと失敗ケース合わせて 386ケースをEscalation tag ▪ Escalation tagを建設的かどうかを判断する代理 tagとして使用 5
特徴量ベースモデル • 4つの特徴量: ◦ Politeness: 挨拶、謝罪、Pleaseなどの用語で評価 ◦ Collaboration: アイデアの採用、代名詞の使用、言語スタイルの調整などで捉える ◦
Toxicity: Perspective API (tool) で評価 ◦ Sentiment: 積極的または消極的な感情に関連する単語数で評価 • 各特徴量について、会話全体の平均値と会話全体の特徴量を直線でフィットさせた ときの勾配を計算 ◦ 平均値だけで会話中での言葉遣いの変化は捉えられない • ロジスティック回帰を用いて、特徴量と論争の結果との間の線形関係を推測する 6
ニューラルモデル • Averaged embeddings ◦ Gloveで会話の単語ベクトルの平均を取り、全連結層で分類 ◦ 会話の構造も語順もなし • LSTM
◦ Gloveでベクトルを獲得し、双方向 LSTMで処理 ◦ 会話の構造はないが、語順は考慮した • HAN (Hierarchical Attention Network) ◦ Gloveでベクトルを獲得、双方向 LSTMで文脈を考慮した単語ベクトルを計算、 Attention機構で utterance のベクトルを計算し、同じ Attention機構でutteranceのベクトルを利用しconversationの ベクトルを計算する ◦ 語順も会話の構造も考慮した 7
実験設定 • タスク:DisputeがEscalated 或いは Not escalatedという2 値分類 • 実験で使うデータセットの発言数や発言の長さの影響を排 除するため、Escalated
& Not escalatedのサンプルの発言 数と長さ、参加者数をできるだけ一致させた • データセットがimbalanceのため、評価基準はPR-AUCを使 用する。また、F1値も使用する • distribution-aware random class predictorをランダムべー ズライン 8
結果 • ニューラルモデルは特徴量ベースモデルより性能が 高い • 特徴量ベースモデルにおいては、gradientを考慮し たPoliteness & Collaborationの組み合わせが一番 性能が良い
• ニューラルモデルにおいては、Edit Summariesを考 慮したHANが一番性能が良い 9
分析 • 挨拶の平均値(Greetings, x ̅ )は建設的でないと関連するが、挨拶 の増加(Greetings, ∇)が建設的と関連する ◦ 会話の最初で参加者が堅苦しいからちゃんと挨拶をしても
最終的に建設的な議論になるとは限らない ◦ 会話の後半からの挨拶は新しい参加者が入ったか、返事す るまでの時間が長くなったかということを示す(返事するまで の時間は建設的と関連する) • 第2人称の使用は建設的ではないに関連する ◦ Youの使用は相手を責めるように見えるから議論では避け るべきだという心理学の研究の結論があった 10
分析 • LSTMは語順を考慮したから、Average Embeddingより 2%性能を向上させた。HANは会話構造を考慮しただけで LSTMより11%性能を向上させた ⇒会話構造が語順より重要である • Edit summariesを入れたHANが一番良い性能を示したこ
とは、記事の編集に関する情報が会話の理解に必要だと いうことを裏付けた 11
分析 12
分析 13
結論 • escalationを論争が建設的かどうかの代理ラベルとして使用するという方法を提案 • 会話構造がモデルの精度を上げる • Edit summariesはWikipediaのTalk pageに関する研究に対して重要 14