論文紹介_Ruddit_Norms of Offensiveness for English Readdit Comments

ACL 2021 B4 凌志棟 2021.12.10

Overview • Redditコメントの攻撃性を評価するためのデータセット「Ruddit」を作成 ◦ 粒度が高い、実数値 (-1,1)で評価 ◦ 比較的アノテーションを利用（ Best-Worst Scaling）
• 信頼できるスコアを得られた • 作成したデータセットをもちいて攻撃性のスコアを予測する実験をした

Introduction • SNS上、攻撃的な発言やヘイトスピーチ (offensive and hateful speech)が蔓延（Statista, 2020b） ◦ 被害者の精神的な健康に悪影響を及ぼす可能性がある（Munro,
2011） • 攻撃的な発言の自動検出(Automated offensive language detection)、攻撃的発言を定義する必要がある ◦ 従来手法： ▪ カテゴリに分類： • racist, sexist, neither (Waseem and Dirk Hovy(2016)) • hate-speech, offensive but not hate-speech, neither offensive nor hate-speech (Davidson et al. (2017)) • abusive, hateful, normal, spam (Founta et al. (2018)) ◦ 問題点： ▪ カテゴリの内容が互いに重複していて、曖昧性が生じる • De-sensitization: アノテータが高度な攻撃的発言を連続に見ると、そのあとの低度な攻撃的発言を攻撃的ではないと判断する可能性がある ▪ 発言がどの程度攻撃的かは考慮していない ▪ キーワードベースのサンプリング手法が偽の関連性をキャプチャーする可能性が高い(sports-related expressions)

Related Work • 非攻撃的なコメントが普遍的のため、攻撃的コメントの濃度が高いように抽出するために、いくつかのサンプリング手法を採用 ◦ ヘイト関連用語のリストを用いて、 Twitterから攻撃的なツイートを抽出 (Davidson et
al(2017)) ▪ 問題点：topic bias & author bias　(Park et al. (2018), Wiegand et al. (2019), and Davidson et al. (2019) ) ◦ ツイートの感情分析　と　攻撃的用語の存在のチェック　同時に行う ▪ 有効　(Founta et al. (2018) b) • 本研究は特定のトピック、感情関連のキーワード、ランダムサンプリングの 3つの方法でデータを抽出 • Best-Worst Scaling(BWS or MaxDiff) • BWSを用いて、SNSのコメントの攻撃度スコアの計算する最初の研究 A C B D 👍 score(A)= Aがbestの回数ー Aがworstの回数 Aの出現回数 4-tuple

Data collection and sampling • Redditのsubredditからサンプリングして、subredditによって三つのカテゴリに分類 ◦ Topics(50%) ▪ AskReddit,
vaxxhappened, worldnews, worldpolitics.（いろいろな話題） ▪ TwoXChromosomes（女性視点） ▪ AskMen（男性視点） ◦ ChangeMyView（25%） ▪ 論争を起こしやすい話題 ◦ Random（25%） ▪ ランダムなsubredditsから抽出 • 808 Postsから 6000コメントを選択し、アノテーションを行った

• 感情が行動と関連している⇒感情状態を用いてアップサンプリング • 感情の主なディメンションーーV A D(Osgood et al., 1957; Russell,
1980, 2003) ◦ Valence: negative ~ positive ◦ Arousal: calm ~ excited ◦ Dominance: have no control ~ have full control ◦ 単語の感情を実数で評価（０－１） • アップサンプリングのため、low valence, high arousalの単語を含むコメントを抽出 ◦ low valence: valenceスコア < 0.25 ◦ high arousal: arousal スコア > 0.75 • 前サンプリングしたコメントに対して、三つのカテゴリを ◦ ⅓ がlowest valence scoresのコメント ◦ ⅓ がhighest arousal scoresのコメント ◦ ⅓ がrandomのコメントのようにした Data collection and sampling

Annotation • 「攻撃的」に対する認識が人それぞれ⇒Crowdsourcingを利用 ◦ Amazon Mechanical Turk (AMT) ▪ RedditはUSAで最も人気(50%
traffic from USA)⇒アノテーターは米国在住の人に限定 • Best-Worst scalingを用いたアノテーション ◦ 異なる4-tupleを2N個生成（Ｎがコメント数） ◦ 各コメントが異なる8個の4-tupleに出現 ◦ アノテータ６人 ◦ 各コメントに 6 x 8 = 48回判定 ◦ 　　　「一番攻撃的」の回数　ー　「一番攻撃的ではない」の回数出現回数（48） score＝

• 品質管理のために、事前に5％程度のデータに手動でアノテーション ◦ このような事例を「gold question」と呼ぶ • gold questionに対するアノテーションの精度が70％を下回る場合、そのアノテータを首にし、完成したアノテーションを破棄する •
アノテーションの結果： ◦ アノテータ：725人 ◦ アノテーション：95255件 Annotation

Annotation • アノテーションの品質を確認ーーSHR(split half reliability) ◦ 複数の項目を奇数番と偶数番の２群に分け、この２群の相関係数ｒを計算し、 Spearman-Brownの修正公式に代入し、信頼性係数を計算する

Data Analysis • スコアの分布 • アイデンティティ用語(identity terms)との関連性 • 感情demensionとの関連性 •
データソースとの関連性 • 卑語(swear words)の影響 • スコアの範囲

Data Analysis 1 2 3 4 5 • スコア分布 ◦
正規分布 ◦ 五つのBinに分割し、各部分のコメントを表示 (表2) ◦ 各Binに対してPMIが高い単語を出力(表3)

• アイデンティティ用語 ◦ 社会的少数者が出現するコメントが攻撃的であることが多いから ◦ Rudditにもgay, trans, male, female, black,
whiteなどの単語が攻撃性との関連性が相対的に高い ◦ アイデンティティ用語がモデルに対する影響を検証するため、 Rudditのコメント内のアイデンティティ用語を[group]というトークンと置換して新しいデータセットとして利用し、オリジナルの Rudditの性能と比較 ▪ 置換されたRudditは　identity-agnostic dataset　と呼ぶ Data Analysis

• 感情demensionとの関連性 ◦ 感情demensionの攻撃性スコアとの関連性を計算 ◦ Low valence & High
arousalが相関（表4） ◦ Low valence & High arousalとが攻撃的に偏る ◦ Randomが支持的に偏る Data Analysis

• コメントのデータソース（カテゴリ）の影響を検証 • Topicsが攻撃性に偏る ◦ worldnewsとworldpoliticsは論争的話題が多い（図９） Data Analysis

• 卑語(swear words)の影響 • スコアが低いコメントにも卑語がある ◦ 「Hell yes」「sure as hell
love it」「uncomfortable as shit」 • 卑語を含むコメントをすべて削除し、オリジナルのRudditと比較 ◦ no-swearing dataset　と呼ぶ Data Analysis

• 中央部分のコメントがモデルにとって難しいかもしれない • これを検証するため、スコアが（-0.5~0.5）のコメントだけを抽出して新しいデータセットとして使う ◦ reduced-range dataset　と呼ぶ Data Analysis

Model • BiLSTM ◦ GloVeのベクトルを使って、２層の BiLSTMに入力し文ベクトルを獲得 ◦ 線形層によって-1～1のスコアを計算 ◦ 目的関数：MSE
Loss • BERT ◦ BERT-baseをファインチューニングし、線形層を加えることによってスコアを計算 ◦ 目的関数：MSE Loss • HateBERT ◦ 攻撃的発言やヘイトスピーチをしたことで BanされたRedditユーザのコメントを含むデータセットで訓練されたBERT ◦ 汎用型BERTと同じようにファインチューニング

Results and Analysis

Conclusion • 攻撃性の度合を示すアノテーションをした初のデータセットを作成し公開 • Best-Worst Scalingを用いて、従来の評価尺度の限界を解決 • Low valence &
High arousalのコメントは攻撃性スコアと相関がある • 攻撃性スコアの特定の範囲にアイデンティティ用語を関連付けることは、モデルにとって有益ではない • Future work ◦ 会話の文脈を利用する ◦ 攻撃性と感情の相互作用

論文紹介_Ruddit_Norms of Offensiveness for English ...

論文紹介_Ruddit_Norms of Offensiveness for English Readdit Comments

ShitoRyo

More Decks by ShitoRyo

Other Decks in Research

Featured

Transcript

ACL 2021 B4 凌志棟 2021.12.10

Overview • Redditコメントの攻撃性を評価するためのデータセット「Ruddit」を作成 ◦ 粒度が高い、実数値 (-1,1)で評価 ◦ 比較的アノテーションを利用（ Best-Worst Scaling）

Introduction • SNS上、攻撃的な発言やヘイトスピーチ (offensive and hateful speech)が蔓延（Statista, 2020b） ◦ 被害者の精神的な健康に悪影響を及ぼす可能性がある（Munro,

Data collection and sampling • Redditのsubredditからサンプリングして、subredditによって三つのカテゴリに分類 ◦ Topics(50%) ▪ AskReddit,

• 感情が行動と関連している⇒感情状態を用いてアップサンプリング • 感情の主なディメンションーーV A D(Osgood et al., 1957; Russell,

Annotation • 「攻撃的」に対する認識が人それぞれ⇒Crowdsourcingを利用 ◦ Amazon Mechanical Turk (AMT) ▪ RedditはUSAで最も人気(50%

Annotation • アノテーションの品質を確認ーーSHR(split half reliability) ◦ 複数の項目を奇数番と偶数番の２群に分け、この２群の相関係数ｒを計算し、 Spearman-Brownの修正公式に代入し、信頼性係数を計算する

Data Analysis • スコアの分布 • アイデンティティ用語(identity terms)との関連性 • 感情demensionとの関連性 •

Data Analysis 1 2 3 4 5 • スコア分布 ◦

• アイデンティティ用語 ◦ 社会的少数者が出現するコメントが攻撃的であることが多いから ◦ Rudditにもgay, trans, male, female, black,

• 感情demensionとの関連性 ◦ 感情demensionの攻撃性スコアとの関連性を計算 ◦ Low valence & High

• コメントのデータソース（カテゴリ）の影響を検証 • Topicsが攻撃性に偏る ◦ worldnewsとworldpoliticsは論争的話題が多い（図９） Data Analysis

• 卑語(swear words)の影響 • スコアが低いコメントにも卑語がある ◦ 「Hell yes」「sure as hell

• 中央部分のコメントがモデルにとって難しいかもしれない • これを検証するため、スコアが（-0.5~0.5）のコメントだけを抽出して新しいデータセットとして使う ◦ reduced-range dataset　と呼ぶ Data Analysis

Model • BiLSTM ◦ GloVeのベクトルを使って、２層の BiLSTMに入力し文ベクトルを獲得 ◦ 線形層によって-1～1のスコアを計算 ◦ 目的関数：MSE

Results and Analysis

Results and Analysis

Conclusion • 攻撃性の度合を示すアノテーションをした初のデータセットを作成し公開 • Best-Worst Scalingを用いて、従来の評価尺度の限界を解決 • Low valence &