Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Ruddit_Norms of Offensiveness for English ...

Lexuss-D
December 10, 2021

論文紹介_Ruddit_Norms of Offensiveness for English Readdit Comments

Lexuss-D

December 10, 2021
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. Introduction • SNS上、攻撃的な発言やヘイトスピーチ (offensive and hateful speech)が蔓延(Statista, 2020b) ◦ 被害者の精神的な健康に悪影響を及ぼす可能性がある(Munro,

    2011) • 攻撃的な発言の自動検出(Automated offensive language detection)、攻撃的発言を定義す る必要がある ◦ 従来手法: ▪ カテゴリに分類: • racist, sexist, neither (Waseem and Dirk Hovy(2016)) • hate-speech, offensive but not hate-speech, neither offensive nor hate-speech (Davidson et al. (2017)) • abusive, hateful, normal, spam (Founta et al. (2018)) ◦ 問題点: ▪ カテゴリの内容が互いに重複していて、曖昧性が生じる • De-sensitization: アノテータが高度な攻撃的発言を連続に見ると、そのあとの低度な攻撃的発言を攻 撃的ではないと判断する可能性がある ▪ 発言がどの程度攻撃的かは考慮していない ▪ キーワードベースのサンプリング手法が偽の関連性をキャプチャーする可能性が高い(sports-related expressions)
  2. Related Work • 非攻撃的なコメントが普遍的のため、攻撃的コメントの濃度が高いように抽出するために、いくつかのサンプリング手 法を採用 ◦ ヘイト関連用語のリストを用いて、 Twitterから攻撃的なツイートを抽出 (Davidson et

    al(2017)) ▪ 問題点:topic bias & author bias (Park et al. (2018), Wiegand et al. (2019), and Davidson et al. (2019) ) ◦ ツイートの感情分析 と 攻撃的用語の存在のチェック 同時に行う ▪ 有効 (Founta et al. (2018) b) • 本研究は特定のトピック、感情関連のキーワード、ランダムサンプリングの 3つの方法でデータを抽出 • Best-Worst Scaling(BWS or MaxDiff) • BWSを用いて、SNSのコメントの攻撃度スコアの計算する最初の研究 A C B D 👍 score(A)= Aがbestの回数 ー Aがworstの回数 Aの出現回数 4-tuple
  3. Data collection and sampling • Redditのsubredditからサンプリングして、subredditによって三つのカテゴリに分類 ◦ Topics(50%) ▪ AskReddit,

    vaxxhappened, worldnews, worldpolitics.(いろいろな話題) ▪ TwoXChromosomes(女性視点) ▪ AskMen(男性視点) ◦ ChangeMyView(25%) ▪ 論争を起こしやすい話題 ◦ Random(25%) ▪ ランダムなsubredditsから抽出 • 808 Postsから 6000コメントを選択し、アノテーションを行った
  4. • 感情が行動と関連している⇒感情状態を用いてアップサンプリング • 感情の主なディメンションーーV A D(Osgood et al., 1957; Russell,

    1980, 2003) ◦ Valence: negative ~ positive ◦ Arousal: calm ~ excited ◦ Dominance: have no control ~ have full control ◦ 単語の感情を実数で評価(0-1) • アップサンプリングのため、low valence, high arousalの単語を含むコメントを抽出 ◦ low valence: valenceスコア < 0.25 ◦ high arousal: arousal スコア > 0.75 • 前サンプリングしたコメントに対して、三つのカテゴリを ◦ ⅓ がlowest valence scoresのコメント ◦ ⅓ がhighest arousal scoresのコメント ◦ ⅓ がrandomのコメント のようにした Data collection and sampling
  5. Annotation • 「攻撃的」に対する認識が人それぞれ⇒Crowdsourcingを利用 ◦ Amazon Mechanical Turk (AMT) ▪ RedditはUSAで最も人気(50%

    traffic from USA)⇒アノテーターは米国在住の人に限定 • Best-Worst scalingを用いたアノテーション ◦ 異なる4-tupleを2N個生成(Nがコメント数) ◦ 各コメントが異なる8個の4-tupleに出現 ◦ アノテータ6人 ◦ 各コメントに 6 x 8 = 48回判定 ◦    「一番攻撃的」の回数 ー 「一番攻撃的ではない」の回数 出現回数(48) score=
  6. Data Analysis 1 2 3 4 5 • スコア分布 ◦

    正規分布 ◦ 五つのBinに分割し、各 部分のコメントを表示 (表2) ◦ 各Binに対してPMIが高 い単語を出力(表3)
  7. • アイデンティティ用語 ◦ 社会的少数者が出現するコメントが攻撃的であることが多いから ◦ Rudditにもgay, trans, male, female, black,

    whiteなどの単語が攻撃性との関連性が相対的に高 い ◦ アイデンティティ用語がモデルに対する影響を検証するため、 Rudditのコメント内のアイデンティティ 用語を[group]というトークンと置換して新しいデータセットとして利用し、オリジナルの Rudditの性能 と比較 ▪ 置換されたRudditは identity-agnostic dataset と呼ぶ Data Analysis
  8. • 感情demensionとの関連性 ◦ 感情demensionの攻撃性ス コアとの関連性を計算 ◦ Low valence & High

    arousalが相関(表4) ◦ Low valence & High arousalとが攻撃的に偏る ◦ Randomが支持的に偏る Data Analysis
  9. • 卑語(swear words)の影響 • スコアが低いコメントにも卑語がある ◦ 「Hell yes」「sure as hell

    love it」「uncomfortable as shit」 • 卑語を含むコメントをすべて削除し、オリジ ナルのRudditと比較 ◦ no-swearing dataset と呼ぶ Data Analysis
  10. Model • BiLSTM ◦ GloVeのベクトルを使って、2層の BiLSTMに入力し文ベクトルを獲得 ◦ 線形層によって-1~1のスコアを計算 ◦ 目的関数:MSE

    Loss • BERT ◦ BERT-baseをファインチューニングし、線形層を加えることによってスコアを計算 ◦ 目的関数:MSE Loss • HateBERT ◦ 攻撃的発言やヘイトスピーチをしたことで BanされたRedditユーザのコメントを含むデータセットで訓 練されたBERT ◦ 汎用型BERTと同じようにファインチューニング
  11. Conclusion • 攻撃性の度合を示すアノテーションをした初のデータセットを作成し公開 • Best-Worst Scalingを用いて、従来の評価尺度の限界を解決 • Low valence &

    High arousalのコメントは攻撃性スコアと相関がある • 攻撃性スコアの特定の範囲にアイデンティティ用語を関連付けることは、モデルに とって有益ではない • Future work ◦ 会話の文脈を利用する ◦ 攻撃性と感情の相互作用