Slide 1

Slide 1 text

ACL 2021 B4 凌志棟 2021.12.10

Slide 2

Slide 2 text

Overview ● Redditコメントの攻撃性を評価するためのデータセット「Ruddit」を作成 ○ 粒度が高い、実数値 (-1,1)で評価 ○ 比較的アノテーションを利用( Best-Worst Scaling) ● 信頼できるスコアを得られた ● 作成したデータセットをもちいて攻撃性のスコアを予測する実験をした

Slide 3

Slide 3 text

Introduction ● SNS上、攻撃的な発言やヘイトスピーチ (offensive and hateful speech)が蔓延(Statista, 2020b) ○ 被害者の精神的な健康に悪影響を及ぼす可能性がある(Munro, 2011) ● 攻撃的な発言の自動検出(Automated offensive language detection)、攻撃的発言を定義す る必要がある ○ 従来手法: ■ カテゴリに分類: ● racist, sexist, neither (Waseem and Dirk Hovy(2016)) ● hate-speech, offensive but not hate-speech, neither offensive nor hate-speech (Davidson et al. (2017)) ● abusive, hateful, normal, spam (Founta et al. (2018)) ○ 問題点: ■ カテゴリの内容が互いに重複していて、曖昧性が生じる ● De-sensitization: アノテータが高度な攻撃的発言を連続に見ると、そのあとの低度な攻撃的発言を攻 撃的ではないと判断する可能性がある ■ 発言がどの程度攻撃的かは考慮していない ■ キーワードベースのサンプリング手法が偽の関連性をキャプチャーする可能性が高い(sports-related expressions)

Slide 4

Slide 4 text

Related Work ● 非攻撃的なコメントが普遍的のため、攻撃的コメントの濃度が高いように抽出するために、いくつかのサンプリング手 法を採用 ○ ヘイト関連用語のリストを用いて、 Twitterから攻撃的なツイートを抽出 (Davidson et al(2017)) ■ 問題点:topic bias & author bias (Park et al. (2018), Wiegand et al. (2019), and Davidson et al. (2019) ) ○ ツイートの感情分析 と 攻撃的用語の存在のチェック 同時に行う ■ 有効 (Founta et al. (2018) b) ● 本研究は特定のトピック、感情関連のキーワード、ランダムサンプリングの 3つの方法でデータを抽出 ● Best-Worst Scaling(BWS or MaxDiff) ● BWSを用いて、SNSのコメントの攻撃度スコアの計算する最初の研究 A C B D 👍 score(A)= Aがbestの回数 ー Aがworstの回数 Aの出現回数 4-tuple

Slide 5

Slide 5 text

Data collection and sampling ● Redditのsubredditからサンプリングして、subredditによって三つのカテゴリに分類 ○ Topics(50%) ■ AskReddit, vaxxhappened, worldnews, worldpolitics.(いろいろな話題) ■ TwoXChromosomes(女性視点) ■ AskMen(男性視点) ○ ChangeMyView(25%) ■ 論争を起こしやすい話題 ○ Random(25%) ■ ランダムなsubredditsから抽出 ● 808 Postsから 6000コメントを選択し、アノテーションを行った

Slide 6

Slide 6 text

● 感情が行動と関連している⇒感情状態を用いてアップサンプリング ● 感情の主なディメンションーーV A D(Osgood et al., 1957; Russell, 1980, 2003) ○ Valence: negative ~ positive ○ Arousal: calm ~ excited ○ Dominance: have no control ~ have full control ○ 単語の感情を実数で評価(0-1) ● アップサンプリングのため、low valence, high arousalの単語を含むコメントを抽出 ○ low valence: valenceスコア < 0.25 ○ high arousal: arousal スコア > 0.75 ● 前サンプリングしたコメントに対して、三つのカテゴリを ○ ⅓ がlowest valence scoresのコメント ○ ⅓ がhighest arousal scoresのコメント ○ ⅓ がrandomのコメント のようにした Data collection and sampling

Slide 7

Slide 7 text

Annotation ● 「攻撃的」に対する認識が人それぞれ⇒Crowdsourcingを利用 ○ Amazon Mechanical Turk (AMT) ■ RedditはUSAで最も人気(50% traffic from USA)⇒アノテーターは米国在住の人に限定 ● Best-Worst scalingを用いたアノテーション ○ 異なる4-tupleを2N個生成(Nがコメント数) ○ 各コメントが異なる8個の4-tupleに出現 ○ アノテータ6人 ○ 各コメントに 6 x 8 = 48回判定 ○    「一番攻撃的」の回数 ー 「一番攻撃的ではない」の回数 出現回数(48) score=

Slide 8

Slide 8 text

● 品質管理のために、事前に5%程度のデータに手動でアノテーション ○ このような事例を「gold question」と呼ぶ ● gold questionに対するアノテーションの精度が70%を下回る場合、そのアノテータ を首にし、完成したアノテーションを破棄する ● アノテーションの結果: ○ アノテータ:725人 ○ アノテーション:95255件 Annotation

Slide 9

Slide 9 text

Annotation ● アノテーションの品質を確認ーーSHR(split half reliability) ○ 複数の項目を奇数番と偶数番の2群に分け、この2群の相関係数rを計算し、 Spearman-Brownの 修正公式に代入し、信頼性係数を計算する

Slide 10

Slide 10 text

Data Analysis ● スコアの分布 ● アイデンティティ用語(identity terms)との関連性 ● 感情demensionとの関連性 ● データソースとの関連性 ● 卑語(swear words)の影響 ● スコアの範囲

Slide 11

Slide 11 text

Data Analysis 1 2 3 4 5 ● スコア分布 ○ 正規分布 ○ 五つのBinに分割し、各 部分のコメントを表示 (表2) ○ 各Binに対してPMIが高 い単語を出力(表3)

Slide 12

Slide 12 text

● アイデンティティ用語 ○ 社会的少数者が出現するコメントが攻撃的であることが多いから ○ Rudditにもgay, trans, male, female, black, whiteなどの単語が攻撃性との関連性が相対的に高 い ○ アイデンティティ用語がモデルに対する影響を検証するため、 Rudditのコメント内のアイデンティティ 用語を[group]というトークンと置換して新しいデータセットとして利用し、オリジナルの Rudditの性能 と比較 ■ 置換されたRudditは identity-agnostic dataset と呼ぶ Data Analysis

Slide 13

Slide 13 text

● 感情demensionとの関連性 ○ 感情demensionの攻撃性ス コアとの関連性を計算 ○ Low valence & High arousalが相関(表4) ○ Low valence & High arousalとが攻撃的に偏る ○ Randomが支持的に偏る Data Analysis

Slide 14

Slide 14 text

● コメントのデータソース(カテゴリ)の影 響を検証 ● Topicsが攻撃性に偏る ○ worldnewsとworldpoliticsは論争的話題 が多い(図9) Data Analysis

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

● 卑語(swear words)の影響 ● スコアが低いコメントにも卑語がある ○ 「Hell yes」「sure as hell love it」「uncomfortable as shit」 ● 卑語を含むコメントをすべて削除し、オリジ ナルのRudditと比較 ○ no-swearing dataset と呼ぶ Data Analysis

Slide 17

Slide 17 text

● 中央部分のコメントがモデルにとって難しいかもしれない ● これを検証するため、スコアが(-0.5~0.5)のコメントだけを抽出して新しいデータ セットとして使う ○ reduced-range dataset と呼ぶ Data Analysis

Slide 18

Slide 18 text

Model ● BiLSTM ○ GloVeのベクトルを使って、2層の BiLSTMに入力し文ベクトルを獲得 ○ 線形層によって-1~1のスコアを計算 ○ 目的関数:MSE Loss ● BERT ○ BERT-baseをファインチューニングし、線形層を加えることによってスコアを計算 ○ 目的関数:MSE Loss ● HateBERT ○ 攻撃的発言やヘイトスピーチをしたことで BanされたRedditユーザのコメントを含むデータセットで訓 練されたBERT ○ 汎用型BERTと同じようにファインチューニング

Slide 19

Slide 19 text

Results and Analysis

Slide 20

Slide 20 text

Results and Analysis

Slide 21

Slide 21 text

Conclusion ● 攻撃性の度合を示すアノテーションをした初のデータセットを作成し公開 ● Best-Worst Scalingを用いて、従来の評価尺度の限界を解決 ● Low valence & High arousalのコメントは攻撃性スコアと相関がある ● 攻撃性スコアの特定の範囲にアイデンティティ用語を関連付けることは、モデルに とって有益ではない ● Future work ○ 会話の文脈を利用する ○ 攻撃性と感情の相互作用