2011) • 攻撃的な発言の自動検出(Automated offensive language detection)、攻撃的発言を定義す る必要がある ◦ 従来手法: ▪ カテゴリに分類: • racist, sexist, neither (Waseem and Dirk Hovy(2016)) • hate-speech, offensive but not hate-speech, neither offensive nor hate-speech (Davidson et al. (2017)) • abusive, hateful, normal, spam (Founta et al. (2018)) ◦ 問題点: ▪ カテゴリの内容が互いに重複していて、曖昧性が生じる • De-sensitization: アノテータが高度な攻撃的発言を連続に見ると、そのあとの低度な攻撃的発言を攻 撃的ではないと判断する可能性がある ▪ 発言がどの程度攻撃的かは考慮していない ▪ キーワードベースのサンプリング手法が偽の関連性をキャプチャーする可能性が高い(sports-related expressions)