Web上の誹謗中傷を表す文の自動検出

Web上の誹謗中傷を表す文の自動検出０７３１１３８７　山本研究室石坂達也

2 発表の流れ 1. 研究の背景と目的 2. 各種定義 3. 提案手法　　3.1 システム概要図
　　3.2 単語悪口度の算出　　3.3 基本単語の選定　　3.4 誹謗中傷文の検出４. まとめ

4 研究背景(1/2) Web上には他者を誹謗中傷する書き込みが存在 ➔ 登校拒否 ➔ うつ病 ➔ ノイローゼ最悪の場合、自殺を引き起こしている
被害者小中学生による書き込みが増加

5 研究背景(2/2) 企業や自治体による人手の監視現状日々増加する大量の文時間的、作業量的に負担が大きい問題点半自動化により作業の効率化、負担軽減解決案

6 目的誹謗中傷を表す文を自動で検出するシステムの構築

8 各種定義誹謗中傷以後「悪口」と呼ぶ批判や中傷により他者を不快にさせる表現製品や組織などへ対する批判は対象外悪口単語単語単独でも他者への批判・中傷できる単語（例）死ね、ウザい悪口文
悪口表現を含む文（皮肉は対象外）（例）お前みたいな認識の馬鹿は死ねば良い

10 システム図概要単語に悪口度付与 2ちゃんねる入力文 Web検索ヒット件数文分類：
悪口文悪口文非悪口文 YES NO

11 単語悪口度の定義悪口文の特徴悪口単語を含む文が多い (例) お前は馬鹿文や句の悪口表現を含む文 (例) サル以下の脳みそ皮肉を表現している文
(例) あいつは頭いいからなｗｗ悪口度 • 悪口単語であるかどうかの可能性を示す • 悪意が強い/弱いを意味しない悪口の対象者の情報を必要になり、問題が大きすぎる。本研究では皮肉は対象外悪口単語の認識は多くの悪口文検出につながる悪口単語か否かを判別に悪口度を活用

12 悪口度算出手法 SO-PMI [Wang and Araki, 2008] を使用 2つの基本単語を用意ある単語がどちらの基本単語と多く共起するか
Web検索ヒット数を共起数としている SO-PMI (w) = 悪口度(w)

14 基本単語の選定事前の実験の結果では基本単語により精度が大きく変化より多くの悪口単語を認識できる基本単語が欲しい多くの実験で悪口認識数が多い単語悪口度平均の高い単語 SO-PMIを高くする単語 3つの方法基本単語にすべき単語の選定手法の提案

15 基本単語の選定事前の実験の結果では基本単語により精度が大きく変化より多くの悪口単語を認識できる基本単語が欲しい多くの実験で悪口認識数が多い単語悪口度平均の高い単語 SO-PMIを高くする単語 3つの方法基本単語にすべき単語の選定手法の提案

16 基本単語の条件悪口単語との相互情報量(MI)が高い多くの悪口単語(20以上)と共起悪口極性の基本単語候補悪口単語と共起しない単独の出現頻度が多い非悪口極性の基本単語候補

17 基本単語選定の結果単語 MI合計共起した悪口単語数死ね 13.61 63 消えろ
3.492 41 蛆虫 2.430 21 カス 0.7394 43 死ねよ 0.6666 31 童貞 0.6294 50 厨 0.3285 51 池沼 0.2948 23 孤独 0.2552 27 ホモ 0.2386 33 単語出現頻度 (× 10 ) 引換 49 買い上げ 43 絞り込み 29 降順 25 振替 23 昇順 22 引き継ぎ 20 停留所 20 負い 18 策定 17 6 悪口極性の基本単語候補非悪口極性の基本単語候補

18 評価実験評価用データ異なり数2735単語悪口単語 80語非悪口単語 2655 語３人の評価者が単語を悪口単語か否かを判断
３人一致で悪口単語なら悪口単語それ以外を非悪口単語評価方法順位をもとした評価悪口度が高い上位200単語の中にいくつ悪口単語があるか単語に悪口度を与え、適切かどうかを検証

19 評価実験結果上位5語のみを用いて実験を行った死ね消えろ蛆虫カス童貞引換 42
41 38 38 44 買い上げ 41 46 44 44 44 絞り込み 39 40 40 40 45 降順 35 40 38 38 43 振替 50 50 33 49 50 意味的な逆を考慮した時の実験結果賞賛単語の平均認識数：20.1 人が悪口と無関係であると連想する語：30.9 平均認識数：41.0

21 文分類手法規則による分類手法 1つでも悪口単語を含むなら悪口文悪口度の総和が閾値を超えるなら悪口文悪口単語の数が非悪口単語の数を超えるなら悪口文機械学習を用いた分類手法 SVM(Support Vector Machine)を用いて分類
悪口単語を含む文が悪口文基本的な考え方

22 文分類手法規則による分類手法 1つでも悪口単語を含むなら悪口文悪口度の総和が閾値を超えるなら悪口文悪口単語の数が非悪口単語の数を超えるなら悪口文機械学習を用いた分類手法 SVM(Support Vector Machine)を用いて分類
悪口単語を含む文が悪口文基本的な考え方

23 機械学習を用いた分類手法素性悪口度が高い単語ベースラインは全ての単語を素性とする素性の重み(特徴量) 全て一律(=1) 基本単語悪口極性：消えろ非悪口極性:振替
閾値を超える単語単語の存在の有無を材料に分類する

24 悪口度を用いた素性の足切り学習データへの変換例(閾値=0) 入力文: お前みたいな認識の馬鹿は死ねば良い • お前 (0.28) • みたい
(-0.02) • 認識 (-0.22) • 馬鹿 (0.18) • 死ね (0.37) • 良い (-0.34) • お前 (0.28) • 馬鹿 (0.18) • 死ね (0.37) 閾値による足切り後の素性悪口度算出 ※括弧内の数値は悪口度。重みではない

25 評価用データ & 評価方法評価用データ悪口文/非悪口文各1403文評価方法適合率, 再現率,
F値による評価 5分割交差検定適合率= 出力と正解の一致数出力の数再現率= 出力と正解の一致数正解の数 F値= 2×適合率×再現率適合率再現率

26 実験結果 F値の最大値 90.0 (閾値=-0.2) 適合率 92.5 再現率 87.0 適合率
86.6 再現率 82.0 ベースラインF値 84.2 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 40 50 60 70 80 90 100 適合率再現率 F 値悪口度閾値適合率 , 再現率 ,F 値 (全単語を素性に使用)

28 まとめ単語に悪口度を付与 Web検索ヒット数をもとにしたSO-PMIの利用 SVMを使った文の分類悪口度をもとに素性の足切りベースラインと比較してF値が5ポイント向上悪口文を検出するための手法を提案

29 ありがとうございました

30 以下予備資料

31 悪口度算出手法悪口単語の特徴を活かせる悪口単語同士は文書内共起しやすい悪口/非悪口に分類された集合の準備が不要利点単語wがwp とwn のどちらと文書内共起しているかの比率
何が求まるのか

32 関連研究(2/2) 単語の評価極性の判別手法１．Turney and Littman, 2002 極性を示す代表的な語(基本単語) を用意単語
w が “excellent” と “poor” のどちらと共起しているか “excellent”ならば w は肯定極性, 逆なら w 否定極性 Web検索エンジンを使用して共起情報を獲得 2. Wang and Araki, 2008 Turney らの手法を日本語用に改良 “すばらしい” と “不良” ではヒット件数の差が大きいヒット件数の差を考慮する要素を追加

33 関連研究(1/2) 単語が悪口単語か否かを判別する手法はないしかし、特定の単語を抽出する研究は盛んに行われている  特定の分野の専門用語を抽出する手法  ある単語の関連用語を抽出する手法評価表現を抽出する手法悪口は人への不評表現
悪口は人への不評表現

34 基本単語の選択 wp：悪口単語死ね、ウザい、キモいなど悪口の逆とは何か？賞賛悪口を他者への不評表現と考えた場合、逆は好評表現悪口と無関係「好きの反対は無関心」と同じ理屈

35 評価実験単語に悪口度を与え、正確かどうかを検証死ね、ウザい、キモい、キチガイ、チョン、クズ、無能、ブサイク、ブス、嫌い賞賛単語 : 可愛い、素敵、イケメン、素晴らしい、美しい連想的無関係語：机、チューリップ、太陽、夏、酸っぱい、四角い、赤い非悪口極性の基本単語(12語)
悪口極性の基本単語(10語)

36 他の分類手法の比較規則による分類手法 1つでも悪口単語を含むなら悪口文最大 F値 82.4(適合率 74.7, 再現率 91.8)　閾値=0.2
悪口度の総和が閾値を超えるなら悪口文最大 F値 75.3 (適合率 68.0, 再現率 86.2) 閾値=-0.7 悪口単語の数が非悪口単語の数を超えるなら悪口文最大 F値 74.8 (適合率 63.7, 再現率 90.6) 閾値=-4 機械学習による分類手法文内の全ての単語が素性 F値 84.2 (適合率 86.6, 再現率 82.0) 閾値を超える悪口度を持つ単語のみを素性最大 F値 90.0 (適合率 92.5, 再現率 87.0) 閾値=-0.2

37 否定語の考慮悪口単語が否定されている場合、悪口単語を含んでいても悪口文とならない悪口単語と否定語が文節内共起した場合は悪口単語として扱わない否定語は「ない」のみを取り扱う文節の切り出しには係り受け解析器CaboChaを使用  否定語がつくことで悪口極性が打ち消される例
　悪口単語：バカ、死ね、キモい　否定語と共起：バカじゃない、死ねない、キモくない

38 2ちゃんねるの言語表現に対応できれば、 Web上の多くの悪口文に対応できると予想使用する言語資源使用するデータは全て”2ちゃんねる”より収集２ちゃんねる巨大で書き込み数も多い多くの悪口文を含むことで社会的に認知言語表現が豊富

39 基本単語について wp : 「素晴らしい」,「素敵」 ← 好評表現 wn ：「不良」,「悪い」 ←
不評表現 Wang and Araki 評価極性が逆の単語を使用

40 基本単語選定における言語資源使用するデータ単語7-gram Googleが配布(Webページより作成) 異なり数約６億品詞は以下に限定する動詞-自立, 名詞-一般,
形容詞悪口単語(110語) 得られた単語を基本単語として悪口度を算出し、評価実験を行う

41 基本単語の選択 wp：悪口単語死ね、ウザい、キモい、キチガイ、チョン、クズ、無能、ブサイク、ブス、嫌い wn：賞賛単語可愛い、素敵、イケメン、素晴らしい、美しい wn:連想的無関係語 (人が悪口と関係ないと連想した単語）机、チューリップ、太陽、夏、酸っぱい、四角い、赤い

42 比較手法藤村らの手法を比較手法とする [藤村ら 2005] 評価表現の極性(肯定/否定)の分類するための手法悪口文集合と非悪口文集合のどちらに多く出現しているかを算出悪口文/非悪口文それぞれ1400文を人手により収集
F w= P P w−P N w P P wP N w −1 ≤ Fw ≤ 1  w : 対象となる単語  PP (w) : 悪口文集合内でのwの出現確率  PN (w) : 非悪口文集合内でのwの出現確率

43 評価結果 - 含有数上位下位５件 - 基本単語 (悪/非悪) 提案手法藤村手法ブス/机
48 ブサイク/四角い 48 ブサイク/机 47 ブサイク/酸っぱい 46 ブサイク/赤い 46 ：：無能/イケメン 6 嫌い/可愛い 4 嫌い/素晴らしい 2 嫌い/カッコいい 0 嫌い/イケメン 0 16

44 評価結果 - 全組み合わせの含有数 - 0 20 40 60 80
100 120 0 10 20 30 40 50 60 各種基本単語藤村手法各基本単語の組み合わせ悪口単語含有数

45 評価結果より比較手法よりも正確に悪口単語認識できている 130組のうち103組は比較手法より含有数が多い最も多い時で48語「ブサイク/四角い」「ブス/机」賞賛単語(平均:20) < 連想的無関係語(平均：31) 形容詞(平均:24)
< 名詞 (平均:28) 基本単語により精度が大きく変化

46 原因：一部の非悪口単語に高い悪口度が付与されている政治家の名前など (悪口の対象となることが多い) 考察悪口単語が下位に位置づけられる悪口単語でなくても悪口単語に偏って共起すれば悪口度は高くなる

47 原因：一部の非悪口単語に高い悪口度が付与されている政治家の名前など (悪口の対象となることが多い) 考察悪口単語が下位に位置づけられる対処しない悪口単語を持たない悪口文の検出に活用する
悪口単語でなくても悪口単語に偏って共起すれば悪口度は高くなる

48 学習データ & 実験方法 & 評価方法学習データ悪口文/非悪口文各1403文 2ちゃんねるより収集
実験方法 5分割交差検定評価方法適合率, 再現率, F値による評価適合率= 出力と正解の一致数出力の数再現率= 出力と正解の一致数正解の数 F値= 2×適合率×再現率適合率再現率

49 SO-PMIを高くする単語とは C w=log hitw , w p ∗hit w
n  hitw , w n ∗hit w p   SO-PMIの主要部分 = log hit w ,w p  hitw p  hit w ,w n  hitw n   相互情報量相互情報量(MI) 赤枠MI:大青枠MI:小 SO-PMI：大 wを悪口単語とした時、 MIが高い単語 MIが小さい単語を探す

50 まとめ単語に悪口度を付与文書内共起をもとにしたSO-PMIの利用比較手法よりも多く悪口単語を認識できた基本単語の選定 SO-PMIが高くなるような基本単語を探索悪口極性：悪口単語とのMIが高く、多くの悪口単語と共起する語非悪口極性：悪口単語と共起せず、単独の出現頻度が高い語 SVMを使った文の分類
悪口度をもとに素性の足切りベースラインと比較してF値が5ポイント向上悪口文を検出するための手法を提案

51 悪口度算出手法  SO-PMI [Wang and Araki, 2008] を使用 Cw=log
hitw ,w p ∗hit w n  hitw ,w n ∗hitw p   f =∗log hit w p  hit w n   SO‐ PMI w=C w f  SO-PMI (w) = 悪口度(w)

52 悪口度算出手法  SO-PMI [Wang and Araki, 2008] を使用 Cw=log
hitw ,w p ∗hit w n  hitw ,w n ∗hitw p   f =∗log hit w p  hit w n   SO‐ PMI w=C w f  wp :悪口極性の基本単語 wn :非悪口極性の基本単語 hit 関数 :Web検索ヒット件数 f 関数:検索ヒット件数の差を考慮した重み(α=0.9)

53 誤り解析悪口単語の認識誤り造語のより正確な単語分割が出来ず、悪口単語を認識できなかった。 (例) 意味がわからんスレたてるな競馬鹿意味がわから
んスレたてるな競馬鹿悪口度高悪口度高悪口度低

Web上の誹謗中傷を表す文の自動検出

Web上の誹謗中傷を表す文の自動検出

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript