２ちゃんねるを対象とした悪口表現の抽出

1 2ちゃんねるを対象とした悪口表現の抽出長岡技術科学大学石坂達也山本和英

2 背景 z Web上には他者を誹謗中傷する書き込みが存在 z 最悪の場合, 自殺のきっかけとなる悪口書き込みはより厳重に管理されるべき辞書を使用したフィルタリング堅実な方法として…

3 悪口表現辞書の構築今回悪口表現抽出の手法を検討目的悪口表現の抽出が必須

4 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義

5 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義皮肉は対象外

6 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義「バカ」は悪口ではない場合がある (例)バカうまい

7 z 2ちゃんねるは多くの人が利用している z さらに, 悪口書き込みが多い仮説 Web全体と2ちゃんねるでは悪口表現の種類数に大きな差はない
なぜ「2ちゃんねる」なのか

8 問題点と基本方針 z 2ちゃんねるを対象にすることで生じる問題点 z 形態素解析器の解析ミス(単語の区切り、品詞情報) z 文の区切りが句点とは限らない
z 造語, 隠語が多い z 基本方針 z 品詞情報を無視 z 単語の過分割にも対応可能

9 手法の流れ 1. 悪口表現種辞書の構築 2. 悪口文の収集 3. 悪口n-gram モデルの作成 4.
悪口表現抽出

10 悪口表現種辞書の構築 z 人手で2ちゃんねるから悪口表現を抽出 z 103件 (例) z みんなまとめて逝け z
うざい z キモイ z ヲタは地獄に落ちろ

11 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日約2000スレッドを解析 z 約20万文を収集できた (例)
z つか，官僚死ねや z 泥棒ゴミクズ団体はさっさと吊ってこい！ z こんなんでイチイチ騒ぐなボケカス。

12 悪口n-gram モデルの作成 1/2 z 悪口文と非悪口文からモデルを作成 z 悪口文を約20万文, 非悪口文を約50万文 z
単語n-gram z 1～5-gram z 前向きと後ろ向きn-gramの2パターン z SRILMを使用 z 悪口表現を持つn-gramを抽出

13 悪口n-gram モデルの作成 2/2 - 前処理 - z 悪口表現は1語に合成、汎化 (例)
男ってバカな暇人野郎ばっか男って <悪口> ばっか z 単語は原形にして扱う

14 悪口n-gram モデルの例 0.743 は底抜けに <悪口> 0.67 <悪口>
はさっさと日本から n-gram 確率この場合n=4 悪口表現の直前に連接する単語列（左連接属性） n-gram 確率この場合n=5 悪口表現の直後に連接する単語列（右連接属性）

15 悪口n-gram モデルの例 0.743 は底抜けに <悪口> 0.67 <悪口>
はさっさと日本から n-gram 確率この場合n=4 悪口表現の直前に連接する単語列（左連接属性） n-gram 確率この場合n=5 悪口表現の直後に連接する単語列（右連接属性）この単語列があった時に右側を抽出この単語列があった時に左側を抽出

16 マスゴミのクズどもるて，何でこう
なる事が… 悪口表現獲得までの例マスゴミのクズどもって，何でこうなる事が… 適用されるn-gram z <悪口> どもるて，抽出される悪口表現 z マスゴミのクズ入力文形態素解析後

17 評価実験 z 評価セット z 悪口文378文, 非悪口文382文 z 評価方法 z
抽出された文字列を人手で悪口表現か評価 z 実験条件 z n-gram確率を閾値

18 実験結果(適合率)

19 実験結果(適合率) 閾値が高い場合は高確率で悪口表現抽出が可能

20 実験結果(適合率) 閾値が高い場合は高確率で悪口表現抽出が可能しかし、３件閾値を下げても再現率は最高で0.3

21 考察：適合率と再現率 z 悪口表現のみに連接しやすい単語列は少ない（定型的に存在するわけではない）より悪口表現の特徴に適した指標も必要

22 新しい悪口表現の獲得数辞書の拡張のためには新しい悪口表現の獲得が必要今回の手法でいくつ獲得できているか予備実験

23 実験結果 (獲得数)

24 実験結果 (獲得数) 閾値が低い時に新しい悪口表現の獲得可能

25 獲得した悪口表現 z キモオタロリコン z 消えてしまえ，馬鹿 z デブ婆ァ z スタイル悪い
z カス芸人 z 馬鹿男女

26 考察：新しい悪口表現の獲得 z 閾値が低い場合に, 新しい悪口表現の獲得 z 閾値が低い場合は非悪口表現も多く獲得 z 同じ単語を使用する悪口表現を多く獲得 (例)
糞◦◦ 糞ガキ, 糞ゲー同じ単語を使用する造語の獲得には有効

27 まとめ z n-gram確率で悪口表現を抽出する手法を検討 z 閾値が高い場合に高確率で抽出可能 z 種辞書にない表現も獲得可能

28 ご清聴有難うございました

実験結果(再現率)

２ちゃんねるを対象とした悪口表現の抽出

２ちゃんねるを対象とした悪口表現の抽出

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

1 2ちゃんねるを対象とした悪口表現の抽出長岡技術科学大学石坂達也山本和英

2 背景 z Web上には他者を誹謗中傷する書き込みが存在 z 最悪の場合, 自殺のきっかけとなる悪口書き込みはより厳重に管理されるべき辞書を使用したフィルタリング堅実な方法として…

3 悪口表現辞書の構築今回悪口表現抽出の手法を検討目的悪口表現の抽出が必須

4 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義

5 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義皮肉は対象外

6 z 他の情報を必要としない侮辱や誹謗中傷している単語,句 (例) ・あの政治家死ね・奴らはバカな暇人野郎悪口表現の定義「バカ」は悪口ではない場合がある (例)バカうまい

7 z 2ちゃんねるは多くの人が利用している z さらに, 悪口書き込みが多い仮説 Web全体と2ちゃんねるでは悪口表現の種類数に大きな差はない

8 問題点と基本方針 z 2ちゃんねるを対象にすることで生じる問題点 z 形態素解析器の解析ミス(単語の区切り、品詞情報) z 文の区切りが句点とは限らない

9 手法の流れ 1. 悪口表現種辞書の構築 2. 悪口文の収集 3. 悪口n-gram モデルの作成 4.

10 悪口表現種辞書の構築 z 人手で2ちゃんねるから悪口表現を抽出 z 103件 (例) z みんなまとめて逝け z

11 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日約2000スレッドを解析 z 約20万文を収集できた (例)

12 悪口n-gram モデルの作成 1/2 z 悪口文と非悪口文からモデルを作成 z 悪口文を約20万文, 非悪口文を約50万文 z

13 悪口n-gram モデルの作成 2/2 - 前処理 - z 悪口表現は1語に合成、汎化 (例)

14 悪口n-gram モデルの例 0.743 は底抜けに <悪口> 0.67 <悪口>

15 悪口n-gram モデルの例 0.743 は底抜けに <悪口> 0.67 <悪口>

16 マスゴミのクズどもるて，何でこう

17 評価実験 z 評価セット z 悪口文378文, 非悪口文382文 z 評価方法 z

18 実験結果(適合率)

19 実験結果(適合率) 閾値が高い場合は高確率で悪口表現抽出が可能

20 実験結果(適合率) 閾値が高い場合は高確率で悪口表現抽出が可能しかし、３件閾値を下げても再現率は最高で0.3

21 考察：適合率と再現率 z 悪口表現のみに連接しやすい単語列は少ない（定型的に存在するわけではない）より悪口表現の特徴に適した指標も必要

22 新しい悪口表現の獲得数辞書の拡張のためには新しい悪口表現の獲得が必要今回の手法でいくつ獲得できているか予備実験

23 実験結果 (獲得数)

24 実験結果 (獲得数) 閾値が低い時に新しい悪口表現の獲得可能

25 獲得した悪口表現 z キモオタロリコン z 消えてしまえ，馬鹿 z デブ婆ァ z スタイル悪い

26 考察：新しい悪口表現の獲得 z 閾値が低い場合に, 新しい悪口表現の獲得 z 閾値が低い場合は非悪口表現も多く獲得 z 同じ単語を使用する悪口表現を多く獲得 (例)

27 まとめ z n-gram確率で悪口表現を抽出する手法を検討 z 閾値が高い場合に高確率で抽出可能 z 種辞書にない表現も獲得可能

28 ご清聴有難うございました

実験結果(再現率)