Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2ちゃんねるを対象とした悪口表現の抽出

 2ちゃんねるを対象とした悪口表現の抽出

石坂 達也, 山本 和英. 2ちゃんねるを対象とした悪口表現の抽出. 言語処理学会第16回年次大会, pp.178-181 (2010.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 11 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日 約2000スレッドを解析 z 約20万文を収集できた (例)

    z つか,官僚死ねや z 泥棒ゴミクズ団体はさっさと吊ってこい! z こんなんでイチイチ騒ぐなボケカス。
  2. 12 悪口n-gram モデルの作成 1/2 z 悪口文と非悪口文からモデルを作成 z 悪口文を約20万文, 非悪口文を約50万文 z

    単語n-gram z 1~5-gram z 前向きと後ろ向きn-gramの2パターン z SRILMを使用 z 悪口表現を持つn-gramを抽出
  3. 13 悪口n-gram モデルの作成 2/2 - 前処理 - z 悪口表現は1語に合成、汎化 (例)

    男 って バカ な 暇人 野郎 ばっか 男 って <悪口> ばっか z 単語は原形にして扱う
  4. 14 悪口n-gram モデルの例 0.743 は 底抜け に <悪口> 0.67 <悪口>

    は さっさと 日本 から n-gram 確率 この場合n=4 悪口表現の直前に連接する単語列 (左連接属性) n-gram 確率 この場合n=5 悪口表現の直後に連接する単語列 (右連接属性)
  5. 15 悪口n-gram モデルの例 0.743 は 底抜け に <悪口> 0.67 <悪口>

    は さっさと 日本 から n-gram 確率 この場合n=4 悪口表現の直前に連接する単語列 (左連接属性) n-gram 確率 この場合n=5 悪口表現の直後に連接する単語列 (右連接属性) この単語列があった時に 右側を抽出 この単語列があった時に 左側を抽出
  6. 16 マス ゴミ の クズ どもる て ,何 で こう

    なる 事が… 悪口表現獲得までの例 マスゴミのクズどもって,何でこうなる事が… 適用されるn-gram z <悪口> どもる て , 抽出される悪口表現 z マスゴミのクズ 入力文 形態素解析後
  7. 17 評価実験 z 評価セット z 悪口文378文, 非悪口文382文 z 評価方法 z

    抽出された文字列を人手で悪口表現か評価 z 実験条件 z n-gram確率を閾値