Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2ちゃんねるを対象とした悪口表現の抽出
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2010
Research
2
470
2ちゃんねるを対象とした悪口表現の抽出
石坂 達也, 山本 和英. 2ちゃんねるを対象とした悪口表現の抽出. 言語処理学会第16回年次大会, pp.178-181 (2010.3)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
300
20年前に50代だった人たちの今
hysmrk
0
160
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
140
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
160
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
450
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
6.7k
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
200
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
130
R&Dチームを起ち上げる
shibuiwilliam
1
190
LLMアプリケーションの透明性について
fufufukakaka
0
180
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
860
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
900
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Music & Morning Musume
bryan
47
7.1k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
460
We Have a Design System, Now What?
morganepeng
55
8k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
630
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
460
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
630
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
100
Prompt Engineering for Job Search
mfonobong
0
180
GitHub's CSS Performance
jonrohan
1032
470k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Transcript
1 2ちゃんねるを対象とした 悪口表現の抽出 長岡技術科学大学 石坂達也 山本和英
2 背景 z Web上には他者を誹謗中傷する書き込みが存在 z 最悪の場合, 自殺のきっかけとなる 悪口書き込みはより厳重に管理されるべき 辞書を使用したフィルタリング 堅実な方法として…
3 悪口表現辞書の構築 今回 悪口表現抽出の手法を検討 目的 悪口表現の抽出が必須
4 z 他の情報を必要としない侮辱や誹謗中傷し ている単語,句 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 悪口表現の定義
5 z 他の情報を必要としない侮辱や誹謗中傷し ている単語,句 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 悪口表現の定義 皮肉は対象外
6 z 他の情報を必要としない侮辱や誹謗中傷し ている単語,句 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 悪口表現の定義 「バカ」は悪口ではない場合がある (例)バカうまい
7 z 2ちゃんねるは多くの人が利用している z さらに, 悪口書き込みが多い 仮説 Web全体と2ちゃんねるでは 悪口表現の種類数 に大きな差はない
なぜ 「2ちゃんねる」なのか
8 問題点 と 基本方針 z 2ちゃんねるを対象にすることで生じる問題点 z 形態素解析器の解析ミス(単語の区切り、品詞情報) z 文の区切りが句点とは限らない
z 造語, 隠語が多い z 基本方針 z 品詞情報を無視 z 単語の過分割にも対応可能
9 手法の流れ 1. 悪口表現種辞書の構築 2. 悪口文の収集 3. 悪口n-gram モデルの作成 4.
悪口表現抽出
10 悪口表現種辞書の構築 z 人手で2ちゃんねるから悪口表現を抽出 z 103件 (例) z みんなまとめて逝け z
うざい z キモイ z ヲタは地獄に落ちろ
11 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日 約2000スレッドを解析 z 約20万文を収集できた (例)
z つか,官僚死ねや z 泥棒ゴミクズ団体はさっさと吊ってこい! z こんなんでイチイチ騒ぐなボケカス。
12 悪口n-gram モデルの作成 1/2 z 悪口文と非悪口文からモデルを作成 z 悪口文を約20万文, 非悪口文を約50万文 z
単語n-gram z 1~5-gram z 前向きと後ろ向きn-gramの2パターン z SRILMを使用 z 悪口表現を持つn-gramを抽出
13 悪口n-gram モデルの作成 2/2 - 前処理 - z 悪口表現は1語に合成、汎化 (例)
男 って バカ な 暇人 野郎 ばっか 男 って <悪口> ばっか z 単語は原形にして扱う
14 悪口n-gram モデルの例 0.743 は 底抜け に <悪口> 0.67 <悪口>
は さっさと 日本 から n-gram 確率 この場合n=4 悪口表現の直前に連接する単語列 (左連接属性) n-gram 確率 この場合n=5 悪口表現の直後に連接する単語列 (右連接属性)
15 悪口n-gram モデルの例 0.743 は 底抜け に <悪口> 0.67 <悪口>
は さっさと 日本 から n-gram 確率 この場合n=4 悪口表現の直前に連接する単語列 (左連接属性) n-gram 確率 この場合n=5 悪口表現の直後に連接する単語列 (右連接属性) この単語列があった時に 右側を抽出 この単語列があった時に 左側を抽出
16 マス ゴミ の クズ どもる て ,何 で こう
なる 事が… 悪口表現獲得までの例 マスゴミのクズどもって,何でこうなる事が… 適用されるn-gram z <悪口> どもる て , 抽出される悪口表現 z マスゴミのクズ 入力文 形態素解析後
17 評価実験 z 評価セット z 悪口文378文, 非悪口文382文 z 評価方法 z
抽出された文字列を人手で悪口表現か評価 z 実験条件 z n-gram確率を閾値
18 実験結果(適合率)
19 実験結果(適合率) 閾値が高い場合は高確率で 悪口表現抽出が可能
20 実験結果(適合率) 閾値が高い場合は高確率で 悪口表現抽出が可能 しかし、3件 閾値を下げても再現率は最高で0.3
21 考察:適合率と再現率 z 悪口表現のみに連接しやすい単語列は少ない (定型的に存在するわけではない) より悪口表現の特徴に適した指標も必要
22 新しい悪口表現の獲得数 辞書の拡張のためには新しい悪口表現の 獲得が必要 今回の手法でいくつ獲得できているか 予備実験
23 実験結果 (獲得数)
24 実験結果 (獲得数) 閾値が低い時に 新しい悪口表現の獲得可能
25 獲得した悪口表現 z キモオタロリコン z 消えてしまえ,馬鹿 z デブ婆ァ z スタイル悪い
z カス芸人 z 馬鹿男女
26 考察:新しい悪口表現の獲得 z 閾値が低い場合に, 新しい悪口表現の獲得 z 閾値が低い場合は非悪口表現も多く獲得 z 同じ単語を使用する悪口表現を多く獲得 (例)
糞◦◦ 糞ガキ, 糞ゲー 同じ単語を使用する造語の獲得には有効
27 まとめ z n-gram確率で悪口表現を抽出する手法を検討 z 閾値が高い場合に高確率で抽出可能 z 種辞書にない表現も獲得可能
28 ご清聴有難うございました
実験結果(再現率)