Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
誹謗中傷を表す文の自動検出
Search
自然言語処理研究室
March 31, 2010
Research
0
340
誹謗中傷を表す文の自動検出
石坂 達也, 山本 和英. 誹謗中傷を表す文の自動検出. NLP若手の会 第5回シンポジウム, (発表14) (2010.9)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
1.3k
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
yumulab
1
480
2025年度 生成AIの使い方/接し方
hkefka385
1
710
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
2
540
Weekly AI Agents News!
masatoto
33
68k
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
5.9k
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
130
20250624_熊本経済同友会6月例会講演
trafficbrain
1
370
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
220
集合間Bregmanダイバージェンスと置換不変NNによるその学習
wasyro
0
110
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
690
さくらインターネット研究所 アップデート2025年
matsumoto_r
PRO
0
660
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Designing for humans not robots
tammielis
253
25k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Embracing the Ebb and Flow
colly
86
4.7k
Building an army of robots
kneath
306
45k
Designing Experiences People Love
moore
142
24k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Producing Creativity
orderedlist
PRO
346
40k
KATA
mclloyd
30
14k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
Designing for Performance
lara
610
69k
Transcript
誹謗中傷を表す文の自動検出 長岡技術科学大学 石坂 達也, 山本 和英
1 Web上には他者を誹謗中傷する書き込みがある ネットいじめと呼ばれる社会問題となっている 最悪の場合, 自殺を引き起こしている 背景と目的 Web上の誹謗中傷の自動検出
目的 現状 人手による巡回 負担が大きい
2 他の情報を必要としない侮辱や誹謗中傷し ている単語,句を含む文 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 誹謗中傷(悪口文)の定義 皮肉などは対象外 (例)
お前天才じゃね?
3 手法の方針 評価情報を分析するための手法を引用する ある単語が好評表現/不評表現かの判定する手法 単語が悪口単語/非悪口単語かを判定して文分類 引 用 誹謗中傷文は悪口単語の影響が大きい
誹謗中傷は人への評価ともいえる
4 SO-PMI Algorithmを使用 単語の悪口度計算 ) ( ] [ log
) ( ) ( ) ( log * ) ( ) ( ) , ( ) ( ) , ( ) ( 2 2 α α α f C w SO negative hits positive hits f positive hits negative w hits negative hits positive w hits w C + = = ∗ ∗ = [Wang and Araki, 2007] negativeの 検索ヒット数 positiveの 検索ヒット数 単語wとpositiveの 検索ヒット数 重み
5 共起情報を利用して単語 の極性を判定 positiveと共起しやすいなら悪口単語 negativeと共起しやすいなら非悪口単語 検索ヒット数の差を補正するための
¾ WangらはSO-PMIを用いて好評文/不評文に分類 好評文が78%, 不評文が72%の精度で分類できた w ) ( SO-PMIの概要 α f
6 positive,negative単語の選択 評価表現を対象とする場合 positive=素晴らしい, 好き, 楽しい, 満足
negative=不良, 悪い, 欠点, 最悪 悪口単語を対象とする場合 positive=悪口単語(ウザい, 死ね, キモい) negative=悪口単語と極性が逆の単語 極性が逆の単語を使用(好評⇔不評) 悪口単語の逆とは…? 褒め言葉?非悪口単語?
7 単語の極性計算 褒め言葉を使用 可愛い, 素敵, イケメン 愚民 -3.688
派閥 -3.413 売ら -3.250 兆 -3.190 廃止 -3.162 非悪口単語を使用 机, チューリップ 消えろ -6.697 失せろ -6.667 ジャニヲタ -6.371 死ねよ -6.370 メンヘラー -6.364 悪口単語にはウザいを使用 negativeには非悪口単語を使用する 今回はとりあえず「机」で行う。
8 SO-PMIの結果の例 SO-PMIが小さい単語 消えろ -6.697 失せろ -6.667
ジャニヲタ -6.371 死ねよ -6.370 メンヘラー -6.364 鼻糞 -6.175 イラネ -6.172 ツマラン -6.143 カワイソス -6.108 バロス -6.075 SO-PMIが大きい単語 我 7.702 充分 7.744 媒体 7.801 台北 7.841 能 7.863 招か 7.942 保有 8.026 有意 8.311 威 8.649 以上 9.755 SO-PMIが小さいとき, 悪口単語が多い さらに, 悪口生起単語も多い
9 SVMを用いた分類実験 入力文が悪口文/非悪口文を判定 TinySVMを使用 学習データ&評価データ 「2ちゃんねる」から収集
被験者3人により作成 2人以上一致した評価を使用 5分割交差検定 悪口文1400文, 非悪口文1400文 ¾ 各380文は評価データとして使用
10 素性と特徴量とα 素性 文に含まれる形態素(記号除く) 特徴量 各単語のSO-PMI
α SO-PMIに使われるαによって精度が変動 αは0~1.0(0.1刻み)
11 実験結果1-1 70 75 80 85 90 95 100 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 α F値, 適合率, 再現率 F値 適合率 再現率 F値, 適合率, 再現率はそれぞれ交差検定における平均値
12 実験結果1-2 αが0.7の時、F値が91.64で最高 悪口単語を含む文は分類精度 高 (例)お前みたいな認識の馬鹿は死ねば良いと思う。
悪口単語が悪口として使われない文は… 状況によって分類精度が異なる (例)糞かっこいいー (例)あのパンはバカうまいな 比喩のような表現の悪口文は分類精度 低 (例)お前はサル以下の脳みその持ち主だな
13 実験結果2 -αと精度の関係- テストセットによって最適なαが異なる 入力に応じてαを変化するようにするべきか 0.1 0.2 0.3
0.4 0.5 0.6 0.7 0.8 0.9 1.0 testset A 90.9 91.1 90.2 89.6 89.3 91.1 92.1 92.3 88.6 72.0 testset B 90.4 90.9 90.5 91.3 91.3 90.7 90.5 89.1 84.3 74.5 testset C 92.3 92.1 91.4 90.9 90.0 90.9 91.6 89.5 85.4 69.6 testset D 92.3 92.5 92.1 92.0 92.3 92.7 93.6 92.5 86.6 75.2 testset E 90.2 89.6 89.5 89.5 89.8 90.0 90.4 89.8 81.4 74.6
14 今後 取り組みたい事 比喩表現を使用している悪口文の検出 単語単体への着目は効果が小さい 方 針 単語同士の繋がりで変化する意味の同定
入力文に応じたαの設定 方 針 入力文の特徴の同定
15 まとめ 誹謗中傷を表す文の検出することが目的 今回は評価表現分類の手法を使用 単語が悪口単語かどうかを計算した SVMの分類結果は最高でF値91.64
比喩を使う悪口文は抽出できない 単語の繋がりによる意味の変化を同定したい
16 なぜ 「2ちゃんねる」なのか z 2ちゃんねるは多くの人が利用している z さらに, 悪口書き込みが多い z 仮説
z Web全体と2ちゃんねるでは悪口表現の種 類数 に大きな差はない
17 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日 約2000スレッドを解析 z 約20万文を収集できた (例)
z つか,官僚死ねや z 泥棒ゴミクズ団体はさっさと吊ってこい! z こんなんでイチイチ騒ぐなボケカス。
18 類似研究 有害サイトのフィルタリング Goez et al. 2003, Grilheres
et al. 2004, Lee et al. 2004 有害サイトの単語を学習させて分類器で分類 学校非公式サイトから有害となる単語の検出 松葉ら 2009,2010 規則と分類器で分類 単語ではなくn-gramで有害(悪口)となる句をもとに抽出 本手法は…