Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
誹謗中傷を表す文の自動検出
Search
自然言語処理研究室
March 31, 2010
Research
0
330
誹謗中傷を表す文の自動検出
石坂 達也, 山本 和英. 誹謗中傷を表す文の自動検出. NLP若手の会 第5回シンポジウム, (発表14) (2010.9)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
450
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
2
610
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
970
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
820
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
270
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
230
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
Self-supervised audiovisual representation learning for remote sensing data
satai
3
220
Cross-Media Information Spaces and Architectures
signer
PRO
0
220
学生向けアンケート<データサイエンティストについて>
datascientistsociety
PRO
0
3.2k
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
1k
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
For a Future-Friendly Web
brad_frost
179
9.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Six Lessons from altMBA
skipperchong
28
3.9k
How to Ace a Technical Interview
jacobian
277
23k
Site-Speed That Sticks
csswizardry
10
670
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Typedesign – Prime Four
hannesfritz
42
2.7k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Stop Working from a Prison Cell
hatefulcrawdad
270
20k
Transcript
誹謗中傷を表す文の自動検出 長岡技術科学大学 石坂 達也, 山本 和英
1 Web上には他者を誹謗中傷する書き込みがある ネットいじめと呼ばれる社会問題となっている 最悪の場合, 自殺を引き起こしている 背景と目的 Web上の誹謗中傷の自動検出
目的 現状 人手による巡回 負担が大きい
2 他の情報を必要としない侮辱や誹謗中傷し ている単語,句を含む文 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 誹謗中傷(悪口文)の定義 皮肉などは対象外 (例)
お前天才じゃね?
3 手法の方針 評価情報を分析するための手法を引用する ある単語が好評表現/不評表現かの判定する手法 単語が悪口単語/非悪口単語かを判定して文分類 引 用 誹謗中傷文は悪口単語の影響が大きい
誹謗中傷は人への評価ともいえる
4 SO-PMI Algorithmを使用 単語の悪口度計算 ) ( ] [ log
) ( ) ( ) ( log * ) ( ) ( ) , ( ) ( ) , ( ) ( 2 2 α α α f C w SO negative hits positive hits f positive hits negative w hits negative hits positive w hits w C + = = ∗ ∗ = [Wang and Araki, 2007] negativeの 検索ヒット数 positiveの 検索ヒット数 単語wとpositiveの 検索ヒット数 重み
5 共起情報を利用して単語 の極性を判定 positiveと共起しやすいなら悪口単語 negativeと共起しやすいなら非悪口単語 検索ヒット数の差を補正するための
¾ WangらはSO-PMIを用いて好評文/不評文に分類 好評文が78%, 不評文が72%の精度で分類できた w ) ( SO-PMIの概要 α f
6 positive,negative単語の選択 評価表現を対象とする場合 positive=素晴らしい, 好き, 楽しい, 満足
negative=不良, 悪い, 欠点, 最悪 悪口単語を対象とする場合 positive=悪口単語(ウザい, 死ね, キモい) negative=悪口単語と極性が逆の単語 極性が逆の単語を使用(好評⇔不評) 悪口単語の逆とは…? 褒め言葉?非悪口単語?
7 単語の極性計算 褒め言葉を使用 可愛い, 素敵, イケメン 愚民 -3.688
派閥 -3.413 売ら -3.250 兆 -3.190 廃止 -3.162 非悪口単語を使用 机, チューリップ 消えろ -6.697 失せろ -6.667 ジャニヲタ -6.371 死ねよ -6.370 メンヘラー -6.364 悪口単語にはウザいを使用 negativeには非悪口単語を使用する 今回はとりあえず「机」で行う。
8 SO-PMIの結果の例 SO-PMIが小さい単語 消えろ -6.697 失せろ -6.667
ジャニヲタ -6.371 死ねよ -6.370 メンヘラー -6.364 鼻糞 -6.175 イラネ -6.172 ツマラン -6.143 カワイソス -6.108 バロス -6.075 SO-PMIが大きい単語 我 7.702 充分 7.744 媒体 7.801 台北 7.841 能 7.863 招か 7.942 保有 8.026 有意 8.311 威 8.649 以上 9.755 SO-PMIが小さいとき, 悪口単語が多い さらに, 悪口生起単語も多い
9 SVMを用いた分類実験 入力文が悪口文/非悪口文を判定 TinySVMを使用 学習データ&評価データ 「2ちゃんねる」から収集
被験者3人により作成 2人以上一致した評価を使用 5分割交差検定 悪口文1400文, 非悪口文1400文 ¾ 各380文は評価データとして使用
10 素性と特徴量とα 素性 文に含まれる形態素(記号除く) 特徴量 各単語のSO-PMI
α SO-PMIに使われるαによって精度が変動 αは0~1.0(0.1刻み)
11 実験結果1-1 70 75 80 85 90 95 100 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 α F値, 適合率, 再現率 F値 適合率 再現率 F値, 適合率, 再現率はそれぞれ交差検定における平均値
12 実験結果1-2 αが0.7の時、F値が91.64で最高 悪口単語を含む文は分類精度 高 (例)お前みたいな認識の馬鹿は死ねば良いと思う。
悪口単語が悪口として使われない文は… 状況によって分類精度が異なる (例)糞かっこいいー (例)あのパンはバカうまいな 比喩のような表現の悪口文は分類精度 低 (例)お前はサル以下の脳みその持ち主だな
13 実験結果2 -αと精度の関係- テストセットによって最適なαが異なる 入力に応じてαを変化するようにするべきか 0.1 0.2 0.3
0.4 0.5 0.6 0.7 0.8 0.9 1.0 testset A 90.9 91.1 90.2 89.6 89.3 91.1 92.1 92.3 88.6 72.0 testset B 90.4 90.9 90.5 91.3 91.3 90.7 90.5 89.1 84.3 74.5 testset C 92.3 92.1 91.4 90.9 90.0 90.9 91.6 89.5 85.4 69.6 testset D 92.3 92.5 92.1 92.0 92.3 92.7 93.6 92.5 86.6 75.2 testset E 90.2 89.6 89.5 89.5 89.8 90.0 90.4 89.8 81.4 74.6
14 今後 取り組みたい事 比喩表現を使用している悪口文の検出 単語単体への着目は効果が小さい 方 針 単語同士の繋がりで変化する意味の同定
入力文に応じたαの設定 方 針 入力文の特徴の同定
15 まとめ 誹謗中傷を表す文の検出することが目的 今回は評価表現分類の手法を使用 単語が悪口単語かどうかを計算した SVMの分類結果は最高でF値91.64
比喩を使う悪口文は抽出できない 単語の繋がりによる意味の変化を同定したい
16 なぜ 「2ちゃんねる」なのか z 2ちゃんねるは多くの人が利用している z さらに, 悪口書き込みが多い z 仮説
z Web全体と2ちゃんねるでは悪口表現の種 類数 に大きな差はない
17 悪口文の収集 z 種辞書の登録表現を含む文(悪口文)を収集 z 毎日 約2000スレッドを解析 z 約20万文を収集できた (例)
z つか,官僚死ねや z 泥棒ゴミクズ団体はさっさと吊ってこい! z こんなんでイチイチ騒ぐなボケカス。
18 類似研究 有害サイトのフィルタリング Goez et al. 2003, Grilheres
et al. 2004, Lee et al. 2004 有害サイトの単語を学習させて分類器で分類 学校非公式サイトから有害となる単語の検出 松葉ら 2009,2010 規則と分類器で分類 単語ではなくn-gramで有害(悪口)となる句をもとに抽出 本手法は…