Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
単純ベイズ分類利用のための基礎知識 #TechLunch
Search
Livesense Inc.
PRO
April 23, 2014
Technology
0
82
単純ベイズ分類利用のための基礎知識 #TechLunch
2012/04/18(水) @ Livesense TechLunch
発表者:福田 絵里
Livesense Inc.
PRO
April 23, 2014
Tweet
Share
More Decks by Livesense Inc.
See All by Livesense Inc.
株式会社リブセンス 会社説明資料(報道関係者様向け)
livesense
PRO
0
1.2k
データ基盤の負債解消のためのリプレイス
livesense
PRO
0
280
26新卒_総合職採用_会社説明資料
livesense
PRO
0
5.6k
株式会社リブセンス会社紹介資料 / Invent the next common.
livesense
PRO
1
15k
26新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
1
9.1k
中途セールス職_会社説明資料
livesense
PRO
0
220
EM候補者向け転職会議説明資料
livesense
PRO
0
99
コロナで失われたノベルティ作成ノウハウを復活させた話
livesense
PRO
0
220
転職会議でGPT-3を活用した企業口コミ要約機能をリリースした話
livesense
PRO
0
1.3k
Other Decks in Technology
See All in Technology
PHPStan をできる限り高速化してみる
colopl
0
250
スケールアップ企業のQA組織のバリューを最大限に引き出すための取り組み
tarappo
4
900
非エンジニアにも伝えるメールセキュリティ / Email security for non-engineers
ykanoh
13
3.8k
LINEギフトのLINEミニアプリアクセシビリティ改善事例
lycorptech_jp
PRO
0
240
SSH公開鍵認証による接続 / Connecting with SSH Public Key Authentication
kaityo256
PRO
2
210
頻繁リリース × 高品質 = 無理ゲー? いや、できます!/20250306 Shoki Hyo
shift_evolve
0
150
問題解決に役立つ数理工学
recruitengineers
PRO
7
1.8k
Engineering Managementのグローバルトレンド #emoasis / Engineering Management Global Trend
kyonmm
PRO
6
980
モノリスの認知負荷に立ち向かう、コードの所有者という思想と現実
kzkmaeda
0
110
30代エンジニアが考える、エンジニア生存戦略~~セキュリティを添えて~~
masakiokuda
4
2k
ISUCONにPHPで挑み続けてできるようになっ(てき)たこと / phperkaigi2025
blue_goheimochi
0
140
空が堕ち、大地が割れ、海が涸れた日~もしも愛用しているフレームワークが開発停止したら?~ #phperkaigi 2025
77web
2
990
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.7k
The Cult of Friendly URLs
andyhume
78
6.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
Embracing the Ebb and Flow
colly
85
4.6k
It's Worth the Effort
3n
184
28k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Being A Developer After 40
akosma
90
590k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Producing Creativity
orderedlist
PRO
344
40k
Transcript
単純ベイズ分類器 利用のための基礎知識
•事前確率 ・ある変数について知られていることを確率とし て表現するもの ・証拠なし •事後確率 ・証拠を考慮に入れた条件での変数の確率 事前確率・事後確率 相性が良い確率 0.5
相性が良い確率 0.7 データ: スポーツの趣味 が一致 初対面
「あなたは事業ネタ鑑定人です」 ・事業が成功する確率は「千に3つ」 ・それが成功ネタの時:言い当てられる確率99% ・それが失敗ネタの時:言い当てられる確率90% ある日、絶対成功ネタだ!とあなたが確信した 事業ネタに出会います。 問題:それが実際に成功ネタである確率は?? 事前確率・事後確率 (問)
「あなたは事業ネタ鑑定人です」 ・事業が成功する確率は「千に3つ」 ・それが成功ネタの時:言い当てられる確率99% ・それが失敗ネタの時:言い当てられる確率90% ある日、絶対成功ネタだ!とあなたが確信した 事業ネタに出会います。 問題:それが実際に成功ネタである確率は?? 正解:2.9% 事前確率・事後確率 (解答)
事前確率 事後確率
AのもとでBが起こる確率× Aの起こる確率 BのもとでAが起こる確率= ―――――――――――――――――――― Bの起こる確率 ベイズの定理 データ 事前確率 事後確率
データDが得られたときの原因がH 1 である確率 ベイズの基本公式 データ(結果) 仮説1(原因) = 一般化
H1 = 成功、H2 = 失敗、D = 成功判定 P(成功) = 成功ネタである確率
= 0.3% P(失敗) = 成功ネタでない確率 = 99.7% P(成功判定|成功) = 成功ネタを成功と判定する確率 = 99% P(成功判定|失敗) = 失敗ネタを成功と判定する確率 = 10% P(成功|成功判定) = 成功判定されたネタが実際に成功ネタである確率 P(成功判定|成功) × P(成功) = ――――――――――――――――――――――――――――― P(成功判定|成功) × P(成功) + P(成功判定|失敗) × P(失敗) = 2.9% 事前確率・事後確率 (解説) 事前確率 事後確率
ベイズ理論を利用して、与えられたデータを目的のカテゴリー に分類する技法。 •単純ベイズ分類器 (Naive Bayes classifier) ベイズ分類の最も簡単なもの。 カテゴリ毎に「そのカテゴリに属する文書」を使って学習。 数あるテキスト分類の技法との比較すると、 実装が簡単、高速
→ 比較的よく利用されている •補集合単純ベイズ分類器 (Complement Bayes classifier) カテゴリ毎に「そのカテゴリに属さない文書」を使って学習。 速さは単純ベイズ分類より多少劣るが、単純ベイズ分類よりも 精度が高い。 ベイズ分類器 (Bayes classifier)
※テキスト分類手法:非常に多くの研究があり、そのア ルゴリズムも大量 ナイーブベイズ、決定木、Rocchio分類法、k-最近傍法、ロジス ティック回帰、ニューラルネットワーク、サポートベクトルマシン 、ブースティング etc... ※一般的には、サポートベクトルマシンやブースティン グが他の手法と比べて高精度な分類ができると言われて いる
•Paul Grahamのスパム対策 → ベイジアンフィルタを考案 単純ベイズ分類器の適用例 学習量が増えると フィルタの分類精 度が上昇 個々の判定を間違えた
場合には、ユーザが正 しい内容に判定しなお し、再学習 数学モデル 数学モデル ( (ベイズ理論 ベイズ理論) ) スパムメール スパムではない メール トレーニング 用データ 参照 登録 元メール 再学習
→次回 単純ベイズ分類器実装
→次回 MySQL Cluster 7.2