単純ベイズ分類利用のための基礎知識 #TechLunch

単純ベイズ分類器　利用のための基礎知識

•事前確率・ある変数について知られていることを確率として表現するもの・証拠なし •事後確率・証拠を考慮に入れた条件での変数の確率　　事前確率・事後確率相性が良い確率 0.5
相性が良い確率 0.7 データ：スポーツの趣味が一致初対面

「あなたは事業ネタ鑑定人です」・事業が成功する確率は「千に3つ」・それが成功ネタの時：言い当てられる確率99％・それが失敗ネタの時：言い当てられる確率90％ある日、絶対成功ネタだ！とあなたが確信した事業ネタに出会います。問題：それが実際に成功ネタである確率は？？　事前確率・事後確率（問）

「あなたは事業ネタ鑑定人です」・事業が成功する確率は「千に3つ」・それが成功ネタの時：言い当てられる確率99％・それが失敗ネタの時：言い当てられる確率90％ある日、絶対成功ネタだ！とあなたが確信した事業ネタに出会います。問題：それが実際に成功ネタである確率は？？　　正解：2.9％事前確率・事後確率（解答）
事前確率事後確率

　　　　　　　　　　　 AのもとでBが起こる確率× Aの起こる確率 BのもとでAが起こる確率= ―――――――――――――――――――― 　　　　　　　　　　　　　　　　　　Bの起こる確率ベイズの定理データ事前確率事後確率

データDが得られたときの原因がH 1 である確率ベイズの基本公式データ(結果) 仮説1(原因) ＝一般化

H1 = 成功、H2 = 失敗、D = 成功判定 P(成功) = 成功ネタである確率
= 0.3％ P(失敗) = 成功ネタでない確率 = 99.7％ P(成功判定|成功) = 成功ネタを成功と判定する確率 = 99％ P(成功判定|失敗) = 失敗ネタを成功と判定する確率 = 10％ P(成功|成功判定) = 成功判定されたネタが実際に成功ネタである確率 P(成功判定|成功) × P(成功) = ――――――――――――――――――――――――――――― P(成功判定|成功) × P(成功) ＋ P(成功判定|失敗) × P(失敗) = 2.9％事前確率・事後確率（解説）事前確率事後確率

ベイズ理論を利用して、与えられたデータを目的のカテゴリーに分類する技法。 •単純ベイズ分類器（Naive Bayes classifier）ベイズ分類の最も簡単なもの。カテゴリ毎に「そのカテゴリに属する文書」を使って学習。数あるテキスト分類の技法との比較すると、実装が簡単、高速
→ 比較的よく利用されている •補集合単純ベイズ分類器（Complement Bayes classifier）カテゴリ毎に「そのカテゴリに属さない文書」を使って学習。速さは単純ベイズ分類より多少劣るが、単純ベイズ分類よりも精度が高い。ベイズ分類器 (Bayes classifier)

※テキスト分類手法：非常に多くの研究があり、そのアルゴリズムも大量ナイーブベイズ、決定木、Rocchio分類法、k-最近傍法、ロジスティック回帰、ニューラルネットワーク、サポートベクトルマシン、ブースティング etc... ※一般的には、サポートベクトルマシンやブースティングが他の手法と比べて高精度な分類ができると言われている

　 •Paul Grahamのスパム対策 → ベイジアンフィルタを考案単純ベイズ分類器の適用例学習量が増えるとフィルタの分類精度が上昇個々の判定を間違えた
場合には、ユーザが正しい内容に判定しなおし、再学習数学モデル数学モデル ( (ベイズ理論ベイズ理論) ) スパムメールスパムではないメールトレーニング用データ参照登録元メール再学習

→次回　単純ベイズ分類器実装

→次回　MySQL Cluster 7.2

単純ベイズ分類利用のための基礎知識 #TechLunch

単純ベイズ分類利用のための基礎知識 #TechLunch

Livesense Inc.
PRO

More Decks by Livesense Inc.

Other Decks in Technology

Featured

Transcript

単純ベイズ分類器　利用のための基礎知識

•事前確率・ある変数について知られていることを確率として表現するもの・証拠なし •事後確率・証拠を考慮に入れた条件での変数の確率　　事前確率・事後確率相性が良い確率 0.5

AのもとでBが起こる確率× Aの起こる確率 BのもとでAが起こる確率= ―――――――――――――――――――― 　　　　　　　　　　　　　　　　　　Bの起こる確率ベイズの定理データ事前確率事後確率

データDが得られたときの原因がH 1 である確率ベイズの基本公式データ(結果) 仮説1(原因) ＝一般化

H1 = 成功、H2 = 失敗、D = 成功判定 P(成功) = 成功ネタである確率

•Paul Grahamのスパム対策 → ベイジアンフィルタを考案単純ベイズ分類器の適用例学習量が増えるとフィルタの分類精度が上昇個々の判定を間違えた

→次回　単純ベイズ分類器実装

→次回　MySQL Cluster 7.2