Slide 1

Slide 1 text

単純ベイズ分類器  利用のための基礎知識

Slide 2

Slide 2 text

●事前確率 ・ある変数について知られていることを確率とし て表現するもの ・証拠なし ●事後確率 ・証拠を考慮に入れた条件での変数の確率    事前確率・事後確率 相性が良い確率 0.5 相性が良い確率 0.7 データ: スポーツの趣味 が一致 初対面

Slide 3

Slide 3 text

「あなたは事業ネタ鑑定人です」 ・事業が成功する確率は「千に3つ」 ・それが成功ネタの時:言い当てられる確率99% ・それが失敗ネタの時:言い当てられる確率90% ある日、絶対成功ネタだ!とあなたが確信した 事業ネタに出会います。 問題:それが実際に成功ネタである確率は??   事前確率・事後確率 (問)

Slide 4

Slide 4 text

「あなたは事業ネタ鑑定人です」 ・事業が成功する確率は「千に3つ」 ・それが成功ネタの時:言い当てられる確率99% ・それが失敗ネタの時:言い当てられる確率90% ある日、絶対成功ネタだ!とあなたが確信した 事業ネタに出会います。 問題:それが実際に成功ネタである確率は??   正解:2.9% 事前確率・事後確率 (解答) 事前確率 事後確率

Slide 5

Slide 5 text

            AのもとでBが起こる確率× Aの起こる確率 BのもとでAが起こる確率= ――――――――――――――――――――                   Bの起こる確率 ベイズの定理 データ 事前確率 事後確率

Slide 6

Slide 6 text

データDが得られたときの原因がH 1 である確率 ベイズの基本公式 データ(結果) 仮説1(原因) = 一般化

Slide 7

Slide 7 text

H1 = 成功、H2 = 失敗、D = 成功判定 P(成功) = 成功ネタである確率 = 0.3% P(失敗) = 成功ネタでない確率 = 99.7% P(成功判定|成功) = 成功ネタを成功と判定する確率 = 99% P(成功判定|失敗) = 失敗ネタを成功と判定する確率 = 10% P(成功|成功判定) = 成功判定されたネタが実際に成功ネタである確率 P(成功判定|成功) × P(成功) = ――――――――――――――――――――――――――――― P(成功判定|成功) × P(成功) + P(成功判定|失敗) × P(失敗) = 2.9% 事前確率・事後確率 (解説) 事前確率 事後確率

Slide 8

Slide 8 text

ベイズ理論を利用して、与えられたデータを目的のカテゴリー に分類する技法。 ●単純ベイズ分類器 (Naive Bayes classifier) ベイズ分類の最も簡単なもの。 カテゴリ毎に「そのカテゴリに属する文書」を使って学習。 数あるテキスト分類の技法との比較すると、 実装が簡単、高速 → 比較的よく利用されている ●補集合単純ベイズ分類器 (Complement Bayes classifier) カテゴリ毎に「そのカテゴリに属さない文書」を使って学習。 速さは単純ベイズ分類より多少劣るが、単純ベイズ分類よりも 精度が高い。 ベイズ分類器 (Bayes classifier)

Slide 9

Slide 9 text

※テキスト分類手法:非常に多くの研究があり、そのア ルゴリズムも大量 ナイーブベイズ、決定木、Rocchio分類法、k-最近傍法、ロジス ティック回帰、ニューラルネットワーク、サポートベクトルマシン 、ブースティング etc... ※一般的には、サポートベクトルマシンやブースティン グが他の手法と比べて高精度な分類ができると言われて いる

Slide 10

Slide 10 text

  ●Paul Grahamのスパム対策 → ベイジアンフィルタを考案 単純ベイズ分類器の適用例 学習量が増えると フィルタの分類精 度が上昇 個々の判定を間違えた 場合には、ユーザが正 しい内容に判定しなお し、再学習 数学モデル 数学モデル ( (ベイズ理論 ベイズ理論) ) スパムメール スパムではない メール トレーニング 用データ 参照 登録 元メール 再学習

Slide 11

Slide 11 text

→次回  単純ベイズ分類器実装

Slide 12

Slide 12 text

→次回  MySQL Cluster 7.2