Upgrade to Pro — share decks privately, control downloads, hide ads and more …

集合知プログラミング勉強会 #TokyoCI #9 高度な分類手法:カーネルメソッドと SVM

集合知プログラミング勉強会 #TokyoCI #9 高度な分類手法:カーネルメソッドと SVM

第9回集合知プログラミング勉強会 ( http://atnd.org/events/38219 ) の発表資料です。

KOMIYA Atsushi

April 02, 2013
Tweet

More Decks by KOMIYA Atsushi

Other Decks in Technology

Transcript

  1. ベクトルのなす角を見る M0 M1 X1 X2 C 角度が < 90° であれば「適している」

    > 90° であれば「適していない」 と判断することができる!!!
  2. ベクトルの内積 • ∙ = cos • ∙ = + •

    = , , = ( , ) 角度は分からないけど、 内積を計算すれば目的は 果たせる
  3. カテゴリデータを数値化する •「Yes/No」→ 1 / -1 に置き換える •「趣味」→ 一緒の趣味を数え上げる •男性:fashion, opera,

    tv, travel •女性:soccer, fashon, tv, movies •値は 2 •「住所」→ ジオコーディング&距離計算 •今回は geopy + Bing Maps API を利用
  4. カテゴリデータを数値化する •「Yes/No」→ 1 / -1 に置き換える •「趣味」→ 一緒の趣味を数え上げる •男性:fashion, opera,

    tv, travel •女性:soccer, fashon, tv, movies •値は 2 •「住所」→ ジオコーディング&距離計算 •今回は geopy + Bing Maps API を利用 これが最適なやり方か どうかは別
  5. 分類結果・精度 • 精度の測定方法 • matchmaker.csv の全 500 件を訓練データとして利用 • 同じく全

    500 件をそのまま評価データとして利用 • 測定対象 • スケーリングなし • スケーリングあり • おまけ:AROW • 利用する特徴 • 年齢のみ • 年齢・子供 • 年齢・子供・喫煙 • 年齢・子供・喫煙・趣味 • すべて(上記+住所)
  6. 分類結果 スケールなし スケールあり AROW 年齢のみ 279/500 (55.8%) 279/500 (55.8%) 299/500

    (59.8%) 年齢/子供 279/500 (55.8%) 297/500 (59.4%) 354/500 (70.8%) 年齢/子供/喫煙 279/500 (55.8%) 294/500 (58.8%) 314/500 (62.8%) 年齢/子供/喫煙/趣味 279/500 (55.8%) 294/500 (58.8%) 312/500 (62.4%) すべて (上記+住所) 278/500 (55.6%) 294/500 (58.8%) 292/500 (58.4%)
  7. 分類結果 スケールなし スケールあり AROW 年齢のみ 279/500 (55.8%) 279/500 (55.8%) 299/500

    (59.8%) 年齢/子供 279/500 (55.8%) 297/500 (59.4%) 354/500 (70.8%) 年齢/子供/喫煙 279/500 (55.8%) 294/500 (58.8%) 314/500 (62.8%) 年齢/子供/喫煙/趣味 279/500 (55.8%) 294/500 (58.8%) 312/500 (62.4%) すべて (上記+住所) 278/500 (55.6%) 294/500 (58.8%) 292/500 (58.4%) …何とも微妙な結果 ですね!