Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス12_分類.pdf

 データサイエンス12_分類.pdf

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. その他の機械学習  半教師あり学習  教師ありと教師なしの中間  一部のデータにのみ正解が付与されている  強化学習 

    正解は付与されていない  アルゴリズムの出力結果がどの程度正しそうかという情報「報酬」を得ること ができる
  2. データを分類する  分類(classification)  未知の事例に対して、予め定義されたクラスのどれに所属するかを判断する処 理  クラス数は所与  教師あり学習

     クラスタリング(clustering, クラスタ分析)  事例集合に対して、何らかの基準で類似するいくつかのクラスに分類する処理  クラス数は所与または自動決定  教師なし学習
  3. 決定木(けっていぎ, Decision Tree)  データを木構造の形式で分類したもの  エントロピー(乱雑さ)を分類基準に考える  解釈が容易 

    過学習しやすい=分類性能が(それほど)高くない  これへの対処もいくつか検討されている
  4. https://tokoname.mallkyujin.jp/contents/text/c106/ ファッ ション グッズ グル メ 美容 サービ ス 初対面の人とてもなんとなく話せる

    〇 〇 〇 × × 好きなものから先に食べる × 〇 〇 〇 〇 お気に入りのお店は友達にも… × 〇 × × 〇 実は働きたくない 〇 〇 〇 〇 〇 ショッピングは色々比較してから… 〇 〇 × × 〇 一人よりも仲間とみんなでいる… × 〇 〇 〇 × 恋人とはLINEより電話で話したい 〇 〇 × × × 大勢の前でも緊張はしない 〇 × 〇 〇 × 自分のこだわりポイントは… 〇 × × × × ドタキャンされても気にしないほうだ × × 〇 〇 〇
  5. SVM(Support Vector Machine)  N次元のベクトル(数値データ)を二値分類するための手法  決定木とは違って数値データのみが対象  マージン最大化 

    最も類似した項目(=サポートベクトル)をできるだけ明確に分類する仕組 み  これはすなわち、SVMが統計的な分類手法ではないことも意味する  カーネルトリック  分類しやすくするためにベクトルを高次元化するテクニック