Upgrade to Pro — share decks privately, control downloads, hide ads and more …

知的情報システム開発2021-第1回20211006

059fb717431a8cd2b509ffebc57d905a?s=47 Y. Yamamoto
October 06, 2021

 知的情報システム開発2021-第1回20211006

1. 機械学習とは何か
2. 授業の進め方
3. はじめての機械学習

059fb717431a8cd2b509ffebc57d905a?s=128

Y. Yamamoto

October 06, 2021
Tweet

Transcript

  1. データマイニングと機械学習の概要 & はじめての機械学習 ⼭本 祐輔 静岡⼤学 情報学部 准教授 yusuke_yamamoto@acm.org 第1回

    知的情報システム開発 2021 2021年10月6日
  2. ⼤流⾏のAI 画像出典:NHKスペシャル「AIに聞いてみた どうすんのよ!? ニッポン」 画像出典:https://www.amazon.co.jp/dp/B07JYYCG1D 4

  3. AIに対する世の中のイメージ 画像の出典:http://fr.evangelion.wikia.com/wiki/Magi 画像の出典: https://www.sideshowtoy.com/collectibles/star-wars-r2-d2-sideshow-collectibles-400155/ 正確 速い 博識 万能 6

  4. ⼈⼯知能(AI) 人工知能 強いAI 弱いAI (Artificial Intelligence) ⼈間のような⾃意識と知能をもって 作業が可能な機械 ⼈間の知的処理の⼀部を模倣する 特定問題に特化した問題解決器

    ・ 現在行われているAI研究の大半は弱いAIの研究 参考:⼈⼯知能研究(https://www.ai-gakkai.or.jp/whatsai/AIresearch.html) ・ 強いAI研究の成果(e.g. 推論)も人間の知能には遠く及ばず 7
  5. AI(⼈⼯知能)と機械学習とディープラーニング 人工知能 機械学習(弱いAIの一部) ディープラーニング = 今流行のAIの正体 大流行りのAI = 機械学習 8

  6. AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole,

    V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 9
  7. くずし字の解析 画像出典: https://www.nhk.or.jp/d-navi/sci_cul/2019/11/story/story_20191120/ 職人芸が必要だった歴史資料の書き起こし → 眠っている数億件の古文書の読解が可能に 10

  8. Predictive Policing:犯罪発⽣の事前予測 犯罪が発生する前に、犯罪現場に警察官を送り込む http://www.nytimes.com/2011/08/16/us/16police.html?_r=0 • 米国サンタクルーズ市警と UCLAとの共同研究 • 犯罪の種類や発生時間、 発生場所などのデータから

    犯罪発生予測モデルを構築 - 犯罪レポート1万1000件/年 - 電話通報記録10万5000件/年 http://itpro.nikkeibp.co.jp/atcl/watcher/14/334361/080100020/?ST=bigdata&P=2 • 電子化された犯罪レポート 11
  9. あらゆる分野で応⽤され始める機械学習 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 & 新しい価値の創造 機械学習への期待 アパレル 法律 デザイン 公共政策 12
  10. 機械学習・データマイニングの分析技術のコアは数学であるが… 㻛㻓㻚 㻔㻜㻜㻜㻓㻔 㻔㻜㻜㻜㻓㻚 㻕㻓㻓㻓㻓㻔 㻕㻓㻓㻓㻓㻚 㻕㻓㻓㻔㻓㻔 㻕㻓㻓㻔㻓㻚 㻕㻓㻓㻕㻓㻔 㻕㻓㻓㻕㻓㻚

    㻕㻓㻓㻖㻓㻔 㻕㻓㻓㻖㻓㻚 㻕㻓㻓㻗㻓㻔 㻕㻓㻓㻗㻓㻚 㻕㻓㻓㻘㻓㻔 㻕㻓㻓㻘㻓㻚 㻕㻓㻓㻙㻓㻔 㻕㻓㻓㻙㻓㻚 㻕㻓㻓㻚㻓㻔 㼗㼌㼐㼈 ncrease and decrease in the number of oncerning a fact y that a common-sense fact is found on the ease in a similar manner as time passes. The n and expired states are represented by a uni- tribution. In total, the temporal distribution ance of a statement on the Web is modeled as tribution. matical formulation is as follows. We repre- Recognition Model using a mixture distribu- eans the probability that web page about a n be created at time t. It is expressed as a lin- on of a Gaussian distribution N(t; µ, σ2) with d an exponential distribution f(t) with weight = α1N(t; µ, σ2) + α2f(t) (1) 2 i: index for distributions (i ∈ {1, 2}). αi : weight for distribution i. λ: parameter for the exponential distribution. µ: mean vector for the Gaussian. σ2: variance for the Gaussian. φi: parameter vector (αi, λ, µ, σ2). pi(xk |φi): probability of xk by distribution i. Φ: parameter vector for the mixture model. p(xk |Φ): probability of xk by the mixture model. select initial estimated parameter vector Φ until Φ converges to Φ do Φ ← Φ for each i do initialize Ψi , Mi , Si for each k do ψik ← αipi(xk|φi) p(xk|Φ) Ψi ← Ψi + ψik Mi ← Mi + ψik xk if i = 1 then Si ← Si + ψik (xk − µ)2 αi ← Ψi n if i = 1 then µ ← Mi Ψi , σ2 ← Si Ψi if i = 2 then λ ← − Ψi Mi return Φ   This algorithm is based on the calculation in Appendix A. 数理的内容の学習は,初学者にはハードルが高い 13
  11. 最近のツール事情 # Python 1 import sklearn.ensemble.GradientBoostingClassifier as GBDT 2 data

    = pd.read_csv(“data.csv”) 3 model = GBDT() 4 model.fit(data) ほとんど何も書かなくても動くので便利 中身も理解せず,正しく動かせているか分からず 利用しているユーザ(学生)が多い 14
  12. 授業の⽬的 「機械学習 & データマイニング」の 仕組みを直感的に理解し, 実問題に応用するための足掛かりを得る 15

  13. 初回授業のメニュー 1. 機械学習の概要 3. はじめての機械学習 2. 講義の進め方 今のAIは何ができる? 「決定木」を 体験してみよう

    何をどうやって学ぶのか? 16
  14. 機械学習の概要 1 今のAIは何ができるのか? 17

  15. ⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 18

  16. ⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 機械学習 大量のデータの背後に潜む法則性(モデル)を 自動的に取得し、予測や分類に役立てる技術

    19
  17. 機械学習 vs データマイニング 20 データマイニング • データ集合から「モデル」を抽出・発⾒しようとする試み • データベース分野でも盛んに研究が⾏われてきた •

    主要プレーヤー:計算機科学者(データベース & ⼈⼯知能) • データマイニング,機械学習の各分野で開発された 独⾃の技術も存在(例:相関ルールマイニング) 機械学習 • 経験(データ)から⾃動的に改善を図れるような プログラムを構築する⽅法論 • 主要プレーヤー:計算機科学者 & 統計学者 • 近年は2つの概念は同じ意味・⽂脈で使われている
  18. ⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習

    ・クラスタリング ・データ圧縮 ・分類 ・回帰 ・順序回帰 … 機械学習 21 …
  19. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 学習フェーズ 22
  20. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 23
  21. ⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習

    ・クラスタリング ・データ圧縮 ・分類 ・回帰 … 24
  22. 分類問題 画像出典:https://ja.wikipedia.org/wiki/ハタタテダイ !"#$%&'()*+,"(-./0*123 0*45$678*93:.;#<=*3 >7?@#ABCDEFGGHIJKL 対象を識別・分類する特徴を機械にどう学習させるか? 25

  23. 教師あり学習(1/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ◦◦の識別に必要となる 特徴と分類ルール

    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html !"#$%&'()*+, "(-./0*123 0*45$678*93 :.;#<=*3 >;?@ABBCDEF 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 26
  24. Google Teachable Machine https://teachablemachine.withgoogle.com/train/image 27

  25. 教師あり学習(2/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html

    大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する (予測だけが⽬的なら) ⼈間が理解できる必要はない ◦◦の識別に必要となる 特徴と分類ルール 28
  26. 機械学習がやっていること 29 データの特徴と結果の対応関係を見つける モ デ ル カツオ 未知データの結果を予測するために 𝑓 (特徴)

    結果 =
  27. 機械学習がやっていること 30 𝑓 (特徴) 結果 = データの特徴と結果の対応関係を見つける モ デ ル

    未知データの結果を予測するために If-thenルール ニューラルネットワーク (⾏列) Pr(𝑊, 𝜃; 𝛼, 𝛽) 確率モデル
  28. LINNE LENS 画像出典:https://global-square.com/blog/linne-lens_display_fish_info/ 31

  29. https://www.youtube.com/watch?v=ru2eoh4bMtU 32

  30. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 33
  31. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルがない) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ ? 機械学習のミソ データの特徴を捉えた & 汎用的に 使えるモデルをどう学習するか? 34
  32. 講義の進め方 2 何をどうやって学ぶのか? 35

  33. 講義のトピック 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 …

    … 37 行動情報学科に 特有の応用手法 時系列データ分析 時間経過とともに変化する データに対する分析⼿法
  34. 講義の⽬標 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 …

    本講義の学習目標 • 代表的な機械学習がどのように動くかを直感的に理解する • 既存ライブラリを使い例題に対して機械学習を適用できる … 39
  35. 講義計画 回 実施⽇ トピック 1 10/06 ガイダンス:機械学習の概要 & はじめての機械学習 2

    10/13 クラスタリング1:k-means & 階層的クラスタリング 3 10/20 クラスタリング2:密度ベースクラスタリング 4 10/27 分類1:K近傍法 & 教師あり機械学習のお作法 5 11/10 ゲスト講師による講演1(松村先⽣ from Wantedly) 6 11/17 分類2:サポートベクターマシン 7 11/24 分類3:ニューラルネットワーク⼊⾨ 8 12/01 時系列データとモデリング1:時系列データの統計的な扱い 9 12/08 ゲスト講師による講演2(加藤先⽣ from 筑波⼤学) 10 12/15 時系列データとモデリング2:時系列データの解析 11 12/22 時系列データとモデリング3:シミュレーションによる 時系列データの検討 12 01/12 時系列データとモデリング4:未知環境での時系列データ 13 01/19 ゲスト講師による講演3(⼭本岳先⽣ from 兵庫県⽴⼤学) 14 01/26 時系列データとモデリング5:解析と学習モデル 15 予備⽇ 40
  36. 講義計画 回 実施⽇ トピック 1 10/06 ガイダンス:機械学習の概要 & はじめての機械学習 2

    10/13 クラスタリング1:k-means & 階層的クラスタリング 3 10/20 クラスタリング2:密度ベースクラスタリング 4 10/27 分類1:K近傍法 & 教師あり機械学習のお作法 5 11/10 ゲスト講師による講演1(松村先⽣ from Wantedly) 6 11/17 分類2:サポートベクターマシン 7 11/24 分類3:ニューラルネットワーク⼊⾨ 8 12/01 時系列データとモデリング1:時系列データの統計的な扱い 9 12/08 ゲスト講師による講演2(加藤先⽣ from 筑波⼤学) 10 12/15 時系列データとモデリング2:時系列データの解析 11 12/22 時系列データとモデリング3:シミュレーションによる 時系列データの検討 12 01/12 時系列データとモデリング4:未知環境での時系列データ 13 01/19 ゲスト講師による講演3(⼭本岳先⽣ from 兵庫県⽴⼤学) 14 01/26 時系列データとモデリング5:解析と学習モデル 15 予備⽇ 41 ⼭ 本 担 当 回
  37. 講義計画 回 実施⽇ トピック 1 10/06 ガイダンス:機械学習の概要 & はじめての機械学習 2

    10/13 クラスタリング1:k-means & 階層的クラスタリング 3 10/20 クラスタリング2:密度ベースクラスタリング 4 10/27 分類1:K近傍法 & 教師あり機械学習のお作法 5 11/10 ゲスト講師による講演1(松村先⽣ from Wantedly) 6 11/17 分類2:サポートベクターマシン 7 11/24 分類3:ニューラルネットワーク⼊⾨ 8 12/01 時系列データとモデリング1:時系列データの統計的な扱い 9 12/08 ゲスト講師による講演2(加藤先⽣ from 筑波⼤学) 10 12/15 時系列データとモデリング2:時系列データの解析 11 12/22 時系列データとモデリング3:シミュレーションによる 時系列データの検討 12 01/12 時系列データとモデリング4:未知環境での時系列データ 13 01/19 ゲスト講師による講演3(⼭本岳先⽣ from 兵庫県⽴⼤学) 14 01/26 時系列データとモデリング5:解析と学習モデル 15 予備⽇ 42 ⼤ 本 先 ⽣ 担 当 回
  38. この講座でやらないこと lドメインに特化した機械学習手法 (画像処理,自然言語処理,情報検索,etc.) l前提知識の復習(線形代数,微積,確率etc) lディープラーニングの詳細解説 43

  39. 講義スタイル(⼭本担当パート) Hands-onデモ with Python 0:00 1:30 0:50 座学 機械学習技術の 適⽤体験

    機械学習の理論や ⼿法の直感的理解 (数学的にもフォローする) (⾼度なプログラミングスキルは不要) 44
  40. ⼭本パートで使⽤するもの 配布スライド(座学用) Google Colaboratory (プログラミング環境を 構築する必要はない) 45

  41. 講義スタイル(⼤本担当パート) Hands-onデモ with Unity + R 0:00 1:30 0:50 座学

    時系列データ分析 技術の適⽤体験 時系列データ分析の理論や ⼿法の直感的理解 (数学的にもフォローする) (⾼度なプログラミングスキルは不要) 46
  42. 成績評価 レポート: 100% ・実際にコードを⾛らせて機械学習の動作や結果を考察 ・アルゴリズムの動作⼿順を頭で追う練習など 47

  43. 参考図書(初学者向け) 画像出典2: https://www.amazon.co.jp/dp/B07GYS3RG7/ 画像出典1: https://www.amazon.co.jp/dp/B00MWODXX8 48

  44. 参考図書(こってり学ぶ) 画像出典: https://www.amazon.co.jp/dp/432012362X 画像出典: https://www.amazon.co.jp/dp/4621061224 49

  45. はじめての機械学習 3「決定⽊」を使って「教師あり学習(分類)」を体験 50

  46. 教師あり学習の歴史(⼀部抜粋) ロジスティック回帰 サポートベクターマシン 決定木 パーセプトロン 単純ベイズ分類器 ランダムフォレスト k-近傍法 ベイジアンネットワーク 深層学習

    1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 本⽇体験するのはコレ (初学者が勉強しやすい) 51
  47. 決定⽊の概要(問題定義) 入力 分類ラベルのついた ベクトルの集合(表データ) 出力 ラベルを予測するための ルールを要約した⽊ 利用するケース 予測モデルに加えて, 分類ルールを確認したいとき

    ID 柄色 柄形 臭い 毒 1 紫 直線 あり あり 2 朱 末広 刺激 なし … … … … … キノコの記録 毒キノコを分類するルールを抽出 臭い あり なし 柄の色が緑 yes no 毒あり1% 毒あり100% … 52
  48. 例: 迷惑メール分類問題 53 Email(通常メール)かSpam(広告メール)が ラベリングされたメールの本⽂を使って 迷惑メール分類器を作りたい HAM or SPAM ?

  49. 迷惑メールデータセット @UCI Machine Learning Repository 54 データセット: https://archive.ics.uci.edu/ml/datasets/spambase 4601通の英⽂メールに 関するデータセット

    • ある単語がメールに占める割合 (例: business, free, address) • email or spamの2値ラベル • ある⽂字がメールに占める割合 (例: !, $, #) • 連続した⼤⽂字の⻑さの平均値 • 連続した⼤⽂字の⻑さの最⼤値 • 連続した⼤⽂字の⻑さの総和
  50. データを分類するif-thenルールを出力 迷惑メール問題に対する決定⽊の出⼒例 55 600/1536 280/1177 180/1065 80/861 80/652 77/423 3/229

    0/209 100/204 36/123 16/94 9/29 16/81 9/112 6/109 0/3 48/359 26/337 19/110 18/109 0/1 7/227 0/22 spam spam spam spam spam spam spam spam spam spam email email email email email email email email email email email email email email email email email ch$<0.0555 remove<0.06 ch!<0.191 george<0.005 hp<0.03 CAPMAX<10.5 CAPAVE<2.7505 free<0.065 business<0.145 george<0.15 hp<0.405 CAPAVE<2.907 1999<0.58 ch$>0.0555 remove>0.06 ch!>0.191 george>0.005 hp>0.03 CAPMAX>10.5 CAPAVE>2.7505 free>0.065 business>0.145 george>0.15 hp>0.405 CAPAVE>2.907 1999>0.58 画像出典: T. Hastie et al. (2009): “The Elements of Statistical Learning”, Springer.
  51. 例: 毒キノコ分類問題 56 ID 柄色 柄形 臭い 毒 1 紫

    直線 あり あり 2 朱 末広 刺激 なし … … … … … キノコの記録 毒キノコ分類ルール 臭い あり なし 柄の色が緑 yes no 毒あり1% 毒あり100% … 毒々しい⾊ → 毒あり 柄が縦に割ける → 毒なし ⾍が⾷べている → 毒なし 迷信 決定⽊ どうやってデータから分類ルールを見つけるか?
  52. 決定⽊アルゴリズムの直感的アイデア 柄の⾊が緑 有毒 無毒 データの割合 有毒 無毒 データの割合 YES NO

    カサの裏にヒダ 有毒 無毒 データの割合 有毒 無毒 データの割合 YES NO vs. 分類ルールを仮適応したときにデータの不純度 (の加重平均)が最も小さくなるようなルールを選ぶ 57 異なるクラスの データの混じり度合 が⼩さいのはどっち?
  53. 決定⽊アルゴリズムの直感的アイデア 分類ルールを仮適応したときにデータの不純度 (の加重平均)が最も小さくなるようなルールを選ぶ 柄の⾊が緑 有毒 無毒 データの割合 有毒 無毒 データの割合

    YES NO カサの裏にヒダ 有毒 無毒 データの割合 有毒 無毒 データの割合 YES NO > 分類後の データの不純度 58
  54. 不純度(impurity)の数学的定義 ある集合Sについて,ラベルがnS 個あり,その集合 内の要素がクラスkに属する割合をpk とすると, = , !"# $! 𝑝%

    (1 − 𝑝% ) = 1 − , !"# $! 𝑝% & ジニ係数 IG (S) = − , !"# $! 𝑝% log 𝑝% エントロピー E(S) 59
  55. エントロピーの計算例 60 以下の集合SのエントロピーE(S)を計算してみよう 𝑝(•) = 6 10 𝑝(•) = 4

    10 , E 𝑆 = −𝑝 • log 𝑝 • − 𝑝 • log 𝑝 • = − 6 10 log 6 10 − 4 10 log 4 10 = 0.673
  56. ジニ不純度とエントロピーを図⽰ 正例・負例の2クラスしかなく、 正例の割合を𝑝とする(負例の割合は 1 − 𝑝 ) エントロピー ジニ係数 2

    x ジニ係数 𝑝 集合内の正例と 負例の数が等しい ときにどちらも 最⼤値をとる 61
  57. 分類ルールの良さの求め⽅ 62 分類後の集合の不純度の加重平均で評価 集合のサイズを重みとする平均 E 𝑆1 = − 3 6

    log 3 6 − 3 6 log 3 6 = 0.693 E 𝑆2 = − 3 4 log 3 4 − 1 4 log 1 4 = 0.562 ルールの良さ = 6 10 𝐸 𝑆1 + 4 10 𝐸 𝑆2 = 𝟎. 𝟔𝟒𝟏 10個中6個がS1 10個中4個がS2 ルールA
  58. 決定⽊のアルゴリズム 1. 3. ステップ2で選択したルールでデータを分割 2. 4. 5. 分割の必要がなくなったら終了 全データについて,各特徴による分割パターン をすべて調査

    データの不純度にもとづき,最適な分割ルール をひとつ選択 分割されたデータ群に対して,上記⼿順を 繰り返し適⽤ 63
  59. 予測⽊の成⻑の抑制(1/2) 予測木をできるだけ汎用的にするために 木の大きさを制限する(過学習の防止) • ⽊の葉っぱに含まれているデータの数 • 不純度の変化量 • ⽊の深さ •

    ⽊の葉っぱでの誤り率 64 !"#$%&'(")*+,-./0+12%34("56789 GHIJK7LMN 画像出典: wikipedia.org
  60. 予測⽊の成⻑の抑制(2/2) ここの深さまで 木の深さで制限 わざわざ点を分けても 不純度がほとんど変化しない 深すぎ 不純度の変化量で制限 予測木をできるだけ汎用的にするために 木の大きさを制限する(過学習の防止) 65

  61. 予測⽊の成⻑の抑制(2/2) ここの深さまで 木の深さで制限 不純度の変化量で制限 わざわざ点を分けても 不純度がほとんど変化しない 深すぎ 予測木をできるだけ汎用的にするために 木の大きさを制限する(過学習の防止) 66

  62. Hands-on タイム 以下のURLにアクセスして, 決定木による教師あり学習を体験しましょう https://dmml2021.hontolab.org/ 67

  63. 余談:Why Python?(1/3) 68 CARET 機械学習 ライブラリ

  64. 余談: Why Python?(2/3) 69 機械学習 ライブラリ 前処理 ⾃然⾔語処理 画像処理 ウェブ

    アプリ
  65. 余談: Why Python?(3/3) 70 機械学習 ライブラリ By Google By Facebook

    深層学習 Pythonはデータサイエンスを全方位でカバー
  66. 数理的に考える分類問題(1/2) X 0 Y ? ▲ •と×のデータ集合が与えられたときに, 未知の2次元データが•か×をどう分類する? Q.

  67. 数理的に考える分類問題(2/2) X 0 Y ? ▲ •と×のデータを2分するような直線を見つける A. 直線より上側なら「×」 直線より上側なら「•」

    ax+by+c=0
  68. 決定⽊が⾏っていること in 特徴空間(データ空間) X1 0 X2 t1 NO X1 ≦

    t1 YES X2 ≦ t2 NO YES S1 S2 X1 ≦ t3 NO YES S3 X2 ≦ t4 NO YES S4 S5 t2 t3 S1 S2 t4 S4 S5 S3 直線で特徴空間を複数回分割する
  69. 分類モデルと分離(超)平⾯の関係 74 決定⽊ サポートベクタマシン ニューラルネットワーク 出典:https://tjo-en.hatenablog.com/entry/2014/01/06/234155 ランダムフォレスト

  70. 今後の予定 回 実施⽇ トピック 1 10/06 ガイダンス:機械学習の概要 & はじめての機械学習 2

    10/13 クラスタリング1:k-means & 階層的クラスタリング 3 10/20 クラスタリング2:密度ベースクラスタリング 4 10/27 分類1:K近傍法 & 教師あり機械学習のお作法 5 11/10 ゲスト講師による講演1(松村先⽣ from Wantedly) 6 11/17 分類2:サポートベクターマシン 7 11/24 分類3:ニューラルネットワーク⼊⾨ 8 12/01 時系列データとモデリング1:時系列データの統計的な扱い 9 12/08 ゲスト講師による講演2(加藤先⽣ from 筑波⼤学) 10 12/15 時系列データとモデリング2:時系列データの解析 11 12/22 時系列データとモデリング3:シミュレーションによる 時系列データの検討 12 01/12 時系列データとモデリング4:未知環境での時系列データ 13 01/19 ゲスト講師による講演3(⼭本岳先⽣ from 兵庫県⽴⼤学) 14 01/26 時系列データとモデリング5:解析と学習モデル 15 予備⽇ 75