Slide 1

Slide 1 text

授業概要 ⼭本 祐輔 名古屋市⽴⼤学 データサイエンス研究科 [email protected] 第1回 機械学習発展 (前半パート)

Slide 2

Slide 2 text

⼤流⾏のAI 画像出典:NHKスペシャル「AIに聞いてみた どうすんのよ!? ニッポン」 画像出典:https://www.amazon.co.jp/dp/B07JYYCG1D 4

Slide 3

Slide 3 text

AIに対する世の中のイメージ 画像の出典:http://fr.evangelion.wikia.com/wiki/Magi 画像の出典: https://www.sideshowtoy.com/collectibles/star-wars-r2-d2-sideshow-collectibles-400155/ 5

Slide 4

Slide 4 text

AIに対する世の中のイメージ 画像の出典:http://fr.evangelion.wikia.com/wiki/Magi 画像の出典: https://www.sideshowtoy.com/collectibles/star-wars-r2-d2-sideshow-collectibles-400155/ 正確 速い 博識 万能 6

Slide 5

Slide 5 text

⼈⼯知能(AI) 人工知能 強いAI 弱いAI (Artificial Intelligence) ⼈間のような⾃意識と知能をもって 作業が可能な機械 ⼈間の知的処理の⼀部を模倣する 特定問題に特化した問題解決器 ・ 現在行われているAI研究の大半は弱いAIの研究 参考:⼈⼯知能研究(https://www.ai-gakkai.or.jp/whatsai/AIresearch.html) ・ 強いAI研究の成果(e.g. 推論)も人間の知能には遠く及ばず 7

Slide 6

Slide 6 text

AI(⼈⼯知能)と機械学習とディープラーニング 人工知能 機械学習(弱いAIの一部) ディープラーニング = 今流行のAIの正体 大流行りのAI = 機械学習 8

Slide 7

Slide 7 text

AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole, V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 9

Slide 8

Slide 8 text

くずし字の解析 画像出典: https://www.nhk.or.jp/d-navi/sci_cul/2019/11/story/story_20191120/ 職人芸が必要だった歴史資料の書き起こし → 眠っている数億件の古文書の読解が可能に 10

Slide 9

Slide 9 text

Predictive Policing:犯罪発⽣の事前予測 犯罪が発生する前に、犯罪現場に警察官を送り込む http://www.nytimes.com/2011/08/16/us/16police.html?_r=0 ● 米国サンタクルーズ市警と UCLAとの共同研究 ● 犯罪の種類や発生時間、 発生場所などのデータから 犯罪発生予測モデルを構築 - 犯罪レポート1万1000件/年 - 電話通報記録10万5000件/年 http://itpro.nikkeibp.co.jp/atcl/watcher/14/334361/080100020/?ST=bigdata&P=2 ● 電子化された犯罪レポート 11

Slide 10

Slide 10 text

あらゆる分野で応⽤され始める機械学習 農業 医療 交通 製薬 観光 防災 気象 広告 流通 教育 ICT スポーツ 報道 効率化・コスト削減 & 新しい価値の創造 機械学習への期待 アパレル 法律 デザイン 公共政策 12

Slide 11

Slide 11 text

初回授業のメニュー 1. 機械学習の概要 3. はじめての機械学習 2. 講義の進め方 今のAIは何ができる? 「決定木」を 体験してみよう 何をどうやって学ぶのか? 13

Slide 12

Slide 12 text

機械学習の概要 1 今のAIは何ができるのか? 14

Slide 13

Slide 13 text

⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 15

Slide 14

Slide 14 text

⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 機械学習 大量のデータの背後に潜む法則性(モデル)を 自動的に取得し、予測や分類に役立てる技術 16

Slide 15

Slide 15 text

⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 ・順序回帰 … 機械学習 17 …

Slide 16

Slide 16 text

機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築) 機械学習(ML)アルゴリズム 学習済み モデル ML 学習フェーズ 18

Slide 17

Slide 17 text

機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築) 機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 19

Slide 18

Slide 18 text

⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 … 20

Slide 19

Slide 19 text

分類問題 画像出典:https://ja.wikipedia.org/wiki/ハタタテダイ 全長が25cmくらいで,長く伸びた白いヒレ. 白い体に2本の黒い帯.背びれが黄色い. この特徴がある魚は「ハタタテダイ」! 対象を識別・分類する特徴を機械にどう学習させるか? 21

Slide 20

Slide 20 text

教師あり学習(1/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ○○の識別に必要となる 特徴と分類ルール 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 22

Slide 21

Slide 21 text

Google Teachable Machine https://teachablemachine.withgoogle.com/train/image 23

Slide 22

Slide 22 text

教師あり学習(2/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する (予測だけが⽬的なら) ⼈間が理解できる必要はない ○○の識別に必要となる 特徴と分類ルール 24

Slide 23

Slide 23 text

機械学習がやっていること 25 データの特徴と結果の対応関係を見つける モ デ ル カツオ 未知データの結果を予測するために ! (特徴) 結果 =

Slide 24

Slide 24 text

機械学習がやっていること 26 ! (特徴) 結果 = データの特徴と結果の対応関係を見つける モ デ ル 未知データの結果を予測するために If-thenルール ニューラルネットワーク (⾏列) Pr($, &; (, )) 確率モデル

Slide 25

Slide 25 text

LINNE LENS 画像出典:https://global-square.com/blog/linne-lens_display_fish_info/ 27

Slide 26

Slide 26 text

https://www.youtube.com/watch?v=ru2eoh4bMtU 28

Slide 27

Slide 27 text

機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築) 機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 29

Slide 28

Slide 28 text

機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築) 機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルがない) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ ? 機械学習のミソ データの特徴を捉えた & 汎用的に 使えるモデルをどう学習するか? 30

Slide 29

Slide 29 text

講義の進め方 2 何をどうやって学ぶのか? 31

Slide 30

Slide 30 text

講師の紹介 32 ⼭本祐輔(me) ⼩⼭先⽣ [email protected] [email protected]

Slide 31

Slide 31 text

講義のトピック 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 33

Slide 32

Slide 32 text

講義のトピック 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 … … 34 発展的内容 ・⼀般化線形モデル ・カーネル法 ・ガウス回帰 ・ニューラルネットワーク ⼭本担当 ⼩⼭先⽣担当 …

Slide 33

Slide 33 text

機械学習技術のコアは数学であるが 㻚㻜㻜㻓㻔 㻔㻜㻜㻜㻓㻚 㻕㻓㻓㻓㻓㻔 㻕㻓㻓㻓㻓㻚 㻕㻓㻓㻔㻓㻔 㻕㻓㻓㻔㻓㻚 㻕㻓㻓㻕㻓㻔 㻕㻓㻓㻕㻓㻚 㻕㻓㻓㻖㻓㻔 㻕㻓㻓㻖㻓㻚 㻕㻓㻓㻗㻓㻔 㻕㻓㻓㻗㻓㻚 㻕㻓㻓㻘㻓㻔 㻕㻓㻓㻘㻓㻚 㻕㻓㻓㻙㻓㻔 㻕㻓㻓㻙㻓㻚 㻕㻓㻓㻚㻓㻔 㼗㼌㼐㼈 crease and decrease in the number of ncerning a fact that a common-sense fact is found on the ase in a similar manner as time passes. The and expired states are represented by a uni- ibution. In total, the temporal distribution nce of a statement on the Web is modeled as ibution. matical formulation is as follows. We repre- Recognition Model using a mixture distribu- ans the probability that web page about a be created at time t. It is expressed as a lin- n of a Gaussian distribution N(t; µ, σ2) with an exponential distribution f(t) with weight = α1N(t; µ, σ2) + α2f(t) (1) i: index for distributions (i ∈ {1, 2}). αi : weight for distribution i. λ: parameter for the exponential distribution. µ: mean vector for the Gaussian. σ2: variance for the Gaussian. φi: parameter vector (αi, λ, µ, σ2). pi(xk |φi): probability of xk by distribution i. Φ: parameter vector for the mixture model. p(xk |Φ): probability of xk by the mixture model. select initial estimated parameter vector Φ until Φ converges to Φ do Φ ← Φ for each i do initialize Ψi , Mi , Si for each k do ψik ← αipi(xk|φi) p(xk|Φ) Ψi ← Ψi + ψik Mi ← Mi + ψik xk if i = 1 then Si ← Si + ψik (xk − µ)2 αi ← Ψi n if i = 1 then µ ← Mi Ψi , σ2 ← Si Ψi if i = 2 then λ ← − Ψi Mi return Φ   This algorithm is based on the calculation in Appendix A. 数理的内容の学習は,初学者にはハードルが高い 35

Slide 34

Slide 34 text

最近のツール事情 # Python 1 import sklearn.ensemble.GradientBoostingClassifier as GBDT 2 data = pd.read_csv(“data.csv”) 3 model = GBDT() 4 model.fit(data) ほとんど何も書かなくても動くので便利 中身も理解せず,正しく動かせているか分からず 利用しているユーザ(学生)が多い 36

Slide 35

Slide 35 text

授業の⽬的(⼭本担当パート) 「機械学習」の仕組みを直感的に理解し, 実問題に応用するための足掛かりを得る 37

Slide 36

Slide 36 text

講義の⽬標(⼭本担当パート) 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 … 本講義の学習目標 • 代表的な機械学習がどのように動くかを直感的に理解する • 既存ライブラリを使い例題に対して機械学習を適用できる … 38 (山本担当パート)

Slide 37

Slide 37 text

講義計画 39 回 実施⽇ トピック 1 04/14 ガイダンス 2 04/21 pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1:k-means & 階層的クラスタリング 5 05/19 クラスタリング2:密度ベースクラスタリング 6 05/26 分類1:K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2:サポートベクターマシン 8 06/09 分類3:ニューラルネットワーク⼊⾨

Slide 38

Slide 38 text

講義計画(⼩⼭先⽣担当会) 40 回 実施⽇ トピック 9 06/16 ⼀般化線形モデル 10 06/23 半正定値カーネル 11 06/30 ⾮線形サポートベクトルマシン (オンデマンド遠隔講義) 12 07/07 ガウス過程回帰 13 07/14 多層ニューラルネットワーク (オンデマンド遠隔講義) 14 07/21 誤差逆伝搬法 (オンデマンド遠隔講義) 15 07/28 最近の機械学習の話題

Slide 39

Slide 39 text

この授業でやらないこと(⼭本担当パート) lドメインに特化した機械学習手法 (画像処理,自然言語処理,情報検索,etc.) l前提知識の復習(線形代数,微積,確率etc) lディープラーニングの詳細解説 41

Slide 40

Slide 40 text

講義スタイル(⼭本担当パート) Hands-onデモ with Python 0:00 1:30 0:50 座学 機械学習技術の 適⽤体験 機械学習の理論や ⼿法の直感的理解 (数学的にもフォローする) (⾼度なプログラミングスキルは不要) 42

Slide 41

Slide 41 text

⼭本パートで使⽤するもの 配布スライド(座学用) Google Colaboratory (プログラミング環境を 構築する必要はない) 43

Slide 42

Slide 42 text

成績評価 レポート: 100% ・実際にコードを⾛らせて機械学習の動作や結果を考察 ・アルゴリズムの動作⼿順を頭で追う練習など 44

Slide 43

Slide 43 text

成績評価 45 ⼭本担当回 50% ⼩⼭先⽣担当回 50% + (レポート課題) (レポート課題)

Slide 44

Slide 44 text

参考図書(初学者向け) 画像出典2: https://www.amazon.co.jp/dp/B07GYS3RG7/ 画像出典1: https://www.amazon.co.jp/dp/B00MWODXX8 46

Slide 45

Slide 45 text

参考図書(こってり学ぶ) 画像出典: https://www.amazon.co.jp/dp/432012362X 画像出典: https://www.amazon.co.jp/dp/4621061224 47

Slide 46

Slide 46 text

すばらしいコンテンツ 48 https://chokkan.github.io/mlnote/index.html http://codh.rois.ac.jp/ 機械学習帳 ROISデータセット

Slide 47

Slide 47 text

今後の予定 49 回 実施⽇ トピック 1 04/14 ガイダンス 2 04/21 pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1:k-means & 階層的クラスタリング 5 05/19 クラスタリング2:密度ベースクラスタリング 6 05/26 分類1:K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2:サポートベクターマシン 8 06/09 分類3:ニューラルネットワーク⼊⾨