慶應義塾大学機械学習基礎04 順伝播型ニューラルネット

情報工学科教授杉浦孔明 [email protected] 慶應義塾大学理工学部機械学習基礎第４回順伝播型ニューラルネット

本講義の到達目標と今回の授業の狙い - - 2 本講義の到達目標 ▪ DNNの基礎理論と実装の関係を理解する ▪ 種々のDNNをコーディングできる今回の授業の狙い
▪ 順伝播型ニューラルネットの基礎を習得する ▪ 出席確認： K-LMS上の機械学習基礎のMainページへアクセス

順伝播型ニューラルネット - - 3

線形回帰１入力１出力の場合 - - 4 ▪ 前回扱った線形モデル図で書くと↓ 入力（input）
出力（output）常に値が１であるノード

線形回帰２入力１出力の場合 - - 5 ▪ 前回扱った線形モデル図で書くと↓ ▪ ２次元の入力
入力出力重み（weight）バイアス（bias）入力（input）出力（output）常に値が１であるノード

基本的なニューラルネットユニットとは - - 6 ▪ ユニット ▪ ２次元の入力重み（weight）
バイアス（bias）入力出力

基本的なニューラルネット活性化関数とは - - 7 ▪ ユニット重みバイアス ▪
活性化関数（activation function） ▪ 非線形変換を行う ▪ 以下の赤や青のような関数例パラメータ

基本的なニューラルネット複数のユニットを持つ場合 - - 8 ▪ ユニット ▪ ユニットが２つの場合

- 9 - ▪ ユニットが２つの場合基本的なニューラルネット入出力関係の行列表現 - - 9
行列表現に１が入っているものと考えて、バイアスを陽に書かないまとめて書く

基本的なニューラルネット３層ニューラルネット - - 10 行列表現 ▪ ３層ニューラルネット入力層出力層
中間層に１が入っているものと考えて、バイアスを陽に書かない

基本的なニューラルネット中間層とは - - 11 ▪ 中間層（隠れ層, hidden layer） ▪
：１つ目の中間層への重み ▪ ：１つ目の中間層の活性化関数 ▪ は出力層に関するもの ▪ ３層ニューラルネット入力層出力層中間層

順伝播型ニューラルネット - - 12 ▪ 順伝播型ニューラルネット（feed-forward neural network; FFNN）入力層
出力層中間層（L-1個）一般化すると

活性化関数の例 - - 13 ▪ 正規化線形関数 (ReLU) ▪ 「レル」と発音 ▪
ロジスティックシグモイド関数  ステップ関数口語ではシグモイド関数と呼ばれるが、シグモイド関数とは本来S字関数（tanhなどを含む）を意味する

ニューラルネットによる回帰例題：大気汚染物質の濃度を予測したい - - 14 ▪ 観測データを集める 1. 訓練集合を構築する 2.
損失関数を最小化するパラメータを反復的に求める重みやバイアスをまとめたもの ID 濃度 (今) 風速 (今) 濃度 (未来) 1 5 2.0 4 2 7 1.2 5 3 10 1.6 11 … … … 999 10 1.8 10 1000 9 2.6 10 新規 8 1.8 ???

ニューラルネットによる２値分類例題 - - 15 ▪ 画像を「かぼちゃ」か「かぼちゃ以外」に分けたい ▪ 正解ラベルは１または０
▪ を予測するのではなく、を予測する入力された画像に対し、予測ラベルが1である確率の予測値ラベル：１ラベル：０

ロジスティック回帰との関係 - - 16 ロジスティック回帰（logistic regression）：ロジット（logit）uをxの線形関数としてモデル化

ロジスティック回帰との関係 - - 17 ロジスティック回帰（logistic regression）：ロジット（logit）uをxの線形関数としてモデル化用語
▪ pの例：画像xが「かぼちゃ」である確率の予測値 ▪ オッズ ▪ pのロジット対数オッズとも呼ばれる

ロジスティック回帰との関係 - - 18 ロジスティックシグモイド関数によるuの変換を考える用語 ▪ pの例：画像xが「かぼちゃ」である確率の予測値
▪ オッズ ▪ pのロジット xが「かぼちゃ」である確率を予測する簡単なニューラルネットと等価

多クラス分類例題：MNIST - - 19 ▪ 手書き数字のデータセット ▪ 深層学習分野でMNISTを知らない人はいないはず
▪ 28×28ピクセル画像 ▪ 訓練集合：6万枚テスト集合：1万枚 ▪ 1-of-K表現 ▪ 特定の次元のみ１であり、残りの次元は０ ▪ テキスト処理において単語を表現する方法でもある ▪ Zero: (1, 0, 0, 0, 0, 0, 0, 0, 0, 0) ▪ One: (0, 1, 0, 0, 0, 0, 0, 0, 0, 0) ▪ Two: (0, 0, 1, 0, 0, 0, 0, 0, 0, 0)

３層ニューラルネットによる多クラス分類回帰と分類の違い - - 20 ▪ ３層ニューラルネット（再） ▪ 分類 ▪
出力例 (0.8, 0.1, 0.1, 0, 0, 0, 0, 0, 0, 0) 入力層出力層中間層

３層ニューラルネットによる多クラス分類ソフトマックス関数とは - - 21 ▪ ソフトマックス関数（softmax function） ▪ の例
▪ 分類指数関数で変換したのち、規格化している

３層ニューラルネットによる多クラス分類交差エントロピー誤差関数とは - - 22 ▪ 情報理論における離散分布間の交差エントロピー ▪ 交差エントロピー誤差関数
（cross-entropy error function）正解ラベルは固定値なので確率で表す必要がない（普通の）エントロピーサンプル番号のラベルの次元目の値（クラスkであれば１であり、そうでなければ０）

３層ニューラルネットによる多クラス分類２値分類の場合の交差エントロピー誤差関数 - - 23 ▪ クラス ▪ ２クラス（ =2）
サンプル番号のラベル（１または０）高校数学で言うと余事象の考え方

理解度確認 - - 24

理解度確認以下について周りと相談して１分以内に答えよ - - 25 1. 訓練集合とテスト集合の違いは何か？ 2. 訓練集合と訓練サンプルの違いは何か？ 3.
ミニバッチ確率的勾配降下法の英語名は何か？ 4. 損失関数の例を挙げよ。 ※LLMに聞いても良いが、ハルシネーションの場合に「LLMが誤った（のであって自分は悪くない）」という回答は不適切＝検証が必要

交差エントロピー誤差関数と最尤推定 - - 26

ベルヌーイ分布（Bernoulli distribution） - - 27 ひしゃげたコインの分布 ▪ ▪ 2値をとる実現値を生成するための確率分布
▪ 1個のパラメータ（母数）によって分布の性質が決まる例：のとき ▪ 期待値： ▪ 分散： ▪ 同時確率べき乗で場合分けを表現するトリックが1の確率が0の確率

最尤推定 - - 28 ▪ 観測値の同時確率を最大化したい ▪ サンプルは母集団から独立同分布
で抽出されたものとする（i.i.d.; independent and identically distributed）

尤度とは - - 29 ▪ 観測値の同時確率を最大化したい ▪ サンプルは母集団から独立同分布
で抽出されたものとする（i.i.d.; independent and identically distributed） ▪ 「が既知で、が未知」から「が既知で、が未知」に見方を変える ▪ 尤度（likelihood, ゆうど） ▪ データが与えられたうえでのモデルの尤もらしさ ▪ 規格化（＝足して１）されていないので確率ではない

交差エントロピー誤差の最小化は尤度最大化を意味する - - 30 ▪ ２値分類の場合の尤度関数 ▪ 尤度最大化＝対数尤度最大化＝負の対数尤度最小化
損失関数として最小化 ▪ 「が既知で、が未知」から「が既知で、が未知」に見方を変える ▪ 尤度（likelihood, ゆうど）： ▪ データが与えられたうえでのモデルの尤もらしさ ▪ 規格化（＝足して１）されていないので確率ではない

交差エントロピー誤差の最小化は尤度最大化を意味する - - 31 ▪ ２値分類の場合の尤度関数 ▪ 尤度最大化＝対数尤度最大化＝負の対数尤度最小化
損失関数として最小化 ↑交差エントロピー誤差確率のように小さい数を何度も掛け合わせるより、対数をとって足し算にしたほうが楽

本講義全体の参考図書 - - 32 ▪ ★機械学習スタートアップシリーズこれならわかる深層学習入門瀧雅人著講談社 ▪
★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著講談社 ▪ ディープラーニングを支える技術岡野原大輔著技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、海野裕也、鈴木潤著、講談社 ▪ IT Text 自然言語処理の基礎岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介著、オーム社 ▪ 東京大学工学教程情報工学機械学習中川裕志著、東京大学工学教程編纂委員会編丸善出版 ▪ パターン認識と機械学習上・下 C.M. ビショップ著丸善出版 ▪ Bishop, Christopher M. and Bishop, Hugh, "Deep Learning: Foundations and Concepts", Springer, ISBN-13:978-3031454677

小レポート①の準備 - - 33

小レポート①の準備 - - 34 ▪ Kaggleとは ▪ 機械学習コンペを開催するプラットフォーム ▪ 次回講義までの宿題
▪ 「Kaggleへのユーザ登録」を行ってください ▪ 次回講義で行うこと ▪ 小レポート①の内容・締切の説明

ユーザ登録（1/4） - - 35 ① 以下へアクセス https://www.kaggle.com/ ② Googleアカウント等でログイン [email protected]

ユーザ登録（2/4） - - 36 後で変更不可後で変更可公開されるので、プライバシーに配慮 ③ ユーザ名・表示名を入力

ユーザ登録（3/4） - - 37 ④アカウントの「Settings」を開く

ユーザ登録（4/4） - - 38 ⑤コンペ参加するために電話番号で認証（課題提出に必要） ⑥以下を入力すると、認証コードがSMSで送られてくる電話番号

実習 - - 39

実習 MNISTへの３層ニューラルネットの適用 - - 40 ▪ ニューラルネットの出力：10次元 ▪ 10次元の出力のうち、最大のものを予測ラベルとする ▪
損失関数：交差エントロピー誤差関数 ▪ ミニバッチSGDで反復的に損失を最小化 ▪ 理工学基礎実験との違いは、コーディングが多いJ科向けか否か ▪ 理工学基礎実験：視覚的にわかりやすいが自由度は低いコード ▪ 機械学習基礎：各自が改変しやすいように不要な関数を削除

実習 - - 41 実習の目的 ▪ コーディングと基礎理論の関係を学ぶ実習課題の場所 ▪ K-LMSから辿る
実習に関する質問 ▪ ChatGPTに説明させる ▪ 教科書で調べる・検索・周囲と相談（私語禁止ではありません） ▪ 上記で解消しなければ挙手

慶應義塾大学 機械学習基礎04 順伝播型ニューラルネット

慶應義塾大学 機械学習基礎04 順伝播型ニューラルネット

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学機械学習基礎04 順伝播型ニューラルネット

慶應義塾大学機械学習基礎04 順伝播型ニューラルネット