AI研修【MIXI 23新卒技術研修】

Slide 1

Slide 1 text

©MIXI 新卒AI研修 01 Introduction

Slide 2

Slide 2 text

©MIXI 2 講義の目的機械学習(深層学習・勾配ブースティング)で ● 何ができるか ● 何が必要か ● どうサービスと繋げるかを学びます

Slide 3

Slide 3 text

©MIXI 3 講義の目的と言っても、1日で時間が足りるわけがありませんあれに使えるかもしれない！自分から触ってみよう！と壁を取り払えることが一番の目的です

Slide 4

Slide 4 text

©MIXI 4 講義の概要 ● 機械学習とは何か (01_introduction) ● データと学習方法(02_data_and_training) ● デプロイ(03_deployment) ● サービスについて考える(04_service_in_mixi)

Slide 5

Slide 5 text

©MIXI 5 ハンズオンの概要 ● 画像分類(01_image_classiﬁcation) ● プルーニング(01ex_pruning) ● 転移学習(02_transfer_learning) ● パラメーターチューニング(02_parameter_tuning) ● デプロイとサービング(03_deploy_and_serving) ● 構造化データ予測(04_predict_structured_data)　

Slide 6

Slide 6 text

©MIXI 6 機械学習とはデータから知見を得て、それを次の決定に利用すること ● 知見とはブラックボックスな関数 ○ 何かしらのルールがある ● データとは過去の出来事 ○ 数値, 画像, 音声, テキスト, etc. ● 決定：予測 ○ 知見と今の状態がわかれば未来を予測できる

Slide 7

Slide 7 text

©MIXI 7 機械学習とは何かルールがあるということは、関数で表せるということ ● 今日の全ての情報があれば明日の天気はわかるはず.. ● 未来の株価は過去の動きで予測できるはず... ● 人間は外部入力を受けてニューロンが... 世界の全ては（規模を無視すれば）関数で表現できるかも！

Slide 8

Slide 8 text

©MIXI 8 プログラミングとの違いは？ルールを自分で決めて、表現することがプログラミング ● 盤面のスコアリングをルールベースで決定し、次のアクションの結果を評価して駒を動かす過去のデータの中からルールを得るのが機械学習 ● 大量の棋譜からパターンを見つけて、次の手を決定する盤面のスコアリングから、次の行動で一番点数の高い角を5一にしよう過去の棋譜と差し手のパターンから角を5一にしようプログラミング機械学習

Slide 9

Slide 9 text

©MIXI 9 統計との違いは？統計学はデータから可視化できる表現を得る ● ある意思決定の理由を説明するのが目的機械学習は表現を得て、予測精度をあげることが目的 ● 検証で良い数字がでるなら、なにかしらの表現を得たことになるデータから知見を得るという部分は同じだし、基礎理論も同じ ● 良いデータサイエンティストは良いMLエンジニア

Slide 10

Slide 10 text

©MIXI 10 どんな問題を解決できるか? 様々な分野で様々な問題を解決することができる ● 需要・コスト予測 ● カスタマー対応 ● ゲームデッキのレコメンド ● 書類のチェック ● マーケティングプラン ● ゲームAI ● キャラクター生成 ● 翻訳 ● 競馬/競輪の予測 ● 音声の変換 ● メトリクスの異常検知 ● コードレビューの補助 ● モーションキャプチャ ● 不審な決済ログの洗い出し ● …

Slide 11

Slide 11 text

©MIXI 11 どんな問題を解決できるか? 自分のサービスに適用できないか？ ● どんな解決できそうな問題があるか？ ● 必要なデータはあるか？これを考えられるようになってもらうのが講義の主目的です

Slide 12

Slide 12 text

©MIXI 12 機械学習の分類 AI 機械学習教師あり学習教師なし学習強化学習 Deep Learning 勾配ブースティング

Slide 13

Slide 13 text

©MIXI 13 ● 教師データと出力の損失を用いて学習教師あり学習モデル入力出力損失(loss) 教師デター

Slide 14

Slide 14 text

©MIXI 14 教師なし学習 ● 教師データが存在しない学習（データ内のパターンを見つける学習）クラスタリングオートエンコーダ Encoder Decoder 入力出力特徴量次元圧縮クラスタ1 クラスタ2 クラスタ3

Slide 15

Slide 15 text

©MIXI 15 強化学習 ● 環境とやりとりして行動の報酬をもらうことでエージェントが学習環境エージェント行動観測意思決定報酬学習変化

Slide 16

Slide 16 text

©MIXI 16 ● 環境とやりとりして行動の報酬をもらうことでエージェントが学習 START +10 -10 環境エージェント START 強化学習

Slide 17

Slide 17 text

©MIXI 17 分類(Classiﬁcation)と回帰(Regression) 分類 ● 出力が離散値 ➢ True or False ➢ 犬、猫、人... ● あらかじめ与えられたカテゴリー/クラス/分類を予測する際に使用 ● 例 ➢ モンストキャラの画像と種類から新たなキャラ画像が与えられた時にそのキャラがどの種類かを予測回帰 ● 出力が連続値 ➢ 金額や人数、温度… ● 数字の大小に意味が存在する値を予測する際に使用 ● 例 ➢ 過去のモンストの売上から明日の売上を予測

Slide 18

Slide 18 text

©MIXI 18 分類(Classiﬁcation)と回帰(Regression) QUIZ 1. ユーザの収入や家族構成、その他パラメータから預金額を予測する 2. ユーザの収入や家族構成、その他パラメータからある取引が不正かどうかを予測する 3. 画像に写っている物の種類を予測する 4. 画像に写っている物の位置を予測する

Slide 19

Slide 19 text

©MIXI 19 機械学習の流れ用意したデータモデル入力出力損失(loss) 教師データ(ラベル) 入力(特徴量) 教師デター

Slide 20

Slide 20 text

©MIXI 20 機械学習の流れ用意したデータ入力出力教師データ(ラベル) 入力(特徴量) 教師デターモデル Parameters Hyper Parameters 損失(loss)から Parametersを更新

Slide 21

Slide 21 text

©MIXI 21 Parameters: Weights & Biases パラメーターは学習で変化する値　　 WeightとBiasがある　 y = b + x * w この値を調整すると、出力の値が変わる

Slide 22

Slide 22 text

©MIXI 22 機械学習の流れ用意したデータ入力出力教師データ(ラベル) 入力(特徴量) 教師デターモデル Parameters Hyper Parameters 損失関数 Loss 最適化関数 (Optimizer) Parameters 更新

Slide 23

Slide 23 text

©MIXI 23 損失関数(Loss Function) 回帰問題の代表的な損失関数 ➢ RMSE

Slide 24

Slide 24 text

©MIXI 24 多クラス分類問題の代表的な損失関数損失関数(Loss Function) ➢ Categorical Cross Entropy Label Name オラゴンブルーリドラレッドリドラグリーンリドラ Output 3.57 0.27 1.80 - 0.83 Softmax 0.8200 0.0302 0.1397 0.0101 Label 1 0 0 0 Cross Entropy 0.086 0 0 0

Slide 25

Slide 25 text

©MIXI 25 最適化関数: 最急降下法(Gradient Descent) 最適化関数 ➢ Lossが最小になるようなWeightを決定例: 最急降下法(Gradient Descent) 更新式学習率 (learning rate) Loss

Slide 26

Slide 26 text

©MIXI 26 最適化関数一覧 ● Gradient Descent (GD) ● Stochastic Gradient Descent (SGD) ● Nesterov Accelerated Descent (NAG) ● Momentum ● RMSProp ● Adagrad ● Adam ● …

Slide 27

Slide 27 text

©MIXI 27 機械学習の流れ用意したデータ入力出力教師データ(ラベル) 入力(特徴量) 教師デターモデル Parameters Hyper Parameters 損失関数 Loss 最適化関数 (Optimizer) Parameters 更新

Slide 28

Slide 28 text

©MIXI 28 Hyper Parameters ハイパーパラメータ ● 学習前に予め決めておく必要がある値 ● 学習によって変化しない ● 最適値はタスクによって異なる例 ● learning rate, バッチサイズ ● パラメーターの数 ● 使用するアルゴリズムの係数 ● …

Slide 29

Slide 29 text

©MIXI 29 Hyper Parameters: バッチサイズ一度でトレーニングでどれだけのデータをまとめて学習するか ● 理想だけ言えば大きいほうがより安定する ➢ 大きくしすぎると精度悪化の可能性 ➢ 計算量やメモリの使用量が大きくなる ● バッチサイズと学習率には関係がある ➢ 学習率を固定してバッチサイズを5倍にするということは、バッチサイズを固定して学習率を1/5にするということに近い

Slide 30

Slide 30 text

©MIXI 30 機械学習の流れ用意したデータ入力出力教師データ(ラベル) 教師デターモデル Parameters Hyper Parameters 損失関数 Loss 最適化関数 (Optimizer) Parameters 更新

Slide 31

Slide 31 text

©MIXI

Slide 32

Slide 32 text

©MIXI 新卒AI研修 02 data & training

Slide 33

Slide 33 text

©MIXI 33 ● どのモデルが正しくデータの傾向を学習できているか？ (a) (b) (c) 未学習(underﬁtting)/過学習: overﬁtting

Slide 34

Slide 34 text

©MIXI 34 過学習: overﬁtting 過学習が起こる条件 ● データが少なすぎる ● データに対してモデルが複雑すぎる過学習を対策するためには... ● データを訓練データと検証データに分けることで、overﬁttingに気づける状態にしておくデータ訓練データ検証データテストデータ

Slide 35

Slide 35 text

©MIXI 35 ● 訓練データで学習させていくと、やがてモデルは Lossを下げるために過学習していく ➢ 次第に未知のデータへの予測精度が悪化 ● 検証データを切り分け、そのLossを検証することで、モデルが訓練データに対して過学習することを防ぐ ● 検証データを使って訓練データの学習を制御 ➢ 検証データの情報が訓練データにリークするので最終的な精度の検証はテストデータで行う検証データ学習データ Epochs Loss 訓練データ/検証データ/テストデータ

Slide 36

Slide 36 text

©MIXI 36 訓練データ/検証データ/テストデータ実際に学習に使用するデータこのデータにモデルが適合しすぎると過学習学習のステップごとに検証に使用するデータこのデータと訓練データの結果に差があると過学習と判断できる学習後に結果を検証するデータハイパーパラメータも含めて調整時には使ってはいけないデータデータ訓練データ検証データテストデータ訓練データ検証データテストデータ

Slide 37

Slide 37 text

©MIXI 37 過学習とデータ量 ● 訓練データは表現したいものの全ての空間を表現している必要がある ex) 人の顔を認識させたいのに、イケメンばかり学習データに使用したら？ ● 問題によって異なるが、データの数はあればあるだけ良い ➢ ただしありすぎると学習は遅くなる

Slide 38

Slide 38 text

©MIXI 38 良い特徴量(入力データ)とは良い特徴量の条件は 1. 目的に関係している値である ● 競馬の購入馬券を予測する問題で、馬主の年齢は関係あるか？ ● いらないデータはノイズになる 2. 推論のタイミングで利用可能である ● 子供の誕生時の体重を予測する問題で、妊娠日数は使えるか？ 3. 意味のある数値(ベクトル)に変換できる ● 文章はベクトルに変換することも可能 4. 人間の洞察が含まれている ● 良いデータサイエンティストが良いmlエンジニアである理由

Slide 39

Slide 39 text

©MIXI 39 特徴量エンジニアリング ● 特徴量を前もって学習しやすい形に加工しておくこと　 ex) 収入を予測するモデル ● 住んでいる家の緯度、経度の情報は関係ある値 ● ただ、同じ経度でも東北の緯度と東京の緯度では意味は異なる ● 本当に意味があるのは数値ではなく、どの地域なのかの情報 ● 緯度と経度で分離してバケット化

Slide 40

Slide 40 text

©MIXI 40 過学習に対する手法 ● Early Stopping ● Data Augmentation ● 正則化 ● Dropout ● バッチ正規化 ● …

Slide 41

Slide 41 text

©MIXI 41 過学習に対する手法 ● Early Stopping ● Data Augmentation ● 正則化 ● Dropout ● バッチ正規化 ● …

Slide 42

Slide 42 text

©MIXI 42 過学習を防ぐ手法 Early Stopping ● 監視する精度(Loss, Accuracy等)が一定期間上がらない場合、学習を停止させる ● 主に検証データのLossを監視指標とすることが多い記法例 (Keras) 検証データでの Lossが5回連続改善しない場合学習終了検証データ学習データ Epochs Loss Early Stopping

Slide 43

Slide 43 text

©MIXI 43 過学習を防ぐ手法 Data Augmentation ● 既存のデータを加工して新しいデータを作ることで、データ量を水増しする ➢ データのパターンを増やすことにより過学習を抑制例: 画像のAugmentation オリジナル回転位置縮尺 Augmentationあれこれ: https://github.com/AgaMiko/data-augmentation-review …

Slide 44

Slide 44 text

©MIXI 44 過学習を防ぐ手法正則化 ● 過学習が発生しているモデルは複雑 ● 複雑になるのは目的関数を最適化した結果 ● 複雑になりすぎないように目的関数にペナルティ(正則化項)を導入する目的関数 = 損失関数 + λ 正則化項正則化の効きをコントロールするパラメータ

Slide 45

Slide 45 text

©MIXI 45 L1 Normalization ● モデルのweightを菱形のライン上に収める ● 不必要なweightは0を取る事が多い(≒次元圧縮) L2 Normalization ● モデルのweightを円のライン上に収める ● 不必要なweightは0に近づく正則化項: L1/L2 Normalization 損失が最小となる点

Slide 46

Slide 46 text

©MIXI 46 過学習を防ぐ手法 Dropout ● ニューラルネットを用いた学習時に、一部のニューロンからの出力を0にする ➢ 特定のニューロンに対しての依存を抑制 ● アンサンブル学習のような効果が見込める ➢ エポック毎にDropoutするニューロンが変わることで擬似的に複数モデルで協調した出力がされる形となり、過学習を抑制 … 1 epoch 2 epoch 3 epoch モデル Dropout 適用

Slide 47

Slide 47 text

©MIXI 47 モデル選定とデータ形式 ● 機械学習における深層学習(Deep Learning)系のモデルは、非構造化データに対してより優れた精度を発揮することが多い ➢ 非構造化データの例: 音楽, 画像, 動画, テキスト, etc… ● 一方、構造化データに対しては、勾配ブースティング決定木(GBDT)系のモデルのほうがより優れた精度を発揮することが多い ➢ 構造化データの例: 表形式データ, RDB内のテーブルデータ, csvデータ, etc… https://www.datarobot.com/jp/blog/is-deep-learning-almighty/

Slide 48

Slide 48 text

©MIXI 48 深層学習におけるモデル: ニューラルネットワーク(NN) Output Input ● まず線形なモデルを考える

Slide 49

Slide 49 text

©MIXI 49 ニューラルネットワーク(NN) Output Input Hidden 線形変換からは逃れられない… ● 層を増やしてみる

Slide 50

Slide 50 text

©MIXI 50 ニューラルネットワーク(NN) : Activation関数(非線形変換) Hidden2 Hidden1 Activation Input Output ● NNでは層の途中にActivation関数 (非線形変換)を挟む ● この関数により、線形分離ができない問題も解けるように ➢ より複雑な表現が可能 ● NNでは、Activationを図に表記しないことが多いので注意

Slide 51

Slide 51 text

©MIXI 51 Activation関数

Slide 52

Slide 52 text

©MIXI 52 試してみよう: Neural Network Playground ● 今までの講義の内容を思い出しつつ、NNで遊んでみよう ● Neural Network Playground ➢ https://playground.tensorﬂow.org

Slide 53

Slide 53 text

©MIXI 53 Neural Network Playground 1. 左右に2分割されている問題を解いてみよう ● ベーシックな線形問題なので、Hidden Layersなしの Featuresだけで解けることを確認しよう 2. 円で分割されている問題を解いてみよう ● Hidden Layersを増やしたりNeuronsの数を増やしたり ActivationやFeaturesを変えたりして解いてみよう ● うまく分類できたら、learning rateを10にして再学習させてみよう(学習できない) ● 逆にlearning rateを0.0001にして再学習させてみよう(学習が遅い) ● できるだけ単純なモデルで分類できる状態を探索してみよう

Slide 54

Slide 54 text

©MIXI 54 Neural Network Playground 3. 市松状の問題を解いてみよう ● HIDDEN LAYERSを増やしたりNeuronsの数を増やしたり ActivationやFeaturesを変えたりして解いてみよう ● できるだけ単純なモデルで分類できる状態を探索してみよう 4. 螺旋状の問題を解いてみよう ● HIDDEN LAYERSを増やしたりNeuronsの数を増やしたり ActivationやFeaturesを変えたりして解いてみよう ➢ 少し複雑なモデルにしてみよう ● モデルのRegularizationをL1, Regularization rateを0.001にしたときの精度やNeuronのWeightを確認しよう ● モデルのRegularizationをL2, Regularization rateを0.003にしたときの精度やNeuronのWeightを確認しよう

Slide 55

Slide 55 text

©MIXI 55 Neural Network Playground: 左右に２分割のデータを分類 ● ベーシックな線形問題なので、Featuresだけで解けることを確認しよう

Slide 56

Slide 56 text

©MIXI 56 Neural Network Playground: 円のデータを分類 ● Hidden Layersを増やしたりNeuronsの数を増やしたりActivationやFeaturesを変えたりして解いてみよう

Slide 57

Slide 57 text

©MIXI 57 Neural Network Playground: 円のデータを分類 ● learning rateを10にして再学習させてみよう(学習できない)

Slide 58

Slide 58 text

©MIXI 58 Neural Network Playground: 円のデータを分類 ● learning rateを0.0001にして再学習させてみよう(学習が遅い)

Slide 59

Slide 59 text

©MIXI 59 Neural Network Playground: 円のデータを分類 ● できるだけ単純なモデルで分類できる状態を探索してみよう

Slide 60

Slide 60 text

©MIXI 60 Neural Network Playground: 市松状のデータを分類 ● HIDDEN LAYERSを増やしたりNeuronsの数を増やしたりActivationやFeaturesを変えたりして解いてみよう

Slide 61

Slide 61 text

©MIXI 61 Neural Network Playground: 市松状のデータを分類 ● できるだけ単純なモデルで分類できる状態を探索してみよう

Slide 62

Slide 62 text

©MIXI 62 Neural Network Playground: 螺旋状のデータを分類 ● HIDDEN LAYERSを増やしたりNeuronsの数を増やしたりActivationやFeaturesを変えたりして解いてみよう(少し複雑に)

Slide 63

Slide 63 text

©MIXI 63 Neural Network Playground: 螺旋状のデータを分類 ● モデルのRegularizationをL1, Regularization rateを0.001にしたときの精度や NeuronのWeightを確認しよう

Slide 64

Slide 64 text

©MIXI 64 Neural Network Playground: 螺旋状のデータを分類 ● モデルのRegularizationをL2, Regularization rateを0.003にしたときの精度や NeuronのWeightを確認しよう

Slide 65

Slide 65 text

©MIXI 65 深層学習における代表的なネットワーク ● DNN ● CNN ● RNN, LSTM ● Transformer ● GAN ● …

Slide 66

Slide 66 text

©MIXI 66 DNN(Deep Neural Network) ● NNの層をDeepにしたものがDNN ● 深層学習におけるベーシックなネットワーク記法例 (Keras) ● 値の合計が1になるように調整する関数 ● 主に多クラス分類の出力における活性化関数として用いられる Softmax Dence ● 全結合型ニューラルネットワーク

Slide 67

Slide 67 text

©MIXI 67 CNN (Convolutional Neural Network) ● 画像など近傍値間で関連が高いデータに使うネットワーク ● 画像処理で行われるフィルタ処理を学習するというのが思想 ex) エンボスフィルタ, ラプラシアンフィルタ, etc… ● 複雑な処理を少ない訓練パラメータで行える ● 畳み込み層とプーリング層が存在するエンボスフィルタのカーネル値エンボス加工の例

Slide 68

Slide 68 text

©MIXI 68 CNN: 画像と行列 ● 白黒画像は、2次元行列で表現できる ➢ SVGAサイズの場合、[800, 600]の行列に0〜255の数値が入る ● カラー画像の場合、カラーモードの次元を含めた3次元行列で表現できる ➢ RGBの場合、 [800, 600, 3]の行列に0〜255の数値が入る 110 136 115 115 104 134 150 186 197 123 112 199 255 225 123 139 216 209 179 114 95 126 115 94 104 134 150 83 52 123 112 83 57 21 89 47 42 41 21 64 96 126 115 93 104 134 150 83 59 123 112 81 64 44 92 50 49 51 39 67 R G B [4, 5, 3]

Slide 69

Slide 69 text

©MIXI 69 CNN: フィルタを用いた畳み込み ● CNNでは、画像の行列に対してフィルタをかけることで畳み込みを行う ● フィルタの大きさは[縦, 横, カラーモード]で、縦と横はハイパーパラメータ ➢ カラーモードはInputの画像で決めるため、実装では指定しなくて良い ➢ フィルタをスライドさせ、畳み込んでいく(スライド幅もハイパーパラメータ) ● フィルタの値がweightであり、学習で最適されるパラメータとなる ● フィルタの数はハイパーパラメータとなる画像 [32, 32, 3] フィルタ [5, 5, 3] スライド幅 1 フィルタ数 6 畳み込み後フィルタ数分畳み込む

Slide 70

Slide 70 text

©MIXI 70 CNN: フィルタを用いた畳み込み 0 1 0 1 0 1 0 1 0 1 1 0 0 1 1 1 0 0 0 1 R G B フィルタ 1 1 0 0 0 1 0 1 1 1 0 0 0 1 1 0 1 0 0 0 0 1 1 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 1 0 0 1 0 1 0 1 画像 [4, 5, 3] フィルタ [2, 3, 3] スライド幅 1 フィルタ数 1 スライド幅ずつずらしていく 5 + bias 1 = 6 [3, 3, 1] Output 1 0 0 1 1 0 0 1 0 1 0 0 [2, 3, 3] 画像(RGB) [4, 5, 3]

Slide 71

Slide 71 text

©MIXI 71 CNN: プーリング ● 畳み込み後に、行列を圧縮するために用いられる手法 ● プーリング幅として[縦, 横, フィルタ数]の行列を指定 ➢ フィルタ数は畳み込み時に指定するので、実装では指定しなくて良い ● 指定した行列の範囲内における最大値や平均値を出力することで圧縮を行う 0 1 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 1 R G B 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 0 0 0 1 1 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 1 0 1 4 + bias 1 = 6 3 5 3 4 4 3 2 5 [3, 3, 1] Output 1 0 0 1 1 0 0 1 0 1 0 0 フィルタプーリング幅 [2, 2, 1] スライド幅 1 Max Pooling Average Pooling 6 5 4 5 4 4 3 3.75 [2, 2, 1]

Slide 72

Slide 72 text

©MIXI 72 CNN: ネットワークの全体像 https://paperswithcode.com/methods/category/convolutional-neural-networks

Slide 73

Slide 73 text

©MIXI 73 Padding ● validとsameがある ● validにすると畳み込み後のサイズがフィルタによって小さくなる ● sameにすると元の行列の周辺に0を埋めるPadding処理を行う ➢ スライド幅1の場合、畳み込み後もサイズが変わらない Flatten ● 行列を1次元に平坦化する ● NNでは多次元の処理が扱えないので、 CNN -> NN にする前でこの平坦化する処理を行っている CNN: Kerasでの記法例

Slide 74

Slide 74 text

©MIXI 74 ハンズオン1 https://github.com/nami73b/machine-learning-notebooks-2023 ● 01_image_classiﬁcation ● ハンズオン01をVertex AIのJupyter Notebook環境下でトライしてみてください(詳しくはアナウンスします)

Slide 75

Slide 75 text

©MIXI 75 ● 学習済みモデルの一部を利用し、追加で解きたいタスクの学習をさせること ● 学習の精度向上や、学習の高速化が期待できる ● 出力層以外は学習済みモデルを使用し、出力層やその前の全結合層を新たに定義して学習させることで、自分のタスクに必要な部分のみを学習させる Transfer Learning ● CNNの層までは学習済みモデルのパラメーターで固定 ● Flatten後のFC層は学習可能なパラメーターとして新しく定義 https://paperswithcode.com/methods/category/convolutional-neural-networks 例

Slide 76

Slide 76 text

©MIXI 76 RNN, LSTM ● データの並びに意味が存在するデータに適応するネットワーク ex) 言語, 株取引, 音楽, グラフデータ, etc… ● 一時期流行ったが、学習に時間がかかるため少し下火 Understanding LSTM Networks ディープラーニングブログ

Slide 77

Slide 77 text

©MIXI 77 Embedding KerasでのLSTMの記法 ● 入力で与えられた数値をベクトルに変更する ● IDなどの大小関係のない数値を入力とする際によく使用される ● ベクトル値はパラメータ ➢ 学習が進んでいく事によって、最適化されるオラ様　は　オラゴン　であーる　。例　0　　 1　　 2　　 3 4 数値変換 Embedding (dim=2) [0.5, 0.6] [0.3, 0.1] [0.6, 0.7] [0.1, 0.8] [0.2, 0.2]

Slide 78

Slide 78 text

©MIXI 78 自然言語処理(NLP)とTransformer ● NLPでは前処理として文章の単語を意味あるベクトルにして処理するのが主流 ○ 例: fastText, word2Vec (日本語学習済みモデルもある) ● 以前はRNNやLSTMを使ったseq2seqモデルを使っていたが現在は Transformerベース ○ 主に全結合層とAttention層で構成 ➢ Attention層で、ある入力が他のどの情報に関連しているかを学習 ○ 入力値(ベクトル)に位置情報ベクトル(Positional Encoding)を加算 ➢ ある入力に対する相対的な位置情報を取得 ➢ RNNやLSTMのような再帰構造を取る必要がなくなり、並列処理が可能に ☆ 大規模モデル(LLM: Large Language Model)誕生のきっかけ ○ 詳細は割愛元になった論文は以下 ➢ Attention is All You Need (https://arxiv.org/abs/1706.03762)

Slide 79

Slide 79 text

©MIXI 79 VIT(Vision Transformer) ● Transformerの仕組みを画像分野に応用する試み ● 画像を均一に分割したパッチを1ピクセルごとの RGB行列に変換し、これを単語のように扱う ● 特徴 ○ CNNベースモデルより精度が高い ➢ データセットが小さい場合は CNNの方が精度が高い傾向にある ○ Attentionの機構を利用して、判断根拠(どこに注目したか)の抽出ができるパッチ化(均一に分割) パッチごとにベクトル化 (本当はRGBの行列) パッチのベクトルを単語のように扱う [(0, 0, 0), (0, 0, 0), (225, 10, 10), (235, 5, 5), (255, 0, 0) ...]

Slide 80

Slide 80 text

Slide 81

Slide 81 text

©MIXI 81 0.2 0.17 0.02 0.01 … Transformer技術を用いた高精度なChatbot AI ● 文章から次の単語を予測するタスクを学習 ● モデルはTransformerのデコーダー部分(の改良) を多層にしたもの Generative Pre-Training Supervised Fine-Tuning(SFT) Reinforcement Learning From Human Feedback (RLHF) 釣った魚を ___ 料理食べた私ゲーム … 例 ● 教師ありデータセットを用いてモデルを微調整 ● 強化学習を用いて出力を最適化報酬から Agentを最適化報酬モデル(RM) を学習強化学習モデル (PPO)を学習応答 (複数) 入力 (Prompt) 順位付け (ラベル) ラベルを元にランク学習応答 (ラベル) 入力 (Prompt) ラベルを元にモデルをFine-Tuning ChatGPT(Generative Pre-trained Transformer) Training language models to follow instructions with human feedback OpenAI et al, 2022

Slide 82

Slide 82 text

©MIXI 82 入力されたテキスト情報を元に画像を生成する技術 Stable Diﬀusion VAE Encoder 潜在空間に次元圧縮各潜在変数は確率分布 (正規分布) に従う各ステップで正規分布に基づくノイズを追加喜んでいるオラゴン 0 1 2 3 CLIP Test Encoder [0.32, 0.14, 0.01, …] UNet VAE Decoder 学習時のみ使用 UNet UNet 潜在変数から画像に変換 0ステップ目と各ステップのUNetにテキストから抽出された特徴量を追加

Slide 83

Slide 83 text

©MIXI 83 モデル選定とデータ形式(再掲) ● 機械学習における深層学習(Deep Learning)系のモデルは、非構造化データに対してより優れた精度を発揮することが多い ➢ 非構造化データの例: 音楽, 画像, 動画, テキスト, etc… ● 一方、構造化データに対しては、勾配ブースティング決定木(GBDT)系のモデルのほうがより優れた精度を発揮することが多い ➢ 構造化データの例: 表形式データ, RDB内のテーブルデータ, csvデータ, etc… https://www.datarobot.com/jp/blog/is-deep-learning-almighty/

Slide 84

Slide 84 text

©MIXI 84 ● 二分木の構造を用いて、分類・回帰を行う手法 ● 複数の条件を二分していき、最終的な出力を決定する ➢ 決定木の条件は学習によって最適化されていく GBDTモデルの基礎: 決定木 True False True True False False Attacker Defender Defender Attacker シュート精度 >= 中ボール奪取力 >= 高スピード >= 中例: サッカーの選手の能力から適正ポジション(Attacker or Defender)を予測シュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ高高低中高中選手A 能力値木を深くしすぎると、過学習に陥りやすくなる...

Slide 85

Slide 85 text

©MIXI 85 ● 単一の木を深くするのではなく、決定木自体を複数作成し、それぞれの出力値の多数決や平均を使うことで、最終的な出力を得る手法ランダムフォレストシュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ高高低中中高選手A 能力値 True False True False Attacker Defender Attacker スタミナ >= 高スピード >= 中 True False True False DefenderAttacker Attacker ボディバランス >= 高ボール奪取力 >= 中 True True False Attacker Defender Attacker ヘディング精度 >= 高 Attacker 3 Defender 0 Attacker False シュート精度 >= 高

Slide 86

Slide 86 text

©MIXI 86 ● 単一の木を深くするのではなく、決定木自体を複数作成し、それぞれの出力値の多数決や平均を使うことで、最終的な出力を得る手法ランダムフォレストシュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ低中高高中中選手B 能力値 True False True False Attacker Defender Attacker スタミナ >= 高スピード >= 中 True False True False Attacker Attacker ボディバランス >= 高ボール奪取力 >= 中 Attacker 2 Defender 1 Attacker Defender 木の出力値を、どの条件を通るかに関係なく平等に評価してしまう... True False True False Attacker Defender Attacker ヘディング精度 >= 高シュート精度 >= 高

Slide 87

Slide 87 text

©MIXI 87 Defender - Attackerか否かの 2値分類とする ➢ 0.5 >= Attacker ➢ 0.5 < Defender - ● 学習時に各決定木の教師データとの誤差を使って、出力値毎のスコアを算出 ➢ スコアから誤差を算出して、その誤差を次の決定木へと伝搬 ● 計算式を用いてスコアを合計し、推論を行う勾配ブースティング決定木(GBDT) シュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ低中高高中中選手B 能力値 True False True False Attacker DefenderAttacker スタミナ >= 高スピード >= 中 True False True False Attacker Attacker ボディバランス >= 高ボール奪取力 >= 中 True False True False Attacker Defender Attacker ヘディング精度 >= 高シュート精度 >= 高 Defender 3.5 -2 1 -4 2.5 0.5 3 -1.5 0.5 Sigmoid

Slide 88

Slide 88 text

©MIXI 88 GBDT系手法のライブラリ: LightGBMでの記法主要な学習パラメータ ● objective 目的変数(ラベル) ○ 二値分類 -> binary ○ 回帰 -> regression ○ 多クラス分類 -> multiclass ● metric 損失関数 ○ 二値分類 -> binary_logloss - loglossはcross_entropyと同義 ○ 回帰 -> MSE, MAE ○ 多クラス分類 -> multi_logloss ● モデルの構造 ○ n_estimators: 決定木の数 ○ learning_rate: 学習率 ○ num_leaves: 葉の数 ○ max_depth: 階層の最大数パラメータの公式リファレンス https://lightgbm.readthedocs.io/en/latest/Parameters.html

Slide 89

Slide 89 text

©MIXI 89 勾配ブースティング決定木の特徴 NNと比較した特徴 ● メリット ○ 解釈性が高い ➢ 各ノードが使用する特徴量がわかる ○ 計算時間、コストが小さい ● デメリット ○ 非構造化データには(基本的に)非対応 ➢ 画像とかはNNの方が得意

Slide 90

Slide 90 text

Slide 91

Slide 91 text

©MIXI

Slide 92

Slide 92 text

Slide 93

Slide 93 text

©MIXI 93 機械学習はトレーニングだけではない精度指標を高めることだけを考えていてはダメ実際にサービスに機械学習を導入するには ● 要件定義 ➢ サービス導入のための精度/レイテンシの設定 ● システムワークフローの構築(MLOps) データ収集前処理学習推論デプロイビルド評価利用フィードバック

Slide 94

Slide 94 text

©MIXI 94 要件定義 ● 機械学習で解決すべき問題なのか？ ➢ 効果とコストのバランスその他の単純な手法で実現できないか ● どの程度の精度が必要か？担当者がいい感じだねっていったらサービス導入は地獄既存のシステムとの何かしらの数値的評価基準は必要

Slide 95

Slide 95 text

©MIXI 95 要件定義 ● ビジネス的な指標の設定ユースケースによって、機械学習に求められる指標が異なる例) 不良品検知の場合 ○ recall(再現率): TP / (TP + FN) ➢ 正常品の巻き込みリスク ○ precision(適合率): TP / (TP + FP) ➢ 不良品の見逃しリスクこの2つは基本的にトレードオフどちらを優先するか検討する必要がある TP FP FN TN 正解正例負例正例負例予測

Slide 96

Slide 96 text

Slide 97

Slide 97 text

Slide 98

Slide 98 text

©MIXI 98 ケース: ねこ画像の投稿サービスでの投稿禁止コンテンツの検出考えるべきこと1: 実行タイミング ● 画像を選択したとき ➢ 誤選択時も推論時間分待たせることになる ● 投稿ボタンを押した後 ➢ 推論した結果投稿可の場合終了する ● 投稿後に非同期で推論する ➢ 投稿後`掲載まで今しばらくお待ちください`と表示し終了する掲載の可否はメール等で通知するケースを考える

Slide 99

Slide 99 text

©MIXI 99 ケース: ねこ画像の投稿サービスでの投稿禁止コンテンツの検出考えるべきこと2: 指標 ● 掲載したコンテンツのうち禁止コンテンツの割合 ● 禁止コンテンツのうち、掲載可のコンテンツの割合 ➢ これらを集計するには人手による正解データが必要現実的には、禁止コンテンツのうち本当に禁止コンテンツであった割合としたほうが良いかもしれませんケースを考える TP FP FN TN 正解正例負例正例負例予測

Slide 100

Slide 100 text

©MIXI 100 ケース: ねこ画像の投稿サービスでの投稿禁止コンテンツの検出考えるべきこと3: モデル ● 画像分類 ➢ 物体検知よりも学習が早く、データ作成も容易 ● 物体検知 ➢ 物体の位置まで推論可能ケースを考えるこの画像は画像検知だと、`人`と判定されそう

Slide 101

Slide 101 text

Slide 102

Slide 102 text

Slide 103

Slide 103 text

Slide 104

Slide 104 text

©MIXI 104 だれがどうやって作ったかわからない再学習が必要になった時は、作成者に依頼？ログは作成者しか見れない。再現性も不明学習はどこで行うか VertexAI Amazon SageMaker Cloud サービス Jupyter Notebookで学習したモデルはサービスには入れられない

Slide 105

Slide 105 text

©MIXI 105 ● モデルをデプロイして終了ではない ○ モデルの管理 ➢ バージョニングによって切り替え可能な状態にしておく ○ モデルの挙動/パフォーマンス検証 ➢ テスト通りの性能を継続して発揮できているか ○ 再学習 ➢ 定期的?精度低下を検知? ➢ 再学習したモデルは自動でデプロイ？精度を判断してから？これらを継続的に行えるシステム(MLOps)の構築が重要価値を安定的にユーザーに届けるデータ収集前処理学習推論デプロイビルド評価利用フィードバック

Slide 106

Slide 106 text

©MIXI 106 ハンズオン2 https://github.com/nami73b/machine-learning-notebooks-2023 ● 03_deploy_and_serving ● 04_predict_structured_data ● 下記のハンズオンにトライしてみてください

Slide 107

Slide 107 text

©MIXI 107

Slide 108

Slide 108 text

Slide 109

Slide 109 text

©MIXI 109 01_Introduction 03_deployment 今日学んだこと ● 機械学習とは何か ● 機械学習で何ができるか ● どうやったら学習できるか ● どんなデータがあれば良いのか ● サービスに入れるために考えなければいけないこと 02_data_and_training 今日の研修を通して以下のことを学びました

Slide 110

Slide 110 text

©MIXI 110 なにを提供できるか最後に自分のサービスでどんな価値が提供できるか考えてみよう ● どんな解決したい課題があるか ● どんなデータを持っているか ● それは学習できそうか ➢ そもそも既存のモデルが存在しないか？ ● サービスに入れる評価基準は決められそうか？ ● どういう風にサービスと繋ぐか？

Slide 111

Slide 111 text

Slide 112

Slide 112 text

©MIXI 112 おわりにお疲れ様でした本日の講義はこれで無事終了です是非、今日学んだり思考したことをきっかけに、サービス改善の選択肢としてAI導入も検討してもらえるようになってもらえると嬉しいです困ったときは社内に頼りになるエンジニアがいるので、相談してみてください

Slide 113

Slide 113 text

©MIXI 113 勉強会のお誘い machine-learning系書籍輪読会 - docbase - slack 今までやった本 - AIエンジニアのための機械学習システムデザインパターン - AIソフトウェアのテスト - 機械学習デザインパターン - Vision Transformer入門