【1/3】GMOペパボ機械学習研修2022 資料

Slide 1

Slide 1 text

機械学習研修 Day1 （研修全体ガイダンス・機械学習イントロ・ハンズオン）渡辺龍二 / ペパボ研究所ペパボエンジニア研修2022 2022.08.02 1

Slide 2

Slide 2 text

2 1. 研修ガイダンス (5 min) 2. 機械学習イントロダクション（20 min） 3. Let’s ハンズオン！（140 min） 4. 学んだことを各自まとめる（10 min） Day1 アジェンダ

Slide 3

Slide 3 text

3 ガイダンス｜研修の目的機械学習研修の目的はこれだ！サービス価値の向上のために「再帰化」を実現する上で、実装手段として機械学習を検討できるようになる。 • 目的の背景：ペパボのエンジニアとして機械学習を学ぶ動機は、　　　　　　　　機械学習を「再帰化」の実現アプローチとして利用することにある • サービス価値の向上において「再帰化」は重要な考え方[栗林2022] • 「再帰化 ≠ 機械学習の利用」であることを理解して再帰化を実現するために機械学習の利用するか否かを判断できることを目指す [栗林2022] GMOペパボが考えるこれからのサービス開発（p.10より引用） https://speakerdeck.com/kentaro/toward-the-next-service-development-era?slide=10

Slide 4

Slide 4 text

4 ガイダンス｜カリキュラム研修目的を達成するために以下のカリキュラムを設定していますサービス価値の向上のために「再帰化」を実現する上で、実装手段として機械学習を検討できるようになる。研修の目的ゴール実施内容 Day1 機械学習とは何か、自分の言葉で説明できる - 機械学習イントロダクション（座学） - Machine Learning Crash Course (ハンズオン) Day2 再帰化を実現するために、機械学習をどう活用できるかイメージできる - Machine Learning Crash Course (ハンズオン) - 再帰化と機械学習（座学） Day3 サービスの実課題を機械学習で解決する一連の流れの例を挙げられる - Machine Learning Crash Course （ハンズオン） - 機械学習のサービス連携事例紹介（座学）

Slide 5

Slide 5 text

5 機械学習イントロダクション

Slide 6

Slide 6 text

6 1. 研修ガイダンス 2. 機械学習イントロダクション（20 min） a. ざっくりとした「機械学習とは何か」 b. 予測タスクからイメージする機械学習 c. 機械学習で取り組むタスクいろいろ 3. Let’s ハンズオン！（140 min） 4. 学んだことを各自まとめる（10 min） Day1 アジェンダ

Slide 7

Slide 7 text

7 a. ざっくりとした「機械学習とは何か」アルゴリズムによってデータに内在する規則や構造を抽出することでタスクを解くための技術や方法論のこと機械学習とは…

Slide 8

Slide 8 text

アルゴリズムによってデータに内在する規則や構造を抽出することでタスクを解くための技術や方法論のこと 8 a. ざっくりとした「機械学習とは何か」「機械学習」というネーミングのニュアンスは以下のような感じです ② コンピュータで実行可能な手続きを適用し…「機械」（コンピュータ）が実行する ① 先にデータがあり ③有用な規則や構造を得る…なんか人間の「学習」っぽい ④何らかのタスクを解く ※ 「機械」が「学習」する、というのはあくまでメタファー

Slide 9

Slide 9 text

9 何か解きたいタスクがあるとして、機械学習では以下の手順を踏むアルゴリズムでタスクを解くために、人間によるデータの用意やタスクの落とし込みが必要となる a. ざっくりとした「機械学習とは何か」 1. データを用意する 2. アルゴリズムが解ける形にタスクを落とし込む 3. アルゴリズムでタスクを解く ↑人間がやる（自動化はできるがどういうデータを収集するかは人間が決める） ↑人間がやる ↑コンピュータがやる（アルゴリズムをプログラムとして実装しコンピュータ上で実行する） ※意外と人間がやることは多いです（機械学習に全部お任せ！ではない）

Slide 10

Slide 10 text

10 何か解きたいタスクがあるとして… これから「予測タスク」を題材に、以下の流れの具体例を見ていきます！ b. 予測タスクからイメージする機械学習｜以降の話の流れ 1. 予測に役立つデータを用意する 2. アルゴリズムが解ける形に予測タスクを落とし込む 3. アルゴリズムが予測タスクを解く ↑人間がやる（自動化はできるがどういうデータを収集するかは人間が決める） ↑人間がやる ↑コンピュータがやる（アルゴリズムをプログラムとして実装し、コンピュータ上で実行する） ※意外と人間がやることは多いです（機械学習に全部お任せ！ではない）

Slide 11

Slide 11 text

11 b. 予測タスクからイメージする機械学習｜想定するタスク • 想定：あなたは新しく開店するアイスクリーム屋の店長です • 願望：毎日の在庫管理を過不足なく行いたい • 着想： • 「気温が高いとアイスクリームの売れ行きが上がる」という関係がありそう • 気温からアイスへの支出額の予想ができたら、在庫管理に有用なのでは？その日の気温からアイスクリームへの支出額を予測したい、というタスクを想定する

Slide 12

Slide 12 text

12 ● 気温をx, 支出額をyとし y=f(x)という関係があるとする気温と支出額の間に関数の関係があると仮定し、関数を得て支出額を予測する ● このfを獲得できれば、任意のxに対してyを予測できる ● よって、予測タスク≒関数獲得タスクと言える ※この場合は1次関数f(x)=ax+b 　として表現している b. 予測タスクからイメージする機械学習｜想定するタスク

Slide 13

Slide 13 text

13 機械学習では、データにうまく当てはまるような関数を獲得することを考えるあらゆる関数の中でデータにうまく当てはまる関数をアルゴリズムによって獲得する！機械学習の定義の「データに内在する規則を抽出」に相当過去に観測された気温-支出額のデータがある図の参照元： [岡崎2022] 機械学習帳 - 1.単回帰 https://chokkan.github.io/mlnote/regression/01sra.html b. 予測タスクからイメージする機械学習｜想定するタスク

Slide 14

Slide 14 text

14 「データに当てはまる関数」を得るために、まずはデータの用意から行う b. 予測タスクからイメージする機械学習 1. 予測に役立つデータを用意する 2. アルゴリズムが解ける形に予測タスクを落とし込む 3. アルゴリズムが予測タスクを解く

Slide 15

Slide 15 text

15 b. 予測タスクからイメージする機械学習｜機械学習による予測の手順データを用意する ● 今回の具体例におけるデータ：　　　　　　　　　　　　　と表記 ● 一般に、どんなデータを使うかは人間が決定し、計算機で収集・蓄積するとするとする i番目の気温・支出額をと表記図の参照元： [岡崎2022] 機械学習帳 - 1.単回帰 https://chokkan.github.io/mlnote/regression/01sra.html

Slide 16

Slide 16 text

16 次は、アルゴリズムが解ける形に予測タスクを落とし込んでいく b. 予測タスクからイメージする機械学習｜次のステップ 1. 予測に役立つデータを用意する 2. アルゴリズムが解ける形に予測タスクを落とし込む 3. アルゴリズムが予測タスクを解く

Slide 17

Slide 17 text

17 b. 予測タスクからイメージする機械学習｜アルゴリズムで解けるように予測タスクを落とし込む① 関数をより具体的に数式で表現する（モデル化） ● このモデルにおいてタスク「予測＝関数獲得」は「パラメータw,bを求める」になる ○ 推定対象を具体的に定式化することで、アルゴリズムで解きやすくなる関数は傾きw, 切片bの一次関数であると仮定しそれぞれフリーパラメータとする横軸x ● 気温xと消費額yの関係（モデル）を以下のように定義する（この手順をモデル化と呼ぶ）縦軸 y w, bを変化させると関数が変化する図の参照元： [岡崎2022] 機械学習帳 - 1.単回帰 https://chokkan.github.io/mlnote/regression/01sra.html

Slide 18

Slide 18 text

18 b. 予測タスクからイメージする機械学習｜アルゴリズムで解けるように予測タスクを落とし込む② データに対するパラメータの評価指標（損失関数）を定義する ● やりたいこと：アルゴリズムが良いパラメータを見つけるためにパラメータによって定まる関数がデータをどれだけ当てはまっているかを定量的に評価したい ● やり方：データと関数の予測値のズレ　　　　　　　　　　　　　　（残差）を元に以下の関数を定義するズレ（残差）の図示 2乗を取って正の値にして総和を取る w, bの変化に伴いズレも変動するため w, bの関数となるこのような関数を損失関数 (loss function)と呼ぶ

Slide 19

Slide 19 text

19 準備ができたので、アルゴリズムにタスクを解いてもらう b. 予測タスクからイメージする機械学習｜次のステップ 1. 予測に役立つデータを用意する 2. アルゴリズムが解ける形に予測タスクを落とし込む 3. アルゴリズムが予測タスクを解く

Slide 20

Slide 20 text

20 b. 予測タスクからイメージする機械学習｜アルゴリズムで予測タスクを解く評価指標（損失関数）を最適化するパラメータをアルゴリズムによって求める ● 定義した損失関数F(w,b|D)が最小となるようなパラメータを求める ○ いわゆる「数理最適化問題（厳密には連続最適化問題）」であり、アルゴリズムで解ける ● どんなアルゴリズムを用いるかは人間が決める ○ 関数の性質や与えられる制約によってある程度は絞られる ○ 機械学習では勾配法が用いられることが多いただし詳しくはハンズオンで学びます最終的な推定値を ^付きで表現

Slide 21

Slide 21 text

21 b. 予測タスクからイメージする機械学習｜予測の実行手順のバリエーション各手順において複数の選択肢があるため、良い予測のためには試行錯誤が必要手順データに対するパラメータのあああ評価指標 (損失関数) を定義するデータを用意するモデル化アルゴリズムで最適化する検討事項の例考えられる選択肢の例 ● 気温に加えて湿度も考慮するああああああああ　（入力xをベクトルとする）など ● 2次以上の多項式 ● 複数の周波数を持つ正弦波と余弦波の線形和 ● ニューラルネットワーク　　　　　　　　　　　など ● 残差の二乗ではなく絶対値を使う ● 二乗誤差の総和+正則化項とする　など ● 様々な勾配法のアルゴリズムああああああああ e.g. 共役勾配法, Adam, Momentum などどの最適化アルゴリズムを用いるか？どのような損失関数にするか？どのようなモデルにするか？予測に効きそうな他の入力xは？

Slide 22

Slide 22 text

22 c. 機械学習で取り組むタスクいろいろその他のタスク • 強化学習 • 協調フィルタリング、異常検出などなどなど… 機械学習で解くタスクはさまざまある（関数獲得ばかりではない）出力yの取る値連続値離散値データ中に教師yがあるか？ある回帰 (Regression) 分類 (Classification) ない次元削減 (Dimensionality Reduction) クラスタリング (Clustering) どちらも予測＝関数獲得タスクまとめて「教師あり学習」と呼ぶ（前述のアイスクリームの例は回帰）

Slide 23

Slide 23 text

23 1. 研修ガイダンス 2. 機械学習イントロダクション（20 min） a. ざっくりとした「機械学習とは何か」 b. 予測タスクからイメージする機械学習 c. 機械学習で取り組むタスクいろいろ 3. Let’s ハンズオン！（140 min） 4. 学んだことを各自まとめる（10 min） Day1 アジェンダ

Slide 24

Slide 24 text

24 • Machine Learning Crash Course • Software Engineerが機械学習の理論・実装を学ぶためのハンズオン • 今日進めて欲しい単元 • ML concepts - Introduction to ML (3 min) • Framing (15 min) • Descending into ML (20 min) • Reducing loss (60 min) • First steps with tf (65 min) • 進められるところまで！手を動かしながら機械学習を学んでいきましょう！ Let’s ハンズオン

Slide 25

Slide 25 text

25 • ハンズオン資料は英語です • 動画は飛ばしてください！ ※”Introduction to ML” は除く • 休憩を適宜取ってください • 早く終わった場合はどんどん先に進んで大丈夫です！ • Day1ゴール「機械学習とは何か、自分の言葉で説明できる」が達成できるようにがんばりましょう！進める上での注意点 Let’s ハンズオン

Slide 26

Slide 26 text

26 1. 研修ガイダンス 2. 機械学習イントロダクション（20 min） a. ざっくりとした「機械学習とは何か」 b. 予測タスクからイメージする機械学習 c. 機械学習で取り組むタスクいろいろ 3. Let’s ハンズオン！（140 min） 4. 学んだことを各自まとめる（10 min） Day1 アジェンダ

Slide 27

Slide 27 text

27 • 以下のことをまとめてみてください〜！ • 学んだこと • 感じたこと • 考えたこと • 「機械学習を自分の言葉で説明」にトライしてみてください！学んだことをまとめる時間クロージング