Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. n CNN 編 • CNNとは • CNN Explainerの使い⽅ n 物体検出

    編 • 物体検出とは • 物体検出をやってみよう!! ⽬次 https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos
  2. n CNN 編 • CNNとは • CNN Explainerの使い⽅ n 物体検出

    編 • 物体検出とは • 物体検出をやってみよう!! ⽬次 https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos
  3. n Convolutional Neural Network (CNN) – 主に画像の特徴を抽出するのに使⽤されるネットワーク 画像分類とConvolutional Neural Network

    (CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist 段階的に 特徴を抽出 予測結果
  4. n Convolutional Neural Network (CNN) – 主に画像の特徴を抽出するのに使⽤されるネットワーク 画像分類とConvolutional Neural Network

    (CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist ⼊⼒ 特徴抽出 (なんらかの計算) 予測 (出⼒) 画像を計算 って何
  5. ▪ そもそも….画像とは? – 画素の集合 – 画素 : 輝度の情報(数値)を持つ 画像分類とConvolutional Neural

    Network (CNN) https://deepage.net/deep_learning/2016/11/0 7/convolutional_neural_network.html ▪ 画素 – 輝度の情報(数値)を持つ – 0~255の値
  6. ▪ CNN – 畳み込みニューラルネットワーク – 畳み込みという計算を⾏い 画像の特徴を抽出する 画像分類とConvolutional Neural Network

    (CNN) ▪ CNNにおける⽤語 – 畳み込み – カーネル(フィルタ) – パディング – ストライド https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos
  7. ▪ CNNの⼀連の流れ -- 画像とカーネルを⽤いてなんらかの計算を⾏う 画像分類とConvolutional Neural Network (CNN) 画像 カーネル

    (フィルタ) 畳み込み 計算結果 画像は数の集合 https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  8. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 畳み込み

    計算結果 カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  9. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 畳み込み

    計算結果 𝟏×𝟎 𝟎×𝟎 𝟏×𝟎 𝟎×𝟎 𝟏×𝟎 𝟎×𝟏 𝟏×𝟎 𝟎×𝟏 𝟏×𝟎 画像の値×カーネルの値 カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  10. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 計算結果

    0 0 0 0 0 0 0 0 0 全て⾜す カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  11. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 畳み込み

    計算結果 カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  12. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 畳み込み

    計算結果 𝟏×𝟎 𝟎×𝟎 0×𝟏 𝟎×𝟎 𝟏×𝟏 𝟏×𝟎 𝟏×𝟏 𝟎×𝟎 𝟏×𝟏 画像の値×カーネルの値 カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  13. ▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す 画像分類とConvolutional Neural Network (CNN) 画像 計算結果

    0 0 0 0 1 0 1 0 1 全て⾜す カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
  14. ▪ CNNの⼀連の流れ -- 畳み込み計算を繰り返し⾏う 画像分類とConvolutional Neural Network (CNN) https://deepage.net/deep_learning/2016/11/07/convolutional _neural_network.html

    ▪ 補⾜ ・ ストライド -- カーネルの適⽤間隔 ・パディング -- 畳み込み前の⽳埋め ゼロパディング 通常(左)と パディング・ストライドあり(右) (計算結果) https://github.com/vdumoulin/conv_arithmetic
  15. n Convolutional Neural Network (CNN) – 主に画像の特徴を抽出するのに使⽤されるネットワーク 画像分類とConvolutional Neural Network

    (CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist それぞれ畳み込み 予測結果
  16. Appendix: 10種類の画像 lifeboat 救命ボート ladybug てんとう⾍ pizza ピザ bell pepper

    ピーマン パプリカ school bus スクールバス koara コアラ espresso エスプレッソ red panda レッサーパンダ orange オレンジ sport car スポーツカー
  17. 使い⽅③: ⼊⼒画像の確認 1. ⼊⼒画像の確認 カラー画像は RGBの3チャンネルから構成される ※ RGBとチャンネル R: Red,

    G: Green, B: Blue カラー画像はR,G,Bの3チャンネル の画像で構成される ※ オレンジの例(わかりやすさの点より) R,G,Bそれぞれに⇨ があるイメージ
  18. 使い⽅④-3: 最終予測箇所の解説 ▪ 最後の予測部分の処理 1. Flatten 2次元配列を1次元に変換 2. 全ての値を加算 1次元に変換した各要素の値を

    全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ https://www.superdatascience.com/blogs/convolutional- neural-networks-cnn-step-3-flattening
  19. 使い⽅④-3: 最終予測箇所の解説 ▪ 最後の予測部分の処理 1. Flatten 2次元配列を1次元に変換 2. 全ての値を加算 1次元に変換した各要素の値を

    全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ 1 + 1 + 0 + 4 + 2 + 1 + 0 + 2 + 1 + b 12 + 𝑏 ||
  20. 使い⽅④-3: 最終予測箇所の解説 ▪ 最後の予測部分の処理 1. Flatten 2次元配列を1次元に変換 2. 全ての値を加算 1次元に変換した各要素の値を

    全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ 𝑓 12 + 𝑏 = 0.9862 𝑓(𝑥)はsoftmax関数というもの
  21. n CNN 編 • CNNとは • CNN Explainerの使い⽅ n 物体検出

    編 • 物体検出とは • 物体検出をやってみよう!! ⽬次 https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos
  22. • どのように⾏われているのか? – Bounding boxを決定する • Bounding boxってなに? – 物体を囲む四⾓い枠

    • どのように決定するのか? – 適当に配置したboxから 適切なものを決める など... 物体検出 YOLO SSD https://qiita.com/kindamu24005/items/efd53c7511a40ddac636 https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9
  23. • YOLO(You Only Look Once) – 2016年に提案された物体検出モデル(現在はver.5) – リアルタイムに物体検出が可能 Redmon,

    J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In CVPR (pp. 779-788). 物体検出⼿法:YOLOを使ってみよう
  24. • 密集している人間までしっかり特定されています • (余談ですが)この画像は写真ではなく,AIが作り出した合成画像です Ramesh, A., Dhariwal, P., Nichol, A.,

    Chu, C., & Chen, M. (2022). Hierarchical text- conditional image generation with clip latents. arXiv preprint arXiv:2204.06125. 実⾏例
  25. ⽬次 ▪ 画像⽣成とはなにか l 基盤となるモデル(AE, GAN)の紹介 ▪ 最新モデルの紹介 l 拡散モデルについて

    l Stable Diffusionを実際に試してみよう ▪ 今後の展望 l 研究をどう追いかけるのか 54
  26. これまでの研究: Generative Adversarial Network (GAN) 58 ▪ モデル構造 Ø 偽札を作る⽣成器

    vs 本物と⾒分ける識別器 ⽣成器 𝑧 f-img r-img output 識別器 本物か偽物か
  27. ⽬次 ▪ 画像⽣成とはなにか l 基盤となるモデル(AE, GAN)の紹介 ▪ 最新モデルの紹介 l 拡散モデルについて

    l Stable Diffusionを実際に試してみよう ▪ 今後の展望 l 研究をどう追いかけるのか 59
  28. 最近すごいのが現れた! [txt2img] ▪ DALL·E-2 [Aditya+, April, 2022] 60 A photo

    of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. https://imagen.research.google/ ▪ Imagen [Chitwan+, May, 2022] ⾚いコートをまとい,本を読 みながら,ラウンジチェアに 座り,⼤森林の中にいる, ハリネズミの写真 Google
  29. 最近すごいのが現れた! [txt2img] ▪ DALL·E-2 [Aditya+, April, 2022] 61 A photo

    of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. https://imagen.research.google/ ▪ Imagen [Chitwan+, May, 2022] Google
  30. 最近すごいのが現れた! [txt2img] ▪ Stable Diffusion [Robin+, June, 2022, in CVPR]

    Ø 昨今,世間を騒がせているモデル Ø 前⼆つと異なり,だれでも無料で使⽤可能 Ø コンピュータの計算量を減らして,より⾼速に 62 Googleでの 検索ヒット数が 約 178,000,000 件! A photo of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. • 前の⼆つと⽐べると少し 微妙な⽣成 • そろそろアップデートさ れるらしい • さらに期待…!
  31. 拡散モデル(Diffusion Models)とは? ▪ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤ ▪ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう! ▪

    Forward Step Ø データにノイズを徐々に加える ▪ Reverse Step Ø ノイズまみれのデータから元のデータを 再構成(復元)していく 69 扱いやすくて柔軟!
  32. 拡散モデル(Diffusion Models)とは? ▪ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤ ▪ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう! ▪

    Forward Step Ø データにノイズを徐々に加える ▪ Reverse Step Ø ノイズまみれのデータから元のデータを 再構成(復元)していく 70 扱いやすくて柔軟!
  33. 拡散モデル(Diffusion Models)とは? ▪ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤ ▪ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう! ▪

    Forward Step Ø データにノイズを徐々に加える ▪ Reverse Step Ø ノイズまみれのデータから元のデータを 再構成(復元)していく 71 扱いやすくて柔軟!
  34. Stable Diffusionを使ってみよう! ▪ Google Colab l https://onl.la/kPrrtJ7 l 上のリンクを開いて「Google Colaboratoryで開く」をクリック

    l もしこのタブが出てこない場合には,アプリで開くのところから 「Colaboratory」をインストールしよう 72
  35. 実習 73 ▪ 5⼈のグループでどれだけすごい画像をテキストから⽣成できるか勝 負しよう! ▪ Rule 1. 3つのお題をこちらから発表 2.

    制限時間10分で3つのお題を分担して⽣成 3. 提出Formに画像を提出 ▪ 提出フォルダは⼝頭で伝えます ▪ 画像ファイル名は「◦班_お題□.png」でお願いします 4. 全員でそれぞれの⽣成についてコメントと評価 5. 全員で⽣成を振り返ろう
  36. ⽬次 ▪ 画像⽣成とはなにか l 基盤となるモデル(AE, GAN)の紹介 ▪ 最新モデルの紹介 l 拡散モデルについて

    l Stable Diffusionを実際に試してみよう ▪ 今後の展望 l 研究をどう追いかけるのか 75
  37. 今後の画像⽣成の展望 ▪ 参考 Ø https://twitter.com/GanWeaving/status /1568893498895601665?s=20&t=GKRAGQww0zboP1o8ZxDihA Ø https://twitter.com/CoffeeVectors/status/1569416470332858372?s=20&t=GKRAGQww0zboP1o8ZxDihA Ø https://twitter.com/remi_molettee/status

    /1568977503565266944?s=20&t=GKRAGQww0zboP1o8ZxDihA 76 みんなも何ができるのか考えてみよう! ▪ アニメや映画への応⽤ ▪ デザイナーの補助 ▪ メタバースへの活⽤
  38. 最新技術の追いかけ⽅ ▪ Twitter Ø やはり⼀番情報が速い Ø 研究やサーベイ⽤のアカウントを作るのがおすすめ! • 興味のないツイートを間引いていくのがポイント Ø

    我々の研究室を宣伝 -> https://twitter.com/keio_smilab?s=20&t=Ukn9WYvNZrDnTOXXe520-A ▪ Papers with code [https://paperswithcode.com/] Ø ⼈気の機械学習に関する論⽂が読める!英語の勉強にも! ▪ Connected Papers [https://www.connectedpapers.com/] Ø 気になった論⽂と関連度の⾼い論⽂を⾒つけてくれる Ø Papers with code -> Connected Papersの流れで,その分野に詳しくなろう 77
  39. Appendix:本内容をもっと深くまで学びたい⼈⽤ 79 ▪ 同研究室から拡散モデルに関する解説 • 今回の拡散モデルの少し発展版(iioka) • https://speakerdeck.com/keio_smilab/journal-club-high-resolution-image-synthesis-with-latent- diffusion-models •

    数式を踏まえた解説(komatsu)【応⽤】 • https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models • 孔明先⽣による実際の⼤学授業教材【応⽤】 • https://speakerdeck.com/keio_smilab/keio-univ-intro-to-ml-2021-01 n 参考にしたサイト集 • 拡散モデルについて • https://zenn.dev/nakky/articles/09fb1804001ff8 • コードを実際に動かしながら詳細を学ぶ • https://colab.research.google.com/drive/1dlgggNa5Mz8sEAGU0wFCHhGLFooW_pf1?usp=sharing
  40. Appendix:実習の解答例 80 ▪ お題1 Ø Matthew Calbraith Perry arrives on

    a black ship, fairy tale style background, a beautiful half body illustration, top lighting, perfect shadow, soft painting, reduce saturation, leaning towards watercolor, art by hidari and krenz cushart and wenjun lin and akihiko yoshida,highly detailed, elaborate, digital painting hyper quality, 8k Ø ペリーがかっこよくなりすぎたが, 現代版のペリーっぽくなったのでア リ
  41. Appendix:実習の解答例 81 ▪ お題2 Ø Detailing oil painting of Kongming

    Zhu-ge Liang performing dj at a live music venue, perfect lighting, by CASPAR DAVID FRIEDRICH and CLAUDE LORRAIN, 8k Ø やはり杉浦孔明研なので,諸葛亮孔 明がDJをしているところを⽣成. 発 想は「パリピ孔明」から得ました
  42. Appendix:実習の解答例 82 ▪ お題3 Ø Logo about a character of

    a red onion by Akira Toriyama in Dragon Quest style, kawaii, no background, HQ Ø これが⼀番難しく感じた. 正直運 ゲー要素はかなり強い. Kawaiiはお すすめかも.