Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾⼤学 杉浦孔明研究室
    飯岡雄偉,⼩槻誠太郎,⼩松拓実,
    是⽅諒介,松尾榛夏,和⽥唯我
    サイエンスフロンティア⾼校
    サイエンスリテラシI

    View Slide

  2. 物体検出:
    画像中の物体を⾒つける
    - 2 -

    View Slide

  3. n CNN 編
    • CNNとは
    • CNN Explainerの使い⽅
    n 物体検出 編
    • 物体検出とは
    • 物体検出をやってみよう!!
    ⽬次
    https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

    View Slide

  4. n CNN 編
    • CNNとは
    • CNN Explainerの使い⽅
    n 物体検出 編
    • 物体検出とは
    • 物体検出をやってみよう!!
    ⽬次
    https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

    View Slide

  5. • 画像分類とは?
    – 与えられた画像に写っているものが何かを予測すること
    画像分類とConvolutional Neural Network (CNN)
    モデル
    (AI)
    ねこ

    ⾶⾏機

    りんご
    ピザ
    何らかの
    計算

    View Slide

  6. n Convolutional Neural Network (CNN)
    – 主に画像の特徴を抽出するのに使⽤されるネットワーク
    画像分類とConvolutional Neural Network (CNN)
    https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist
    段階的に
    特徴を抽出
    予測結果

    View Slide

  7. n Convolutional Neural Network (CNN)
    – 主に画像の特徴を抽出するのに使⽤されるネットワーク
    画像分類とConvolutional Neural Network (CNN)
    https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist
    ⼊⼒
    特徴抽出
    (なんらかの計算)
    予測
    (出⼒)
    画像を計算
    って何

    View Slide

  8. ■ そもそも….画像とは?
    – 画素の集合
    – 画素 : 輝度の情報(数値)を持つ
    画像分類とConvolutional Neural Network (CNN)
    https://deepage.net/deep_learning/2016/11/0
    7/convolutional_neural_network.html
    ■ 画素
    – 輝度の情報(数値)を持つ
    – 0~255の値

    View Slide

  9. ■ CNN
    – 畳み込みニューラルネットワーク
    – 畳み込みという計算を⾏い
    画像の特徴を抽出する
    画像分類とConvolutional Neural Network (CNN)
    ■ CNNにおける⽤語
    – 畳み込み
    – カーネル(フィルタ)
    – パディング
    – ストライド
    https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

    View Slide

  10. ■ CNNの⼀連の流れ
    -- 画像とカーネルを⽤いてなんらかの計算を⾏う
    画像分類とConvolutional Neural Network (CNN)
    画像
    カーネル
    (フィルタ)
    畳み込み
    計算結果
    画像は数の集合
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  11. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    畳み込み
    計算結果
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  12. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    畳み込み
    計算結果
    𝟏×𝟎 𝟎×𝟎 𝟏×𝟎
    𝟎×𝟎 𝟏×𝟎 𝟎×𝟏
    𝟏×𝟎 𝟎×𝟏 𝟏×𝟎
    画像の値×カーネルの値
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  13. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    計算結果
    0 0 0
    0 0 0
    0 0 0
    全て⾜す
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  14. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    畳み込み
    計算結果
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  15. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    畳み込み
    計算結果
    𝟏×𝟎 𝟎×𝟎 0×𝟏
    𝟎×𝟎 𝟏×𝟏 𝟏×𝟎
    𝟏×𝟏 𝟎×𝟎 𝟏×𝟏
    画像の値×カーネルの値
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  16. ■ 畳み込み
    -- 重なっている部分を掛け算し、その後全ての数を⾜す
    画像分類とConvolutional Neural Network (CNN)
    画像
    計算結果
    0 0 0
    0 1 0
    1 0 1
    全て⾜す
    カーネル
    (フィルタ)
    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    View Slide

  17. ■ CNNの⼀連の流れ
    -- 畳み込み計算を繰り返し⾏う
    画像分類とConvolutional Neural Network (CNN)
    https://deepage.net/deep_learning/2016/11/07/convolutional
    _neural_network.html
    ■ 補⾜
    ・ ストライド
    -- カーネルの適⽤間隔
    ・パディング
    -- 畳み込み前の⽳埋め
    ゼロパディング
    通常(左)と
    パディング・ストライドあり(右)
    (計算結果)
    https://github.com/vdumoulin/conv_arithmetic

    View Slide

  18. n Convolutional Neural Network (CNN)
    – 主に画像の特徴を抽出するのに使⽤されるネットワーク
    画像分類とConvolutional Neural Network (CNN)
    https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist
    それぞれ畳み込み
    予測結果

    View Slide

  19. CNN Explainerとは
    ■ CNN Explainerとは
    CNNアーキテクチャにおける⼀つ⼀つの処理を可視化したツール
    https://poloclub.github.io/cnn-explainer/
    実際に使ってみよう!
    ↑のサイトにアクセス!

    View Slide

  20. CNN Explainerの概要
    1. 画像の選択
    どの画像の分類を⾏うか
    2. ⼊⼒画像
    RGBの⼊⼒画像
    3. 各処理の可視化
    4. 分類結果の確認

    View Slide

  21. CNN Explainerの概要
    1. 画像の選択
    どの画像の分類を⾏うか
    2. ⼊⼒画像
    RGBの⼊⼒画像
    3. 各処理の可視化
    4. 分類結果の確認

    View Slide

  22. CNN Explainerの概要
    1. 画像の選択
    どの画像の分類を⾏うか
    2. ⼊⼒画像
    RGBの⼊⼒画像
    3. 各処理の可視化
    4. 分類結果の確認

    View Slide

  23. CNN Explainerの概要
    1. 画像の選択
    どの画像の分類を⾏うか
    2. ⼊⼒画像
    RGBの⼊⼒画像
    3. 各処理の可視化
    4. 分類結果の確認

    View Slide

  24. 使い⽅①: 画像の選択と分類結果の確認
    1. 画像の選択
    好きな画像を
    ⼀つ選択してクリック
    ※ 補⾜
    -- 各画像とそのラベルは
    Appendixを参照

    View Slide

  25. Appendix: 10種類の画像
    lifeboat
    救命ボート
    ladybug
    てんとう⾍
    pizza
    ピザ
    bell pepper
    ピーマン
    パプリカ
    school bus
    スクールバス
    koara
    コアラ
    espresso
    エスプレッソ
    red panda
    レッサーパンダ
    orange
    オレンジ
    sport car
    スポーツカー

    View Slide

  26. 使い⽅①: 画像の選択と分類結果の確認 -- デモ --

    View Slide

  27. 使い⽅②: 画像の選択と分類結果の確認
    1. 分類結果の確認
    ⾚枠部分を確認
    バーが1番⻑いものが予測結果
    ※ バーの表す意味
    予測確率
    画像がそのラベルである確率を0~1で⽰す
    0% : 0 ó 100% : 1

    View Slide

  28. 使い⽅②: 画像の選択と分類結果の確認 -- デモ --

    View Slide

  29. 使い⽅③: ⼊⼒画像の確認
    1. ⼊⼒画像の確認
    カラー画像は
    RGBの3チャンネルから構成される
    ※ RGBとチャンネル
    R: Red, G: Green, B: Blue
    カラー画像はR,G,Bの3チャンネル
    の画像で構成される
    ※ オレンジの例(わかりやすさの点より)
    R,G,Bそれぞれに⇨
    があるイメージ

    View Slide

  30. 使い⽅④-1: ⼊⼒画像の処理の確認
    ■ ⼊⼒画像の処理の確認
    ⼊⼒画像のRGBそれぞれの
    チャンネルの処理を確認
    ※ オレンジの例(わかりやすさの点より)
    1. 1列⽬の好きな画像をクリック
    ⼊⼒画像(RGB)から
    計算されていることを確認

    View Slide

  31. 使い⽅④-1: ⼊⼒画像の処理の確認
    ■ ⼊⼒画像の処理の確認
    ⼊⼒画像のRGBそれぞれの
    チャンネルの処理を確認
    ※ オレンジの例(わかりやすさの点より)
    1. 1列⽬の好きな画像をクリック
    ⼊⼒画像(RGB)から
    計算されていることを確認

    View Slide

  32. 使い⽅④-1: ⼊⼒画像の処理の確認 -- デモ --

    View Slide

  33. 使い⽅④-1: ⼊⼒画像の処理の解説
    ■ 処理内容の確認
    1. 畳み込みの演算
    ⼊⼒画像の各チャンネルについて
    畳み込み演算を⾏う
    2. 演算結果の⾜し合わせ
    畳み込みの演算結果を⾜し合わせ、
    最後に定数を⾜し合わせ出⼒

    View Slide

  34. 使い⽅④-1: ⼊⼒画像の処理の解説
    ■ 処理内容の確認
    1. 畳み込みの演算
    ⼊⼒画像の各チャンネルについて
    畳み込み演算を⾏う
    2. 演算結果の⾜し合わせ
    畳み込みの演算結果を⾜し合わせ、
    最後に定数を⾜し合わせ出⼒

    View Slide

  35. 使い⽅④-2: 畳み込み処理の確認
    ■ 具体的に畳み込みの処理の確認
    畳み込み層における
    具体的な計算例を確認する
    1. 好きな画像をクリック
    畳み込み計算を⾏っている画像
    のうち好きな画像をクリック
    2. 拡⼤図で畳み込み処理を確認

    View Slide

  36. 使い⽅④-2: 畳み込み処理の確認
    ■ 具体的に畳み込みの処理の確認
    畳み込み層における
    具体的な計算例を確認する
    1. 好きな画像をクリック
    畳み込み計算を⾏っている画像
    のうち好きな画像をクリック
    2. 拡⼤図で畳み込み処理を確認

    View Slide

  37. 使い⽅④-2: 畳み込み処理の確認 -- デモ --

    View Slide

  38. 使い⽅④-2: 畳み込み処理の解説
    ■ 処理の内容の確認
    1. 畳み込みの演算
    ⇨のようになっていることを確認
    2. 具体的に計算を確認
    畳み込みの演算結果を⾜し合わせ、
    最後に定数を⾜し合わせ出⼒

    View Slide

  39. 使い⽅④-2: 畳み込み処理の解説
    ■ 処理の内容の確認
    1. 畳み込みの演算
    ⇨のようになっていることを確認
    2. 具体的に計算を確認
    畳み込みの演算結果を⾜し合わせ、
    最後に定数を⾜し合わせ出⼒
    Stochastic Reconstruction of an Oolitic Limestone by Generative Adversarial Networks

    View Slide

  40. 使い⽅④-3: 最終予測箇所の確認
    ■ 最後の予測部分の確認
    CNNにおける
    最終的な予測の流れを確認する
    1. 好きな出⼒ラベル名をクリック
    最後の出⼒の名前のうち
    好きな出⼒をクリック

    View Slide

  41. 使い⽅④-2: 最終予測箇所の確認 -- デモ --

    View Slide

  42. 使い⽅④-3: 最終予測箇所の解説
    ■ 最後の予測部分の処理
    1. Flatten
    2次元配列を1次元に変換
    2. 全ての値を加算
    1次元に変換した各要素の値を
    全て⾜し合わせ、定数を加える
    3. 予測確率を出⼒
    softmax(という関数)に通し出⼒
    https://www.superdatascience.com/blogs/convolutional-
    neural-networks-cnn-step-3-flattening

    View Slide

  43. 使い⽅④-3: 最終予測箇所の解説
    ■ 最後の予測部分の処理
    1. Flatten
    2次元配列を1次元に変換
    2. 全ての値を加算
    1次元に変換した各要素の値を
    全て⾜し合わせ、定数を加える
    3. 予測確率を出⼒
    softmax(という関数)に通し出⼒
    1 + 1 + 0 + 4 + 2
    + 1 + 0 + 2 + 1 + b
    12 + 𝑏
    ||

    View Slide

  44. 使い⽅④-3: 最終予測箇所の解説
    ■ 最後の予測部分の処理
    1. Flatten
    2次元配列を1次元に変換
    2. 全ての値を加算
    1次元に変換した各要素の値を
    全て⾜し合わせ、定数を加える
    3. 予測確率を出⼒
    softmax(という関数)に通し出⼒
    𝑓 12 + 𝑏 = 0.9862
    𝑓(𝑥)はsoftmax関数というもの

    View Slide

  45. 実習: ⾃由に動かして確認してみよう
    conv1_1のanimation conv2_2のanimation
    問題!!
    ・カーネルの⼤きさは同じなのに⼤きさが全然違うのはなぜ?

    View Slide

  46. n CNN 編
    • CNNとは
    • CNN Explainerの使い⽅
    n 物体検出 編
    • 物体検出とは
    • 物体検出をやってみよう!!
    ⽬次
    https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

    View Slide

  47. • 物体検出とは?
    – 画像の中にある物体の位置・種類・個数などを特定する技術
    • どんなことに使われるの?
    – 顔認証
    – ⾃動運転
    – 医療における画像診断
    – 不良品検品


    物体検出
    https://github.com/wmuron/motpy

    View Slide

  48. • どのように⾏われているのか?
    – Bounding boxを決定する
    • Bounding boxってなに?
    – 物体を囲む四⾓い枠
    • どのように決定するのか?
    – 適当に配置したboxから
    適切なものを決める など...
    物体検出
    YOLO
    SSD
    https://qiita.com/kindamu24005/items/efd53c7511a40ddac636
    https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9

    View Slide

  49. • YOLO(You Only Look Once)
    – 2016年に提案された物体検出モデル(現在はver.5)
    – リアルタイムに物体検出が可能
    Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In CVPR (pp. 779-788).
    物体検出⼿法:YOLOを使ってみよう

    View Slide

  50. YOLOで物体検出のやり⽅
    1. 写真をパソコンに送信
    a. USBケーブルでパソコンと接続(他の写真が⾒えてしまうことに注意)
    b. アップローダーを使⽤
    2. 下記URLにアクセス
    https://bit.ly/3xBH6Gb
    3. 1つ⽬のプログラムを実⾏(カーソルを近づけると実⾏ボタン が表⽰)

    View Slide

  51. YOLOで物体検出のやり⽅
    4. 2つ⽬のプログラムを実⾏
    5. 「Choose Files」or「ファイルを選択」
    を押して好きな画像を選択
    6. 3つ⽬のプログラムの1⾏⽬を
    アップロードした画像名に変更
    して実⾏
    AIが検出した結果が表⽰される!

    View Slide

  52. • 密集している人間までしっかり特定されています
    • (余談ですが)この画像は写真ではなく,AIが作り出した合成画像です
    Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-
    conditional image generation with clip latents. arXiv preprint arXiv:2204.06125.
    実⾏例

    View Slide

  53. Text-to-image:
    ⽂から画像を⽣成する
    - 53 -

    View Slide

  54. ⽬次
    ■ 画像⽣成とはなにか
    l
    基盤となるモデル(AE, GAN)の紹介
    ■ 最新モデルの紹介
    l
    拡散モデルについて
    l
    Stable Diffusionを実際に試してみよう
    ■ 今後の展望
    l
    研究をどう追いかけるのか
    54

    View Slide

  55. 画像⽣成とは?
    ■ AIが画像を学んで,ユーザの要求に適したものを作り上げる
    l
    ex. Img2img(画像⇒新画像)
    リアルなキリンの
    イラスト
    55

    View Slide

  56. これまでの研究:AutoEncoder
    56
    ■ 画像は⾼次元データなので学習に向いていない
    Ø 次元の低いデータを利⽤したい(Encoder)
    Ø 最終的には画像を復元できるように(Decoder)
    出⼒が⼊⼒と
    ⼀致するように学習
    CNNを利⽤!

    View Slide

  57. これまでの研究: Generative Adversarial Network (GAN)
    57
    ■ 概要
    Ø 偽札を作る犯⼈ vs 本物と⾒分ける警察
    ・犯⼈ ・警察
    or

    View Slide

  58. これまでの研究: Generative Adversarial Network (GAN)
    58
    ■ モデル構造
    Ø 偽札を作る⽣成器 vs 本物と⾒分ける識別器
    ⽣成器
    𝑧 f-img
    r-img
    output
    識別器
    本物か偽物か

    View Slide

  59. ⽬次
    ■ 画像⽣成とはなにか
    l
    基盤となるモデル(AE, GAN)の紹介
    ■ 最新モデルの紹介
    l
    拡散モデルについて
    l
    Stable Diffusionを実際に試してみよう
    ■ 今後の展望
    l
    研究をどう追いかけるのか
    59

    View Slide

  60. 最近すごいのが現れた! [txt2img]
    ■ DALL·E-2 [Aditya+, April, 2022]
    60
    A photo of a hedgehog
    wearing a red coat
    reading a book sitting on
    a lounge chair in the
    middle of a lush forest.
    https://imagen.research.google/
    ■ Imagen [Chitwan+, May, 2022]
    ⾚いコートをまとい,本を読
    みながら,ラウンジチェアに
    座り,⼤森林の中にいる,
    ハリネズミの写真
    Google

    View Slide

  61. 最近すごいのが現れた! [txt2img]
    ■ DALL·E-2 [Aditya+, April, 2022]
    61
    A photo of a hedgehog
    wearing a red coat
    reading a book sitting on
    a lounge chair in the
    middle of a lush forest.
    https://imagen.research.google/
    ■ Imagen [Chitwan+, May, 2022]
    Google

    View Slide

  62. 最近すごいのが現れた! [txt2img]
    ■ Stable Diffusion [Robin+, June, 2022, in CVPR]
    Ø 昨今,世間を騒がせているモデル
    Ø 前⼆つと異なり,だれでも無料で使⽤可能
    Ø コンピュータの計算量を減らして,より⾼速に
    62
    Googleでの
    検索ヒット数が
    約 178,000,000 件!
    A photo of a hedgehog
    wearing a red coat
    reading a book sitting on
    a lounge chair in the
    middle of a lush forest.
    • 前の⼆つと⽐べると少し
    微妙な⽣成
    • そろそろアップデートさ
    れるらしい
    • さらに期待…!

    View Slide

  63. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    63

    View Slide

  64. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    64
    ちょっとくらいなら
    散らかしても⼤丈夫

    View Slide

  65. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    65

    View Slide

  66. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    66
    おそらくこんな部屋
    だったんだろうな

    View Slide

  67. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    67

    View Slide

  68. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    68
    この復元⽅法をAIが学習!

    View Slide

  69. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    ■ Forward Step
    Ø データにノイズを徐々に加える
    ■ Reverse Step
    Ø ノイズまみれのデータから元のデータを
    再構成(復元)していく
    69
    扱いやすくて柔軟!

    View Slide

  70. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    ■ Forward Step
    Ø データにノイズを徐々に加える
    ■ Reverse Step
    Ø ノイズまみれのデータから元のデータを
    再構成(復元)していく
    70
    扱いやすくて柔軟!

    View Slide

  71. 拡散モデル(Diffusion Models)とは?
    ■ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤
    ■ 拡散モデルは,「部屋を散らかす⼈」と「掃除屋さん」で学ぼう!
    ■ Forward Step
    Ø データにノイズを徐々に加える
    ■ Reverse Step
    Ø ノイズまみれのデータから元のデータを
    再構成(復元)していく
    71
    扱いやすくて柔軟!

    View Slide

  72. Stable Diffusionを使ってみよう!
    ■ Google Colab
    l
    https://onl.la/kPrrtJ7
    l
    上のリンクを開いて「Google Colaboratoryで開く」をクリック
    l
    もしこのタブが出てこない場合には,アプリで開くのところから
    「Colaboratory」をインストールしよう
    72

    View Slide

  73. 実習
    73
    ■ 5⼈のグループでどれだけすごい画像をテキストから⽣成できるか勝
    負しよう!
    ■ Rule
    1. 3つのお題をこちらから発表
    2. 制限時間10分で3つのお題を分担して⽣成
    3. 提出Formに画像を提出
    ■ 提出フォルダは⼝頭で伝えます
    ■ 画像ファイル名は「○班_お題□.png」でお願いします
    4. 全員でそれぞれの⽣成についてコメントと評価
    5. 全員で⽣成を振り返ろう

    View Slide

  74. 実習のお題
    74
    1. ⿊船で来航するペリー
    2. 現代技術を駆使する古⼈
    ex. 桃太郎,浦島太郎,⼆宮⾦次郎,野⼝英世,ガンジー,原始⼈…
    3. 湘南レッド(たまねぎ)のキャラ⽣成

    View Slide

  75. ⽬次
    ■ 画像⽣成とはなにか
    l
    基盤となるモデル(AE, GAN)の紹介
    ■ 最新モデルの紹介
    l
    拡散モデルについて
    l
    Stable Diffusionを実際に試してみよう
    ■ 今後の展望
    l
    研究をどう追いかけるのか
    75

    View Slide

  76. 今後の画像⽣成の展望
    ■ 参考
    Ø https://twitter.com/GanWeaving/status /1568893498895601665?s=20&t=GKRAGQww0zboP1o8ZxDihA
    Ø https://twitter.com/CoffeeVectors/status/1569416470332858372?s=20&t=GKRAGQww0zboP1o8ZxDihA
    Ø https://twitter.com/remi_molettee/status /1568977503565266944?s=20&t=GKRAGQww0zboP1o8ZxDihA
    76
    みんなも何ができるのか考えてみよう!
    ■ アニメや映画への応⽤
    ■ デザイナーの補助
    ■ メタバースへの活⽤

    View Slide

  77. 最新技術の追いかけ⽅
    ■ Twitter
    Ø やはり⼀番情報が速い
    Ø 研究やサーベイ⽤のアカウントを作るのがおすすめ!
    • 興味のないツイートを間引いていくのがポイント
    Ø 我々の研究室を宣伝 -> https://twitter.com/keio_smilab?s=20&t=Ukn9WYvNZrDnTOXXe520-A
    ■ Papers with code [https://paperswithcode.com/]
    Ø ⼈気の機械学習に関する論⽂が読める!英語の勉強にも!
    ■ Connected Papers [https://www.connectedpapers.com/]
    Ø 気になった論⽂と関連度の⾼い論⽂を⾒つけてくれる
    Ø Papers with code -> Connected Papersの流れで,その分野に詳しくなろう
    77

    View Slide

  78. Appendix:本スライドのキャラの正体
    78
    ■ 本スライドのイラストはStable Diffusionと「いらすとや」から作成

    View Slide

  79. Appendix:本内容をもっと深くまで学びたい⼈⽤
    79
    ■ 同研究室から拡散モデルに関する解説
    • 今回の拡散モデルの少し発展版(iioka)
    • https://speakerdeck.com/keio_smilab/journal-club-high-resolution-image-synthesis-with-latent-
    diffusion-models
    • 数式を踏まえた解説(komatsu)【応⽤】
    • https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models
    • 孔明先⽣による実際の⼤学授業教材【応⽤】
    • https://speakerdeck.com/keio_smilab/keio-univ-intro-to-ml-2021-01
    n 参考にしたサイト集
    • 拡散モデルについて
    • https://zenn.dev/nakky/articles/09fb1804001ff8
    • コードを実際に動かしながら詳細を学ぶ
    • https://colab.research.google.com/drive/1dlgggNa5Mz8sEAGU0wFCHhGLFooW_pf1?usp=sharing

    View Slide

  80. Appendix:実習の解答例
    80
    ■ お題1
    Ø Matthew Calbraith Perry arrives on a
    black ship, fairy tale style background,
    a beautiful half body illustration, top
    lighting, perfect shadow, soft painting,
    reduce saturation, leaning towards
    watercolor, art by hidari and krenz
    cushart and wenjun lin and akihiko
    yoshida,highly detailed, elaborate,
    digital painting hyper quality, 8k
    Ø ペリーがかっこよくなりすぎたが,
    現代版のペリーっぽくなったのでア

    View Slide

  81. Appendix:実習の解答例
    81
    ■ お題2
    Ø Detailing oil painting of Kongming
    Zhu-ge Liang performing dj at a live
    music venue, perfect lighting, by
    CASPAR DAVID FRIEDRICH and
    CLAUDE LORRAIN, 8k
    Ø やはり杉浦孔明研なので,諸葛亮孔
    明がDJをしているところを⽣成. 発
    想は「パリピ孔明」から得ました

    View Slide

  82. Appendix:実習の解答例
    82
    ■ お題3
    Ø Logo about a character of a red onion
    by Akira Toriyama in Dragon Quest
    style, kawaii, no background, HQ
    Ø これが⼀番難しく感じた. 正直運
    ゲー要素はかなり強い. Kawaiiはお
    すすめかも.

    View Slide