【第一回】サイエンスフロンティア高校サイエンスリテラシI 授業スライド

慶應義塾⼤学杉浦孔明研究室飯岡雄偉，⼩槻誠太郎，⼩松拓実，是⽅諒介，松尾榛夏，和⽥唯我サイエンスフロンティア⾼校サイエンスリテラシI

物体検出：画像中の物体を⾒つける - 2 -

n CNN 編 • CNNとは • CNN Explainerの使い⽅ n 物体検出
編 • 物体検出とは • 物体検出をやってみよう!! ⽬次 https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

• 画像分類とは？ – 与えられた画像に写っているものが何かを予測すること画像分類とConvolutional Neural Network (CNN) モデル (AI)
ねこ⽝⾶⾏機 … りんごピザ何らかの計算

n Convolutional Neural Network (CNN) – 主に画像の特徴を抽出するのに使⽤されるネットワーク画像分類とConvolutional Neural Network
(CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist 段階的に特徴を抽出予測結果

(CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist ⼊⼒特徴抽出 (なんらかの計算) 予測 (出⼒) 画像を計算って何

▪ そもそも….画像とは？ – 画素の集合 – 画素 : 輝度の情報(数値)を持つ画像分類とConvolutional Neural
Network (CNN) https://deepage.net/deep_learning/2016/11/0 7/convolutional_neural_network.html ▪ 画素 – 輝度の情報(数値)を持つ – 0~255の値

▪ CNN – 畳み込みニューラルネットワーク – 畳み込みという計算を⾏い画像の特徴を抽出する画像分類とConvolutional Neural Network
(CNN) ▪ CNNにおける⽤語 – 畳み込み – カーネル(フィルタ) – パディング – ストライド https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

▪ CNNの⼀連の流れ -- 画像とカーネルを⽤いてなんらかの計算を⾏う画像分類とConvolutional Neural Network (CNN) 画像カーネル
(フィルタ) 畳み込み計算結果画像は数の集合 https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す画像分類とConvolutional Neural Network (CNN) 画像畳み込み
計算結果カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

計算結果 𝟏×𝟎 𝟎×𝟎 𝟏×𝟎 𝟎×𝟎 𝟏×𝟎 𝟎×𝟏 𝟏×𝟎 𝟎×𝟏 𝟏×𝟎 画像の値×カーネルの値カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す画像分類とConvolutional Neural Network (CNN) 画像計算結果
0 0 0 0 0 0 0 0 0 全て⾜すカーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

計算結果カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

計算結果 𝟏×𝟎 𝟎×𝟎 0×𝟏 𝟎×𝟎 𝟏×𝟏 𝟏×𝟎 𝟏×𝟏 𝟎×𝟎 𝟏×𝟏 画像の値×カーネルの値カーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

▪ 畳み込み -- 重なっている部分を掛け算し、その後全ての数を⾜す画像分類とConvolutional Neural Network (CNN) 画像計算結果
0 0 0 0 1 0 1 0 1 全て⾜すカーネル (フィルタ) https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

▪ CNNの⼀連の流れ -- 畳み込み計算を繰り返し⾏う画像分類とConvolutional Neural Network (CNN) https://deepage.net/deep_learning/2016/11/07/convolutional _neural_network.html
▪ 補⾜・ストライド -- カーネルの適⽤間隔・パディング -- 畳み込み前の⽳埋めゼロパディング通常(左)とパディング・ストライドあり(右) (計算結果) https://github.com/vdumoulin/conv_arithmetic

(CNN) https://gfycat.com/smoggylittleflickertailsquirrel-machine-learning-neural-networks-mnist それぞれ畳み込み予測結果

CNN Explainerとは ▪ CNN Explainerとは CNNアーキテクチャにおける⼀つ⼀つの処理を可視化したツール https://poloclub.github.io/cnn-explainer/ 実際に使ってみよう！ ↑のサイトにアクセス！

CNN Explainerの概要 1. 画像の選択どの画像の分類を⾏うか 2. ⼊⼒画像 RGBの⼊⼒画像 3. 各処理の可視化
4. 分類結果の確認

使い⽅①: 画像の選択と分類結果の確認 1. 画像の選択好きな画像を⼀つ選択してクリック ※ 補⾜ -- 各画像とそのラベルは
Appendixを参照

Appendix: 10種類の画像 lifeboat 救命ボート ladybug てんとう⾍ pizza ピザ bell pepper
ピーマンパプリカ school bus スクールバス koara コアラ espresso エスプレッソ red panda レッサーパンダ orange オレンジ sport car スポーツカー

使い⽅①: 画像の選択と分類結果の確認 -- デモ --

使い⽅②: 画像の選択と分類結果の確認 1. 分類結果の確認⾚枠部分を確認バーが1番⻑いものが予測結果 ※ バーの表す意味予測確率画像がそのラベルである確率を0~1で⽰す
0% : 0 ó 100% : 1

使い⽅②: 画像の選択と分類結果の確認 -- デモ --

使い⽅③: ⼊⼒画像の確認 1. ⼊⼒画像の確認カラー画像は RGBの3チャンネルから構成される ※ RGBとチャンネル R: Red,
G: Green, B: Blue カラー画像はR,G,Bの3チャンネルの画像で構成される ※ オレンジの例(わかりやすさの点より) R,G,Bそれぞれに⇨ があるイメージ

使い⽅④-1: ⼊⼒画像の処理の確認 ▪ ⼊⼒画像の処理の確認⼊⼒画像のRGBそれぞれのチャンネルの処理を確認 ※ オレンジの例(わかりやすさの点より) 1. 1列⽬の好きな画像をクリック
⼊⼒画像(RGB)から計算されていることを確認

使い⽅④-1: ⼊⼒画像の処理の確認 -- デモ --

使い⽅④-1: ⼊⼒画像の処理の解説 ▪ 処理内容の確認 1. 畳み込みの演算⼊⼒画像の各チャンネルについて畳み込み演算を⾏う 2. 演算結果の⾜し合わせ
畳み込みの演算結果を⾜し合わせ、最後に定数を⾜し合わせ出⼒

使い⽅④-2: 畳み込み処理の確認 ▪ 具体的に畳み込みの処理の確認畳み込み層における具体的な計算例を確認する 1. 好きな画像をクリック畳み込み計算を⾏っている画像のうち好きな画像をクリック
2. 拡⼤図で畳み込み処理を確認

使い⽅④-2: 畳み込み処理の確認 -- デモ --

使い⽅④-2: 畳み込み処理の解説 ▪ 処理の内容の確認 1. 畳み込みの演算 ⇨のようになっていることを確認 2. 具体的に計算を確認畳み込みの演算結果を⾜し合わせ、
最後に定数を⾜し合わせ出⼒

使い⽅④-2: 畳み込み処理の解説 ▪ 処理の内容の確認 1. 畳み込みの演算 ⇨のようになっていることを確認 2. 具体的に計算を確認畳み込みの演算結果を⾜し合わせ、
最後に定数を⾜し合わせ出⼒ Stochastic Reconstruction of an Oolitic Limestone by Generative Adversarial Networks

使い⽅④-3: 最終予測箇所の確認 ▪ 最後の予測部分の確認 CNNにおける最終的な予測の流れを確認する 1. 好きな出⼒ラベル名をクリック最後の出⼒の名前のうち好きな出⼒をクリック

使い⽅④-2: 最終予測箇所の確認 -- デモ --

使い⽅④-3: 最終予測箇所の解説 ▪ 最後の予測部分の処理 1. Flatten 2次元配列を1次元に変換 2. 全ての値を加算 1次元に変換した各要素の値を
全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ https://www.superdatascience.com/blogs/convolutional- neural-networks-cnn-step-3-flattening

全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ 1 + 1 + 0 + 4 + 2 + 1 + 0 + 2 + 1 + b 12 + 𝑏 ||

全て⾜し合わせ、定数を加える 3. 予測確率を出⼒ softmax(という関数)に通し出⼒ 𝑓 12 + 𝑏 = 0.9862 𝑓(𝑥)はsoftmax関数というもの

実習: ⾃由に動かして確認してみよう conv1_1のanimation conv2_2のanimation 問題!! ・カーネルの⼤きさは同じなのに⼤きさが全然違うのはなぜ？

n CNN 編 • CNNとは • CNN Explainerの使い⽅ n 物体検出
編 • 物体検出とは • 物体検出をやってみよう!! ⽬次 https://www.abtosoftware.com/blog/kitchen-furniture-appliances-recognition-in-photos

• 物体検出とは？ – 画像の中にある物体の位置・種類・個数などを特定する技術 • どんなことに使われるの？ – 顔認証 – ⾃動運転
– 医療における画像診断 – 不良品検品猫犬物体検出 https://github.com/wmuron/motpy

• どのように⾏われているのか？ – Bounding boxを決定する • Bounding boxってなに？ – 物体を囲む四⾓い枠
• どのように決定するのか？ – 適当に配置したboxから適切なものを決めるなど... 物体検出 YOLO SSD https://qiita.com/kindamu24005/items/efd53c7511a40ddac636 https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9

• YOLO（You Only Look Once） – 2016年に提案された物体検出モデル（現在はver.5) – リアルタイムに物体検出が可能 Redmon,
J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In CVPR (pp. 779-788). 物体検出⼿法：YOLOを使ってみよう

YOLOで物体検出のやり⽅ 1. 写真をパソコンに送信 a. USBケーブルでパソコンと接続（他の写真が⾒えてしまうことに注意） b. アップローダーを使⽤ 2. 下記URLにアクセス https://bit.ly/3xBH6Gb
3. 1つ⽬のプログラムを実⾏（カーソルを近づけると実⾏ボタンが表⽰）

YOLOで物体検出のやり⽅ 4. 2つ⽬のプログラムを実⾏ 5. 「Choose Files」or「ファイルを選択」を押して好きな画像を選択 6. 3つ⽬のプログラムの1⾏⽬をアップロードした画像名に変更
して実⾏ AIが検出した結果が表⽰される！

• 密集している人間までしっかり特定されています • (余談ですが)この画像は写真ではなく，AIが作り出した合成画像です Ramesh, A., Dhariwal, P., Nichol, A.,
Chu, C., & Chen, M. (2022). Hierarchical text- conditional image generation with clip latents. arXiv preprint arXiv:2204.06125. 実⾏例

Text-to-image：⽂から画像を⽣成する - 53 -

⽬次 ▪ 画像⽣成とはなにか l 基盤となるモデル（AE, GAN）の紹介 ▪ 最新モデルの紹介 l 拡散モデルについて
l Stable Diffusionを実際に試してみよう ▪ 今後の展望 l 研究をどう追いかけるのか 54

画像⽣成とは？ ▪ AIが画像を学んで，ユーザの要求に適したものを作り上げる l ex. Img2img（画像⇒新画像）リアルなキリンのイラスト 55

これまでの研究：AutoEncoder 56 ▪ 画像は⾼次元データなので学習に向いていない Ø 次元の低いデータを利⽤したい(Encoder) Ø 最終的には画像を復元できるように(Decoder) 出⼒が⼊⼒と⼀致するように学習
CNNを利⽤！

これまでの研究： Generative Adversarial Network (GAN) 57 ▪ 概要 Ø 偽札を作る犯⼈
vs 本物と⾒分ける警察・犯⼈・警察 or

これまでの研究： Generative Adversarial Network (GAN) 58 ▪ モデル構造 Ø 偽札を作る⽣成器
vs 本物と⾒分ける識別器⽣成器 𝑧 f-img r-img output 識別器本物か偽物か

最近すごいのが現れた！ [txt2img] ▪ DALL·E-2 [Aditya+, April, 2022] 60 A photo
of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. https://imagen.research.google/ ▪ Imagen [Chitwan+, May, 2022] ⾚いコートをまとい，本を読みながら，ラウンジチェアに座り，⼤森林の中にいる，ハリネズミの写真 Google

最近すごいのが現れた！ [txt2img] ▪ DALL·E-2 [Aditya+, April, 2022] 61 A photo
of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. https://imagen.research.google/ ▪ Imagen [Chitwan+, May, 2022] Google

最近すごいのが現れた！ [txt2img] ▪ Stable Diffusion [Robin+, June, 2022, in CVPR]
Ø 昨今，世間を騒がせているモデル Ø 前⼆つと異なり，だれでも無料で使⽤可能 Ø コンピュータの計算量を減らして，より⾼速に 62 Googleでの検索ヒット数が約 178,000,000 件！ A photo of a hedgehog wearing a red coat reading a book sitting on a lounge chair in the middle of a lush forest. • 前の⼆つと⽐べると少し微妙な⽣成 • そろそろアップデートされるらしい • さらに期待…!

拡散モデル（Diffusion Models）とは？ ▪ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤ ▪ 拡散モデルは，「部屋を散らかす⼈」と「掃除屋さん」で学ぼう！ 63

ちょっとくらいなら散らかしても⼤丈夫

おそらくこんな部屋だったんだろうな

この復元⽅法をAIが学習！

拡散モデル（Diffusion Models）とは？ ▪ DALL·E-2, Imagen, Stable Diffusionはすべて拡散モデルを活⽤ ▪ 拡散モデルは，「部屋を散らかす⼈」と「掃除屋さん」で学ぼう！ ▪
Forward Step Ø データにノイズを徐々に加える ▪ Reverse Step Ø ノイズまみれのデータから元のデータを再構成（復元）していく 69 扱いやすくて柔軟！

Stable Diffusionを使ってみよう！ ▪ Google Colab l https://onl.la/kPrrtJ7 l 上のリンクを開いて「Google Colaboratoryで開く」をクリック
l もしこのタブが出てこない場合には，アプリで開くのところから「Colaboratory」をインストールしよう 72

実習 73 ▪ 5⼈のグループでどれだけすごい画像をテキストから⽣成できるか勝負しよう！ ▪ Rule 1. 3つのお題をこちらから発表 2.
制限時間10分で3つのお題を分担して⽣成 3. 提出Formに画像を提出 ▪ 提出フォルダは⼝頭で伝えます ▪ 画像ファイル名は「◦班_お題□.png」でお願いします 4. 全員でそれぞれの⽣成についてコメントと評価 5. 全員で⽣成を振り返ろう

実習のお題 74 1. ⿊船で来航するペリー 2. 現代技術を駆使する古⼈ ex. 桃太郎，浦島太郎，⼆宮⾦次郎，野⼝英世，ガンジー，原始⼈… 3. 湘南レッド（たまねぎ）のキャラ⽣成

今後の画像⽣成の展望 ▪ 参考 Ø https://twitter.com/GanWeaving/status /1568893498895601665?s=20&t=GKRAGQww0zboP1o8ZxDihA Ø https://twitter.com/CoffeeVectors/status/1569416470332858372?s=20&t=GKRAGQww0zboP1o8ZxDihA Ø https://twitter.com/remi_molettee/status
/1568977503565266944?s=20&t=GKRAGQww0zboP1o8ZxDihA 76 みんなも何ができるのか考えてみよう！ ▪ アニメや映画への応⽤ ▪ デザイナーの補助 ▪ メタバースへの活⽤

最新技術の追いかけ⽅ ▪ Twitter Ø やはり⼀番情報が速い Ø 研究やサーベイ⽤のアカウントを作るのがおすすめ！ • 興味のないツイートを間引いていくのがポイント Ø
我々の研究室を宣伝 -> https://twitter.com/keio_smilab?s=20&t=Ukn9WYvNZrDnTOXXe520-A ▪ Papers with code [https://paperswithcode.com/] Ø ⼈気の機械学習に関する論⽂が読める！英語の勉強にも！ ▪ Connected Papers [https://www.connectedpapers.com/] Ø 気になった論⽂と関連度の⾼い論⽂を⾒つけてくれる Ø Papers with code -> Connected Papersの流れで，その分野に詳しくなろう 77

Appendix：本スライドのキャラの正体 78 ▪ 本スライドのイラストはStable Diffusionと「いらすとや」から作成

Appendix：本内容をもっと深くまで学びたい⼈⽤ 79 ▪ 同研究室から拡散モデルに関する解説 • 今回の拡散モデルの少し発展版（iioka） • https://speakerdeck.com/keio_smilab/journal-club-high-resolution-image-synthesis-with-latent- diffusion-models •
数式を踏まえた解説（komatsu）【応⽤】 • https://speakerdeck.com/keio_smilab/journal-club-denoising-diffusion-probabilistic-models • 孔明先⽣による実際の⼤学授業教材【応⽤】 • https://speakerdeck.com/keio_smilab/keio-univ-intro-to-ml-2021-01 n 参考にしたサイト集 • 拡散モデルについて • https://zenn.dev/nakky/articles/09fb1804001ff8 • コードを実際に動かしながら詳細を学ぶ • https://colab.research.google.com/drive/1dlgggNa5Mz8sEAGU0wFCHhGLFooW_pf1?usp=sharing

Appendix：実習の解答例 80 ▪ お題1 Ø Matthew Calbraith Perry arrives on
a black ship, fairy tale style background, a beautiful half body illustration, top lighting, perfect shadow, soft painting, reduce saturation, leaning towards watercolor, art by hidari and krenz cushart and wenjun lin and akihiko yoshida,highly detailed, elaborate, digital painting hyper quality, 8k Ø ペリーがかっこよくなりすぎたが，現代版のペリーっぽくなったのでアリ

Appendix：実習の解答例 81 ▪ お題2 Ø Detailing oil painting of Kongming
Zhu-ge Liang performing dj at a live music venue, perfect lighting, by CASPAR DAVID FRIEDRICH and CLAUDE LORRAIN, 8k Ø やはり杉浦孔明研なので，諸葛亮孔明がDJをしているところを⽣成. 発想は「パリピ孔明」から得ました

Appendix：実習の解答例 82 ▪ お題3 Ø Logo about a character of
a red onion by Akira Toriyama in Dragon Quest style, kawaii, no background, HQ Ø これが⼀番難しく感じた. 正直運ゲー要素はかなり強い. Kawaiiはおすすめかも.

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

【第一回】サイエンスフロンティア高校 サイエンスリテラシI 授業スライド

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

【第一回】サイエンスフロンティア高校サイエンスリテラシI 授業スライド

【第一回】サイエンスフロンティア高校サイエンスリテラシI 授業スライド