Slide 1

Slide 1 text

Amazon SageMakerでImagenを動かして猫画像生 成してみた
 2022/08/04 AKIBA.AWS ONLINE #9
 hotoke_neko
 
 1

Slide 2

Slide 2 text

自己紹介 - hotoke_neko - 2022年4月新卒入社 - 好きなAWSのサービス - AWS S3、AWS CDK - 毎日してること - 論文読んでる

Slide 3

Slide 3 text

アジェンダ - SageMakerとは - Imagenについて - Imagenの実行環境の内容 - 画像生成した結果 - 全体のまとめ

Slide 4

Slide 4 text

4 SageMakerとは

Slide 5

Slide 5 text

SageMakerとは - AWSが提供している機械学習をする場 - buit-inのアルゴリズムがある - カスタムコンテナを作成 - オリジナルの機械学習モデルを動かす

Slide 6

Slide 6 text

6 Imagenの説明

Slide 7

Slide 7 text

7 Imagenとは Googleが提案したモデル ● 学習: テキストと画像をセットにしたもの ● 推論: テキストから画像を生成 モデルの詳説: https://arxiv.org/pdf/2205.11487.pdf 引用元: https://imagen.research.google/ 学習済みのモデルへテキスト(英文)を入れると画像が生成 されている

Slide 8

Slide 8 text

8 Imagenの学習方法 画像とテキストをインプットするモデル ゆめかわ動物のイラスト(ねこ) 
 引用元: https://www.irasutoya.com/search?q=%E3% 81%AD%E3%81%93

Slide 9

Slide 9 text

9 Imagenの画像生成: 全体図 テキストから画像を生成するモデル 画像引用元: https://arxiv.org/pdf/2205.11487.pdf

Slide 10

Slide 10 text

10 Imagenの画像生成: テキスト 入れるテキストは文章 Frozen: 事前学習済みモデルをそのままタスクに利用

Slide 11

Slide 11 text

11 Imagenの画像生成: 拡散モデル テキストから画像生成 diffusion model: ノイズを取り除く過程を学習させる

Slide 12

Slide 12 text

12 Imagenの画像生成: super-resolution 画像の解像度を上げる処理

Slide 13

Slide 13 text

13 Imagenとは ● 学習 ○ 画像とテキストをセットで画像のノイズを取り除く過程を学習さ せる ● 推論 ○ テキストとノイズ画像から求める画像を生成する 猫画像をテキストを与える事で生成

Slide 14

Slide 14 text

14 Imagenの実行環境内容

Slide 15

Slide 15 text

15 実装するに当たって OSSで公開されているImagenのものを使用 参照サイト: https://github.com/lucidrains/imagen-pytorch

Slide 16

Slide 16 text

16 学習環境 ● epoch数 ○ 20万回 ● GPU使用 ○ インスタンス’ml.g4dn.xlarge’ ● 学習時間 ○ 122650秒(1日と10時間ほど) ■ CPUでは5日で学習終わらずMaxRuntimeExceededで止まる

Slide 17

Slide 17 text

17 学習データ: COCOデータセット ● マイクロソフト作成 ○ ベンチマークにも使用されているもの 参照サイト: https://cocodataset.org/#download

Slide 18

Slide 18 text

18 注意点 ● 画像に白黒画像とRGBの画像が混じっているので、用途 に合わせて前処理が必要 ● COCO APIがSageMaker上で動かなかった ○ 関連するAPIでFifty-Oneというものも動かなかった

Slide 19

Slide 19 text

19 生成した画像の話

Slide 20

Slide 20 text

20 画像生成: インプットしたテキスト 1. 'A transparent sculpture of a cat made out of glass.' 2. 'A giant cobra cat on a farm. The cat is made out of corn.' 3. 'A majestic oil painting of a cat Queen wearing red French royal gown. The painting is hanging on an ornate wall decorated with wallpaper.' 4. 'A dog looking curiously in the mirror, seeing a cat.' 5. 'Cat Mascot made from bamboo.' 6. 'A cat made of chocolate powder, mango, and whipped cream.' 7. 'A marble statue of a Cat DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.' 8. 'A cat is sitting on the Kings throne wearing a crown. Two tiger soldiers are standing next to the throne.' 9. 'A photo of a cat riding a bike in Times Square. It is wearing sunglasses and a beach hat.'

Slide 21

Slide 21 text

21 画像生成: テキスト(日本語訳) 1. ガラスで作られた透明な猫の像 2. 農場にいる巨大なコブラ猫。ネコはトウモロコシでできている。 3. 赤いフランス王室のガウンを着た猫の女王を描いた荘厳な油絵。この絵は壁 紙で飾られた華やかな壁に掛けられている。 4. 鏡を不思議そうに見ている犬が、猫を見ている。 5. 竹製の猫のマスコット 6. チョコレートパウダーとマンゴーと生クリームでできた猫 7. ターンテーブルの大理石像の前に猫のDJの大理石像がある。コアラは大きな 大理石のヘッドホンをしている。 8. 王様の玉座に王冠をかぶった猫が座っている。玉座の横には2匹の虎の兵隊 が立っている。 9. タイムズスクエアで自転車に乗っている猫の写真。サングラスとビーチハット を被っている。

Slide 22

Slide 22 text

22 生成画像: Part1

Slide 23

Slide 23 text

23 生成画像: Part2

Slide 24

Slide 24 text

24 全体のまとめ ● Google提案の画像生成モデルImagen ○ OSSで作成されているものを使ってSageMaker上で学習 ● 画像生成で猫っぽい何かを生成できたかも ○ より良い画像生成には ■ GoogleのようにTPUを使う必要そう ■ 学習回数を増やす必要そう