Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon SageMakerでImagenを動かして猫画像生成してみた

Amazon SageMakerでImagenを動かして猫画像生成してみた

5426a03f740cd61fa5e0d4bfdb7a6cc8?s=128

hotoke_neko

August 05, 2022
Tweet

Other Decks in Programming

Transcript

  1. Amazon SageMakerでImagenを動かして猫画像生 成してみた
 2022/08/04 AKIBA.AWS ONLINE #9
 hotoke_neko
 
 1

  2. 自己紹介 - hotoke_neko - 2022年4月新卒入社 - 好きなAWSのサービス - AWS S3、AWS

    CDK - 毎日してること - 論文読んでる
  3. アジェンダ - SageMakerとは - Imagenについて - Imagenの実行環境の内容 - 画像生成した結果 -

    全体のまとめ
  4. 4 SageMakerとは

  5. SageMakerとは - AWSが提供している機械学習をする場 - buit-inのアルゴリズムがある - カスタムコンテナを作成 - オリジナルの機械学習モデルを動かす

  6. 6 Imagenの説明

  7. 7 Imagenとは Googleが提案したモデル • 学習: テキストと画像をセットにしたもの • 推論: テキストから画像を生成 モデルの詳説:

    https://arxiv.org/pdf/2205.11487.pdf 引用元: https://imagen.research.google/ 学習済みのモデルへテキスト(英文)を入れると画像が生成 されている
  8. 8 Imagenの学習方法 画像とテキストをインプットするモデル ゆめかわ動物のイラスト(ねこ) 
 引用元: https://www.irasutoya.com/search?q=%E3% 81%AD%E3%81%93

  9. 9 Imagenの画像生成: 全体図 テキストから画像を生成するモデル 画像引用元: https://arxiv.org/pdf/2205.11487.pdf

  10. 10 Imagenの画像生成: テキスト 入れるテキストは文章 Frozen: 事前学習済みモデルをそのままタスクに利用

  11. 11 Imagenの画像生成: 拡散モデル テキストから画像生成 diffusion model: ノイズを取り除く過程を学習させる

  12. 12 Imagenの画像生成: super-resolution 画像の解像度を上げる処理

  13. 13 Imagenとは • 学習 ◦ 画像とテキストをセットで画像のノイズを取り除く過程を学習さ せる • 推論 ◦

    テキストとノイズ画像から求める画像を生成する 猫画像をテキストを与える事で生成
  14. 14 Imagenの実行環境内容

  15. 15 実装するに当たって OSSで公開されているImagenのものを使用 参照サイト: https://github.com/lucidrains/imagen-pytorch

  16. 16 学習環境 • epoch数 ◦ 20万回 • GPU使用 ◦ インスタンス’ml.g4dn.xlarge’

    • 学習時間 ◦ 122650秒(1日と10時間ほど) ▪ CPUでは5日で学習終わらずMaxRuntimeExceededで止まる
  17. 17 学習データ: COCOデータセット • マイクロソフト作成 ◦ ベンチマークにも使用されているもの 参照サイト: https://cocodataset.org/#download

  18. 18 注意点 • 画像に白黒画像とRGBの画像が混じっているので、用途 に合わせて前処理が必要 • COCO APIがSageMaker上で動かなかった ◦ 関連するAPIでFifty-Oneというものも動かなかった

  19. 19 生成した画像の話

  20. 20 画像生成: インプットしたテキスト 1. 'A transparent sculpture of a cat

    made out of glass.' 2. 'A giant cobra cat on a farm. The cat is made out of corn.' 3. 'A majestic oil painting of a cat Queen wearing red French royal gown. The painting is hanging on an ornate wall decorated with wallpaper.' 4. 'A dog looking curiously in the mirror, seeing a cat.' 5. 'Cat Mascot made from bamboo.' 6. 'A cat made of chocolate powder, mango, and whipped cream.' 7. 'A marble statue of a Cat DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.' 8. 'A cat is sitting on the Kings throne wearing a crown. Two tiger soldiers are standing next to the throne.' 9. 'A photo of a cat riding a bike in Times Square. It is wearing sunglasses and a beach hat.'
  21. 21 画像生成: テキスト(日本語訳) 1. ガラスで作られた透明な猫の像 2. 農場にいる巨大なコブラ猫。ネコはトウモロコシでできている。 3. 赤いフランス王室のガウンを着た猫の女王を描いた荘厳な油絵。この絵は壁 紙で飾られた華やかな壁に掛けられている。

    4. 鏡を不思議そうに見ている犬が、猫を見ている。 5. 竹製の猫のマスコット 6. チョコレートパウダーとマンゴーと生クリームでできた猫 7. ターンテーブルの大理石像の前に猫のDJの大理石像がある。コアラは大きな 大理石のヘッドホンをしている。 8. 王様の玉座に王冠をかぶった猫が座っている。玉座の横には2匹の虎の兵隊 が立っている。 9. タイムズスクエアで自転車に乗っている猫の写真。サングラスとビーチハット を被っている。
  22. 22 生成画像: Part1

  23. 23 生成画像: Part2

  24. 24 全体のまとめ • Google提案の画像生成モデルImagen ◦ OSSで作成されているものを使ってSageMaker上で学習 • 画像生成で猫っぽい何かを生成できたかも ◦ より良い画像生成には

    ▪ GoogleのようにTPUを使う必要そう ▪ 学習回数を増やす必要そう