漢字 Rectified Flow （第３回生成 AI なんでも展示会）

z 漢字 Rectified Flow Tonimono / teftef

この Project のきっかけやってみよう！！

Rectified Flow [1] 簡単に言うと... • Diffusion Model の一手法 • 数
Step での生成ができる • シンプルな実装で学習できる

Rectified Flow について • Flow Straight and Fast : Learning
to Generate and Transfer Data with Rectified Flow [1] 時刻０時刻 1 時刻 t ODE が直線であると仮定すると、任意の時刻 t のデータは内分の形で書ける → 傾きがわかれば ODE として解ける dXt = (X1 -X0 )dt Xt = tX1 + (1 - t )X0 X1 がわからないので求められない [1] X. Liu et al., "Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow," CoRR, 2022.

Rectified Flow について • Xｔから求められる情報だけを用いて ODE を解くことを目指す • 全体の
Loss dXt = (X1 -X0 )dt dXt = vθ (Xt , t)dt X1 がわからないので求められない NNを使い、 Xt から計算できる

実際何をするか • まずは、データにノイズを足す ε + ε ~ N(0,σ2 I) ε
~ N(0,σ2 I) 正規分布からサンプリング X0 = X1 + ε

実際何をするか • 次に、内分点 Xt を求める Xt = tX1 + (1
- t )X0 t 1-t 区間[0,1] の一様分布からサンプリングｔ ~ U(ε, 1 - ε)

実際何をするか • 次に、ニューラルネットワークを使って速度を予測し損失を計算ニューラルネットワーク θ （model） vθ (Xt , t)
- X 1 -X 0 損失計算（MSE Loss ）

ニューラルネットワーク θ には何を使うの？ • U-Net [2] • 小さいので計算速度が早い
• Convolution ベースなので表現力が貧弱の可能性あり [2] O. Ronneberger et al., “U-Net: Convolutional networks for biomedical image segmentation,” MICCAI, 2015.

ニューラルネットワーク θ には何を使うの？ • Diffusion Transformer [3] • 大きいので計算速度が遅い
• MSA を持つため大域的な情報を学習しやすく、 Convolution では局所的な情報も学習できる今回はこっち [3] W. Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023.

学習条件 • データセット • 約 13,000 枚の漢字データ (Noto Sans JP)
• Gemini [4] で漢字の意味を説明したものをタグ付け • Conditioning • Sarashina 2.2-0.5b-instruct-v0.1[5] を Text Encoder とする5 "燃焼する際に生じる小さな火を示す。光は弱いが、熱を伴い、消えかかった状態やわずかに残った火種を指す。また、星のようにかすかに光るものを表すこともある。微弱ながら存在する、あるいは再燃の可能性を持つ状態を含意し、希望や生命力といった抽象的な事象の象徴として用いられることもある。", , "穀物の穂を刈り取る行為、またはその結果として得られる穀物を指す。特に稲作において、成熟した穂から米粒を得るための作業を意味し、農業における重要な節目となる。収穫、取り入れといった意味合いで用いられ、努力の成果を得ることや、物事が実を結ぶ様子の比喩としても使われる。また、刈り取られた作物そのもの、特に稲穂や籾を指す場合もあり、食料の供給源として文化的、経済的に重要な存在。" 灯穫 [4] R. Anil et al., “Gemini: A Family of Highly Capable Multimodal Models,” CoRR, 2023. [5] https://huggingface.co/sbintuitions/sarashina2.2-0.5b-instruct-v0.1

学習条件 • 最適化 • RAdamScheduleFree • Epoch • 約 2,000
（RTX 3090 で 3 日くらい， RTX 5090 で 2 日くらい） [6] S. Jianlin et al., “Roformer: Enhanced transformer with rotary position embedding,” Neurocomputing, 2024.

• Timestep のサンプリングの工夫 • 各 Timestep ごとの Train Loss （平均）
が以下のように分布する → 初期と最後の学習が難しい • そのため，初期と最後を多めに学習するように Timestep をサンプリング学習条件 Train Loss （平均） Timestep のサンプリング

学習の経過（死屍累々たち）この辺は Cond Embedding のネットワークに RMS Norm を追加して改善

学習の経過（成功例）

学習の経過 (GIFなので、次ページに経過を掲載)

学習の経過

結果 (Text to Image) Prompt "沿岸の浅い海に群れて棲む小型の魚で、体は細長く、背側は青みがかり、腹側は銀白色をしている。春から夏にかけて大量に漁獲され、傷みやすいことから主に加工用として利用される。稚魚はカタクチイワシなど他の魚の幼魚と混同されることもある。古くから食用とされ、特に乾燥させてだしをとるための材料として日本の食文化に深く根ざしている。群れで行動する性質から、まとまりや数の多さを比喩的に示すこともある。",

• 100 Step で生成生成時の様子 1 10 20 30 40
50 60 70 80 90 100 Step Step

ちなみに... 小さな Dit を使った時の結果 • CLIP を使った Embedding • 約
6,000 枚の 32 × 32 pix 漢字データ

ちなみに... 小さな Dit を使った時の結果 • CLIP を使った Embedding • 約
6,000 枚の 32 × 32 pix 漢字データ • ネットワークが小さすぎて、まったく復元されない

ちなみに... U-Net 使った時の結果 • CLIP を使った Conditioning • 約 6,000
枚の 32 × 32 pix 漢字データ Dataset

ちなみに... U-Net 使った時の結果 • One Hot Labelによる Conditioning • 約
400 枚の 32 × 32 pix スタンプ

ちなみに... U-Net 使った時の結果 • One Hot Label による Conditioning •
約 400 枚の 64 × 4 pix スタンプ Dataset

ちなみに... U-Net 使った時の結果 • One Hot Label による Conditioning •
約 400 枚の 32 × 32 pix スタンプ

作った人 (X のアカウント) tonimono teftef

スライドはあとで公開します • noteでの解説

漢字 Rectified Flow （第３回生成 AI なんでも展示会）

漢字 Rectified Flow （第３回生成 AI なんでも展示会）

teftef

Other Decks in Research

Featured

Transcript

z 漢字 Rectified Flow Tonimono / teftef

この Project のきっかけやってみよう！！

Rectified Flow [1] 簡単に言うと... • Diffusion Model の一手法 • 数

Rectified Flow について • Flow Straight and Fast : Learning

Rectified Flow について • Xｔから求められる情報だけを用いて ODE を解くことを目指す • 全体の

実際何をするか • まずは、データにノイズを足す ε + ε ~ N(0,σ2 I) ε

実際何をするか • 次に、内分点 Xt を求める Xt = tX1 + (1

実際何をするか • 次に、ニューラルネットワークを使って速度を予測し損失を計算ニューラルネットワーク θ （model） vθ (Xt , t)

ニューラルネットワーク θ には何を使うの？ • U-Net [2] • 小さいので計算速度が早い

ニューラルネットワーク θ には何を使うの？ • Diffusion Transformer [3] • 大きいので計算速度が遅い

学習条件 • データセット • 約 13,000 枚の漢字データ (Noto Sans JP)

学習条件 • 最適化 • RAdamScheduleFree • Epoch • 約 2,000

• Timestep のサンプリングの工夫 • 各 Timestep ごとの Train Loss （平均）

学習の経過（死屍累々たち）この辺は Cond Embedding のネットワークに RMS Norm を追加して改善

学習の経過（成功例）

学習の経過 (GIFなので、次ページに経過を掲載)

学習の経過

学習の経過

• 100 Step で生成生成時の様子 1 10 20 30 40

ちなみに... 小さな Dit を使った時の結果 • CLIP を使った Embedding • 約

ちなみに... 小さな Dit を使った時の結果 • CLIP を使った Embedding • 約

ちなみに... U-Net 使った時の結果 • CLIP を使った Conditioning • 約 6,000

ちなみに... U-Net 使った時の結果 • One Hot Labelによる Conditioning • 約

ちなみに... U-Net 使った時の結果 • One Hot Label による Conditioning •

ちなみに... U-Net 使った時の結果 • One Hot Label による Conditioning •

作った人 (X のアカウント) tonimono teftef

スライドはあとで公開します • noteでの解説