Upgrade to Pro — share decks privately, control downloads, hide ads and more …

漢字 Rectified Flow (第3回生成 AI なんでも展示会)

Avatar for teftef teftef
May 11, 2025

漢字 Rectified Flow (第3回生成 AI なんでも展示会)

第3回生成 AI なんでも展示会での展示内容です。
Rectified Flow を用いて Sakana AI の課題を解く内容です。

Avatar for teftef

teftef

May 11, 2025
Tweet

Other Decks in Research

Transcript

  1. Rectified Flow [1] 簡単に言うと... • Diffusion Model の一手法 • 数

    Step での生成ができる • シンプルな実装で学習できる
  2. Rectified Flow について • Flow Straight and Fast : Learning

    to Generate and Transfer Data with Rectified Flow [1] 時刻 0 時刻 1 時刻 t ODE が直線であると仮定すると 、任意の時刻 t のデータは内分の 形で書ける → 傾きがわかれば ODE として解ける dXt = (X1 -X0 )dt Xt = tX1 + (1 - t )X0 X1 がわからないので求められない [1] X. Liu et al., "Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow," CoRR, 2022.
  3. Rectified Flow について • Xt から求められる情報だけを用いて ODE を解くことを目指す • 全体の

    Loss dXt = (X1 -X0 )dt dXt = vθ (Xt , t)dt X1 がわからないので求められない NNを使い、 Xt から計算できる
  4. 実際何をするか • 次に、内分点 Xt を求める Xt = tX1 + (1

    - t )X0 t 1-t 区間[0,1] の一様分布からサンプリング t ~ U(ε, 1 - ε)
  5. ニューラルネットワーク θ には何を使う の? • U-Net [2] • 小さいので計算速度 が早い

    • Convolution ベースな ので表現力が貧弱の 可能性あり [2] O. Ronneberger et al., “U-Net: Convolutional networks for biomedical image segmentation,” MICCAI, 2015.
  6. ニューラルネットワーク θ には何を使う の? • Diffusion Transformer [3] • 大きいので計算速度が遅い

    • MSA を持つため大域的な 情報を学習しやすく、 Convolution では局所的な 情報も学習できる 今回はこっち [3] W. Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023.
  7. 学習条件 • データセット • 約 13,000 枚の漢字データ (Noto Sans JP)

    • Gemini [4] で漢字の意味を説明したものをタグ付け • Conditioning • Sarashina 2.2-0.5b-instruct-v0.1[5] を Text Encoder とする​5 "燃焼する際に生じる小さな火を示す。光は弱いが、熱を伴い、消えかかった状態やわずかに残った 火種を指す。また、星のようにかすかに光るものを表すこともある。微弱ながら存在する、あるいは 再燃の可能性を持つ状態を含意し、希望や生命力といった抽象的な事象の象徴として用いられること もある。", , "穀物の穂を刈り取る行為、またはその結果として得られる穀物を指す。特に稲作において、成熟し た穂から米粒を得るための作業を意味し、農業における重要な節目となる。収穫、取り入れといった 意味合いで用いられ、努力の成果を得ることや、物事が実を結ぶ様子の比喩としても使われる。また 、刈り取られた作物そのもの、特に稲穂や籾を指す場合もあり、食料の供給源として文化的、経済的 に重要な存在。" 灯 穫 [4] R. Anil et al., “Gemini: A Family of Highly Capable Multimodal Models,” CoRR, 2023. [5] https://huggingface.co/sbintuitions/sarashina2.2-0.5b-instruct-v0.1
  8. 学習条件 • 最適化 • RAdamScheduleFree • Epoch • 約 2,000

    (RTX 3090 で 3 日くらい, RTX 5090 で 2 日くらい) [6] S. Jianlin et al., “Roformer: Enhanced transformer with rotary position embedding,” Neurocomputing, 2024.
  9. • Timestep のサンプリングの工夫 • 各 Timestep ごとの Train Loss (平均)

    が以下のように分布する → 初期と最後の学習が難しい • そのため,初期と最後を多めに学習するように Timestep をサンプリング 学習条件 Train Loss (平均) Timestep のサンプリング
  10. ちなみに... 小さな Dit を使った時の結果 • CLIP を使った Embedding • 約

    6,000 枚の 32 × 32 pix 漢字データ • ネットワークが小さすぎて、まったく復元されない