$30 off During Our Annual Pro Sale. View Details »

How to specify colors in image generation

Avatar for genelab_999 genelab_999
June 02, 2025
2

How to specify colors in image generation

Avatar for genelab_999

genelab_999

June 02, 2025
Tweet

Transcript

  1. なぜRGB値やHex値よ り色名が効果的なのか トークン化による技術 的制約 VLMはByte-Pair Encodingを 使用してテキストをトークン 化します。色名は単一トーク ンで豊富な意味的埋め込みを 持ちますが、Hex値は4-6個、

    RGB値は8-10個のトークンに 分割され、意味的統一性を失 います。 学習データの偏り LAION-5Bなどの大規模デー タセットでは、Webのalt-text が圧倒的に自然言語の色名を 使用しています。色名は多様 な文脈で出現し豊富な意味的 関連性を獲得しますが、 RGB/Hex値はほとんど存在せ ず視覚的パターンとの関連付 けが学習されません。 埋め込み空間での表現 研究によると、VLMの埋め込み空間では色名は意味的に一貫したクラ スターを形成し、類似色は高い埋め込み類似性を示します。また視覚 的な赤とテキストの「赤」が密接に整合しますが、数値表現は対応す る視覚パターンとの関連付けが欠如しています。
  2. 色名と物質名の混同問題 問題の詳細 すべてのAIシステムで観察される普遍的な問題として、色名と 物質名の混同があります。例えば「lavender」は紫色とラベン ダーの植物の両方として解釈され、 「lavender dress」でラベン ダーの花柄のドレスが生成されることがあります。 同様に「forest green」が実際の森の風景を生成したり、

    「rose pink」や「rose color」でバラの花が生成されたりする問題があ ります。これらは色のリクエストが具体的なイメージに変換さ れてしまう現象です。 システム別の影響度 この問題の影響度はAIシステムによって異なります: 最も影響大:Midjourney(自然言語処理に依存) 中程度:Stable Diffusion、Flux 最も影響小:DALL-E 3(対話的な修正が可能) 解決策としては、 「lavender-colored」や「purple lavender shade」 、 「deep green」や「dark emerald」 、 「dusty pink」 「blush」 「pale pink」などの代替表現を使用することが効果的 です。
  3. VLMにおける色-テキスト学習の詳細 対照学習の仕組み 画像とテキストの類似性を最大化 二重エンコーダー構造 Vision TransformerとText Transformerの連携 学習データセットの特徴 LAION-5Bの多言語データ VLMにおける色-テキスト学習は対照学習に基づいています。Vision

    Transformer(ViT)が画像パッチから色情報をエンコードし、 Text Transformerが色名を位置埋め込みと共に処理します。共有投影空間で両モダリティを共通の次元に投影し、画像の色情報とテキ ストの色名の類似性を最大化します。 LAION-5Bデータセットは23.2億の英語ペアと100以上の言語から22.6億ペアで構成され、平均キャプション長は13-99文字です。色は通 常、オブジェクトやシーンの説明に埋め込まれています。専用の色語彙は存在せず、色の単語は標準的な語彙トークンとして扱われ ます。
  4. 各AIシステムの特徴と違い Stable Diffusion 自然言語処理に依存し、Hex値 は認識しません。色の「にじみ」 問題が顕著で、プロンプト内の 語順が重要(前方の色が優先) です。重み付けシステムとして (blue:1.5)のような指定が可能で す。

    効果的な手法としては、BREAK キーワードで色指定を分離した り、ネガティブプロンプトで不 要な色を除外したり、(())や数値 重みを使用した強調技術があり ます。 Flux(Black Forest Labs) 120億パラメータのFlow Matching技術を採用し、Stable Diffusionより色指定への準拠性 が向上しています。雰囲気や照 明と色の統合が得意です。 推奨アプローチとしては、感情 的文脈を含む詳細な色の説明 や、照明と雰囲気の説明と色を 組み合わせること、一般的な色 のテーマから具体的な詳細へ進 めることが挙げられます。 DALL-E 3 / Midjourney DALL-E 3はChatGPTとの統合による対話的な色の調整が可能で、文脈理 解と色の関係性の把握が優秀です。一方、Midjourneyは自然言語の色名 のみ使用し、少ない色指定の方が正確な結果を得られます。 MidjourneyではV5.2で色、コントラスト、構成が改善され、V6では基本 および高度なトークンによる色パレット処理が強化されています。
  5. 実践的なベストプラクティス 効果的な色の命名規則 基本色から修飾子、文化的参照、素材ベースへ 高度なプロンプトエンジニアリング 重み付け調整とネガティブプロンプトの活用 プラットフォーム別テンプレート ポートレートや風景に特化した構造化プロンプト 効果的な色の命名規則としては、基本色(red, blue, green)

    、修飾子(deep, light, dark) 、文化的参照(sunset orange, ocean blue) 、素 材ベース(metallic silver, matte black)の階層が推奨されます。 高度なプロンプトエンジニアリングでは、Stable Diffusionでは(color:1.5)または((color))、Midjourneyではcolor::2のような重み付け調 整や、 「no green」 「not blue」のようなネガティブプロンプトの活用が効果的です。また、ポートレートや風景に特化したテンプレー トを使用することで、より一貫性のある結果を得ることができます。
  6. 色認識精度向上のテクニック ベースライン生成 色指定なしでベースプロンプトを作成 単色テスト 一つの色要素を追加してバリエーションをテスト 重み進行 異なる重み値を体系的にテスト ネガティブテスト 不要な要素を制御するネガティブプロンプトを追加 組み合わせテスト

    複数の色を一緒にテスト ドキュメント化 成功した組み合わせと重みを記録 色認識精度を向上させるためには、システマティックなアプローチが効果的です。まず色指定なしでベースプロンプトを作成し、次 に一つの色要素を追加してバリエーションをテストします。その後、異なる重み値を体系的にテストし、不要な要素を制御するネガ ティブプロンプトを追加します。 また、AI特化型色ツールとしてColorMagic、Colormind.io、Huemintなどがあり、r/StableDiffusion、Midjourney Discord、Lexica.art などのコミュニティリソースも活用できます。これらのツールとリソースを組み合わせることで、より精度の高い色指定が可能になり ます。