Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIを作るエンジニアリングと使うエンジニアリング

 生成AIを作るエンジニアリングと使うエンジニアリング

2025年Findy主催AI Engineering Summit登壇資料です。
https://ai-engineering-summit.findy-tools.io/

Avatar for shibuiwilliam

shibuiwilliam

June 17, 2025
Tweet

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 shibui yusuke • いろいろ → Stability AI → LayerX(いまここ)

    • MLOpsコミュニティ運営 • MLOps & データ & バックエンド & インフラ & その他諸々エンジニア • 検索チームとR&Dチームを⽴ち上げ中 • 最近やりたいこと ⽣成AIの⽣成AI以外のエンジニアリング • Github: @shibuiwilliam • FB: yusuke.shibui cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知
  2. 毎年数回イノベーションが発⽣する世界 Machine learning Deep learning Generative AI Platform 2011 2012

    2013 2023 2022 2021 2020 2014 2015 2016 2017 2019 2018 BigQuery dbt Kubeflow AlexNet DCGAN TensorFlow DQN AlphaGo AlphaZero XGBoost LightGBM ONNX PyTorch Anaconda GoogleNet ResNet Kaggle SageMaker Keras Core ML MediaPipe TensorRT Nvidia K80 Jupyter Notebook Google Colab Word2Vec Vertex AI MLflow Spark CLIP BERT GPT-3 OpenAI Hidden debt paper Diffusion model HuggingFace AutoML Optuna Katib ChatGPT Snowflake Airflow Cycle GAN Style GAN Magenta VAE CatBoost Jax/Flax TFServing TorchServe Stable Diffusion Nvidia A100 TPU Transformer イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション CodeX BQML 2024 Llama LoRA DeepSpeed GPT4 Gemini Nvidia H100 AnimateDiff イノベーション Copilot Amazon Bedrock 2025 langchain dify mastra Nvidia H200 vllm Flux Claude Cursor Devin ModernBERT DeepSeek イノベーション イノベーション
  3. © LayerX Inc. 8 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 開発する⽣成AIモデルとリリースターゲットを決め、

    採⽤するモデルアーキテクチャやデータ、学習レシピを計画 学習済み⽣成AIモデルを⾃動または⼈間が評価 ⽣成AIモデルの品質、ハルシネーション、機能をフィードバック 既存のデータを整理し、追加で必要なデータや変換処理を定義 データ収集、変換、フィルタリング、保存管理 ⽣成AIモデルのアーキテクチャを開発し、GPUを確保して学習 学習プロセスと結果を実験管理し、必要に応じてFine tune
  4. © LayerX Inc. 11 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 収集、購⼊

    前処理 分析 フィルター データの要件定義 動画⽣成AIの例 課題を持ったユーザ 解決したい課題 必要なデータ 事前学習データ Fine Tuningデータ データの存在有無
  5. © LayerX Inc. 12 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 収集、購⼊

    前処理 分析 フィルター シーン検知、シーン分割 Resolution / Aspect ratio / jittery Text detection / Scoring Embedding Captioning 動画⽣成AIの例 Ref. Meta Movie Gen https://ai.meta.com/research/movie-gen/
  6. CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE!

    CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! シーン検知、シーン分割 CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! Text detection Motion scoring & aesthetic scoring ms 0.2 as 0.2 ms 0.8 as 0.4 ms 0.6 as 0.5 Captioning A graceful cat walks elegantly, then finds a cozy spot, curls up, and peacefully drifts off to a deep sleep A black cat energetically jups and runs around the garden An orange cat playfully bats a ball around on a bed
  7. © LayerX Inc. 14 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 収集、購⼊

    前処理 分析 フィルター データ基盤 検索システム テーマ分析 マトリックス分析 不⾜領域の把握 動画⽣成AIの例 Ref. Meta Movie Gen https://ai.meta.com/research/movie-gen/
  8. © LayerX Inc. 15 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 収集、購⼊

    前処理 分析 フィルター 動画⽣成AIの例 Storage DWH & Full text search Vector Store Multimodal data search platform データ本体 ID Storage path Metadata Caption… ID Video vector Text vector UI
  9. © LayerX Inc. 16 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 収集、購⼊

    前処理 分析 フィルター 動画⽣成AIの例 データ収集 シーン分割 Text & score 重複 意味 result
  10. © LayerX Inc. 19 ⽣成AIを作るためのエンジニアリング 計画 データ 学習 評価 やり直すことを考慮したエンジニアリング

    ⼤規模⾮構造化マルチモーダルデータを検索可能にする 限りあるGPU利⽤を時系列で計画する ⼈間による評価を指標含めて定義する ⽬標を⾒失わない、⽬標を判ずる審美眼
  11. © LayerX Inc. 27 ⽣成AIで作るエンジニアリング LLM コード プロンプト AIコーディング 機能

    メンテナンス性 可⽤性 構造化 アーキテクチャ Test First 実装 Dev First or Product First?
  12. © LayerX Inc. 30 ⽣成AIで作るエンジニアリング LLM コード プロンプト AIコーディング 機能

    メンテナンス性 可⽤性 構造化 アーキテクチャ Test First 実装 レビュー リファクタリング
  13. © LayerX Inc. 33 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック LLM スキーマ コンテキスト

    構造化 出⼒ LLM as a Judge ルール化 記録 プロンプト 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  14. © LayerX Inc. 34 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック LLM スキーマ コンテキスト

    構造化 出⼒ LLM as a Judge ルール化 記録 プロンプト 不確実性のFirewall 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  15. © LayerX Inc. 36 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック LLM スキーマ コンテキスト

    構造化 出⼒ LLM as a Judge ルール化 記録 プロンプト ⼊⼒の不確実性 出⼒の不確実性 結果の不確実性 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  16. © LayerX Inc. 37 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック コンテキスト プロンプト ⼊⼒の不確実性

    ユーザリクエスト理解 コンテキスト検索 プロンプト管理 分解、発展、計画 時系列と意味の情報整理 分解と評価 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  17. © LayerX Inc. 38 LLMを使うソフトウェアのエンジニアリング ユーザリクエスト理解 コンテキスト検索 プロンプト管理 分解、発展、計画 時系列と意味の情報整理

    分解と評価 あなたはLLMに詳しいソフトウェアエンジニアです。 Webアプリを⾃動コーディングする「Auto-web」の 機能を改善します。これまでのコミットヒストリと レビューを考慮してリファクタリングしてください。 Few shot‧‧‧ 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  18. © LayerX Inc. 39 あなたはLLMに詳しいソフトウェアエンジニアです。 Webアプリを⾃動コーディングする「Auto-web」の 機能を改善します。これまでのコミットヒストリと レビューを考慮してリファクタリングしてください。 Few shot‧‧‧

    LLMを使うソフトウェアのエンジニアリング ユーザリクエスト理解 コンテキスト検索 プロンプト管理 分解、発展、計画 時系列と意味の情報整理 分解と評価 Auto-web Webアプリ⾃動コーディング 機能改善 リファクタリング コミット‧レビュー Specification Understanding Underspecification analysis Search Filter Plan and rewrite 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  19. © LayerX Inc. 40 LLMを使うソフトウェアのエンジニアリング ユーザリクエスト理解 プロンプト管理 分解、発展、計画 分解と評価 Auto-web

    Webアプリ⾃動コーディング 機能改善 リファクタリング コミット‧レビュー Search Filter Plan and rewrite commit history コンテキスト検索 時系列と意味の情報整理 コンテキスト 時系列で変わるルールと状況 コメントと⽭盾 ⾮⾃明な情報 セマンティクスと属性 ‧‧‧ 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  20. © LayerX Inc. 41 class CodingPrompt role_prompt = “” order_prompt

    = “” reasoning_prompt = “” def context_builder(): … def few_shot_builder(): … あなたはLLMに詳しいソフトウェアエンジニアです。 Webアプリを⾃動コーディングする「Auto-web」の 機能を改善します。これまでのコミットヒストリと レビューを考慮してリファクタリングしてください。 Few shot‧‧‧ LLMを使うソフトウェアのエンジニアリング ユーザリクエスト理解 コンテキスト検索 分解、発展、計画 時系列と意味の情報整理 プロンプト管理 分解と評価 E2E testcase A E2E testcase B E2E testcase C E2E testcase D Prompt変更と統計的テスト失敗率の分析 90% 80% 95% 85% 70% 90% 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  21. © LayerX Inc. 42 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック LLM スキーマ コンテキスト

    構造化 出⼒ LLM as a Judge ルール化 記録 プロンプト ⼊⼒の不確実性 出⼒の不確実性 結果の不確実性 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  22. © LayerX Inc. 43 LLMを使うソフトウェアのエンジニアリング LLM スキーマ 構造化 出⼒ 出⼒の不確実性

    ⾃然⾔語を排除 Reasoningの活⽤ 構造化、Tool call 推論の⾃⼰評価 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  23. © LayerX Inc. 44 LLMを使うソフトウェアのエンジニアリング ⾃然⾔語を排除 Reasoningの活⽤ 構造化、Tool call 推論の⾃⼰評価

    答えは「⼈⼯知能」です。 なぜならAIは⼀般的にArtificial Intelligenceの省略で 使⽤され、Artificial Intelligenceは⽇本語で ⼈⼯知能と翻訳されるからです。 AIが⼈⼯知能の意味で使われる可能性は95%です。 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。 AIってなんで すか?
  24. © LayerX Inc. 45 LLMを使うソフトウェアのエンジニアリング ⾃然⾔語を排除 Reasoningの活⽤ 構造化、Tool call 推論の⾃⼰評価

    答えは「⼈⼯知能」です。 なぜならAIは⼀般的にArtificial Intelligenceの省略で 使⽤され、Artificial Intelligenceは⽇本語で ⼈⼯知能と翻訳されるからです。 AIが⼈⼯知能の意味で使われる可能性は95%です。 { “answer”: “⼈⼯知能”, “reasons”: { “reason_0”: “AIは⼀般的にArtificial Intelligenceの省略”, “reason_1”: “Artificial Intelligenceは⽇本語で⼈⼯知能”, }, “probability”: 0.95 } 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  25. © LayerX Inc. 46 LLMを使うソフトウェアのエンジニアリング ⾃然⾔語を排除 構造化、Tool call { “reasons”:

    { “reason_0”: “AIは⼀般的にArtificial Intelligenceの省略”, “reason_1”: “Artificial Intelligenceは⽇本語で⼈⼯知能”, }, “answer”: “⼈⼯知能”, “probability”: 0.95 } Reasoningの活⽤ 推論の⾃⼰評価 class Answer(pydantic.BaseModel): reasons: list[str] = Fields(“論理的理由”) answer: str = Fields(“回答”) probability: float = Fields(“確率”) 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  26. © LayerX Inc. 47 LLMを使うソフトウェアのエンジニアリング ビジネス ロジック LLM スキーマ コンテキスト

    構造化 出⼒ LLM as a Judge ルール化 記録 プロンプト ⼊⼒の不確実性 出⼒の不確実性 結果の不確実性 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  27. © LayerX Inc. 48 LLMを使うソフトウェアのエンジニアリング LLM as a Judge ルール化

    記録 結果の不確実性 LLM as a Judge 固定値化 Observability Judgeの妥当性確率 グラデーションから範囲 監視と分析 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。
  28. © LayerX Inc. 49 LLMを使うソフトウェアのエンジニアリング LLM as a Judge 固定値化

    Observability Judgeの妥当性確率 グラデーションから範囲 監視と分析 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。 LLM時代のソフト ウェアエンジニアリ ングのパラダイムを 深く考察して提案し てください。 LLM時代のソフト ウェアエンジニアリ ングではAIを⽤いた コーディングと、AI を使ったソフトウェ アが重要です。 質問に対する回答の 妥当性を評価し、そ の理由と評価点 (0~100点)を説明 してください。 理由:LLMの発達に よってソフトウェア 開発の現場は変化し ます。 評価点:100点 ←妥当性評価 LLM as a Judge 信頼性 95.6% プロンプト レスポンス LLM-as-a-Judge プロンプト LLM-as-a-Judge
  29. © LayerX Inc. 50 LLMを使うソフトウェアのエンジニアリング LLM as a Judge 固定値化

    Observability Judgeの妥当性確率 グラデーションから範囲 監視と分析 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。 LLM時代のソフト ウェアエンジニアリ ングのパラダイムを 深く考察して提案し てください。 AIコーディング AIアプリケーション その他 否定的 肯定的 否定的 肯定的 肯定的 否定的 LLM-as-a-Judgeの ⼈間との⼀致率 レスポンス評価分析 99% 50% 70% 98% 60% 80% ⾃動化 Human-in-the-loop
  30. © LayerX Inc. 51 LLMを使うソフトウェアのエンジニアリング LLM as a Judge 固定値化

    Observability Judgeの妥当性確率 グラデーションから範囲 監視と分析 不確実性に対処する鉄則は、不確実な要素を局所化して制限すること。そして評価すること。 LLM時代のソフト ウェアエンジニアリ ングのパラダイムを 深く考察して提案し てください。 Rewrite Response Reflection Final answer User feedback Token Duration Complexity Log System log Prompt log System log Prompt log System log Prompt log System log Prompt log System log
  31. © LayerX Inc. 55 流れは作るもの Cloud computing Infrastructure as Code

    Microservice architecture Modular monolith Serverless Container