Slide 1

Slide 1 text

LLMOpsの これまでとこれからを学ぶ 渋谷 Biz × AI: ビジネスにおける AI 利活用事例勉強会 第4回 長江 五月

Slide 2

Slide 2 text

長江 五月 ・indeed ソフトウェアエンジニア ・CyberAgent データサイエンティスト 広告配信アルゴリズムの開発・運用 MLOps新卒研修に講師として参加 自己紹介 2025年10月にMLOpsの本を出版しました

Slide 3

Slide 3 text

・2023年のLLMOps ・2024 ~ 2025年の変化 ・2026年のLLMOps 本発表の目次

Slide 4

Slide 4 text

・2023年のLLMOps プロンプトエンジニアリング、RAG、ファインチューニングが中心的課題 ・2024 ~ 2025年の変化 基盤モデル性能が向上、推論コストが低下 自律型エージェントの登場 LLMシステム評価の重要性が浸透 ・2026年のLLMOps LLMシステムは確率的に必ず失敗することに向き合う。 LLM周辺のソフトウェアエンジニアリングの実践でシステム信頼性を高める。 本発表のまとめ

Slide 5

Slide 5 text

・2023年のLLMOps ・2024 ~ 2025年の変化 ・2026年のLLMOps 本発表の目次

Slide 6

Slide 6 text

『LLMOps』という言葉が2023年に使われ始めた 『LLMOps』のGoogle Trends 2023年初頭

Slide 7

Slide 7 text

2025年の話は後ほどします 『LLMOps』のGoogle Trends 2025年8月

Slide 8

Slide 8 text

2023年前後のAI関連イベント振り返り 2022年11月30日 ChatGPTリリース 2023年2月24日 LLaMA-1リリース 2023年3月14日 Claude-1, GPT-4 リリース 2023年4月13日 AWS Bedrock発表

Slide 9

Slide 9 text

2023年のLLMOps ・プロンプトエンジニアリング ・RAG ・ファインチューニング が中心的課題だった Understanding LLMOps: Large language model operations FMOps/LLMOps:生成系 AI の運用と MLOps との違い

Slide 10

Slide 10 text

2023年のプロンプトエンジニアリング モデルの指示追従能力が、今と比較して低かった Revisiting the Reliability of Language Models in Instruction-Following. Figure1から引用

Slide 11

Slide 11 text

Prompt Engineering Guideから引用 2023年のプロンプトエンジニアリング 様々なプロンプトテクニックが登場

Slide 12

Slide 12 text

*1 LARGE LANGUAGE MODELS AS OPTIMIZERS *2 Apparently, ChatGPT gives you better responses if you (pretend) to tip it for its work. The bigger the tip, the better the service. *3 Large Language Models Understand and Can be Enhanced by Emotional Stimuli *4 26 prompt principles 2023年のプロンプトエンジニアリング 流行った「おまじない」テクニック ・深呼吸させる *1 ・チップを渡す *2 ・感情に訴える *3 ・脅迫する *4

Slide 13

Slide 13 text

職業プロンプトエンジニアの需要増加 Anthropicがプロンプトエンジニアを$250K~350K(5400万円)で募集

Slide 14

Slide 14 text

RAGの必要性 モデルの入力コンテキスト長が、今と比較して短かった AIエンジニアリング. 図5-2より引用

Slide 15

Slide 15 text

RAGの必要性 入力コンテキストが長くなるほど、モデルが間違いやすくなる AIエンジニアリング. 図5-4より引用

Slide 16

Slide 16 text

RAGがなぜ課題だったか AIエンジニアリング. 図6-3より引用 RAGシステムを作るには、様々な技術課題に向き合う必要がある RAGシステムの要素

Slide 17

Slide 17 text

余談: プロンプトに全て含めるか、RAGを使うか 20万トークン(約500ページの資料)より小さい場合は、 RAGを必要とせず、プロンプトにナレッジベース全体を含める。 ただし、ナレッジベースが今後増加しない場合に限る。 Anthropicの提案 Introducing Contextual Retrieval

Slide 18

Slide 18 text

ファインチューニングが必要な理由 ファインチューニングが必要な理由は、組織によって様々 ・コスト削減 ・セキュリティ規則で外部にデータを渡せない ・基盤モデルの性能が足りない

Slide 19

Slide 19 text

2023年のファインチューニング A Survey of Techniques for Maximizing LLM Performance. OpenAI (2023) モデルの動作を最適化するのに、 ファインチューニングは有効な手段として位置付けられてた LLMアプリケーションの最適化の流れ

Slide 20

Slide 20 text

2023年のファインチューニング 2023: The State of Generative AI in the Enterprise ファインチューニングが最適化手法として活用されていた 本番運用されているAIアプリケーションの最適化手法

Slide 21

Slide 21 text

2023年のファインチューニング FMOps/LLMOps:生成系 AI の運用と MLOps との違い | Amazon Web Services 2023年9月8日公開 LLMOps:基盤モデルに基づくアプリケーション開発のワー クフロー|Weights & Biases Japan 2023年7月13日公開 LLMOpsをLLMフルスクラッチ開発、ファインチューニング、モデルAPI活用の 3タイプに分類して考えられることが多い

Slide 22

Slide 22 text

2023年のLLMOpsの記事はモデル開発寄りの話題が多い LLMOps(大規模言語モデル運用)とは、 大規模言語モデル(LLM)の管理と運用に関連する手法とプロセスを指します LLMOps には、次のような包括的な一連のアクティビティが含まれます。 ・モデルのデプロイとメンテナンス ・データ マネジメント ・モデルのトレーニングと微調整 ・モニタリングと評価 ・セキュリティとコンプライアンス LLMOps: What it is and how it works | Google Cloud

Slide 23

Slide 23 text

2023年のLLMOpsまとめ ・プロンプトエンジニアリング ・RAG ・ファインチューニング が中心的課題だった

Slide 24

Slide 24 text

・2023年のLLMOps ・2024 ~ 2025年の変化 ・2026年のLLMOps 本発表の目次

Slide 25

Slide 25 text

推論コストの低下 The 2025 AI Index Report. Figure 1.3.22 同一性能のモデルの推論コストの時系列変化 GPT3.5相当と同等性能モデルの推論コストは1/100以下に減少

Slide 26

Slide 26 text

基盤モデル学習にかかるコストが増加 The 2025 AI Index Report. Figure 1.3.26 Llama 3.1-405Bの学習に推定$170M(265億円)かかっている モデルの学習コストの時系列変化

Slide 27

Slide 27 text

推論コストに対するモデル性能が向上 The cost of AI reasoning is going to drastically decrease. Fig 1 推論コストとモデル性能 同じ推論コストでより性能の良いモデルが利用可能になった

Slide 28

Slide 28 text

職業プロンプトエンジニアの需要減少 ・LinkedIn プロンプトエンジニアの求人数が、2024年から2025年にかけて40%減少 The Hottest AI Job of 2023 Is Already Obsolete ・indeed 検索全体100万件に対するプロンプトエンジニアの検索数が、 2023年は144件だったのが、2025年は20件に減少 The Decline of Prompt Engineering and the Rise of Process Automation Skills 


Slide 29

Slide 29 text

モデル開発からモデルAPI活用に変化 2025: The State of Generative AI in the Enterprise 2024年と2025年の自社モデル運用、モデルAPI活用の比率 モデルAPIが安く、性能が良くなり、モデルAPI活用の割合が増加した

Slide 30

Slide 30 text

ファインチューニングを活用する組織が減少した 2025: The State of Generative AI in the Enterprise エンタープライズ企業とスタートアップの使用している最適化手法(2025年版) ファインチューニングは主要な最適化手法ではなくなり(※2023年は19%)、 コンテクストエンジニアリング、ツール呼び出しが増加

Slide 31

Slide 31 text

LLMOpsが2025年8月以降、注目が高まっている 『LLMOps』のGoogle Trends 2025年8月

Slide 32

Slide 32 text

2025年8月以降のイベント 8月6日 Claude Opus 4.1 12月11日 GPT-5.2 8月7日 GPT-5 9月29日 Agent SDK 10月13日 Amazon Bedrock AgentCore 11月18日 Gemini 3.0 11月24日 Claude Opus 自律型エージェント能力を持つ モデルのリリース エージェント開発ツールの登場

Slide 33

Slide 33 text

AI AgentとLLMOpsが同時期に注目を集めた AI Agent LLMOps AI AgentとLLMOpsのGoogleトレンド

Slide 34

Slide 34 text

AI Agentの活用が広がり始めている 2025: The State of Generative AI in the Enterprise ワークフロー型が多数だが、エージェント型のユースケースが増えている エンタープライズ企業とスタートアップのワークフロー型・エージェント型 ユースケース比較(2025年版)

Slide 35

Slide 35 text

AI Agentの本番導入の最大の障壁は出力品質 State of Agent Engineering LangChainの2025年の調査によるとAI Agentを本番導入する場合の 最大の障壁は出力品質

Slide 36

Slide 36 text

LLMシステムの信頼性の担保が差別化要因 What 1,200 Production Deployments Reveal About LLMOps in 2025 『What 1,200 Production Deployments Reveal About LLMOps in 2025』 によると ・2025年に最も成熟した領域は、LLMシステムの本番運用における評価システムと ガードレールの進化 ・2025年に信頼性の高いLLMシステムを構築している組織は、LLMを検証し、制限 すべきカオスな構成要素として扱っている 評価の重要性が高まっている

Slide 37

Slide 37 text

2024年~2025年の変化まとめ ・基盤モデル性能が向上、推論コストが低下 ・職業プロンプトエンジニアの衰退 ・モデル開発からモデルAPI活用に変化 ・自律型エージェントの登場 ・LLMシステム評価の重要性が浸透

Slide 38

Slide 38 text

・2023年のLLMOps ・2024 ~ 2025年の変化 ・2026年のLLMOps 本発表の目次

Slide 39

Slide 39 text

2026年のLLMシステム開発 LLMシステムは確率的に必ず失敗することに向き合う。 LLM周辺のソフトウェアエンジニアリングの実践で システム信頼性を高める。 参考: What 1,200 Production Deployments Reveal About LLMOps in 2025

Slide 40

Slide 40 text

LLMシステムの信頼性を高めるための要素 モデル API プロンプト入力 モデル出力 参考: AIエンジニアリング. 10章 AIエンジニアリングのアーキテクチャとユーザーフィードバック

Slide 41

Slide 41 text

コンテキストエンジニアリング コンテクスト エンジニアリング モデル API

Slide 42

Slide 42 text

入力ガードレール コンテクスト エンジニアリング 入力 ガードレール モデル API

Slide 43

Slide 43 text

ツール管理 コンテクスト エンジニアリング ツール管理 入力 ガードレール モデル API

Slide 44

Slide 44 text

ワークフロー・エージェントオーケストレーション コンテクスト エンジニアリング ツール管理 入力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 45

Slide 45 text

評価 コンテクスト エンジニアリング 評価 ツール管理 入力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 46

Slide 46 text

出力ガードレール コンテクスト エンジニアリング 評価 ツール管理 入力 ガードレール 出力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 47

Slide 47 text

フェイルオーバー コンテクスト エンジニアリング 評価 ツール管理 フェイルオーバー 入力 ガードレール 出力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 48

Slide 48 text

監視 コンテクスト エンジニアリング 評価 ツール管理 監視 フェイルオーバー 入力 ガードレール 出力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 49

Slide 49 text

フィードバックループ コンテクスト エンジニアリング 評価 ツール管理 監視 フィードバックループ フェイルオーバー 入力 ガードレール 出力 ガードレール ワークフロー・エージェント オーケストレーション

Slide 50

Slide 50 text

LLMOpsワークフローの構成要素 ・コンテキストエンジニアリング ・入力、出力ガードレール ・ツール管理 ・ワークフロー、エージェントオーケストレーション ・評価 ・フェイルオーバー ・監視 ・フィードバックループ 参考: AIエンジニアリング. 10章 AIエンジニアリングのアーキテクチャとユーザーフィードバック

Slide 51

Slide 51 text

・2023年のLLMOps プロンプトエンジニアリング、RAG、ファインチューニングが中心的課題 ・2024 ~ 2025年の変化 基盤モデル性能が向上、推論コストが低下 自律型エージェントの登場 LLMシステム評価の重要性が浸透 ・2026年のLLMOps LLMシステムは確率的に必ず失敗することに向き合う。 LLM周辺のソフトウェアエンジニアリングの実践でシステム信頼性を高める。 本発表のまとめ