LLMOpsのこれまでとこれからを学ぶ

by Satsuki Nagae

Embed

Start on current slide

Slide 1

Slide 1 text

LLMOpsのこれまでとこれからを学ぶ渋谷 Biz × AI: ビジネスにおける AI 利活用事例勉強会第4回長江五月

Slide 2

Slide 2 text

長江五月・indeed ソフトウェアエンジニア・CyberAgent データサイエンティスト広告配信アルゴリズムの開発・運用 MLOps新卒研修に講師として参加自己紹介 2025年10月にMLOpsの本を出版しました

Slide 3

Slide 3 text

・2023年のLLMOps ・2024 ~ 2025年の変化・2026年のLLMOps 本発表の目次

Slide 4

Slide 4 text

・2023年のLLMOps プロンプトエンジニアリング、RAG、ファインチューニングが中心的課題・2024 ~ 2025年の変化基盤モデル性能が向上、推論コストが低下自律型エージェントの登場 LLMシステム評価の重要性が浸透・2026年のLLMOps LLMシステムは確率的に必ず失敗することに向き合う。 LLM周辺のソフトウェアエンジニアリングの実践でシステム信頼性を高める。本発表のまとめ

Slide 5

Slide 5 text

・2023年のLLMOps ・2024 ~ 2025年の変化・2026年のLLMOps 本発表の目次

Slide 6

Slide 6 text

『LLMOps』という言葉が2023年に使われ始めた『LLMOps』のGoogle Trends 2023年初頭

Slide 7

Slide 7 text

2025年の話は後ほどします『LLMOps』のGoogle Trends 2025年8月

Slide 8

Slide 8 text

2023年前後のAI関連イベント振り返り 2022年11月30日 ChatGPTリリース 2023年2月24日 LLaMA-1リリース 2023年3月14日 Claude-1, GPT-4 リリース 2023年4月13日 AWS Bedrock発表

Slide 9

Slide 9 text

2023年のLLMOps ・プロンプトエンジニアリング・RAG ・ファインチューニングが中心的課題だった Understanding LLMOps: Large language model operations FMOps/LLMOps：生成系 AI の運用と MLOps との違い

Slide 10

Slide 10 text

2023年のプロンプトエンジニアリングモデルの指示追従能力が、今と比較して低かった Revisiting the Reliability of Language Models in Instruction-Following. Figure1から引用

Slide 11

Slide 11 text

Prompt Engineering Guideから引用 2023年のプロンプトエンジニアリング様々なプロンプトテクニックが登場

Slide 12

Slide 12 text

*1 LARGE LANGUAGE MODELS AS OPTIMIZERS *2 Apparently, ChatGPT gives you better responses if you (pretend) to tip it for its work. The bigger the tip, the better the service. *3 Large Language Models Understand and Can be Enhanced by Emotional Stimuli *4 26 prompt principles 2023年のプロンプトエンジニアリング流行った「おまじない」テクニック・深呼吸させる *1 ・チップを渡す *2 ・感情に訴える *3 ・脅迫する *4

Slide 13

Slide 13 text

職業プロンプトエンジニアの需要増加 Anthropicがプロンプトエンジニアを$250K~350K(5400万円)で募集

Slide 14

Slide 14 text

RAGの必要性モデルの入力コンテキスト長が、今と比較して短かった AIエンジニアリング. 図5-2より引用

Slide 15

Slide 15 text

RAGの必要性入力コンテキストが長くなるほど、モデルが間違いやすくなる AIエンジニアリング. 図5-4より引用

Slide 16

Slide 16 text

RAGがなぜ課題だったか AIエンジニアリング. 図6-3より引用 RAGシステムを作るには、様々な技術課題に向き合う必要がある RAGシステムの要素

Slide 17

Slide 17 text

余談: プロンプトに全て含めるか、RAGを使うか 20万トークン(約500ページの資料)より小さい場合は、 RAGを必要とせず、プロンプトにナレッジベース全体を含める。ただし、ナレッジベースが今後増加しない場合に限る。 Anthropicの提案 Introducing Contextual Retrieval

Slide 18

Slide 18 text

ファインチューニングが必要な理由ファインチューニングが必要な理由は、組織によって様々・コスト削減・セキュリティ規則で外部にデータを渡せない・基盤モデルの性能が足りない

Slide 19

Slide 19 text

2023年のファインチューニング A Survey of Techniques for Maximizing LLM Performance. OpenAI (2023) モデルの動作を最適化するのに、ファインチューニングは有効な手段として位置付けられてた LLMアプリケーションの最適化の流れ

Slide 20

Slide 20 text

2023年のファインチューニング 2023: The State of Generative AI in the Enterprise ファインチューニングが最適化手法として活用されていた本番運用されているAIアプリケーションの最適化手法

Slide 21

Slide 21 text

2023年のファインチューニング FMOps/LLMOps：生成系 AI の運用と MLOps との違い | Amazon Web Services 2023年9月8日公開 LLMOps：基盤モデルに基づくアプリケーション開発のワークフロー｜Weights & Biases Japan 2023年7月13日公開 LLMOpsをLLMフルスクラッチ開発、ファインチューニング、モデルAPI活用の 3タイプに分類して考えられることが多い

Slide 22

Slide 22 text

2023年のLLMOpsの記事はモデル開発寄りの話題が多い LLMOps（大規模言語モデル運用）とは、大規模言語モデル（LLM）の管理と運用に関連する手法とプロセスを指します LLMOps には、次のような包括的な一連のアクティビティが含まれます。・モデルのデプロイとメンテナンス・データマネジメント・モデルのトレーニングと微調整・モニタリングと評価・セキュリティとコンプライアンス LLMOps: What it is and how it works | Google Cloud

Slide 23

Slide 23 text

2023年のLLMOpsまとめ・プロンプトエンジニアリング・RAG ・ファインチューニングが中心的課題だった

Slide 24

Slide 24 text

・2023年のLLMOps ・2024 ~ 2025年の変化・2026年のLLMOps 本発表の目次

Slide 25

Slide 25 text

推論コストの低下 The 2025 AI Index Report. Figure 1.3.22 同一性能のモデルの推論コストの時系列変化 GPT3.5相当と同等性能モデルの推論コストは1/100以下に減少

Slide 26

Slide 26 text

基盤モデル学習にかかるコストが増加 The 2025 AI Index Report. Figure 1.3.26 Llama 3.1-405Bの学習に推定$170M(265億円)かかっているモデルの学習コストの時系列変化

Slide 27

Slide 27 text

推論コストに対するモデル性能が向上 The cost of AI reasoning is going to drastically decrease. Fig 1 推論コストとモデル性能同じ推論コストでより性能の良いモデルが利用可能になった

Slide 28

Slide 28 text

職業プロンプトエンジニアの需要減少・LinkedIn プロンプトエンジニアの求人数が、2024年から2025年にかけて40%減少 The Hottest AI Job of 2023 Is Already Obsolete ・indeed 検索全体100万件に対するプロンプトエンジニアの検索数が、 2023年は144件だったのが、2025年は20件に減少 The Decline of Prompt Engineering and the Rise of Process Automation Skills  

Slide 29

Slide 29 text

モデル開発からモデルAPI活用に変化 2025: The State of Generative AI in the Enterprise 2024年と2025年の自社モデル運用、モデルAPI活用の比率モデルAPIが安く、性能が良くなり、モデルAPI活用の割合が増加した

Slide 30

Slide 30 text

ファインチューニングを活用する組織が減少した 2025: The State of Generative AI in the Enterprise エンタープライズ企業とスタートアップの使用している最適化手法(2025年版) ファインチューニングは主要な最適化手法ではなくなり(※2023年は19%)、コンテクストエンジニアリング、ツール呼び出しが増加

Slide 31

Slide 31 text

LLMOpsが2025年8月以降、注目が高まっている『LLMOps』のGoogle Trends 2025年8月

Slide 32

Slide 32 text

2025年8月以降のイベント 8月6日 Claude Opus 4.1 12月11日 GPT-5.2 8月7日 GPT-5 9月29日 Agent SDK 10月13日 Amazon Bedrock AgentCore 11月18日 Gemini 3.0 11月24日 Claude Opus 自律型エージェント能力を持つモデルのリリースエージェント開発ツールの登場

Slide 33

Slide 33 text

AI AgentとLLMOpsが同時期に注目を集めた AI Agent LLMOps AI AgentとLLMOpsのGoogleトレンド

Slide 34

Slide 34 text

AI Agentの活用が広がり始めている 2025: The State of Generative AI in the Enterprise ワークフロー型が多数だが、エージェント型のユースケースが増えているエンタープライズ企業とスタートアップのワークフロー型・エージェント型ユースケース比較(2025年版)

Slide 35

Slide 35 text

AI Agentの本番導入の最大の障壁は出力品質 State of Agent Engineering LangChainの2025年の調査によるとAI Agentを本番導入する場合の最大の障壁は出力品質

Slide 36

Slide 36 text

LLMシステムの信頼性の担保が差別化要因 What 1,200 Production Deployments Reveal About LLMOps in 2025 『What 1,200 Production Deployments Reveal About LLMOps in 2025』によると・2025年に最も成熟した領域は、LLMシステムの本番運用における評価システムとガードレールの進化・2025年に信頼性の高いLLMシステムを構築している組織は、LLMを検証し、制限すべきカオスな構成要素として扱っている評価の重要性が高まっている

Slide 37

Slide 37 text

2024年~2025年の変化まとめ・基盤モデル性能が向上、推論コストが低下・職業プロンプトエンジニアの衰退・モデル開発からモデルAPI活用に変化・自律型エージェントの登場・LLMシステム評価の重要性が浸透

Slide 38

Slide 38 text

・2023年のLLMOps ・2024 ~ 2025年の変化・2026年のLLMOps 本発表の目次

Slide 39

Slide 39 text

2026年のLLMシステム開発 LLMシステムは確率的に必ず失敗することに向き合う。 LLM周辺のソフトウェアエンジニアリングの実践でシステム信頼性を高める。参考: What 1,200 Production Deployments Reveal About LLMOps in 2025

Slide 40

Slide 40 text

LLMシステムの信頼性を高めるための要素モデル API プロンプト入力モデル出力参考: AIエンジニアリング. 10章 AIエンジニアリングのアーキテクチャとユーザーフィードバック

Slide 41

Slide 41 text

コンテキストエンジニアリングコンテクストエンジニアリングモデル API

Slide 42

Slide 42 text

入力ガードレールコンテクストエンジニアリング入力ガードレールモデル API

Slide 43

Slide 43 text

ツール管理コンテクストエンジニアリングツール管理入力ガードレールモデル API

Slide 44

Slide 44 text

ワークフロー・エージェントオーケストレーションコンテクストエンジニアリングツール管理入力ガードレールワークフロー・エージェントオーケストレーション

Slide 45

Slide 45 text

評価コンテクストエンジニアリング評価ツール管理入力ガードレールワークフロー・エージェントオーケストレーション

Slide 46

Slide 46 text

出力ガードレールコンテクストエンジニアリング評価ツール管理入力ガードレール出力ガードレールワークフロー・エージェントオーケストレーション

Slide 47

Slide 47 text

フェイルオーバーコンテクストエンジニアリング評価ツール管理フェイルオーバー入力ガードレール出力ガードレールワークフロー・エージェントオーケストレーション

Slide 48

Slide 48 text

監視コンテクストエンジニアリング評価ツール管理監視フェイルオーバー入力ガードレール出力ガードレールワークフロー・エージェントオーケストレーション

Slide 49

Slide 49 text

フィードバックループコンテクストエンジニアリング評価ツール管理監視フィードバックループフェイルオーバー入力ガードレール出力ガードレールワークフロー・エージェントオーケストレーション

Slide 50

Slide 50 text

LLMOpsワークフローの構成要素・コンテキストエンジニアリング・入力、出力ガードレール・ツール管理・ワークフロー、エージェントオーケストレーション・評価・フェイルオーバー・監視・フィードバックループ参考: AIエンジニアリング. 10章 AIエンジニアリングのアーキテクチャとユーザーフィードバック