開発者から見たLLMの進化

CONF ID ENTIA L 1 © 2025 Japan Digital Design,
Inc. 開発者から見たLLMの進化 Technology & Design Div. Naoki Yoshitake 2025.08.21

2 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 自己紹介 •
2023/11 JDD 入社 • Technical Project Manager • 生成AI系プロジェクトチームのLead プロフィールドラム / バンド / 旅行 / お酒 / サッカー（プレミアリーグ） / スノボ / ドライブ / ランニング / アニメ / 漫画趣味・好きなこと Naoki Yoshitake 左後ろです

3 CONFIDENTIAL © 2025 Japan Digital Design, Inc. ⚫GPT-3.5の登場から2年半が過ぎ、その間にLLMがどのように進化してきたかを、個人の見解に基づき語ります
本日話すこと本日の内容！・内容は個人の見解に基づくものであり、所属企業を代表するものではありません。・本資料は社内LT向けに作成した資料を社外向けに再編集しています。・2025/8時点の情報で作成しています。・誤りなどあれば指摘いただければ幸いです。 ⚫改めてLLM全般をキャッチアップしたい方 ⚫キャッチアップしてる方からすると目新しい内容は無いかもしれません ⚫LLMを使ったサービスの開発に関わる方本資料の対象者

6 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 検証から実用へ ⚫
GPT-3.5は「触って面白いが仕事で使うのは難しい」レベルだった（個人の感想です） ⚫ API, GPT-4が登場して、業務利用の検討が本格化 ⚫ 2023年以降、OpenAIは 150以上のリリース・発表を行い、実用レベルへと進化させてきた OpenAIの進化 2022年 2023年 2024年 2025年 7/13 Function Calling 7/17 Code Interpreter 8/28 ChatGPT Enterprise 3/1 ChatGPT API 3/9 Azure OpenAI 3/14 GPT-4 9/25 GPT-4V 11/29 GPT-3.5 11/30 ChatGPT 11/6 GPT-4 Turbo, Assistant API, Text-to-Speech API 出典：[OpenAI のAIリリース年表](https://note.com/npaka/n/nb07639ad8fb1) をもとに作成 7 31 65 62 リリース・発表数（ざっくり） ※2025/8/7時点 5/13 GPT-4o 7/19 GPT-4o mini 9/12 GPT-o1-preview 10/1 Prompt Caching 12/20 o3 (発表のみ) 2/2 Deep Research 3/11 Responses API 3/11 Agents SDK 4/14 GPT-4.1 4/16 o3 GA 4/23 gpt-image-1 5/16 Codex 6/10 o3-pro 7/17 ChatGPT agent 8/7 GPT-5

7 CONFIDENTIAL © 2025 Japan Digital Design, Inc. LLMブームが始まった当初の課題・懸念の例ハルシネーション
・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいセキュリティ・AIの学習に利用されないかコスト・LLMは高コストレスポンス速度・生成速度が遅くUXに懸念！当初の課題に対してLLMはどのように進化してきたか 5つの観点で、OpenAIを中心とした全般的な動向を紹介します

8 CONFIDENTIAL © 2025 Japan Digital Design, Inc. ハルシネーションの要因 LLMが不正確が情報を生成するのには複数の要因がある
ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいセキュリティ・ AIの学習に利用されないかコスト・LLMは高コストレスポンス速度・生成速度が遅くUXに懸念分類要因学習データに含まれない知識 • Knowledge Cutoff Date(*1) より後の知識 • 社内データに関する知識（公開情報以外） (*1) 学習データの締め切り日苦手な問題 • LLMの仕組み上、計算や論理的な問題が苦手コンテキスト不足 • 入力コンテキストが不足すると回答精度が下がるその他 • 学習データセットの偏り • トークン化の手法により回答が劣化ハルシネーションの要因例

9 CONFIDENTIAL © 2025 Japan Digital Design, Inc. RAGの発達 ⚫Web検索や社内情報を追加してLLMの知識を補完
⚫Web検索はチャットツールにネイティブに組み込まれるように ⚫Google WorkspaceにGeminiが組み込まれ社内情報をLLMが参照できるように ⚫グラウンディングの発達 ⚫LLMの生成結果を、参照した情報と結びつけること『学習データに含まれない知識』への対処：RAG (*) (*) Retrieval-Augmented Generation RAGの処理イメージハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

10 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 推論モデル ⚫推論モデルへと進化して複雑な問題にも対応できるように
⚫例）OpenAI o1, Claude 3.7 Sonnet, Gemini 2.5 Pro 『苦手な問題』への対処：推論モデル推論モデルの手法例概要 Chain of Thought（CoT）複雑な問題をステップに分けて（Step by Step）思考 ReAct 計画と行動を繰り返す Self-Consistency 複数の生成結果から最も整合的な回答を選択する ⚫Code Interpreter等のツールを使い計算問題にも決定論的に回答 ⚫Code Interpreter：Sandbox環境でLLMがコードを生成・実行できるツール 2025/7 OpenAI, Google はモデルが数学オリンピックで金メダル級の成績を収めたと発表 OpenAI 公式X, Google DeepMind ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

11 CONFIDENTIAL © 2025 Japan Digital Design, Inc. ロングコンテキスト化 ⚫各モデルのコンテキストウィンドウが拡大
『コンテキスト不足』への対処：ロングコンテキスト ⚫マルチモーダル（後述）も可能に ⚫但し、トークン量が増えると正確な回答ができないことも ⚫Lost in the Middle(*)：真ん中あたりの情報を見落としがちになる問題 ⚫コンテキストにとにかく情報を詰め込めば良いというわけではないモデル入力出力 GPT-5 400,000 128,000 Claude Sonnet 4 1,000,000 (β版) 32,000 Gemini 2.5 Pro 1,048,576 65,536 (*) 2023年の研究であり直近は緩和方法についての研究も出ている各社モデルの入出力トークンサイズハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

12 CONFIDENTIAL © 2025 Japan Digital Design, Inc. どうすればLLMに期待した動きをさせられるか ⚫LLMの活用が高度化して、開発者の目線ではLLMを使ったアプリの出力
精度を高めることに関心が移行 ⚫LLMがタスクを達成しやすい状況を作る ⚫LLMが解きやすい粒度にタスクを分解する ⚫不得意なタスク、決定論的な処理にはツールを使う（例：Code Interpreter） ⚫コンテキストエンジニアリング ⚫LLMが入力とする情報（コンテキスト）を最適化する取り組み ⚫記述、選択、圧縮、分離などの手法が提案（参考：LangChainブログ）どうすればLLMに期待した動作をさせられるかコンテキストエンジニアリングは、次のステップのためにコンテキストウィンドウに適切な情報を適切に充填する繊細な技術と科学です。（アンドレイ・カーパシー） context engineering is the delicate art and science of filling the context window with just the right information for the next step.（Andrej Karpathy） https://x.com/karpathy/status/1937902205765607626 より引用ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

13 CONFIDENTIAL © 2025 Japan Digital Design, Inc. マルチモーダル ⚫画像
/ 音声 / 映像に対応 ⚫言語化が難しい情報もコンテキストとして取り込めるように ⚫現在は多くのメインモデルが画像入力に対応（GPT-4Vは名前に明示的に”V”が付いていた） ⚫Geminiのデモ動画のようなことも現在は可能かもしれないマルチモーダル対応のモデルがデフォルトに https://www.youtube.com/watch?v=UIZAiXYceBI ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

14 CONFIDENTIAL © 2025 Japan Digital Design, Inc. モデルの高速化 ⚫GPT-4oは、速度を測る2つの指標がともに大きく向上
⚫TPS (Tokens-Per-Second)：1秒あたりの出力トークン数 ⚫TTFT (Time-to-First-Token) ：最初のトークンが応答される時間 OpenAIのモデルで言えば、GPT-4より速度は向上してきた https://artificialanalysis.ai/models/gpt-4o-chatgpt-03-25 をもとに作成モデル TPS(tokens/s) TTFT(s) GPT-4 37.593 0.742 GPT-4o(Mar 2025) 219.375 0.393 GPT-4 GPT-4o GPT-3.5 Turbo ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

15 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 推論モデルによる応答時間の長期化 ⚫複雑なタスクを行うモデル・エージェントでは、
Chain of Thoughtやツール利用の過程で長い待ち時間が発生するように（TTFTが増加） ⚫例）o3, Deep Research, Gemini 2.5 Pro, Claude extended thinking 推論モデルやエージェントではさらに時間がかかるように Gemini Deep ResearchのUI ChatGPT / Claude アプリではリサーチ完了時にプッシュ通知が来る工夫もモデル TTFT(s) GPT-4o 0.393 o3 13.8 GPT-5 (medium) 38.27 ⚫サービス開発者からするとUXの工夫が必須に OpenAIモデルのTTFT 比較（https://artificialanalysis.ai/models/gpt-4o-chatgpt-03-25 から作成）ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

16 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 軽量モデルとの使い分け軽量モデルとの使い分けを開発側が意識する必要性あり
⚫高速に処理する軽量モデルを各社が提供モデルプロバイダ高性能モデル軽量モデル/軽量推論モデル OpenAI GPT-5 * GPT-5 mini * GPT-5 nano * Anthropic Claude Sonnet 4 * Claude Opus 4 * (Claude 3.5 Haiku) ※最近update無し Google Gemini 2.5 Pro * Gemini 2.5 Flash * Gemini 2.5 Flash-Lite * 推論モデル ⚫タスクに応じたモデルの使い分けをサービス開発時には意識する ⚫全てを高性能モデルで処理すると、処理時間が長くユーザー体験が悪化 ⚫コストパフォーマンスも悪い ⚫複数モデルの使い分けで精度向上を目指すことが求められる各社のモデル例ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

17 CONFIDENTIAL © 2025 Japan Digital Design, Inc. コスト問題への対処 ⚫軽量モデルの登場。メインのモデルも当初に比べて安くなった
⚫一方で、マルチモーダルはテキストに比べて高コスト低コストなモデルやコスト削減手法が普及 ⚫コストを削減する手法も普及 ⚫コンテキストキャッシュ（プロンプトキャッシュ）：トークン/プロンプトをキャッシュする ⚫Batch API（バッチ推論）：非同期で推論した場合、オンラインよりも低いコストで処理可能。例としてOpenAIではBatch APIは24時間以内に推論を行うモデル入力/1M tokens 出力/1M tokens gpt-4 $30.00 $60.00 gpt-5 $1.25 (▲95.8% *) $10.00 (▲83.3% *) gpt-5-mini $0.25 $2.00 gpt-image-1 $10.00 $40.00 (*) gpt-4比 OpenAIモデルのコスト例 https://platform.openai.com/docs/pricing より作成ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

18 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 学習に利用されないか ⚫LLMサービスを開発する目線
⚫クラウドベンダー経由（AWS, Azure, Google Cloud等）では、学習に利用されないことが利用規約で明記 ⚫LLMサービスを利用する目線 ⚫サービスによっては学習が有効化されており業務利用では注意が必要 ⚫ChatGPT：デフォルト設定では学習あり ⚫Google AI Studio：学習あり ⚫GitHub Copilot ：無料プランのデフォルト設定では学習あり …etc ⚫利用するデータの種類は意識する ⚫LLMブームの前から、業務データをそのままWeb上のサービスで利用すべきではないのと同様引き続き、LLMサービス利用時には学習に使われるか要確認ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

19 CONFIDENTIAL © 2025 Japan Digital Design, Inc. データの所在地 ⚫空いてるリージョンへLLMの推論をルーティングする仕組みが一般化。
世界的なGPU不足が背景と考えられる。海外を含めた推論が普及、データの所在地には注意が必要種類内容 Azure OpenAI Data Zones AWS Bedrock クロスリージョン推論 Google Cloud Vertex AI Global endpoint ⚫データの取り扱い要件上NGではないか、慎重に判断が必要 ⚫特に、個人データを含む場合、個人情報保護法による明確な規制あり ⚫データの種類に応じた活用検討を行うべき ⚫「海外リージョンだから」一律でNGにすると新モデルに追従できないリスク ⚫例：AWS Bedrockでは、Claude 3.5 Sonnet V2 以降のモデルは全て「クロスリージョン推論」で提供されているクラウドベンダー各社の推論方法ハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいレスポンス速度・生成速度が遅くUXに懸念セキュリティ・ AIの学習に利用されないかコスト・LLMは高コスト

20 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 当初の課題（振り返り）！
当初の課題に対処すべくLLMは進化してきたハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいセキュリティ・AIの学習に利用されないか・データの所在地コスト・LLMは高コストレスポンス速度・生成速度が遅くUXに懸念 • RAG, 推論モデル、ロングコンテキスト化などハルシネーションの要因に応じた進化 • コンテキストエンジニアリング • マルチモーダルがデフォルト化 • 言語化の難しい情報もコンテキスト化 • 高速なモデルが登場 • 推論モデルやエージェントではさらに応答が長期化 • SaaS利用時には引き続き注意 • データの所在地に対する考慮も重要に • 低コストなモデルが登場 • コンテキストキャッシュなどコスト削減の技術も普及

21 CONFIDENTIAL © 2025 Japan Digital Design, Inc. モデルの使い分けに対する私見 ⚫OpenAI：GPT系
⚫o3（GPT-5 Thinking）がとにかく便利。検索ツールやCode Interpreterを使った調べごとに強い ⚫会社としてB2Cを意識しており、モデルがその方針に影響を受けることも ⚫Anthropic：Claude ⚫コーディング性能、エージェント性能が高い。GitHub Copilotでは欠かせない ⚫LLMがコーディングに多く使われているという調査結果を重視している印象 ⚫Google：Gemini ⚫ロングコンテキストでも情報の漏れが少ない。長文やYouTube動画要約などにも便利 ⚫Googleサービスとのネイティブな連携が強み個人的なモデルの印象と使い分け

24 CONFIDENTIAL © 2025 Japan Digital Design, Inc. AIエージェントとは ⚫Google
DeepMind ⚫エージェントとは、自分の行動が世界に異なる影響を与えた場合に、自分の方針を適応させるシステムである（2022/8） ⚫OpenAI ⚫私たちはエージェントを、ユーザーの代わりに独立してタスクを遂行するシステムとして捉えています（2025/3） ⚫Anthropic ⚫エージェントを、長期間にわたって独立して動作し、様々なツールを使用して複雑なタスクを実行する、完全に自律的なシステムと定義する方もいます。また、定義済みのワークフローに従う、より規範的な実装を指す用語として用いる方もいます（2024/12）自律的にタスクを遂行するシステム (※決まった定義はまだ無い) https://deepmind.google/discover/blog/discovering-when-an-agent-is-present-in-a-system/ https://openai.com/ja-JP/index/new-tools-for-building-agents/ https://www.anthropic.com/engineering/building-effective-agents より機械翻訳

25 CONFIDENTIAL © 2025 Japan Digital Design, Inc. エージェントに関する技術 ⚫2023/6
Function Calling （OpenAI） ⚫LLMからツールを実行するべきと判断して、関数の呼び出し形式（ペイロード等）をレスポンス ⚫利用者から見ると「LLM がツール実行の判断をすること」が可能に ⚫2024/11 MCP (Model Context Protocol) ⚫LLMが利用するツール呼び出しをJSON-RPCで標準化 ⚫MCP Client / Serverのモデルで、実装としてはFunction Callingを利用 ⚫2025/2 A2A (Agent-to-Agent) ⚫エージェント同士のコミュニケーションを標準化 Function Calling をコア技術として発達してきた！モデル自体の性能向上もエージェント発達の主要因

26 CONFIDENTIAL © 2025 Japan Digital Design, Inc. エージェントの萌芽 ⚫
エージェントに近い発想は 2023/3ごろからあった ⚫ 2023/3 ChatGPT プラグイン機能 ⚫ ChatGPT から外部のツールやコード実行環境へのアクセスが可能に ⚫ 2023/3 AutoGPT ⚫ GPT-4を使った実験プロジェクト ⚫ 与えられた目標を達成するためにサブタスクに分解して自律的に実行 ChatGPTプラグイン / AutoGPT https://github.com/Significant-Gravitas/AutoGPT

27 CONFIDENTIAL © 2025 Japan Digital Design, Inc. エージェントもいろいろエージェントにも2種類あると言われている
Anthropic(*1), LangChain(*2)の記事に従い紹介します (1) https://www.anthropic.com/engineering/building-effective-agents (2) https://langchain-ai.github.io/langgraph/tutorials/workflows/

28 CONFIDENTIAL © 2025 Japan Digital Design, Inc. ワークフロー型 ⚫
『LLM とツールが事前定義されたコードパスを通じて調整されるシステム』 by Anthropic ⚫ 特定のユースケースやタスクに特化。動作が安定するが、実装負荷は大きい ⚫ ワークフロー型エージェントを作るのに適したFW・サービス例 ⚫ LangGraph, Dify, Amazon Bedrock Flows ⚫ o3やDeep Research はワークフロー型エージェントの印象ワークフロー型 https://langchain-ai.github.io/langgraph/tutorials/workflows/

29 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 自律型 ⚫
『LLM が独自のプロセスとツールの使用を動的に指示し、タスクの達成方法を制御するシステム』 by Anthropic ⚫ 汎用的なユースケースに対応。LLMが自律的に判断して動作するが、動作が不安定になりセキュリティ等のリスクもある ⚫ 例）Cline, Claude Code, Amazon Q Developer 自律型 https://langchain-ai.github.io/langgraph/tutorials/workflows/

30 CONFIDENTIAL © 2025 Japan Digital Design, Inc. エンジニアと自律型エージェント ⚫
Cline, Claude Code, GitHub Copilot Agent などコマンド実行が可能なツールの登場 ⚫ AIのメリット・デメリットを直で感じる ⚫ エージェントが自律的に作業する体験の良さ（Vibe Codingはバズワードに） ⚫ コマンドで事故るリスク ⚫ エージェントを使って事故った事例も ⚫ Replit 事件（スライド右参照） ⚫ 重要なファイルを削除する ⚫ シークレット情報をGitにPushする等エンジニアは特にAIエージェントの影響を受けている https://www.theregister.com/2025/07/21/replit_saastr_vibe_coding_incident/ 『Vibe CodingサービスReplitはユーザーの本番データベースを削除し、データを偽造し、多くの嘘をついた』

31 CONFIDENTIAL © 2025 Japan Digital Design, Inc. エージェントのセキュリティリスク ⚫
OWASP Top 10 for LLM ⚫ LLM06: 2025 Excessive Agency ⚫ 内容 ⚫ AI エージェントが過剰な実行権限を持ち、意図しない操作やアクションを行うリスク ⚫ 特に自律型エージェントは任意コマンドの実行も可能であるため ⚫ 対策例 ⚫ エージェントアプリケーションに割り当てる権限を最小限にする ⚫ 重要な処理の前には人による承認プロセスを必ず設ける過大な権限はセキュリティリスク https://genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025/

32 CONFIDENTIAL © 2025 Japan Digital Design, Inc. 当初の課題（+エージェント）！
エージェントの普及に伴い、新たなセキュリティリスクもハルシネーション・AIが不正確な情報を生成する入力がテキストのみ・画像や映像も入力にしたいセキュリティ・AIの学習に利用されないか・データの所在地・エージェントの実行権限コスト・LLMは高コストレスポンス速度・生成速度が遅くUXに懸念

33 CONFIDENTIAL © 2025 Japan Digital Design, Inc. AIエージェントに関する私見 ⚫業務で検討するエージェントは『ワークフロー型』がベース
⚫汎用的なタスクをこなす「代理人」を目指すなら自律型だが、業務で使えるレベルを目指すにはハードルが高い ⚫セキュリティリスク ⚫誤ったツール実行 ⚫個人の開発者や小規模なチームでは、自律度の高いツール活用も視野 ⚫関わる人数が多い業務ほど、ミスの許容度は低くなる ⚫エージェントを作っただけでは解決しない ⚫エージェントの導入には『既存の業務フローにどう組み込むか』『どう業務を変更するか』という観点が必須 ⚫業務フローと近い観点。ITシステム導入と本質は変わらないエージェント導入には業務理解が必須

34 CONFIDENTIAL © 2025 Japan Digital Design, Inc. AIエージェントに関する私見 ⚫LLMは使ってみないと便利さがわからない
⚫エージェントで個人的に最も実用的なのはo3, Deep Research ⚫o3はワークフロー型だが多数のツールを使いLLMの自律性を活かしている ⚫こういうツールでユーザーに価値を感じてもらう ⚫既存業務への適用を軸に考えるとLLMの使い道も限られる ⚫ワークフロー型と自律型の中間を目指すアプローチ？使ってみて「面白い！」と感じてもらうアプローチも o3 の思考プロセス

36 CONFIDENTIAL © 2025 Japan Digital Design, Inc. まとめ ⚫当初の課題に対処すべくLLMは進化してきた
⚫モデルは進化したが、開発者が検討することも増えている ⚫ハルシネーション対策に加えコンテキストエンジニアリングが重要に ⚫精度・速度・コストのバランスを考慮したモデルの使い分け ⚫セキュリティは最重要事項 ⚫エージェントは『ワークフロー型』か『自律型』か考える ⚫LLMの自律性を活かすには、セキュリティリスクも伴う ⚫業務効率化には既存業務への理解が必須サマリ

開発者から見たLLMの進化

開発者から見たLLMの進化

More Decks by Naoki Yoshitake

Featured

Transcript