Upgrade to Pro — share decks privately, control downloads, hide ads and more …

From Prompt Engineering to Loop Engineering

From Prompt Engineering to Loop Engineering

コーディングエージェント ハーネスエンジニアリングLT大会
https://mlops.connpass.com/event/395882/#_=_

Avatar for shibuiwilliam

shibuiwilliam

June 29, 2026

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. Prompt EngineeringからLoop Engineeringまで 設計する対象 = 制御点が、モデルから外側へ一段ずつ広がっていく Prompt 発話 言語を操る Context

    世界 世界を知覚 Harness 身体 世界に作用 Loop 時間 意志で持続 外へ行くほど、設計対象は大きくなる 03 / 10
  2. Prompt › Context › Harness › Loop 発話を設計する Prompt Engineering

    概要 入力の文字列=一回の指示を設計する最初のパラダイム。 言い回しで眠った能力を引き出す「生成AIの呪文探し」。あくまで文脈窓の“中”で働く。 代表的な手法 • Few-shot(例示)/ Chain-of-Thought • 役割・ペルソナ指定 • 構造化出力(XML・JSON) • 制約と否定例の明示 • Prompt chaining(タスク分割) 課題 • 脆い ― "please" 一語で出力が変わる • モデル更新で壊れる(invisible dependencies) • 1個ずつ手作りで資産が積み上がらない • 窓に必要な情報が無ければ無力 どれだけ磨いても「窓に何を入れるか」は別問題。関心は発話の磨きから情報環境の設計の Context Engineeringへ 04 / 10
  3. Prompt › Context › Harness › Loop 世界を設計する Context Engineering

    概要 「窓に何を入れるか」を設計する段階。 2025年に提唱され急拡大。比喩=LLMはCPU、文脈窓はRAM、context engineeringは何を載せるか決めるOS。 代表的な手法 • RAG / メモリ・会話履歴管理 • Write・Select・Compress・Isolate • 要約・圧縮(compaction) • システム命令・ツール定義の設計 • キュレーション(効く箇所を選ぶ) 課題 • 窓は有限(トークン上限=RAMが有限) • 劣化する(lost in the middle / Context Rot) • 入れすぎは害 ― 埋まる前に "dumb zone" • 本質的限界 ― 読めても「動けない」 完璧な知覚を与えても、行動の手段が無ければ完了しない。 次は世界に作用する身体=道具と足場 = Harness Engineering 05 / 10
  4. Prompt › Context › Harness › Loop 身体と道具を与える Harness Engineering

    概要 モデル+その周りに作る全部。 命令ではなく“実行層”(モデルを呼ぶ・ツール呼び出しを捌く・いつ止めるか決める)。語源はソフトのテストハーネス。 代表的な手法 • ツール設計 / ファイルシステム • コード実行 / サンドボックス(隔離・検証) • メモリ(セッション越し) • 検証ループ 課題 • 一回分の足場では長期に足りない • モデルが上達すると dead code → 外す • 作り込みが重い 一回の実行は装備できても、長期に走り・自律し・自己検証する「時間」が無い = Loop Engineering 06 / 10
  5. 別軸で見てみると・・・ 信頼性の階段 Prompt 操る (steer) Context 根拠を与える (ground) Harness 決定的な機械で包む

    Loop 反復+検証で信頼に変える よく設計されたループは、どんな単一呼び出しより信頼できる (誤り訂正・冗長化の発想 ) 心の組み立て 言語 → 知覚 → 運動 → 意志 制御理論 設定値 → センサ → アクチュエータ → 制御器 07 / 10
  6. Loop Engineeringとは何か Loop engineering is replacing yourself as the person

    who prompts the agent. You design the system that does it instead. (Addy Osmani https://addyosmani.com/blog/loop-engineering/) cron との差 cron 決まった時刻に 同じ処理を実行するだけ ループ ループ内に意思決定者がいる 状態を見る → 行動を選ぶ → 実行 → 確認 → 続行 / 再試行 /巻き戻し / 停止 ループ = 仕事の単位 • トリガー / worktree • サブエージェント • maker・checker 検証 • 状態の永続 • PC を閉じても動き続ける 系譜 ReAct → Reflexion → Loop 例: Claude Code の /loop I don’t prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops. Boris Cherny 08 / 10 Prompt › Context › › Loop Harness
  7. Loop Engineering の次は? XX Engineeringの法則 モデルの限界を回避 モデルが吸収 XX Engineeringの次へ ボトルネック

    = 労力が外へ 次の候補 ループの組織化 多数のループを束ねる Fleet / Org / Swarm Engineering eval = 報酬が設計対象 良し悪しの定義そのものを設計 Eval Engineering 自己改造 エージェントが自分のループを書く Self-Improvement Engineering 変化に対するスキルは モデルのフロンティアを見極め、その境界で設計すること 09 / 10
  8. → CONCLUSION XX Engineeringは「境界の設計」 01 4段階は一本の物語 ― 制御点が外へ広がる 02 各層はモデルの限界のネガである

    03 持続するのは、境界で設計するメタスキル 我々はモデルの賢さを論じてきたが、 本当に設計してきたのは、その周りに広がる境界である。 10 / 10