Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新しいVibe Codingと”自走”について

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

新しいVibe Codingと”自走”について

某所勉強会にてハーネスエンジニアリングについてお話しした内容になります。

・ptuf
https://github.com/watany-dev/ptuf
・chokkin
https://github.com/watany-dev/chokkin

Avatar for watany

watany

June 15, 2026

More Decks by watany

Other Decks in Technology

Transcript

  1. Vibe Coding - 4 8 あとは完成するまで/goalを繰り返す! - GitHubのレビュー結果をコピペして直して もらおう -

    GitHub Actionsに⾚⾊が出たらコピペして 直してもらおう - リリースに主導の⼿順が必要な場合でも ⼿順をすべて教えてもらおう https://www.irasutoya.com/2013/12/blog-post_7777.html
  2. 10

  3. Vibe Coding =「コーディングレスのプログラミング」 - 原義Vibe Coding (Andrej Karpathy提唱) - キーボードレス・音声での指示、全てを承認

    - Vibe Coding - Agentに委ねてプロセス(How)に介入しない - 生成されたコードは読まない - 要求を指示し続ければバグはいつか直る 11 Vibe Codingとは
  4. Agentic Codingとは 「反Vibe Coding」としての、Agentと共同するスタイルの開発 > Agentに委ねてプロセス(How)に介⼊しない - ⇔ チームのプロセスでAgentに開発させる >

    ⽣成されたコードは読まない - ⇔ エージェントの⽣成物もメンバと同様にレビュー > 要求を指⽰し続ければバグはいつか直る - ⇔ エージェントと共にバグの根拠を探索する 13
  5. - Step by Step - Chain of Thought, Plan Mode,

    Spec-Driven Development - Context Engineering - AGENTS.md, Agentic Search, MCP, Agent Skills - Developer's Best Practices - Git, Everything as Code, CI/CD, DevContainer Agentic Codingの⼀例 14
  6. - ベンチマークの変化 - 2025前半 : 知識‧推論中⼼ - 2025後半- :コーディング性能、 端末操作性能

    - なぜ端末操作‧SWE偏重か - ビジネスとしての需要が明確 - ⾃⾝の⾃⼰改善ループの加速 - GPTの毎⽉リリース ベンチマークの遍歴(2025-2026) 17 Claude Fable 5 and Claude Mythos 5 https://www.anthropic.com/news/claude-fable-5-mythos-5
  7. 19 Ralph Wiggum Loop - 「ザ‧シンプソンズ」のRalph Wiggumのように”諦めない”実装 - Ralph Wiggum

    Loopの最⼩系 - AI AgentへPromptを毎回渡す - タスクが完了するまでLoop - Loop毎にContextを初期化 - ⾃⾛に向くタスク - 完了定義が曖昧なタスク - ⼤量のToDo消化 https://github.com/langchain-ai/deepagents/tree/main/examples/ralph_mode
  8. 20 /goalコマンド Ralph Wiggum Loop相当、つまり”⾃⾛”の実装 - Codex CLIの場合 - 独⽴したスレッドで状態管理

    - ライフサイクル(pause/resume/clear) や予算管理 - Claude Codeの場合 - タスク終了を判定するStop hook相当を内蔵 - セッション内で達成するまで⾃動継続
  9. strongDM社が構築した「ソフトウェア⼯場」 How StrongDM’s AI team build serious software without even

    looking at the code https://simonwillison.net/2026/Feb/7/software-factory/ > We built a Software Factory: non-interactive development where specs + scenarios drive agents that write code, run harnesses, and converge without human review. [...] — 私たちはソフトウェアファクトリーを 構築しました。これは、仕様とシナリ オに基づいてエージェントがコードを 記述し、ハーネスを実⾏し、⼈間によ るレビューなしで収束する⾮対話型開 発です。
  10. ”⾃動運転レベル4”の到来 副操縦士(Copilot) レベル0 AI支援な し レベル1 AI支援 Chat レベル2 AI支援

    補完 +Chat レベル3 Agent 人間が支 援 レベル4 Agent 人間の支 援なし レベル5 実装の完 全自動生 成 操縦士(Pilot) ドライバー席 助手席 後部座席 人間の支援なしでの長時間自 走 23 2025/02 2026/02
  11. 自走・委任の結果、「Vibe化」したAgentic Coding - Agentに委ねてプロセス(How)に介入しない - Ralph Wiggum Loop, /goal -

    生成されたコードは読まない - ユーザーハーネス、「ソフトウェア工場」 - 意図を指示し続ければバグはいつか直る - Loop Engineering:Agentにプロンプトするループの設計 - モデルの進歩、 ユーザーハーネス 24 新しいVibe Codingについて
  12. 自走・委任の結果、「Vibe化」したAgentic Coding - Agentに委ねてプロセス(How)に介入しない - Ralph Wiggum Loop, /goal -

    生成されたコードは読まない - ユーザーハーネス、「ソフトウェア工場」 - 意図を指示し続ければバグはいつか直る - Loop Engineering:Agentにプロンプトするループの設計 - モデルの進歩、 ユーザーハーネス 25 新しいVibe Codingについて
  13. > TLDR: Agent = Model + Harness. 27 AIエージェントをハーネス(⾺具)と呼ぶ⼈たち The

    Anatomy of an Agent Harness https://blog.langchain.com/the-anatomy-of-an-agent-harness/
  14. ”ハーネス”というバズワードを読み解く ハーネスは2層に分けられる - 内部ハーネス - Modelの外側 - Agent = Model

    + 内部ハーネス - 外部ハーネス - 内部ハーネスの外側 - ハーネス上のハーネス 29 Harness engineering for coding agent users https://martinfowler.com/articles/harness-engineering.html
  15. ”ハーネス”というバズワードを読み解く ハーネスのスコープは⼤きく2つに分けられる - 内部ハーネス - LangchainやAnthropicが語るハーネスエンジニアリング - AIエージェントにおけるLLMモデル「以外」の実装 - ≒

    エージェントの作り⼿側が考慮するハーネス - 外部ハーネス - OpenAIやMitchell Hashimotoが語るハーネスエンジニアリング - AIエージェントが同じミスをしないように、解決策を設計 (Mitchell Hashimoto) - ≒ エージェントの使い⼿側が考慮するハーネス 30
  16. 使い⼿側は「外部ハーネス」を育てる必要がある ハーネスのスコープは⼤きく2つに分けられる - 内部ハーネス - LangchainやAnthropicが語るハーネスエンジニアリング - AIエージェントにおけるLLMモデル「以外」の実装 - ≒

    エージェントの作り⼿側が考慮するハーネス - 外部ハーネス - OpenAIやMitchell Hashimotoが語るハーネスエンジニアリング - AIエージェントが同じミスをしないように、解決策を設計 (Mitchell Hashimoto) - ≒ エージェントの使い⼿側が考慮するハーネス 32
  17. 34 ハーネスエンジニアリングとは何なのだろうか - OpenAIの定義:⼈間を介在させないエンジニアリング - OpenAIの開発チームによる実験 - ハーネスエンジニアリング:エージェントファーストの 世界における Codex

    の活⽤ - > ⽣成されたコードは、必ずしも⼈間のスタイルの好みに 合致するとは限りませんが、それでも構いません。 出⼒結果が正しく、保守可能であり、将来の実⾏エージェ ントが読み取れる限り、基準を満たしています。
  18. ハーネスエンジニアリングは 2種類のプロセスに分けられる - feedforward(Guide): - ⽣成するために必要な情報 - feedback(Sensors) : -

    ⽣成物の評価に必要な情報 36 feedforward / feedback Harness engineering for coding agent users https://martinfowler.com/articles/harness-engineering.html
  19. 39 Context Engineering:書く / 選ぶ / 縮める / 分ける 技術

    Context Engineering https://blog.langchain.com/context-engineering-for-agents/
  20. 47 ⾃⾛を守る多層防御 - エージェントにも寄るが、概ね以下の多層防御を考える - 1. プロンプト(AGENTS.md、CLAUDE.md) - 2. Permissions(Allow、Deny、Ask)

    - 3. Hook(Pre-ToolUse) - 4. 環境分離(Sandbox、Dev Container) - 体系的な⼊⾨には以下の資料が役に⽴つ - Claude Code を安全に使おう勉強会 - https://speakerdeck.com/masahirokawahara/claude-co de-security-basics
  21. 48 エージェントの承認とどう向き合うか Claude Codeの例 - ユーザの⼿動承認(Manual) だと⾃⾛を律速する - 承認を無視(Bypass)する場合 は隔離環境(Sandbox)が必須

    - PermissionsをLLM Judge する機能(Auto) How we built Claude Code auto mode: a safer way to skip permissions https://www.anthropic.com/engineering/claude-code-auto-mode
  22. 49 実装例:Hookでの危険操作抑⽌ ⾃作ツールの紹介 - 下のような危険動作を Tool実⾏前に静的検査し、 Agentへフィードバック - rm -rm

    - Curl <url> | bash - .env、.awsなどの Credential読み取り - マルチエージェント対応 - Claude Code, Codex - GitHub Copilot CLI - Cline CLI, Kiro CLI, Cursor CLI ptuf https://github.com/watany-dev/ptuf
  23. 50 Sandbox環境 - 簡易に始めるなら以下 - Dev Container - WebIDE(e.g. GitHub

    Workspaces) - Devinの様にSandbox環境ごと提供する事業者も増えた - 冒頭の「スマホアプリ」の動作環境 - Claude Code on the Web - Kiro Web(Preview) - Cursor Cloud Agents