Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人間はどこまでさぼれるか? AIコーディングで人の関与を計測してみた

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

人間はどこまでさぼれるか? AIコーディングで人の関与を計測してみた

Avatar for mattak

mattak

June 16, 2026

More Decks by mattak

Other Decks in Programming

Transcript

  1. 01 — きっかけ AIに任せても、結局ずっと「応答」している 🧑 この仕様でいい? 確認お願いします 🤖 ↻ えんえんと往復…

    本当のボトルネックは、コードではなく 人間の関与(ヒューマンリソース)では? 問い 応答スタイルを変えると、 人間の関与はどれだけ減らせる?
  2. 02 — 実験の設計 同じお題を、3つの応答スタイルで ① 通常 素のAIに依頼 拡張なし。そのまま頼んで、逐次やり取り する。 ②

    superpowers 仕様書 → 計画 → 実装 型を持つ拡張を使い、手順どおり進める。 ③ grill-me 先に質問攻め 仕様を徹底的に詰めてから実装に入る。 公平性の担保: 共通の1文プロンプト 隔離環境(メモリ/CLAUDE.md 不参照) 8項目テストで判定 ※ 4タイプ目(engineer-agent)は時間都合で未実施 → 3タイプ比較として提示
  3. 03 — お題選び なぜポモドーロタイマー? 🧱 ❌ テトリス(失敗) AIが1ターンで全部作ってしまい、差が出なかった。仕 様が一意に決まる題材は聞く必要がない。 🍅

    ⭕ ポモドーロ(採用) 記録の保存方法・残り時間の表示・入力UXなど正解が 一つに決まらない。だからAIが人間に確認したくなる。 分岐が多い題材ほど、関与の差が見えてくる
  4. 04 — スタートライン 全員、同じ1文から始めた $ electronを使って、ポモドーロタイマーをつくって。 要件はプロンプトに書かない。対話の中で引き出させる。完成は外形の振る舞いだけで YES/NO 判定。 受け入れテスト(8項目)

    ✓ 25分/5分でループできる ✓ 休憩時に全画面&最前面で残り時間表示 ✓ 途中で中止できる ✓ 残り時間がメニューバー等に表示される ✓ タイマーをキャンセルできる ✓ 開始時に「やること」を記述して開始 ✓ 休憩時に「やったこと」を記述できる ✓ その日の記録を見れる(時間・やること・やったこと)
  5. 05 — ものさし 関与を「量」と「質」で測る 量 発話ターン数 人間がAIに送ったメッセージの回数。やり取りそのもの の多さ。 質 意思決定回数(問答)

    AIの質問・選択肢に人間が判断を下した回数。中身のあ る関与。 ※ 承認・却下・仕様追加・選択・方針提示は数える/「続けて」だけの促しは数えない
  6. 06 — 結果 関与量は ① < ② < ③ で大差。でも全部

    8/8 達成 発話ターン 意思決定 ① 通常 ② superpowers ③ grill-me タイプ ターン 判断 作業時間 ① 通常 9 1 約45分 ② superpowers 13 5 約40分 ③ grill-me 28 25 約35分 受け入れ達成は 3タイプとも 8/8 完成度は同じ。違うのは関与量だけ。 9 1 13 5 28 25
  7. 07 — 成果物 同じ要件でも、こんなに形が違う ① 通常 素直なウィンドウアプリ 8/8 ② superpowers

    タイマー窓+履歴窓 8/8 ③ grill-me メニューバー常駐+記録一覧 8/8
  8. 08 — 逆説のオチ 関与 少 → 速い? ❌ 一番たくさん関与した grill-me

    が、 最短・最良だった ③ grill-me 28ターン/25判断でも、作業は最短35分・体感も一 番良い。 ① 通常 9ターンと最小でも、確認のイテレーションがダラダ ラ続いて非効率。 判断は "前倒し" が効く。後工程の手戻りが消える。
  9. 09 — 所感 3スタイルの「手触り」 😌 ① 通常 安心だけど非効率 逐次イテレーションで安心感はある。 が、毎回確認が挟まりHITL的にもたつ

    く。 🤖 ② superpowers 丁寧だが驚きは少ない 仕様→計画→実装のフルセットで不備な し。型にはまる分、選ぶだけで楽。 🔥 ③ grill-me 濃いけど一番良い かなり細かく詰めてくる。気づかない論 点に気づける。面倒だが出来は最良。
  10. 11 — 正直なところ これは N=1 の観察です 01 各スタイル 1回ずつ の事例比較。統計ではない。

    02 4タイプ目(engineer-agent)は未実施 → 今後の宿題。 03 「体感の良さ」は主観。意思決定カウントも線引きに幅がある。