Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Deep dive into gpt-5-codex

Avatar for unsu0707 unsu0707
September 30, 2025
920

Deep dive into gpt-5-codex

Avatar for unsu0707

unsu0707

September 30, 2025
Tweet

Transcript

  1. 2 Copyright© Explaza, inc. All rights reserved. 自己紹介 Unsu(ウンス) (X:

    @unsu0707) • 2025.01 ~ : リードLLMアプリケーションエンジニア @ 株式会社エクスプラザ • 2022.02 ~ : Head of Engineering (Manager of Managers) (CS プラットフォーム開発) @ メルカリ • 2021.02 ~ : Technical Project Manager @ LINE Bank • 2016.04 ~ : エンジニア / エンジニアリングマネージャー (C2C サービス開発) @ 楽天 • 2012.07 ~ 2014.12 : Web Developer @ 韓国 好きなもの • 日本酒、酒蔵巡り、AI駆動開発、AIサービス触る(最近はNanobanana)
  2. 6 Copyright© Explaza, inc. All rights reserved. 今日話すこと 1. 普段実践中のAI駆動開発フロー

    2. gpt-5-codex? 3. gpt-5-codexの公式アップデート内容 Catch Up 4. gpt-5-codexを実際他のモデルと一緒に使ってみた 5. gpt-5-codexを実際使ってみて分かったポイント 6. gpt-5-codexはこんな時に使いたい 7. gpt-5-codexをもっと上手く使うためのTips
  3. 7 Copyright© Explaza, inc. All rights reserved. 普段実践中のAI駆動開発フロー 1. AIに開発すべき部分を理解させる

    - 例:ワークフローページで各ノードのコンテンツがどんなスキーマを持ち、画面でどんなインタラクションでCRUDされるのかを 深く調べて、理解した内容をここに書いて - (コンテキストのコントロールのため、まだ開発要件は伝えない) 2. 関連する設計/プラン作成と開発を依頼 - 例:ワークフローにIF/ELSEノードを追加して。要件はこうこうこうだよ。 3. レビューと詳細なところ微調整指示 4. 開発完了
  4. 8 Copyright© Explaza, inc. All rights reserved. gpt-5-codex? • GPT-5から派生された開発特化型Codex専用モデル

    • タイムライン Codex 発表 gpt-5 公開 Codex使用モデル codex-1 (※ o3 派生モデル) gpt-5 gpt-5-codex gpt-5 gpt-5-codex公開 2025-05-16 2025-08-07 2025-09-15
  5. 9 Copyright© Explaza, inc. All rights reserved. gpt-5-codex 公式アナウンスのおさらい •

    実務レベルのソフトウェアエンジニアリングをより学習 • 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 高精度なコードレビュー能力 • マルチ環境とツール連携
  6. 10 Copyright© Explaza, inc. All rights reserved. 実務レベルのソフトウェアエンジニアリングをより学習 • GPT-5を基に、ソフトウェアエンジニアリングタスクをより学習した

    ◦ プロジェクト構築・リファクタ・テスト・レビューを重視した学習 ◦ 学習には大規模OSSや現実的なPRデータを使った • リファクタリング精度 gpt-5 33.9% → gpt-5-codex 51.3% • AGENTS.mdなどのルールを以前より遵守
  7. 11 Copyright© Explaza, inc. All rights reserved. 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 生成トークンの違い

    ◦ 軽量タスク −93.7%(高速レスポンス) ◦ 重量タスク +102.2%(深く粘る) • 大規模リファクタでは、7時間以上(!)作業を続けることも
  8. 12 Copyright© Explaza, inc. All rights reserved. 高精度なコードレビュー能力 • コードベース全体を把握し、依存関係やテストも実行

    • 誤コメント減少、重要指摘増加で効率向上 ◦ 誤りコメント: 13.7% → 4.4% ◦ 高インパクト指摘: 39.4% → 52.4% • 平均コメント数は減少、ノイズ削減
  9. 13 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、

    • 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、
  10. 14 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、

    • 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、 一発指示で終わらせますってことだよね?
  11. 23 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus

    4.1 - 経験値上がらず、レベルアップできない。武器のエフェクト見えず • Sonnet 4.5 - レベルアップできる。武器も追加される。マップ移動にバグがある • gpt-5 - 大体実装されてるけど、ピクセルアートが雑。アップグレード候補部分の文字が見えない • gpt-5-codex - 一番ゲームで求められた要件が満たされてそう?
  12. 24 Copyright© Explaza, inc. All rights reserved. お題2. 支出管理モバイルアプリ npx

    create-expo-appしたプロジェクトでそれぞれに以下を指示
  13. 28 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus

    4.1 - 最初エラー出た。カレンダー表示されず、支出が追加されたか確認できない。設定画面はDummy Itemをいっぱい作ってそれっぽい画面を作った。 • gpt-5 - レイアウトが合わず。全部の機能は実装された • gpt-5-codex - レイアウトが綺麗で、全部の機能が実装された。一つだけ、月カレンダー週カレンダのSwitch ではなく週カレンダーが追加で表示された。
  14. 30 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5の場合: •

    初めの5回くらい簡単な推論や調査をしたあと、 “調査タスク”を含めたTODOを素早く立てる。 • なので、 TODOに置かれるタスクが ユーザー指示+簡易調査で得た まだ正確じゃないタスクで構成されることが多いと感じた。 • また、そうやって立てたTODOの途中のチェックも 比較的まめじゃなかったりする。 4〜5回の推論・調査後、すぐにTODOを立てる gpt-5 数回推論 ・軽い調査 1.調査 2~4. 軽い推論後の 想定タスク
  15. 31 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5-codexの場合: •

    最初の指示でやるべき仕事に自信が持てるまで 調査を続ける。 • 自信がつくと、 正確な調査結果に基づいたタスクで プランTODOを立てる。 • その後、1つずつ進める。 チェックもしっかりこなしながら進める傾向がある 長い時は10分近くも調査を続けるgpt-5-codex これでも調査のごく一部
  16. 32 Copyright© Explaza, inc. All rights reserved. 調査→計画→実装→レビューまで、指示がなくても自分で徹底 gpt-5の場合: •

    ちゃんとした調査・計画・レビューには その分しっかりした指示が必要だった • 指示をした後の成果物もこれで良いか?と思うことも gpt-5-codexの場合: • 一貫して、調査→計画→実装→レビューまで、指示が なくても自分で徹底 • 調査→理解をした上で計画に入る。 • 実装し、自分でレビューしてから開発を終える 作業後入念に全作業レビューするgpt-5-codex 作業後、 差分をちゃんとレビュー
  17. 33 Copyright© Explaza, inc. All rights reserved. 結果、プロジェクトの中でのドメイン知識把握の精度が上がってる (一例を紹介) 実務プロジェクトの中で

    Opus 4.1, gpt-5-codexそれぞれに作業後のレビューを依頼。 その後、Opus 4.1に両方のプランを比較してほしいと伝えると→ 他レビュワー= gpt-5-codex
  18. 34 Copyright© Explaza, inc. All rights reserved. 一回作業を終えた後の追加指示について gpt-5の場合: •

    大きな調査が必要な作業を終えた後の 追加指示の場合も、 一定時間推論・調査をした上で作業をする • codex、推論長い割に なかなか仕事が進まないなーとなった 理由の一つだった gpt-5-codexの場合: • すでに自信のある仕事 → 追加の推論/調査なしにサッと終える。 • (公式アナウンス通り)→ 長いタスクと短いタ スクでエネルギー配分を切り替え • 使いやすくなったと感じた点の一つ
  19. 36 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、こんな時に使うと良さそう • 時間がある時、じっくり確かな仕事を任せたい時に適している

    • 基本15~30分かかるような作業を普通に任せられ、作業精度も良かった • ドメイン知識が重要な大きめのプロジェクトの中での機能開発・大量リファクタリングをしたい時 • 調査やレビューの細かい指示なしに要件ベースで進めたい時 • 広い範囲で作業されたコードのレビュー
  20. 37 Copyright© Explaza, inc. All rights reserved. 逆にこんな時は向いてないかも • 多く、細かく自分が指示したい

    • 段階を分けながら早めに作業を終わらせて、こまめに確認しながら進めたい
  21. 38 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、よりone-shot指示の精度をあげるために gpt-5-codex Prompting

    Guideでの内容と、使ってみて感じた部分を合わせてみると: • できるだけ短く、必要なルールだけを書く ◦ Guideでは「Less is More(短いほど良い)」と、指示が短い方が精度が上がるとガイドしている ◦ 実際「調査→計画→実装→レビュー」を自走してくれる事が分かった。 ◦ リファクタ指示、BugFix指示、開発指示に合わせて「要件」を短くちゃんと伝える • 「まず調査結果を2行でまとめてからコードを書いてください」など余計な指示をしない ◦ Guideでは「Preambles(前置き)」指示を含める開発は完了されない場合があると指摘している • 「Think Harder」「Ultrathink」指示はいらない
  22. 39 Copyright© Explaza, inc. All rights reserved. 自分流gpt-5-codexプロンプト • 以下を必ず最初の開発指示の際に書いている。

    • 感覚的に、大きく見せることが防げられ、今のプロジェクトのアーキテクチャを守った開発をしてくれる。 このプロジェクトはワークフロー構築のためのWebサービスです。 lib/xxx/xxx/xxxx/+page.svelte はワークフローエディターのページです。 このワークフローに新しいノード ` IF/ELSE `を追加し、関連ロジックを他のノードの実装を参考に開発してください。 …{要件の続き} ## GENERAL RULES: - No over-engineering. - Implement required parts only. - Respect each layer(DTOs, Repositories, ...) for current project's architecture strictly. 軽くプロジェクト概要 背景情報簡潔に 要件 何を参考にするか 今までAI駆動開発やってきて効果が良いと感じる最初指示に含めるもの (gpt-5-codex用に簡潔に)
  23. 40 エクスプラザでは一緒に働く仲間を大募集中です! 【正社員】リードLLMアプリケーションエンジニア 【正社員】ITコンサルタント / PM 【正社員】DXコンサルタント(構想策定・上流支援) 【正社員】業務AXコンサルタント 【正社員】インサイドセールス 【正社員】リードAIプロデューサー

    現在の嬉しい福利厚生 • 1階のおしゃれカフェのコーヒーが無料(六本木common) • 二人以上のランチは1500円/人まで補助 ◦ 社員同士のコミュニケーションにありがたい • 気になるAIサービスのサブスク料金を月5万円+@まで補助 ◦ 超えた場合でも、業務上必要な場合許容 カジュアル面談など、気軽にDMください!
  24. 42 Copyright© Explaza, inc. All rights reserved. References • GPT-5-Codex

    Prompting Guide | OpenAI Cookbook • Introducing upgrades to Codex | OpenAI