Deep dive into gpt-5-codex

1 1 Deep dive into gpt-5-codex @Unsu

2 Copyright© Explaza, inc. All rights reserved. 自己紹介 Unsu(ウンス) (X:
@unsu0707) • 2025.01 ~ : リードLLMアプリケーションエンジニア @ 株式会社エクスプラザ • 2022.02 ~ : Head of Engineering (Manager of Managers) (CS プラットフォーム開発) @ メルカリ • 2021.02 ~ : Technical Project Manager @ LINE Bank • 2016.04 ~ : エンジニア / エンジニアリングマネージャー (C2C サービス開発) @ 楽天 • 2012.07 ~ 2014.12 : Web Developer @ 韓国好きなもの • 日本酒、酒蔵巡り、AI駆動開発、AIサービス触る（最近はNanobanana）

6 Copyright© Explaza, inc. All rights reserved. 今日話すこと 1. 普段実践中のAI駆動開発フロー
2. gpt-5-codex? 3. gpt-5-codexの公式アップデート内容 Catch Up 4. gpt-5-codexを実際他のモデルと一緒に使ってみた 5. gpt-5-codexを実際使ってみて分かったポイント 6. gpt-5-codexはこんな時に使いたい 7. gpt-5-codexをもっと上手く使うためのTips

7 Copyright© Explaza, inc. All rights reserved. 普段実践中のAI駆動開発フロー 1. AIに開発すべき部分を理解させる
- 例：ワークフローページで各ノードのコンテンツがどんなスキーマを持ち、画面でどんなインタラクションでCRUDされるのかを深く調べて、理解した内容をここに書いて - (コンテキストのコントロールのため、まだ開発要件は伝えない) 2. 関連する設計／プラン作成と開発を依頼 - 例：ワークフローにIF/ELSEノードを追加して。要件はこうこうこうだよ。 3. レビューと詳細なところ微調整指示 4. 開発完了

8 Copyright© Explaza, inc. All rights reserved. gpt-5-codex? • GPT-5から派生された開発特化型Codex専用モデル
• タイムライン Codex 発表 gpt-5 公開 Codex使用モデル codex-1 (※ o3 派生モデル) gpt-5 gpt-5-codex gpt-5 gpt-5-codex公開 2025-05-16 2025-08-07 2025-09-15

9 Copyright© Explaza, inc. All rights reserved. gpt-5-codex 公式アナウンスのおさらい •
実務レベルのソフトウェアエンジニアリングをより学習 • 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 高精度なコードレビュー能力 • マルチ環境とツール連携

10 Copyright© Explaza, inc. All rights reserved. 実務レベルのソフトウェアエンジニアリングをより学習 • GPT-5を基に、ソフトウェアエンジニアリングタスクをより学習した
◦ プロジェクト構築・リファクタ・テスト・レビューを重視した学習 ◦ 学習には大規模OSSや現実的なPRデータを使った • リファクタリング精度 gpt-5 33.9% → gpt-5-codex 51.3% • AGENTS.mdなどのルールを以前より遵守

11 Copyright© Explaza, inc. All rights reserved. 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 生成トークンの違い
◦ 軽量タスク −93.7%（高速レスポンス） ◦ 重量タスク +102.2%（深く粘る） • 大規模リファクタでは、7時間以上（！）作業を続けることも

12 Copyright© Explaza, inc. All rights reserved. 高精度なコードレビュー能力 • コードベース全体を把握し、依存関係やテストも実行
• 誤コメント減少、重要指摘増加で効率向上 ◦ 誤りコメント: 13.7% → 4.4% ◦ 高インパクト指摘: 39.4% → 52.4% • 平均コメント数は減少、ノイズ削減

13 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、
• 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、

14 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、
• 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、一発指示で終わらせますってことだよね？

16 Copyright© Explaza, inc. All rights reserved. 同じプロンプトで、以下のそれぞれに作業した結果を比較してみる Codex (gpt-5-codex)
Codex (gpt-5) Claude Code (Opus 4.1) Claude Code (Sonnet 4.5) (特別出場ゲスト) 試し方

19 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus
4.1)

20 Copyright© Explaza, inc. All rights reserved. Claude Code (Sonnet
4.5)

23 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus
4.1 - 経験値上がらず、レベルアップできない。武器のエフェクト見えず • Sonnet 4.5 - レベルアップできる。武器も追加される。マップ移動にバグがある • gpt-5 - 大体実装されてるけど、ピクセルアートが雑。アップグレード候補部分の文字が見えない • gpt-5-codex - 一番ゲームで求められた要件が満たされてそう？

24 Copyright© Explaza, inc. All rights reserved. お題2. 支出管理モバイルアプリ npx
create-expo-appしたプロジェクトでそれぞれに以下を指示

25 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus
4.1)

28 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus
4.1 - 最初エラー出た。カレンダー表示されず、支出が追加されたか確認できない。設定画面はDummy Itemをいっぱい作ってそれっぽい画面を作った。 • gpt-5 - レイアウトが合わず。全部の機能は実装された • gpt-5-codex - レイアウトが綺麗で、全部の機能が実装された。一つだけ、月カレンダー週カレンダのSwitch ではなく週カレンダーが追加で表示された。

29 29 Copyright© Explaza, inc. All rights reserved. 実務含め、試してみて
感じたこと

30 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5の場合: •
初めの5回くらい簡単な推論や調査をしたあと、 “調査タスク”を含めたTODOを素早く立てる。 • なので、 TODOに置かれるタスクがユーザー指示＋簡易調査で得たまだ正確じゃないタスクで構成されることが多いと感じた。 • また、そうやって立てたTODOの途中のチェックも比較的まめじゃなかったりする。 4〜5回の推論・調査後、すぐにTODOを立てる gpt-5 数回推論・軽い調査 1.調査 2~4. 軽い推論後の想定タスク

31 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5-codexの場合: •
最初の指示でやるべき仕事に自信が持てるまで調査を続ける。 • 自信がつくと、正確な調査結果に基づいたタスクでプランTODOを立てる。 • その後、1つずつ進める。チェックもしっかりこなしながら進める傾向がある長い時は10分近くも調査を続けるgpt-5-codex これでも調査のごく一部

32 Copyright© Explaza, inc. All rights reserved. 調査→計画→実装→レビューまで、指示がなくても自分で徹底 gpt-5の場合: •
ちゃんとした調査・計画・レビューにはその分しっかりした指示が必要だった • 指示をした後の成果物もこれで良いか？と思うことも gpt-5-codexの場合: • 一貫して、調査→計画→実装→レビューまで、指示がなくても自分で徹底 • 調査→理解をした上で計画に入る。 • 実装し、自分でレビューしてから開発を終える作業後入念に全作業レビューするgpt-5-codex 作業後、差分をちゃんとレビュー

34 Copyright© Explaza, inc. All rights reserved. 一回作業を終えた後の追加指示について gpt-5の場合: •
大きな調査が必要な作業を終えた後の追加指示の場合も、一定時間推論・調査をした上で作業をする • codex、推論長い割になかなか仕事が進まないなーとなった理由の一つだった gpt-5-codexの場合: • すでに自信のある仕事 → 追加の推論／調査なしにサッと終える。 • （公式アナウンス通り）→ 長いタスクと短いタスクでエネルギー配分を切り替え • 使いやすくなったと感じた点の一つ

36 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、こんな時に使うと良さそう • 時間がある時、じっくり確かな仕事を任せたい時に適している
• 基本15~30分かかるような作業を普通に任せられ、作業精度も良かった • ドメイン知識が重要な大きめのプロジェクトの中での機能開発・大量リファクタリングをしたい時 • 調査やレビューの細かい指示なしに要件ベースで進めたい時 • 広い範囲で作業されたコードのレビュー

38 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、よりone-shot指示の精度をあげるために gpt-5-codex Prompting
Guideでの内容と、使ってみて感じた部分を合わせてみると: • できるだけ短く、必要なルールだけを書く ◦ Guideでは「Less is More(短いほど良い)」と、指示が短い方が精度が上がるとガイドしている ◦ 実際「調査→計画→実装→レビュー」を自走してくれる事が分かった。 ◦ リファクタ指示、BugFix指示、開発指示に合わせて「要件」を短くちゃんと伝える • 「まず調査結果を2行でまとめてからコードを書いてください」など余計な指示をしない ◦ Guideでは「Preambles（前置き）」指示を含める開発は完了されない場合があると指摘している • 「Think Harder」「Ultrathink」指示はいらない

39 Copyright© Explaza, inc. All rights reserved. 自分流gpt-5-codexプロンプト • 以下を必ず最初の開発指示の際に書いている。
• 感覚的に、大きく見せることが防げられ、今のプロジェクトのアーキテクチャを守った開発をしてくれる。このプロジェクトはワークフロー構築のためのWebサービスです。 lib/xxx/xxx/xxxx/+page.svelte はワークフローエディターのページです。このワークフローに新しいノード ` IF/ELSE `を追加し、関連ロジックを他のノードの実装を参考に開発してください。 …{要件の続き} ## GENERAL RULES: - No over-engineering. - Implement required parts only. - Respect each layer(DTOs, Repositories, ...) for current project's architecture strictly. 軽くプロジェクト概要背景情報簡潔に要件何を参考にするか今までAI駆動開発やってきて効果が良いと感じる最初指示に含めるもの (gpt-5-codex用に簡潔に)

40 エクスプラザでは一緒に働く仲間を大募集中です！【正社員】リードLLMアプリケーションエンジニア【正社員】ITコンサルタント / PM 【正社員】DXコンサルタント（構想策定・上流支援）【正社員】業務AXコンサルタント【正社員】インサイドセールス【正社員】リードAIプロデューサー
現在の嬉しい福利厚生 • 1階のおしゃれカフェのコーヒーが無料（六本木common） • 二人以上のランチは1500円/人まで補助 ◦ 社員同士のコミュニケーションにありがたい • 気になるAIサービスのサブスク料金を月5万円+@まで補助 ◦ 超えた場合でも、業務上必要な場合許容カジュアル面談など、気軽にDMください！

41 10/9, 弊社オフィスにて Claudeの最近でたリリースをキャッチアップするオフラインミートアップをやります！ Claude Sonnet 4.5 キャッチアップ Meetup
(仮) https://explaza.connpass.com/event/371100/

Deep dive into gpt-5-codex

Deep dive into gpt-5-codex

More Decks by unsu0707

Featured

Transcript