Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep dive into gpt-5-codex
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
unsu0707
September 30, 2025
3k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Deep dive into gpt-5-codex
unsu0707
September 30, 2025
More Decks by unsu0707
See All by unsu0707
toB SaaSに導入したAI Agent機能開発奮闘記
unsu0707
0
600
슬랙 Bolt를 이용해 개발팀 전체가 사용하는 슬랙봇을 만든 이야기
unsu0707
1
900
System Specについて調べてみた話
unsu0707
1
560
Featured
See All Featured
The Spectacular Lies of Maps
axbom
PRO
1
800
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
Are puppies a ranking factor?
jonoalderson
1
3.5k
The Curious Case for Waylosing
cassininazir
1
380
The untapped power of vector embeddings
frankvandijk
2
1.8k
Color Theory Basics | Prateek | Gurzu
gurzu
0
360
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Making Projects Easy
brettharned
120
6.7k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Transcript
1 1 Deep dive into gpt-5-codex @Unsu
2 Copyright© Explaza, inc. All rights reserved. 自己紹介 Unsu(ウンス) (X:
@unsu0707) • 2025.01 ~ : リードLLMアプリケーションエンジニア @ 株式会社エクスプラザ • 2022.02 ~ : Head of Engineering (Manager of Managers) (CS プラットフォーム開発) @ メルカリ • 2021.02 ~ : Technical Project Manager @ LINE Bank • 2016.04 ~ : エンジニア / エンジニアリングマネージャー (C2C サービス開発) @ 楽天 • 2012.07 ~ 2014.12 : Web Developer @ 韓国 好きなもの • 日本酒、酒蔵巡り、AI駆動開発、AIサービス触る(最近はNanobanana)
3 3 Copyright© Explaza, inc. All rights reserved. みなさん AI駆動開発していますか?
4 Copyright© Explaza, inc. All rights reserved. 株式会社エクスプラザ 開発チーム
5 Copyright© Explaza, inc. All rights reserved. 株式会社エクスプラザ 開発チーム 現在も、それぞれ、自分に合うツールを使って、引き続きゴリゴリAI駆動開発中💪
6 Copyright© Explaza, inc. All rights reserved. 今日話すこと 1. 普段実践中のAI駆動開発フロー
2. gpt-5-codex? 3. gpt-5-codexの公式アップデート内容 Catch Up 4. gpt-5-codexを実際他のモデルと一緒に使ってみた 5. gpt-5-codexを実際使ってみて分かったポイント 6. gpt-5-codexはこんな時に使いたい 7. gpt-5-codexをもっと上手く使うためのTips
7 Copyright© Explaza, inc. All rights reserved. 普段実践中のAI駆動開発フロー 1. AIに開発すべき部分を理解させる
- 例:ワークフローページで各ノードのコンテンツがどんなスキーマを持ち、画面でどんなインタラクションでCRUDされるのかを 深く調べて、理解した内容をここに書いて - (コンテキストのコントロールのため、まだ開発要件は伝えない) 2. 関連する設計/プラン作成と開発を依頼 - 例:ワークフローにIF/ELSEノードを追加して。要件はこうこうこうだよ。 3. レビューと詳細なところ微調整指示 4. 開発完了
8 Copyright© Explaza, inc. All rights reserved. gpt-5-codex? • GPT-5から派生された開発特化型Codex専用モデル
• タイムライン Codex 発表 gpt-5 公開 Codex使用モデル codex-1 (※ o3 派生モデル) gpt-5 gpt-5-codex gpt-5 gpt-5-codex公開 2025-05-16 2025-08-07 2025-09-15
9 Copyright© Explaza, inc. All rights reserved. gpt-5-codex 公式アナウンスのおさらい •
実務レベルのソフトウェアエンジニアリングをより学習 • 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 高精度なコードレビュー能力 • マルチ環境とツール連携
10 Copyright© Explaza, inc. All rights reserved. 実務レベルのソフトウェアエンジニアリングをより学習 • GPT-5を基に、ソフトウェアエンジニアリングタスクをより学習した
◦ プロジェクト構築・リファクタ・テスト・レビューを重視した学習 ◦ 学習には大規模OSSや現実的なPRデータを使った • リファクタリング精度 gpt-5 33.9% → gpt-5-codex 51.3% • AGENTS.mdなどのルールを以前より遵守
11 Copyright© Explaza, inc. All rights reserved. 長いタスクと短いタスクで使うエネルギー配分を区別して使う • 生成トークンの違い
◦ 軽量タスク −93.7%(高速レスポンス) ◦ 重量タスク +102.2%(深く粘る) • 大規模リファクタでは、7時間以上(!)作業を続けることも
12 Copyright© Explaza, inc. All rights reserved. 高精度なコードレビュー能力 • コードベース全体を把握し、依存関係やテストも実行
• 誤コメント減少、重要指摘増加で効率向上 ◦ 誤りコメント: 13.7% → 4.4% ◦ 高インパクト指摘: 39.4% → 52.4% • 平均コメント数は減少、ノイズ削減
13 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、
• 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、
14 Copyright© Explaza, inc. All rights reserved. つまり • 複雑なタスクはより長い推論かけて、
• 細かく言わなくても調査・計画・設計・自己レビューして、 • 大きなコードベースでも精度良く、 一発指示で終わらせますってことだよね?
15 15 Copyright© Explaza, inc. All rights reserved. 試してみた
16 Copyright© Explaza, inc. All rights reserved. 同じプロンプトで、以下のそれぞれに作業した結果を比較してみる Codex (gpt-5-codex)
Codex (gpt-5) Claude Code (Opus 4.1) Claude Code (Sonnet 4.5) (特別出場ゲスト) 試し方
17 Copyright© Explaza, inc. All rights reserved. お題1.
18 Copyright© Explaza, inc. All rights reserved. お題1. ◯◯サバイバーを作って
19 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus
4.1)
20 Copyright© Explaza, inc. All rights reserved. Claude Code (Sonnet
4.5)
21 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5)
22 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5-codex)
23 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus
4.1 - 経験値上がらず、レベルアップできない。武器のエフェクト見えず • Sonnet 4.5 - レベルアップできる。武器も追加される。マップ移動にバグがある • gpt-5 - 大体実装されてるけど、ピクセルアートが雑。アップグレード候補部分の文字が見えない • gpt-5-codex - 一番ゲームで求められた要件が満たされてそう?
24 Copyright© Explaza, inc. All rights reserved. お題2. 支出管理モバイルアプリ npx
create-expo-appしたプロジェクトでそれぞれに以下を指示
25 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus
4.1)
26 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5)
27 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5-codex)
28 Copyright© Explaza, inc. All rights reserved. 要件守ったか • Opus
4.1 - 最初エラー出た。カレンダー表示されず、支出が追加されたか確認できない。設定画面はDummy Itemをいっぱい作ってそれっぽい画面を作った。 • gpt-5 - レイアウトが合わず。全部の機能は実装された • gpt-5-codex - レイアウトが綺麗で、全部の機能が実装された。一つだけ、月カレンダー週カレンダのSwitch ではなく週カレンダーが追加で表示された。
29 29 Copyright© Explaza, inc. All rights reserved. 実務含め、 試してみて
感じたこと
30 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5の場合: •
初めの5回くらい簡単な推論や調査をしたあと、 “調査タスク”を含めたTODOを素早く立てる。 • なので、 TODOに置かれるタスクが ユーザー指示+簡易調査で得た まだ正確じゃないタスクで構成されることが多いと感じた。 • また、そうやって立てたTODOの途中のチェックも 比較的まめじゃなかったりする。 4〜5回の推論・調査後、すぐにTODOを立てる gpt-5 数回推論 ・軽い調査 1.調査 2~4. 軽い推論後の 想定タスク
31 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5-codexの場合: •
最初の指示でやるべき仕事に自信が持てるまで 調査を続ける。 • 自信がつくと、 正確な調査結果に基づいたタスクで プランTODOを立てる。 • その後、1つずつ進める。 チェックもしっかりこなしながら進める傾向がある 長い時は10分近くも調査を続けるgpt-5-codex これでも調査のごく一部
32 Copyright© Explaza, inc. All rights reserved. 調査→計画→実装→レビューまで、指示がなくても自分で徹底 gpt-5の場合: •
ちゃんとした調査・計画・レビューには その分しっかりした指示が必要だった • 指示をした後の成果物もこれで良いか?と思うことも gpt-5-codexの場合: • 一貫して、調査→計画→実装→レビューまで、指示が なくても自分で徹底 • 調査→理解をした上で計画に入る。 • 実装し、自分でレビューしてから開発を終える 作業後入念に全作業レビューするgpt-5-codex 作業後、 差分をちゃんとレビュー
33 Copyright© Explaza, inc. All rights reserved. 結果、プロジェクトの中でのドメイン知識把握の精度が上がってる (一例を紹介) 実務プロジェクトの中で
Opus 4.1, gpt-5-codexそれぞれに作業後のレビューを依頼。 その後、Opus 4.1に両方のプランを比較してほしいと伝えると→ 他レビュワー= gpt-5-codex
34 Copyright© Explaza, inc. All rights reserved. 一回作業を終えた後の追加指示について gpt-5の場合: •
大きな調査が必要な作業を終えた後の 追加指示の場合も、 一定時間推論・調査をした上で作業をする • codex、推論長い割に なかなか仕事が進まないなーとなった 理由の一つだった gpt-5-codexの場合: • すでに自信のある仕事 → 追加の推論/調査なしにサッと終える。 • (公式アナウンス通り)→ 長いタスクと短いタ スクでエネルギー配分を切り替え • 使いやすくなったと感じた点の一つ
35 35 Copyright© Explaza, inc. All rights reserved. Codex(gpt-5-codex), どんな時に使うべき?
36 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、こんな時に使うと良さそう • 時間がある時、じっくり確かな仕事を任せたい時に適している
• 基本15~30分かかるような作業を普通に任せられ、作業精度も良かった • ドメイン知識が重要な大きめのプロジェクトの中での機能開発・大量リファクタリングをしたい時 • 調査やレビューの細かい指示なしに要件ベースで進めたい時 • 広い範囲で作業されたコードのレビュー
37 Copyright© Explaza, inc. All rights reserved. 逆にこんな時は向いてないかも • 多く、細かく自分が指示したい
• 段階を分けながら早めに作業を終わらせて、こまめに確認しながら進めたい
38 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、よりone-shot指示の精度をあげるために gpt-5-codex Prompting
Guideでの内容と、使ってみて感じた部分を合わせてみると: • できるだけ短く、必要なルールだけを書く ◦ Guideでは「Less is More(短いほど良い)」と、指示が短い方が精度が上がるとガイドしている ◦ 実際「調査→計画→実装→レビュー」を自走してくれる事が分かった。 ◦ リファクタ指示、BugFix指示、開発指示に合わせて「要件」を短くちゃんと伝える • 「まず調査結果を2行でまとめてからコードを書いてください」など余計な指示をしない ◦ Guideでは「Preambles(前置き)」指示を含める開発は完了されない場合があると指摘している • 「Think Harder」「Ultrathink」指示はいらない
39 Copyright© Explaza, inc. All rights reserved. 自分流gpt-5-codexプロンプト • 以下を必ず最初の開発指示の際に書いている。
• 感覚的に、大きく見せることが防げられ、今のプロジェクトのアーキテクチャを守った開発をしてくれる。 このプロジェクトはワークフロー構築のためのWebサービスです。 lib/xxx/xxx/xxxx/+page.svelte はワークフローエディターのページです。 このワークフローに新しいノード ` IF/ELSE `を追加し、関連ロジックを他のノードの実装を参考に開発してください。 …{要件の続き} ## GENERAL RULES: - No over-engineering. - Implement required parts only. - Respect each layer(DTOs, Repositories, ...) for current project's architecture strictly. 軽くプロジェクト概要 背景情報簡潔に 要件 何を参考にするか 今までAI駆動開発やってきて効果が良いと感じる最初指示に含めるもの (gpt-5-codex用に簡潔に)
40 エクスプラザでは一緒に働く仲間を大募集中です! 【正社員】リードLLMアプリケーションエンジニア 【正社員】ITコンサルタント / PM 【正社員】DXコンサルタント(構想策定・上流支援) 【正社員】業務AXコンサルタント 【正社員】インサイドセールス 【正社員】リードAIプロデューサー
現在の嬉しい福利厚生 • 1階のおしゃれカフェのコーヒーが無料(六本木common) • 二人以上のランチは1500円/人まで補助 ◦ 社員同士のコミュニケーションにありがたい • 気になるAIサービスのサブスク料金を月5万円+@まで補助 ◦ 超えた場合でも、業務上必要な場合許容 カジュアル面談など、気軽にDMください!
41 10/9, 弊社オフィスにて Claudeの最近でたリリースをキャッチアップする オフラインミートアップをやります! Claude Sonnet 4.5 キャッチアップ Meetup
(仮) https://explaza.connpass.com/event/371100/
42 Copyright© Explaza, inc. All rights reserved. References • GPT-5-Codex
Prompting Guide | OpenAI Cookbook • Introducing upgrades to Codex | OpenAI
43 43 Copyright© Explaza, inc. All rights reserved. Thank you!