Deep dive into gpt-5-codex

by unsu0707

Embed

Start on current slide

Slide 1

Slide 1 text

1 1 Deep dive into gpt-5-codex @Unsu

Slide 2

Slide 2 text

2 Copyright© Explaza, inc. All rights reserved. 自己紹介 Unsu(ウンス) (X: @unsu0707) ● 2025.01 ~ : リードLLMアプリケーションエンジニア @ 株式会社エクスプラザ ● 2022.02 ~ : Head of Engineering (Manager of Managers) (CS プラットフォーム開発) @ メルカリ ● 2021.02 ~ : Technical Project Manager @ LINE Bank ● 2016.04 ~ : エンジニア / エンジニアリングマネージャー (C2C サービス開発) @ 楽天 ● 2012.07 ~ 2014.12 : Web Developer @ 韓国好きなもの ● 日本酒、酒蔵巡り、AI駆動開発、AIサービス触る（最近はNanobanana）

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

6 Copyright© Explaza, inc. All rights reserved. 今日話すこと 1. 普段実践中のAI駆動開発フロー 2. gpt-5-codex? 3. gpt-5-codexの公式アップデート内容 Catch Up 4. gpt-5-codexを実際他のモデルと一緒に使ってみた 5. gpt-5-codexを実際使ってみて分かったポイント 6. gpt-5-codexはこんな時に使いたい 7. gpt-5-codexをもっと上手く使うためのTips

Slide 7

Slide 7 text

7 Copyright© Explaza, inc. All rights reserved. 普段実践中のAI駆動開発フロー 1. AIに開発すべき部分を理解させる - 例：ワークフローページで各ノードのコンテンツがどんなスキーマを持ち、画面でどんなインタラクションでCRUDされるのかを深く調べて、理解した内容をここに書いて - (コンテキストのコントロールのため、まだ開発要件は伝えない) 2. 関連する設計／プラン作成と開発を依頼 - 例：ワークフローにIF/ELSEノードを追加して。要件はこうこうこうだよ。 3. レビューと詳細なところ微調整指示 4. 開発完了

Slide 8

Slide 8 text

8 Copyright© Explaza, inc. All rights reserved. gpt-5-codex? ● GPT-5から派生された開発特化型Codex専用モデル ● タイムライン Codex 発表 gpt-5 公開 Codex使用モデル codex-1 (※ o3 派生モデル) gpt-5 gpt-5-codex gpt-5 gpt-5-codex公開 2025-05-16 2025-08-07 2025-09-15

Slide 9

Slide 9 text

Slide 10

Slide 10 text

10 Copyright© Explaza, inc. All rights reserved. 実務レベルのソフトウェアエンジニアリングをより学習 ● GPT-5を基に、ソフトウェアエンジニアリングタスクをより学習した ○ プロジェクト構築・リファクタ・テスト・レビューを重視した学習 ○ 学習には大規模OSSや現実的なPRデータを使った ● リファクタリング精度 gpt-5 33.9% → gpt-5-codex 51.3% ● AGENTS.mdなどのルールを以前より遵守

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

23 Copyright© Explaza, inc. All rights reserved. 要件守ったか ● Opus 4.1 - 経験値上がらず、レベルアップできない。武器のエフェクト見えず ● Sonnet 4.5 - レベルアップできる。武器も追加される。マップ移動にバグがある ● gpt-5 - 大体実装されてるけど、ピクセルアートが雑。アップグレード候補部分の文字が見えない ● gpt-5-codex - 一番ゲームで求められた要件が満たされてそう？

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

28 Copyright© Explaza, inc. All rights reserved. 要件守ったか ● Opus 4.1 - 最初エラー出た。カレンダー表示されず、支出が追加されたか確認できない。設定画面はDummy Itemをいっぱい作ってそれっぽい画面を作った。 ● gpt-5 - レイアウトが合わず。全部の機能は実装された ● gpt-5-codex - レイアウトが綺麗で、全部の機能が実装された。一つだけ、月カレンダー週カレンダのSwitch ではなく週カレンダーが追加で表示された。

Slide 29

Slide 29 text

Slide 30

Slide 30 text

30 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5の場合: ● 初めの5回くらい簡単な推論や調査をしたあと、 “調査タスク”を含めたTODOを素早く立てる。 ● なので、 TODOに置かれるタスクがユーザー指示＋簡易調査で得たまだ正確じゃないタスクで構成されることが多いと感じた。 ● また、そうやって立てたTODOの途中のチェックも比較的まめじゃなかったりする。 4〜5回の推論・調査後、すぐにTODOを立てる gpt-5 数回推論・軽い調査 1.調査 2~4. 軽い推論後の想定タスク

Slide 31

Slide 31 text

31 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5-codexの場合: ● 最初の指示でやるべき仕事に自信が持てるまで調査を続ける。 ● 自信がつくと、正確な調査結果に基づいたタスクでプランTODOを立てる。 ● その後、1つずつ進める。チェックもしっかりこなしながら進める傾向がある長い時は10分近くも調査を続けるgpt-5-codex これでも調査のごく一部

Slide 32

Slide 32 text

32 Copyright© Explaza, inc. All rights reserved. 調査→計画→実装→レビューまで、指示がなくても自分で徹底 gpt-5の場合: ● ちゃんとした調査・計画・レビューにはその分しっかりした指示が必要だった ● 指示をした後の成果物もこれで良いか？と思うことも gpt-5-codexの場合: ● 一貫して、調査→計画→実装→レビューまで、指示がなくても自分で徹底 ● 調査→理解をした上で計画に入る。 ● 実装し、自分でレビューしてから開発を終える作業後入念に全作業レビューするgpt-5-codex 作業後、差分をちゃんとレビュー

Slide 33

Slide 33 text

Slide 34

Slide 34 text

34 Copyright© Explaza, inc. All rights reserved. 一回作業を終えた後の追加指示について gpt-5の場合: ● 大きな調査が必要な作業を終えた後の追加指示の場合も、一定時間推論・調査をした上で作業をする ● codex、推論長い割になかなか仕事が進まないなーとなった理由の一つだった gpt-5-codexの場合: ● すでに自信のある仕事 → 追加の推論／調査なしにサッと終える。 ● （公式アナウンス通り）→ 長いタスクと短いタスクでエネルギー配分を切り替え ● 使いやすくなったと感じた点の一つ

Slide 35

Slide 35 text

Slide 36

Slide 36 text

36 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、こんな時に使うと良さそう ● 時間がある時、じっくり確かな仕事を任せたい時に適している ● 基本15~30分かかるような作業を普通に任せられ、作業精度も良かった ● ドメイン知識が重要な大きめのプロジェクトの中での機能開発・大量リファクタリングをしたい時 ● 調査やレビューの細かい指示なしに要件ベースで進めたい時 ● 広い範囲で作業されたコードのレビュー

Slide 37

Slide 37 text

Slide 38

Slide 38 text

38 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、よりone-shot指示の精度をあげるために gpt-5-codex Prompting Guideでの内容と、使ってみて感じた部分を合わせてみると: ● できるだけ短く、必要なルールだけを書く ○ Guideでは「Less is More(短いほど良い)」と、指示が短い方が精度が上がるとガイドしている ○ 実際「調査→計画→実装→レビュー」を自走してくれる事が分かった。 ○ リファクタ指示、BugFix指示、開発指示に合わせて「要件」を短くちゃんと伝える ● 「まず調査結果を2行でまとめてからコードを書いてください」など余計な指示をしない ○ Guideでは「Preambles（前置き）」指示を含める開発は完了されない場合があると指摘している ● 「Think Harder」「Ultrathink」指示はいらない

Slide 39

Slide 39 text

39 Copyright© Explaza, inc. All rights reserved. 自分流gpt-5-codexプロンプト ● 以下を必ず最初の開発指示の際に書いている。 ● 感覚的に、大きく見せることが防げられ、今のプロジェクトのアーキテクチャを守った開発をしてくれる。このプロジェクトはワークフロー構築のためのWebサービスです。 lib/xxx/xxx/xxxx/+page.svelte はワークフローエディターのページです。このワークフローに新しいノード ` IF/ELSE `を追加し、関連ロジックを他のノードの実装を参考に開発してください。 …{要件の続き} ## GENERAL RULES: - No over-engineering. - Implement required parts only. - Respect each layer(DTOs, Repositories, ...) for current project's architecture strictly. 軽くプロジェクト概要背景情報簡潔に要件何を参考にするか今までAI駆動開発やってきて効果が良いと感じる最初指示に含めるもの (gpt-5-codex用に簡潔に)

Slide 40

Slide 40 text

40 エクスプラザでは一緒に働く仲間を大募集中です！【正社員】リードLLMアプリケーションエンジニア【正社員】ITコンサルタント / PM 【正社員】DXコンサルタント（構想策定・上流支援）【正社員】業務AXコンサルタント【正社員】インサイドセールス【正社員】リードAIプロデューサー現在の嬉しい福利厚生 ● 1階のおしゃれカフェのコーヒーが無料（六本木common） ● 二人以上のランチは1500円/人まで補助 ○ 社員同士のコミュニケーションにありがたい ● 気になるAIサービスのサブスク料金を月5万円+@まで補助 ○ 超えた場合でも、業務上必要な場合許容カジュアル面談など、気軽にDMください！

Slide 41

Slide 41 text

41 10/9, 弊社オフィスにて Claudeの最近でたリリースをキャッチアップするオフラインミートアップをやります！ Claude Sonnet 4.5 キャッチアップ Meetup (仮) https://explaza.connpass.com/event/371100/