Slide 1

Slide 1 text

1 1 Deep dive into gpt-5-codex @Unsu

Slide 2

Slide 2 text

2 Copyright© Explaza, inc. All rights reserved. 自己紹介 Unsu(ウンス) (X: @unsu0707) ● 2025.01 ~ : リードLLMアプリケーションエンジニア @ 株式会社エクスプラザ ● 2022.02 ~ : Head of Engineering (Manager of Managers) (CS プラットフォーム開発) @ メルカリ ● 2021.02 ~ : Technical Project Manager @ LINE Bank ● 2016.04 ~ : エンジニア / エンジニアリングマネージャー (C2C サービス開発) @ 楽天 ● 2012.07 ~ 2014.12 : Web Developer @ 韓国 好きなもの ● 日本酒、酒蔵巡り、AI駆動開発、AIサービス触る(最近はNanobanana)

Slide 3

Slide 3 text

3 3 Copyright© Explaza, inc. All rights reserved. みなさん AI駆動開発していますか?

Slide 4

Slide 4 text

4 Copyright© Explaza, inc. All rights reserved. 株式会社エクスプラザ 開発チーム

Slide 5

Slide 5 text

5 Copyright© Explaza, inc. All rights reserved. 株式会社エクスプラザ 開発チーム 現在も、それぞれ、自分に合うツールを使って、引き続きゴリゴリAI駆動開発中💪

Slide 6

Slide 6 text

6 Copyright© Explaza, inc. All rights reserved. 今日話すこと 1. 普段実践中のAI駆動開発フロー 2. gpt-5-codex? 3. gpt-5-codexの公式アップデート内容 Catch Up 4. gpt-5-codexを実際他のモデルと一緒に使ってみた 5. gpt-5-codexを実際使ってみて分かったポイント 6. gpt-5-codexはこんな時に使いたい 7. gpt-5-codexをもっと上手く使うためのTips

Slide 7

Slide 7 text

7 Copyright© Explaza, inc. All rights reserved. 普段実践中のAI駆動開発フロー 1. AIに開発すべき部分を理解させる - 例:ワークフローページで各ノードのコンテンツがどんなスキーマを持ち、画面でどんなインタラクションでCRUDされるのかを 深く調べて、理解した内容をここに書いて - (コンテキストのコントロールのため、まだ開発要件は伝えない) 2. 関連する設計/プラン作成と開発を依頼 - 例:ワークフローにIF/ELSEノードを追加して。要件はこうこうこうだよ。 3. レビューと詳細なところ微調整指示 4. 開発完了

Slide 8

Slide 8 text

8 Copyright© Explaza, inc. All rights reserved. gpt-5-codex? ● GPT-5から派生された開発特化型Codex専用モデル ● タイムライン Codex 発表 gpt-5 公開 Codex使用モデル codex-1 (※ o3 派生モデル) gpt-5 gpt-5-codex gpt-5 gpt-5-codex公開 2025-05-16 2025-08-07 2025-09-15

Slide 9

Slide 9 text

9 Copyright© Explaza, inc. All rights reserved. gpt-5-codex 公式アナウンスのおさらい ● 実務レベルのソフトウェアエンジニアリングをより学習 ● 長いタスクと短いタスクで使うエネルギー配分を区別して使う ● 高精度なコードレビュー能力 ● マルチ環境とツール連携

Slide 10

Slide 10 text

10 Copyright© Explaza, inc. All rights reserved. 実務レベルのソフトウェアエンジニアリングをより学習 ● GPT-5を基に、ソフトウェアエンジニアリングタスクをより学習した ○ プロジェクト構築・リファクタ・テスト・レビューを重視した学習 ○ 学習には大規模OSSや現実的なPRデータを使った ● リファクタリング精度 gpt-5 33.9% → gpt-5-codex 51.3% ● AGENTS.mdなどのルールを以前より遵守

Slide 11

Slide 11 text

11 Copyright© Explaza, inc. All rights reserved. 長いタスクと短いタスクで使うエネルギー配分を区別して使う ● 生成トークンの違い ○ 軽量タスク −93.7%(高速レスポンス) ○ 重量タスク +102.2%(深く粘る) ● 大規模リファクタでは、7時間以上(!)作業を続けることも

Slide 12

Slide 12 text

12 Copyright© Explaza, inc. All rights reserved. 高精度なコードレビュー能力 ● コードベース全体を把握し、依存関係やテストも実行 ● 誤コメント減少、重要指摘増加で効率向上 ○ 誤りコメント: 13.7% → 4.4% ○ 高インパクト指摘: 39.4% → 52.4% ● 平均コメント数は減少、ノイズ削減

Slide 13

Slide 13 text

13 Copyright© Explaza, inc. All rights reserved. つまり ● 複雑なタスクはより長い推論かけて、 ● 細かく言わなくても調査・計画・設計・自己レビューして、 ● 大きなコードベースでも精度良く、

Slide 14

Slide 14 text

14 Copyright© Explaza, inc. All rights reserved. つまり ● 複雑なタスクはより長い推論かけて、 ● 細かく言わなくても調査・計画・設計・自己レビューして、 ● 大きなコードベースでも精度良く、 一発指示で終わらせますってことだよね?

Slide 15

Slide 15 text

15 15 Copyright© Explaza, inc. All rights reserved. 試してみた

Slide 16

Slide 16 text

16 Copyright© Explaza, inc. All rights reserved. 同じプロンプトで、以下のそれぞれに作業した結果を比較してみる Codex (gpt-5-codex) Codex (gpt-5) Claude Code (Opus 4.1) Claude Code (Sonnet 4.5) (特別出場ゲスト) 試し方

Slide 17

Slide 17 text

17 Copyright© Explaza, inc. All rights reserved. お題1.

Slide 18

Slide 18 text

18 Copyright© Explaza, inc. All rights reserved. お題1. ◯◯サバイバーを作って

Slide 19

Slide 19 text

19 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus 4.1)

Slide 20

Slide 20 text

20 Copyright© Explaza, inc. All rights reserved. Claude Code (Sonnet 4.5)

Slide 21

Slide 21 text

21 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5)

Slide 22

Slide 22 text

22 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5-codex)

Slide 23

Slide 23 text

23 Copyright© Explaza, inc. All rights reserved. 要件守ったか ● Opus 4.1 - 経験値上がらず、レベルアップできない。武器のエフェクト見えず ● Sonnet 4.5 - レベルアップできる。武器も追加される。マップ移動にバグがある ● gpt-5 - 大体実装されてるけど、ピクセルアートが雑。アップグレード候補部分の文字が見えない ● gpt-5-codex - 一番ゲームで求められた要件が満たされてそう?

Slide 24

Slide 24 text

24 Copyright© Explaza, inc. All rights reserved. お題2. 支出管理モバイルアプリ npx create-expo-appしたプロジェクトでそれぞれに以下を指示

Slide 25

Slide 25 text

25 Copyright© Explaza, inc. All rights reserved. Claude Code (Opus 4.1)

Slide 26

Slide 26 text

26 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5)

Slide 27

Slide 27 text

27 Copyright© Explaza, inc. All rights reserved. Codex (gpt-5-codex)

Slide 28

Slide 28 text

28 Copyright© Explaza, inc. All rights reserved. 要件守ったか ● Opus 4.1 - 最初エラー出た。カレンダー表示されず、支出が追加されたか確認できない。設定画面はDummy Itemをいっぱい作ってそれっぽい画面を作った。 ● gpt-5 - レイアウトが合わず。全部の機能は実装された ● gpt-5-codex - レイアウトが綺麗で、全部の機能が実装された。一つだけ、月カレンダー週カレンダのSwitch ではなく週カレンダーが追加で表示された。

Slide 29

Slide 29 text

29 29 Copyright© Explaza, inc. All rights reserved. 実務含め、 試してみて 感じたこと

Slide 30

Slide 30 text

30 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5の場合: ● 初めの5回くらい簡単な推論や調査をしたあと、 “調査タスク”を含めたTODOを素早く立てる。 ● なので、 TODOに置かれるタスクが ユーザー指示+簡易調査で得た まだ正確じゃないタスクで構成されることが多いと感じた。 ● また、そうやって立てたTODOの途中のチェックも 比較的まめじゃなかったりする。 4〜5回の推論・調査後、すぐにTODOを立てる gpt-5 数回推論 ・軽い調査 1.調査 2~4. 軽い推論後の 想定タスク

Slide 31

Slide 31 text

31 Copyright© Explaza, inc. All rights reserved. 作業前の調査の量の違い gpt-5-codexの場合: ● 最初の指示でやるべき仕事に自信が持てるまで 調査を続ける。 ● 自信がつくと、 正確な調査結果に基づいたタスクで プランTODOを立てる。 ● その後、1つずつ進める。 チェックもしっかりこなしながら進める傾向がある 長い時は10分近くも調査を続けるgpt-5-codex これでも調査のごく一部

Slide 32

Slide 32 text

32 Copyright© Explaza, inc. All rights reserved. 調査→計画→実装→レビューまで、指示がなくても自分で徹底 gpt-5の場合: ● ちゃんとした調査・計画・レビューには その分しっかりした指示が必要だった ● 指示をした後の成果物もこれで良いか?と思うことも gpt-5-codexの場合: ● 一貫して、調査→計画→実装→レビューまで、指示が なくても自分で徹底 ● 調査→理解をした上で計画に入る。 ● 実装し、自分でレビューしてから開発を終える 作業後入念に全作業レビューするgpt-5-codex 作業後、 差分をちゃんとレビュー

Slide 33

Slide 33 text

33 Copyright© Explaza, inc. All rights reserved. 結果、プロジェクトの中でのドメイン知識把握の精度が上がってる (一例を紹介) 実務プロジェクトの中で Opus 4.1, gpt-5-codexそれぞれに作業後のレビューを依頼。 その後、Opus 4.1に両方のプランを比較してほしいと伝えると→ 他レビュワー= gpt-5-codex

Slide 34

Slide 34 text

34 Copyright© Explaza, inc. All rights reserved. 一回作業を終えた後の追加指示について gpt-5の場合: ● 大きな調査が必要な作業を終えた後の 追加指示の場合も、 一定時間推論・調査をした上で作業をする ● codex、推論長い割に なかなか仕事が進まないなーとなった 理由の一つだった gpt-5-codexの場合: ● すでに自信のある仕事 → 追加の推論/調査なしにサッと終える。 ● (公式アナウンス通り)→ 長いタスクと短いタ スクでエネルギー配分を切り替え ● 使いやすくなったと感じた点の一つ

Slide 35

Slide 35 text

35 35 Copyright© Explaza, inc. All rights reserved. Codex(gpt-5-codex), どんな時に使うべき?

Slide 36

Slide 36 text

36 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、こんな時に使うと良さそう ● 時間がある時、じっくり確かな仕事を任せたい時に適している ● 基本15~30分かかるような作業を普通に任せられ、作業精度も良かった ● ドメイン知識が重要な大きめのプロジェクトの中での機能開発・大量リファクタリングをしたい時 ● 調査やレビューの細かい指示なしに要件ベースで進めたい時 ● 広い範囲で作業されたコードのレビュー

Slide 37

Slide 37 text

37 Copyright© Explaza, inc. All rights reserved. 逆にこんな時は向いてないかも ● 多く、細かく自分が指示したい ● 段階を分けながら早めに作業を終わらせて、こまめに確認しながら進めたい

Slide 38

Slide 38 text

38 Copyright© Explaza, inc. All rights reserved. gpt-5-codex、よりone-shot指示の精度をあげるために gpt-5-codex Prompting Guideでの内容と、使ってみて感じた部分を合わせてみると: ● できるだけ短く、必要なルールだけを書く ○ Guideでは「Less is More(短いほど良い)」と、指示が短い方が精度が上がるとガイドしている ○ 実際「調査→計画→実装→レビュー」を自走してくれる事が分かった。 ○ リファクタ指示、BugFix指示、開発指示に合わせて「要件」を短くちゃんと伝える ● 「まず調査結果を2行でまとめてからコードを書いてください」など余計な指示をしない ○ Guideでは「Preambles(前置き)」指示を含める開発は完了されない場合があると指摘している ● 「Think Harder」「Ultrathink」指示はいらない

Slide 39

Slide 39 text

39 Copyright© Explaza, inc. All rights reserved. 自分流gpt-5-codexプロンプト ● 以下を必ず最初の開発指示の際に書いている。 ● 感覚的に、大きく見せることが防げられ、今のプロジェクトのアーキテクチャを守った開発をしてくれる。 このプロジェクトはワークフロー構築のためのWebサービスです。 lib/xxx/xxx/xxxx/+page.svelte はワークフローエディターのページです。 このワークフローに新しいノード ` IF/ELSE `を追加し、関連ロジックを他のノードの実装を参考に開発してください。 …{要件の続き} ## GENERAL RULES: - No over-engineering. - Implement required parts only. - Respect each layer(DTOs, Repositories, ...) for current project's architecture strictly. 軽くプロジェクト概要 背景情報簡潔に 要件 何を参考にするか 今までAI駆動開発やってきて効果が良いと感じる最初指示に含めるもの (gpt-5-codex用に簡潔に)

Slide 40

Slide 40 text

40 エクスプラザでは一緒に働く仲間を大募集中です! 【正社員】リードLLMアプリケーションエンジニア 【正社員】ITコンサルタント / PM 【正社員】DXコンサルタント(構想策定・上流支援) 【正社員】業務AXコンサルタント 【正社員】インサイドセールス 【正社員】リードAIプロデューサー 現在の嬉しい福利厚生 ● 1階のおしゃれカフェのコーヒーが無料(六本木common) ● 二人以上のランチは1500円/人まで補助 ○ 社員同士のコミュニケーションにありがたい ● 気になるAIサービスのサブスク料金を月5万円+@まで補助 ○ 超えた場合でも、業務上必要な場合許容 カジュアル面談など、気軽にDMください!

Slide 41

Slide 41 text

41 10/9, 弊社オフィスにて Claudeの最近でたリリースをキャッチアップする オフラインミートアップをやります! Claude Sonnet 4.5 キャッチアップ Meetup (仮) https://explaza.connpass.com/event/371100/

Slide 42

Slide 42 text

42 Copyright© Explaza, inc. All rights reserved. References ● GPT-5-Codex Prompting Guide | OpenAI Cookbook ● Introducing upgrades to Codex | OpenAI

Slide 43

Slide 43 text

43 43 Copyright© Explaza, inc. All rights reserved. Thank you!