Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIコーディング道場成果発表【予告】
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
吉田真吾
June 07, 2025
Technology
65
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIコーディング道場成果発表【予告】
吉田真吾
June 07, 2025
More Decks by 吉田真吾
See All by 吉田真吾
AIに代替されるフリーランス、AIを操りチームを導くリーダー。運命を分ける『AI-DLC』とインテントマネジメント/Intent is All We Need
yoshidashingo
0
39
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
210
早く行きたいならClaude Codeと行け、遠くに行きたいならチームで行け 〜AI駆動開発の講師が教えるAIがリードするチーム開発の実践ノウハウ/Fast w/ Claude Code, Far Together
yoshidashingo
0
25
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
590
はじめてのAI-DLC
yoshidashingo
2
1.1k
初手AIで実現する 「AIと一緒に働く」ということ - AIファーストを実現する汎用タスクエージェントのつくりかた / JAWS DAYS 2026
yoshidashingo
0
52
Claude Codeで実践するスペック駆動開発入門 / sdd-with-claude_code
yoshidashingo
4
17k
エンジニアはコミュニティで伸びる!テックコミュニティ代表者トークリレー / TCP2026
yoshidashingo
0
30
達人に学ぶAIコーディング / ai-coding-learned-from-master
yoshidashingo
0
38
Other Decks in Technology
See All in Technology
Zenoh on Zephyr on LiteX
takasehideki
2
130
徹底討論!ECS vs EKS!
daitak
3
1.8k
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
250
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
190
“詰む”前に仕組みを作れ 〜技術の波に溺れないためのキャッチアップ術〜
takasyou
7
4.2k
「ビジネスがわかるエンジニア」とは何か?
ryooob
0
340
Lightning近況報告
kozy4324
0
230
現場のトークンマネジメント
dak2
1
200
AI Agentをシステムに組み込む前にゆるく向き合ってみる
hayama17
0
170
飲食店もAIで。レジ締めやハンディシステムをつくってる話 / Using AI for restaurant management
vtryo
0
200
Amazon Redshift zero-ETL 統合を活用した軽量なマルチプロダクトデータ可視化基盤 / Lightweight Multi-Product Data Visualization with Amazon Redshift Zero-ETL
kaminashi
0
110
FPC(フレキシブル)基板にZephyr実装してみた。
iotengineer22
0
180
Featured
See All Featured
Marketing to machines
jonoalderson
1
5.5k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Side Projects
sachag
455
43k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
480
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
170
My Coaching Mixtape
mlcsv
0
150
For a Future-Friendly Web
brad_frost
183
10k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
260
Transcript
吉⽥真吾 +"846(ԣࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜
DMPVEQBDL ג ηΫγϣϯφΠϯ ג αΠμε ג δΣωϥςΟϒΤʔδΣϯπ p"844FSWFSMFTT)FSP p-BOH$IBJO ެࣜ &YQFSU"NCBTTBEPS コミュニティ型転職・独⽴
None
ίʔυิ *%&౷߹νϟοτܕ "*ιϑτΣΞΤϯδχΞ ฒྻඇಉظશͳҕ (FNJOJ$PEF"TTJTU +VMFT 74$PEF $MJOF3PP$PEF $VSTPS 8JOETVSG
%FWJO (JU)VC$PQJMPU (JU)VC$PQJMPU "HFOU.PEF $PEFY $MBVEF$PEF $-* $-*νϟοτܕ +FU#SBJOT*%&
ʲ࣮ʳ"*ίʔσΟϯάͰθϩ͔Β ༻αʔϏεΛϦϦʔεͯ͠Ք͙ه )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ Ռൃදձ 5IV
None
Task Master https://github.com/eyaltoledano/claude-task-master PRDをタスクに分解して管理できるMCP経由で利⽤するサービス(ローカル起動可能)
None
None
Claude Code + Github Actions
Claude Code / CLAUDE.md によるリポジトリの仕様書の明記
ͳʹΛֶͿ͖͔ • ιϑτΣΞΤϯδχΞϦϯάͷ֤ఔʹ"*ΛͲ͏׆༻͢Δ͔ • ͡Ίখ͍͞نͷͷ13%͔Β"*Ͱ։ൃ͍ͯ͘͠αΠΫ ϧΛճ͠ɺঃʑʹେ͖ͳنʹ͍ͯ͘͜͠ͱ • ཁٻ։ൃɺλεΫܭըɺ֤λεΫͷ࣮ߦ͕جຊΞϓϩʔνͰ͋ ΓɺαϒλεΫϨϕϧͰ࣮ߦˠϨϏϡʔˠద༻ˠ࣍ •
$MBVEF$PEF$MBVEFͷຽେҠಈɿ͜ΕΛ͖͔͚ͬʹ • ΈΜͳͰू·ͬͯͭͶʹΑΓྑ͍࣮ફతͳࣝͷަɾϋϯζ Φϯ
ʲ࣮ʳ"*ίʔσΟϯάͰθϩ͔Β ༻αʔϏεΛϦϦʔεͯ͠Ք͙ه )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ Ռൃදձ 5IV
খ͘͞ධՁͯ͠ େ͖͘ҭͯΔ "*ίʔσΟϯάಓ ୈճ Ռൃදձ ٢ా ਅޗ
ධՁۦಈ։ൃ &WBMVBUJPO%SJWFO%FWFMPQNFOUʹΑΔ࣭ཧ
アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の 妥当性チェックなど、プログラムコードによる評価。 ・決定的で安価かつ⾼速 ・⾃然⾔語の応答内容のニュアンスを捉えるには限界あ り。 2. LLM
as a Judge: ⼤規模⾔語モデル(LLM)⾃⾝を評 価者として利⽤する⼿法。 ・複雑な評価基準に対応できる可能性がある ・評価⽤LLMのプロンプトエンジニアリングが必要に なるなど、導⼊の難しさも伴う。 3. ⼈間によるアノテーション: ユーザーからのフィード バック(サムズアップ/ダウンなど)を収集したり、専 ⾨のアノテーターがLangSmithのアノテーションキュー を通じて評価を⾏う。
ジャーニー 1. オフライン評価 (Offline Evals) 本番環境に移⾏する前に、 事前に準備したデータセットに対してアプリケーションを実 ⾏し、パフォーマンスを測定・スコアリング。モデルやプロ ンプトの変更がパフォーマンスに与える影響を追跡。 2.
オンライン評価 (Online Evals) 本番環境で稼働中のアプリ ケーションに対し、実際に⼊⼒されるデータの⼀部をサンプ リングしてスコアリング。実際のユーザーインタラクション に基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏ 中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤 りを検知した場合には⾃⼰修正を促し、応答品質の向上や、 不適切な応答のブロックが可能。⽋点は時間とコストの増加。 ミスへの許容度が低い場合や、レイテンシが問題にならない ような⻑時間実⾏されるエージェントに適している。⻑時間 実⾏エージェントの増加に伴い、このタイプのEvalsの重要性 が増すと予測。
openevals https://github.com/langchain-ai/openevals