Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIコーディング道場成果発表【予告】
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
吉田真吾
June 07, 2025
Technology
63
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIコーディング道場成果発表【予告】
吉田真吾
June 07, 2025
More Decks by 吉田真吾
See All by 吉田真吾
AIに代替されるフリーランス、AIを操りチームを導くリーダー。運命を分ける『AI-DLC』とインテントマネジメント/Intent is All We Need
yoshidashingo
0
30
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
160
早く行きたいならClaude Codeと行け、遠くに行きたいならチームで行け 〜AI駆動開発の講師が教えるAIがリードするチーム開発の実践ノウハウ/Fast w/ Claude Code, Far Together
yoshidashingo
0
20
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
390
はじめてのAI-DLC
yoshidashingo
2
800
初手AIで実現する 「AIと一緒に働く」ということ - AIファーストを実現する汎用タスクエージェントのつくりかた / JAWS DAYS 2026
yoshidashingo
0
46
Claude Codeで実践するスペック駆動開発入門 / sdd-with-claude_code
yoshidashingo
4
16k
エンジニアはコミュニティで伸びる!テックコミュニティ代表者トークリレー / TCP2026
yoshidashingo
0
24
達人に学ぶAIコーディング / ai-coding-learned-from-master
yoshidashingo
0
30
Other Decks in Technology
See All in Technology
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
270
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
270
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
270
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
170
GoとSIMDとWasmの今。
askua
3
520
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
51
58k
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
420
LLMにもCAP定理があるという話
harukasakihara
0
260
AIプラットフォームを運用し続けるための可観測性
tanimuyk
4
1.2k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
120
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.4k
noUncheckedIndexedAccess、3時間、1万円。 / noUncheckedIndexedAccess, 3 Hours, 10,000 JPY.
kaonavi
1
340
Featured
See All Featured
The browser strikes back
jonoalderson
0
1.2k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
BBQ
matthewcrist
89
10k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Designing for Timeless Needs
cassininazir
1
250
The Curse of the Amulet
leimatthew05
1
13k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
570
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
sira's awesome portfolio website redesign presentation
elsirapls
0
270
Transcript
吉⽥真吾 +"846(ԣࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜
DMPVEQBDL ג ηΫγϣϯφΠϯ ג αΠμε ג δΣωϥςΟϒΤʔδΣϯπ p"844FSWFSMFTT)FSP p-BOH$IBJO ެࣜ &YQFSU"NCBTTBEPS コミュニティ型転職・独⽴
None
ίʔυิ *%&౷߹νϟοτܕ "*ιϑτΣΞΤϯδχΞ ฒྻඇಉظશͳҕ (FNJOJ$PEF"TTJTU +VMFT 74$PEF $MJOF3PP$PEF $VSTPS 8JOETVSG
%FWJO (JU)VC$PQJMPU (JU)VC$PQJMPU "HFOU.PEF $PEFY $MBVEF$PEF $-* $-*νϟοτܕ +FU#SBJOT*%&
ʲ࣮ʳ"*ίʔσΟϯάͰθϩ͔Β ༻αʔϏεΛϦϦʔεͯ͠Ք͙ه )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ Ռൃදձ 5IV
None
Task Master https://github.com/eyaltoledano/claude-task-master PRDをタスクに分解して管理できるMCP経由で利⽤するサービス(ローカル起動可能)
None
None
Claude Code + Github Actions
Claude Code / CLAUDE.md によるリポジトリの仕様書の明記
ͳʹΛֶͿ͖͔ • ιϑτΣΞΤϯδχΞϦϯάͷ֤ఔʹ"*ΛͲ͏׆༻͢Δ͔ • ͡Ίখ͍͞نͷͷ13%͔Β"*Ͱ։ൃ͍ͯ͘͠αΠΫ ϧΛճ͠ɺঃʑʹେ͖ͳنʹ͍ͯ͘͜͠ͱ • ཁٻ։ൃɺλεΫܭըɺ֤λεΫͷ࣮ߦ͕جຊΞϓϩʔνͰ͋ ΓɺαϒλεΫϨϕϧͰ࣮ߦˠϨϏϡʔˠద༻ˠ࣍ •
$MBVEF$PEF$MBVEFͷຽେҠಈɿ͜ΕΛ͖͔͚ͬʹ • ΈΜͳͰू·ͬͯͭͶʹΑΓྑ͍࣮ફతͳࣝͷަɾϋϯζ Φϯ
ʲ࣮ʳ"*ίʔσΟϯάͰθϩ͔Β ༻αʔϏεΛϦϦʔεͯ͠Ք͙ه )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ Ռൃදձ 5IV
খ͘͞ධՁͯ͠ େ͖͘ҭͯΔ "*ίʔσΟϯάಓ ୈճ Ռൃදձ ٢ా ਅޗ
ධՁۦಈ։ൃ &WBMVBUJPO%SJWFO%FWFMPQNFOUʹΑΔ࣭ཧ
アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の 妥当性チェックなど、プログラムコードによる評価。 ・決定的で安価かつ⾼速 ・⾃然⾔語の応答内容のニュアンスを捉えるには限界あ り。 2. LLM
as a Judge: ⼤規模⾔語モデル(LLM)⾃⾝を評 価者として利⽤する⼿法。 ・複雑な評価基準に対応できる可能性がある ・評価⽤LLMのプロンプトエンジニアリングが必要に なるなど、導⼊の難しさも伴う。 3. ⼈間によるアノテーション: ユーザーからのフィード バック(サムズアップ/ダウンなど)を収集したり、専 ⾨のアノテーターがLangSmithのアノテーションキュー を通じて評価を⾏う。
ジャーニー 1. オフライン評価 (Offline Evals) 本番環境に移⾏する前に、 事前に準備したデータセットに対してアプリケーションを実 ⾏し、パフォーマンスを測定・スコアリング。モデルやプロ ンプトの変更がパフォーマンスに与える影響を追跡。 2.
オンライン評価 (Online Evals) 本番環境で稼働中のアプリ ケーションに対し、実際に⼊⼒されるデータの⼀部をサンプ リングしてスコアリング。実際のユーザーインタラクション に基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏ 中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤 りを検知した場合には⾃⼰修正を促し、応答品質の向上や、 不適切な応答のブロックが可能。⽋点は時間とコストの増加。 ミスへの許容度が低い場合や、レイテンシが問題にならない ような⻑時間実⾏されるエージェントに適している。⻑時間 実⾏エージェントの増加に伴い、このタイプのEvalsの重要性 が増すと予測。
openevals https://github.com/langchain-ai/openevals