AIコーディング道場成果発表【予告】

吉⽥真吾 +"846(ԣ඿ࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜
DMPVEQBDL ג ηΫγϣϯφΠϯ ג αΠμε ג δΣωϥςΟϒΤʔδΣϯπ p"844FSWFSMFTT)FSP p-BOH$IBJO ެࣜ &YQFSU"NCBTTBEPS コミュニティ型転職・独⽴

ίʔυิ׬ *%&౷߹νϟοτܕ "*ιϑτ΢ΣΞΤϯδχΞ ฒྻඇಉظ׬શͳҕ೚ (FNJOJ$PEF"TTJTU +VMFT 74$PEF $MJOF3PP$PEF $VSTPS 8JOETVSG
%FWJO (JU)VC$PQJMPU (JU)VC$PQJMPU "HFOU.PEF $PEFY $MBVEF$PEF $-* $-*νϟοτܕ +FU#SBJOT*%&

ʲ࣮࿥ʳ"*ίʔσΟϯάͰθϩ͔Β ঎༻αʔϏεΛϦϦʔεͯ͠Ք͙ه࿥ )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ৔ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ ੒Ռൃදձ 5IV

Task Master https://github.com/eyaltoledano/claude-task-master PRDをタスクに分解して管理できるMCP経由で利⽤するサービス(ローカル起動可能)

Claude Code + Github Actions

Claude Code / CLAUDE.md によるリポジトリの仕様書の明記

ͳʹΛֶͿ΂͖͔ • ιϑτ΢ΣΞΤϯδχΞϦϯάͷ֤޻ఔʹ"*ΛͲ͏׆༻͢Δ͔ • ͸͡Ί͸খ͍͞ن໛ͷ੡඼ͷ13%͔Β"*Ͱ։ൃ͍ͯ͘͠αΠΫ ϧΛճ͠ɺঃʑʹେ͖ͳن໛ʹ͍ͯ͘͜͠ͱ • ཁٻ։ൃɺλεΫܭըɺ֤λεΫͷ࣮ߦ͕جຊΞϓϩʔνͰ͋ ΓɺαϒλεΫϨϕϧͰ࣮ߦˠϨϏϡʔˠద༻ˠ࣍΁ •
$MBVEF$PEF$MBVEF΁ͷຽ଒େҠಈɿ͜ΕΛ͖͔͚ͬʹ • ΈΜͳͰू·ͬͯͭͶʹΑΓྑ͍࣮ફతͳ஌ࣝͷަ׵ɾϋϯζ Φϯ

ʲ࣮࿥ʳ"*ίʔσΟϯάͰθϩ͔Β ঎༻αʔϏεΛϦϦʔεͯ͠Ք͙ه࿥ )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "*ίʔσΟϯάಓ৔ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ
3PCPDP γχΞίϯαϧλϯτ ୈظ ੒Ռൃදձ 5IV

খ͘͞ධՁͯ͠ େ͖͘ҭͯΔ "*ίʔσΟϯάಓ৔ ୈճ ੒Ռൃදձ ٢ా ਅޗ

ධՁۦಈ։ൃ &WBMVBUJPO%SJWFO%FWFMPQNFOUʹΑΔ඼࣭؅ཧ

アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の妥当性チェックなど、プログラムコードによる評価。・決定的で安価かつ⾼速・⾃然⾔語の応答内容のニュアンスを捉えるには限界あり。 2. LLM
as a Judge: ⼤規模⾔語モデル（LLM）⾃⾝を評価者として利⽤する⼿法。・複雑な評価基準に対応できる可能性がある・評価⽤LLMのプロンプトエンジニアリングが必要になるなど、導⼊の難しさも伴う。 3. ⼈間によるアノテーション: ユーザーからのフィードバック（サムズアップ／ダウンなど）を収集したり、専⾨のアノテーターがLangSmithのアノテーションキューを通じて評価を⾏う。

ジャーニー 1. オフライン評価 (Offline Evals) 本番環境に移⾏する前に、事前に準備したデータセットに対してアプリケーションを実⾏し、パフォーマンスを測定・スコアリング。モデルやプロンプトの変更がパフォーマンスに与える影響を追跡。 2.
オンライン評価 (Online Evals) 本番環境で稼働中のアプリケーションに対し、実際に⼊⼒されるデータの⼀部をサンプリングしてスコアリング。実際のユーザーインタラクションに基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤りを検知した場合には⾃⼰修正を促し、応答品質の向上や、不適切な応答のブロックが可能。⽋点は時間とコストの増加。ミスへの許容度が低い場合や、レイテンシが問題にならないような⻑時間実⾏されるエージェントに適している。⻑時間実⾏エージェントの増加に伴い、このタイプのEvalsの重要性が増すと予測。

openevals https://github.com/langchain-ai/openevals

AIコーディング道場成果発表【予告】

AIコーディング道場成果発表【予告】

吉田真吾

More Decks by 吉田真吾

Other Decks in Technology

Featured

Transcript

吉⽥真吾 +"846(ԣ඿ࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜

ίʔυิ׬ %&౷߹νϟοτܕ "ιϑτ΢ΣΞΤϯδχΞ ฒྻඇಉظ׬શͳҕ೚ (FNJOJ$PEF"TTJTU +VMFT 74$PEF $MJOF3PP$PEF $VSTPS 8JOETVSG

ʲ࣮࿥ʳ"ίʔσΟϯάͰθϩ͔Β ঎༻αʔϏεΛϦϦʔεͯ͠Ք͙ه࿥ )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "ίʔσΟϯάಓ৔ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ

Task Master https://github.com/eyaltoledano/claude-task-master PRDをタスクに分解して管理できるMCP経由で利⽤するサービス(ローカル起動可能)

Claude Code + Github Actions

Claude Code / CLAUDE.md によるリポジトリの仕様書の明記

ʲ࣮࿥ʳ"ίʔσΟϯάͰθϩ͔Β ঎༻αʔϏεΛϦϦʔεͯ͠Ք͙ه࿥ )&30;CZ4FDUJPO#:/".&CZ(FOFSBUJWF"HFOUTڞ࠵ ٢ాਅޗ 4FDUJPO (FOFSBUJWF"HFOUT "ίʔσΟϯάಓ৔ ެ։ษڧձ δϣϯυώϣϯʢṄಓᭈʣ

খ͘͞ධՁͯ͠ େ͖͘ҭͯΔ "*ίʔσΟϯάಓ৔ ୈճ ੒Ռൃදձ ٢ా ਅޗ

ධՁۦಈ։ൃ &WBMVBUJPO%SJWFO%FWFMPQNFOUʹΑΔ඼࣭؅ཧ

アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の妥当性チェックなど、プログラムコードによる評価。・決定的で安価かつ⾼速・⾃然⾔語の応答内容のニュアンスを捉えるには限界あり。 2. LLM

openevals https://github.com/langchain-ai/openevals