Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIコーディング道場成果発表【予告】

 AIコーディング道場成果発表【予告】

Avatar for 吉田真吾

吉田真吾

June 07, 2025
Tweet

More Decks by 吉田真吾

Other Decks in Technology

Transcript

  1. 吉⽥真吾 +"846(ԣ඿ࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜

     DMPVEQBDL  ג ηΫγϣϯφΠϯ  ג αΠμε  ג δΣωϥςΟϒΤʔδΣϯπ p"844FSWFSMFTT)FSP p-BOH$IBJO ެࣜ &YQFSU"NCBTTBEPS コミュニティ型転職・独⽴
  2. アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の 妥当性チェックなど、プログラムコードによる評価。 ・決定的で安価かつ⾼速 ・⾃然⾔語の応答内容のニュアンスを捉えるには限界あ り。 2. LLM

    as a Judge: ⼤規模⾔語モデル(LLM)⾃⾝を評 価者として利⽤する⼿法。 ・複雑な評価基準に対応できる可能性がある ・評価⽤LLMのプロンプトエンジニアリングが必要に なるなど、導⼊の難しさも伴う。 3. ⼈間によるアノテーション: ユーザーからのフィード バック(サムズアップ/ダウンなど)を収集したり、専 ⾨のアノテーターがLangSmithのアノテーションキュー を通じて評価を⾏う。
  3. ジャーニー 1. オフライン評価 (Offline Evals) 本番環境に移⾏する前に、 事前に準備したデータセットに対してアプリケーションを実 ⾏し、パフォーマンスを測定・スコアリング。モデルやプロ ンプトの変更がパフォーマンスに与える影響を追跡。 2.

    オンライン評価 (Online Evals) 本番環境で稼働中のアプリ ケーションに対し、実際に⼊⼒されるデータの⼀部をサンプ リングしてスコアリング。実際のユーザーインタラクション に基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏ 中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤 りを検知した場合には⾃⼰修正を促し、応答品質の向上や、 不適切な応答のブロックが可能。⽋点は時間とコストの増加。 ミスへの許容度が低い場合や、レイテンシが問題にならない ような⻑時間実⾏されるエージェントに適している。⻑時間 実⾏エージェントの増加に伴い、このタイプのEvalsの重要性 が増すと予測。