Slide 3
Slide 3 text
今⽇のお話しする範囲について
● 昨今、注⽬を集めるAIエージェントの話は出てきません
● シンプルな⽣成AIモデル API出⼒、ワークフローやRAGアプリケーションの評価
の話がメインです
○ マルチモーダルの話もでてきません
○ より複雑なAIエージェント評価でも、単体コンポーネントの評価が⼤前提
で、追加で実⾏経路評価などの観点があるだけ
● 上記の範囲で、「ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリース
サイクル」を5分 LTでお話しできる範囲でお話しします
○ 詳しく知りたい⽅は、2024 Pairs Advent Calenderに記載した以下の記事も
ご参照
○ ペアーズにおける評価ドリブンなリリースサイクル:Langfuseをフル活⽤
したLLMOps基盤