ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介

Slide 1

Slide 1 text

ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリースサイクルのご紹介 2025/01/28 Langfuse Night #1

Slide 2

Slide 2 text

About Me Nari | Takashi Narikawa（@fukubaka0825） ● 株式会社エウレカ ○ 2020年に⼊社 ■ SRE Team -> AI Team ○ MLOps Engineer ○ 筋トレ、⿇雀、サウナが好き

Slide 3

Slide 3 text

今⽇のお話しする範囲について ● 昨今、注⽬を集めるAIエージェントの話は出てきません ● シンプルな⽣成AIモデル API出⼒、ワークフローやRAGアプリケーションの評価の話がメインです ○ マルチモーダルの話もでてきません ○ より複雑なAIエージェント評価でも、単体コンポーネントの評価が⼤前提で、追加で実⾏経路評価などの観点があるだけ ● 上記の範囲で、「ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリースサイクル」を5分 LTでお話しできる範囲でお話しします ○ 詳しく知りたい⽅は、2024 Pairs Advent Calenderに記載した以下の記事もご参照 ○ ペアーズにおける評価ドリブンなリリースサイクル：Langfuseをフル活⽤したLLMOps基盤

Slide 4

Slide 4 text

Agenda 1. ペアーズにおけるLLMアプリケーション運⽤課題 2. ペアーズのLLMOps基盤のアーキテクチャ 3. LLMOpsツールとしてのLangfuseの採⽤理由 4. 評価ドリブンなリリースサイクルの全体像 5. オンライン評価プロセス 6. オフライン評価プロセス 7. 導⼊ステップ 8. 評価データセットの育てはじめ⽅ 9. まとめ

Slide 5

Slide 5 text

ペアーズにおけるLLMアプリケーション運⽤課題 ● LLM APIを活⽤したアプリケーションの運⽤では、以下のような課題が顕著 ○ 出⼒の評価が難しい ○ 従来のMLOps⼿法がそのままでは通じない ○ モデル∕プロンプトの出⼒精度低下（デグレ）の検知の重要性 ● 弊社ではLLMアプリケーションを開発運⽤しているのがAI Teamだけでなく、 SRE∕Platform Teamも開発者の⽣産性向上のためのLLM活⽤を戦略の⼀部として実施しており、全社的に使えるこういった課題の解決を⽀援する基盤を必要としていた

Slide 6

Slide 6 text

ペアーズのLLMOps基盤のアーキテクチャ

Slide 7

Slide 7 text

LLMOpsツールとしてのLangfuseの採⽤理由 ● LLMOpsに必要な機能を網羅 ○ LangfuseはSelf-hostするパターンでも、ログ‧トレース管理、プロンプトマネジメント、評価データセット、実験管理、カスタムスコアによる評価など、LLMOpsに必要な機能を網羅的に提供 ● Self-hostしやすさ ○ LLMOps系のSaaSソリューションは、⼤規模トラフィックのログ‧トレースデータ量によるコストが課題で、弊社規模のtoCサービスだと採⽤が難しい ○ LangfuseはOSSとして提供され、Self-hostすることが可能であり、しかも helm chartまで提供されているので、弊社のメインホスティング先である AWS EKSを⽤いて構築できることも⼤きかった

Slide 8

Slide 8 text

評価ドリブンなリリースサイクルの全体像

Slide 9

Slide 9 text

オンライン評価プロセス

Slide 10

Slide 10 text

オフライン評価プロセス ※LLMアプリケーション統合実験もほぼ同様のフロー

Slide 11

Slide 11 text

導⼊ステップ

Slide 12

Slide 12 text

評価データセットの育て始め⽅ ● 1. 初期データセット作成 ○ 10~20問程度からスタートでOK ○ 例えばシンプルなRAGアプリケーションなどであれば、Ragasで⽣成したシングル/マルチホップの問答ケースや他LLMで⽣成したケースの採⽤も検討 ○ ユーザー、ドメインエキスパート評価付きオンラインログトレースがすでにある場合はそちらも使⽤ ■ 正例/負例（検索不備、⽣成不備、プロンプト命令違反） ● 2. オンラインログトレースから追加し継続的に育てていく ○ 情報検索できていない、不完全回答などを洗い出してケース追加 ○ このプロセスを通して、評価基準の⾔語化、プロンプト改善にもつなげる

Slide 13

Slide 13 text

まとめ ● LLMアプリケーションの運⽤は従来のMLOpsの⼿法が通じず、かつ出⼒の評価が難しいことなどが起因して、⾮常に難しい ● 上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を⽤いて、オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリースサイクルを回していくのがおすすめ ● 上記を実践するために ○ まずはアプリケーションのログ‧トレースを保存 ○ 次にプロンプトマネジメント導⼊と、評価データセット作りを10件から ○ そこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組みを、評価基準など不完全で良いので導⼊してみる ○ これらをまずは実践することで、評価ドリブンなリリースライフサイクルが、評価データセットと評価基準を育てながら回せるようになる

Slide 14

Slide 14 text

We’re hiring! ペアーズではエンジニアを積極採⽤中！カジュアル⾯談もお待ちしております！ (X: @fukubaka0825)

Slide 15

Slide 15 text

No content