Slide 1

Slide 1 text

ペアーズでの、Langfuseを中⼼ とした評価ドリブンなリリース サイクルのご紹介 2025/01/28 Langfuse Night #1

Slide 2

Slide 2 text

About Me Nari | Takashi Narikawa(@fukubaka0825) ● 株式会社エウレカ ○ 2020年に⼊社 ■ SRE Team -> AI Team ○ MLOps Engineer ○ 筋トレ、⿇雀、サウナが好き

Slide 3

Slide 3 text

今⽇のお話しする範囲について ● 昨今、注⽬を集めるAIエージェントの話は出てきません ● シンプルな⽣成AIモデル API出⼒、ワークフローやRAGアプリケーションの評価 の話がメインです ○ マルチモーダルの話もでてきません ○ より複雑なAIエージェント評価でも、単体コンポーネントの評価が⼤前提 で、追加で実⾏経路評価などの観点があるだけ ● 上記の範囲で、「ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリース サイクル」を5分 LTでお話しできる範囲でお話しします ○ 詳しく知りたい⽅は、2024 Pairs Advent Calenderに記載した以下の記事も ご参照 ○ ペアーズにおける評価ドリブンなリリースサイクル:Langfuseをフル活⽤ したLLMOps基盤

Slide 4

Slide 4 text

Agenda 1. ペアーズにおけるLLMアプリケーション運⽤課題 2. ペアーズのLLMOps基盤のアーキテクチャ 3. LLMOpsツールとしてのLangfuseの採⽤理由 4. 評価ドリブンなリリースサイクルの全体像 5. オンライン評価プロセス 6. オフライン評価プロセス 7. 導⼊ステップ 8. 評価データセットの育てはじめ⽅ 9. まとめ

Slide 5

Slide 5 text

ペアーズにおけるLLMアプリケーション運⽤課題 ● LLM APIを活⽤したアプリケーションの運⽤では、以下のような課題が顕著 ○ 出⼒の評価が難しい ○ 従来のMLOps⼿法がそのままでは通じない ○ モデル∕プロンプトの出⼒精度低下(デグレ)の検知の重要性 ● 弊社ではLLMアプリケーションを開発運⽤しているのがAI Teamだけでなく、 SRE∕Platform Teamも開発者の⽣産性向上のためのLLM活⽤を戦略の⼀部とし て実施しており、全社的に使えるこういった課題の解決を⽀援する基盤を必要と していた

Slide 6

Slide 6 text

ペアーズのLLMOps基盤のアーキテクチャ

Slide 7

Slide 7 text

LLMOpsツールとしてのLangfuseの採⽤理由 ● LLMOpsに必要な機能を網羅 ○ LangfuseはSelf-hostするパターンでも、ログ‧トレース管理、プロンプト マネジメント、評価データセット、実験管理、カスタムスコアによる評価 など、LLMOpsに必要な機能を網羅的に提供 ● Self-hostしやすさ ○ LLMOps系のSaaSソリューションは、⼤規模トラフィックのログ‧トレー スデータ量によるコストが課題で、弊社規模のtoCサービスだと採⽤が難し い ○ LangfuseはOSSとして提供され、Self-hostすることが可能であり、しかも helm chartまで提供されているので、弊社のメインホスティング先である AWS EKSを⽤いて構築できることも⼤きかった

Slide 8

Slide 8 text

評価ドリブンなリリースサイクルの全体像

Slide 9

Slide 9 text

オンライン評価プロセス

Slide 10

Slide 10 text

オフライン評価プロセス ※LLMアプリケーション統合実験もほぼ同様のフロー

Slide 11

Slide 11 text

導⼊ステップ

Slide 12

Slide 12 text

評価データセットの育て始め⽅ ● 1. 初期データセット作成 ○ 10~20問程度からスタートでOK ○ 例えばシンプルなRAGアプリケーションなどであれば、Ragasで⽣成したシ ングル/マルチホップの問答ケース や他LLMで⽣成したケースの採⽤も検討 ○ ユーザー、ドメインエキスパート評価付きオンラインログトレースがすで にある場合はそちらも使⽤ ■ 正例/負例(検索不備、⽣成不備、プロンプト命令違反) ● 2. オンラインログトレースから追加し継続的に育てていく ○ 情報検索できていない、不完全回答などを洗い出してケース追加 ○ このプロセスを通して、評価基準の⾔語化、プロンプト改善にもつなげる

Slide 13

Slide 13 text

まとめ ● LLMアプリケーションの運⽤は従来のMLOpsの⼿法が通じず、かつ出⼒の評価が 難しいことなどが起因して、⾮常に難しい ● 上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を⽤いて、 オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリー スサイクルを回していくのがおすすめ ● 上記を実践するために ○ まずはアプリケーションのログ‧トレースを保存 ○ 次にプロンプトマネジメント導⼊と、評価データセット作りを10件から ○ そこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組 みを、評価基準など不完全で良いので導⼊してみる ○ これらをまずは実践することで、評価ドリブンなリリースライフサイクル が、評価データセットと評価基準を育てながら回せるようになる

Slide 14

Slide 14 text

We’re hiring! ペアーズではエンジニアを積極採⽤中! カジュアル⾯談もお待ちしております! (X: @fukubaka0825)

Slide 15

Slide 15 text

No content