Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
fukubaka0825
January 28, 2025
Programming
5
1.3k
ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介
Langfuse Night #1 での登壇資料です。
https://connpass.com/event/340099/
fukubaka0825
January 28, 2025
Tweet
Share
More Decks by fukubaka0825
See All by fukubaka0825
ペアーズにおける評価ドリブンな AI Agent 開発のご紹介
fukubaka0825
15
4.2k
ペアーズにおけるAmazon Bedrockを⽤いた障害対応⽀援 ⽣成AIツールの導⼊事例 @ 20241115配信AWSウェビナー登壇
fukubaka0825
7
3.3k
SRE NEXT 2022に学ぶこれからのSREキャリア
fukubaka0825
2
870
Steps toward self-service operations in eureka
fukubaka0825
1
8.1k
SREの探求のすゝめ
fukubaka0825
5
7.9k
Three principles to design your slackbot to be loved in your team
fukubaka0825
0
4.4k
Goでinteractive message slack botを作ってみた
fukubaka0825
0
320
Other Decks in Programming
See All in Programming
AI Agent の開発と運用を支える Durable Execution #AgentsInProd
izumin5210
7
2.3k
生成AIを使ったコードレビューで定性的に品質カバー
chiilog
1
290
24時間止められないシステムを守る-医療ITにおけるランサムウェア対策の実際
koukimiura
1
150
カスタマーサクセス業務を変革したヘルススコアの実現と学び
_hummer0724
0
780
Claude Codeと2つの巻き戻し戦略 / Two Rewind Strategies with Claude Code
fruitriin
0
160
AWS re:Invent 2025参加 直前 Seattle-Tacoma Airport(SEA)におけるハードウェア紛失インシデントLT
tetutetu214
2
120
Fluid Templating in TYPO3 14
s2b
0
140
humanlayerのブログから学ぶ、良いCLAUDE.mdの書き方
tsukamoto1783
0
200
Lambda のコードストレージ容量に気をつけましょう
tattwan718
0
170
フロントエンド開発の勘所 -複数事業を経験して見えた判断軸の違い-
heimusu
7
2.8k
360° Signals in Angular: Signal Forms with SignalStore & Resources @ngLondon 01/2026
manfredsteyer
PRO
0
150
Unicodeどうしてる? PHPから見たUnicode対応と他言語での対応についてのお伺い
youkidearitai
PRO
1
2.6k
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.6k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
210
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Mobile First: as difficult as doing things right
swwweet
225
10k
Odyssey Design
rkendrick25
PRO
1
510
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
What does AI have to do with Human Rights?
axbom
PRO
0
2k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
130
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Transcript
ペアーズでの、Langfuseを中⼼ とした評価ドリブンなリリース サイクルのご紹介 2025/01/28 Langfuse Night #1
About Me Nari | Takashi Narikawa(@fukubaka0825) • 株式会社エウレカ ◦ 2020年に⼊社
▪ SRE Team -> AI Team ◦ MLOps Engineer ◦ 筋トレ、⿇雀、サウナが好き
今⽇のお話しする範囲について • 昨今、注⽬を集めるAIエージェントの話は出てきません • シンプルな⽣成AIモデル API出⼒、ワークフローやRAGアプリケーションの評価 の話がメインです ◦ マルチモーダルの話もでてきません ◦
より複雑なAIエージェント評価でも、単体コンポーネントの評価が⼤前提 で、追加で実⾏経路評価などの観点があるだけ • 上記の範囲で、「ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリース サイクル」を5分 LTでお話しできる範囲でお話しします ◦ 詳しく知りたい⽅は、2024 Pairs Advent Calenderに記載した以下の記事も ご参照 ◦ ペアーズにおける評価ドリブンなリリースサイクル:Langfuseをフル活⽤ したLLMOps基盤
Agenda 1. ペアーズにおけるLLMアプリケーション運⽤課題 2. ペアーズのLLMOps基盤のアーキテクチャ 3. LLMOpsツールとしてのLangfuseの採⽤理由 4. 評価ドリブンなリリースサイクルの全体像 5.
オンライン評価プロセス 6. オフライン評価プロセス 7. 導⼊ステップ 8. 評価データセットの育てはじめ⽅ 9. まとめ
ペアーズにおけるLLMアプリケーション運⽤課題 • LLM APIを活⽤したアプリケーションの運⽤では、以下のような課題が顕著 ◦ 出⼒の評価が難しい ◦ 従来のMLOps⼿法がそのままでは通じない ◦ モデル∕プロンプトの出⼒精度低下(デグレ)の検知の重要性
• 弊社ではLLMアプリケーションを開発運⽤しているのがAI Teamだけでなく、 SRE∕Platform Teamも開発者の⽣産性向上のためのLLM活⽤を戦略の⼀部とし て実施しており、全社的に使えるこういった課題の解決を⽀援する基盤を必要と していた
ペアーズのLLMOps基盤のアーキテクチャ
LLMOpsツールとしてのLangfuseの採⽤理由 • LLMOpsに必要な機能を網羅 ◦ LangfuseはSelf-hostするパターンでも、ログ‧トレース管理、プロンプト マネジメント、評価データセット、実験管理、カスタムスコアによる評価 など、LLMOpsに必要な機能を網羅的に提供 • Self-hostしやすさ ◦
LLMOps系のSaaSソリューションは、⼤規模トラフィックのログ‧トレー スデータ量によるコストが課題で、弊社規模のtoCサービスだと採⽤が難し い ◦ LangfuseはOSSとして提供され、Self-hostすることが可能であり、しかも helm chartまで提供されているので、弊社のメインホスティング先である AWS EKSを⽤いて構築できることも⼤きかった
評価ドリブンなリリースサイクルの全体像
オンライン評価プロセス
オフライン評価プロセス ※LLMアプリケーション統合実験もほぼ同様のフロー
導⼊ステップ
評価データセットの育て始め⽅ • 1. 初期データセット作成 ◦ 10~20問程度からスタートでOK ◦ 例えばシンプルなRAGアプリケーションなどであれば、Ragasで⽣成したシ ングル/マルチホップの問答ケース や他LLMで⽣成したケースの採⽤も検討
◦ ユーザー、ドメインエキスパート評価付きオンラインログトレースがすで にある場合はそちらも使⽤ ▪ 正例/負例(検索不備、⽣成不備、プロンプト命令違反) • 2. オンラインログトレースから追加し継続的に育てていく ◦ 情報検索できていない、不完全回答などを洗い出してケース追加 ◦ このプロセスを通して、評価基準の⾔語化、プロンプト改善にもつなげる
まとめ • LLMアプリケーションの運⽤は従来のMLOpsの⼿法が通じず、かつ出⼒の評価が 難しいことなどが起因して、⾮常に難しい • 上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を⽤いて、 オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリー スサイクルを回していくのがおすすめ • 上記を実践するために
◦ まずはアプリケーションのログ‧トレースを保存 ◦ 次にプロンプトマネジメント導⼊と、評価データセット作りを10件から ◦ そこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組 みを、評価基準など不完全で良いので導⼊してみる ◦ これらをまずは実践することで、評価ドリブンなリリースライフサイクル が、評価データセットと評価基準を育てながら回せるようになる
We’re hiring! ペアーズではエンジニアを積極採⽤中! カジュアル⾯談もお待ちしております! (X: @fukubaka0825)
None