Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介
Search
fukubaka0825
January 28, 2025
Programming
1.4k
5
Share
ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介
Langfuse Night #1 での登壇資料です。
https://connpass.com/event/340099/
fukubaka0825
January 28, 2025
More Decks by fukubaka0825
See All by fukubaka0825
ペアーズにおける評価ドリブンな AI Agent 開発のご紹介
fukubaka0825
15
4.3k
ペアーズにおけるAmazon Bedrockを⽤いた障害対応⽀援 ⽣成AIツールの導⼊事例 @ 20241115配信AWSウェビナー登壇
fukubaka0825
7
3.4k
SRE NEXT 2022に学ぶこれからのSREキャリア
fukubaka0825
2
900
Steps toward self-service operations in eureka
fukubaka0825
1
8.2k
SREの探求のすゝめ
fukubaka0825
5
8k
Three principles to design your slackbot to be loved in your team
fukubaka0825
0
4.5k
Goでinteractive message slack botを作ってみた
fukubaka0825
0
330
Other Decks in Programming
See All in Programming
次世代リンターで探る、tsgo 時代における型認識カスタムルールの現実解
ytakahashii
1
910
SPMマルチモジュールで テストカバレッジを取得する技法
yosshi4486
0
110
Kubernetesを使わない環境にもCloud Nativeなデプロイを実現する / Enabling Cloud Native deployments without the complexity of Kubernetes
linyows
3
510
Stage 3 Decorators でできること / できないこと / TSKaigi 2026
susisu
1
450
AI時代になぜ書くのか
mutsumix
0
450
Agentic AI in the Frontend: Architectures with Open Standards @iJS London 2026
manfredsteyer
PRO
0
100
いつか誰かが、と思っていた フロントエンド刷新5年間の実践知
kiichisugihara
1
290
The Arts and Crafts of Work in the AI Era — Toward Mastery in Software Development
kuranuki
0
110
20260514 - build with ai 2026 - build LINE Bot with Gemini CLI
line_developers_tw
PRO
0
460
開発とはなにか、Essenceカーネルで見えるもの
ukin0k0
0
200
GitHub Copilot CLIのいいところ
htkym
2
780
AWSはOSSをどのように 考えているのか?
akihisaikeda
1
140
Featured
See All Featured
My Coaching Mixtape
mlcsv
0
130
Utilizing Notion as your number one productivity tool
mfonobong
4
300
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Into the Great Unknown - MozCon
thekraken
41
2.5k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
200
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.3k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
570
The World Runs on Bad Software
bkeepers
PRO
72
12k
Producing Creativity
orderedlist
PRO
348
40k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Transcript
ペアーズでの、Langfuseを中⼼ とした評価ドリブンなリリース サイクルのご紹介 2025/01/28 Langfuse Night #1
About Me Nari | Takashi Narikawa(@fukubaka0825) • 株式会社エウレカ ◦ 2020年に⼊社
▪ SRE Team -> AI Team ◦ MLOps Engineer ◦ 筋トレ、⿇雀、サウナが好き
今⽇のお話しする範囲について • 昨今、注⽬を集めるAIエージェントの話は出てきません • シンプルな⽣成AIモデル API出⼒、ワークフローやRAGアプリケーションの評価 の話がメインです ◦ マルチモーダルの話もでてきません ◦
より複雑なAIエージェント評価でも、単体コンポーネントの評価が⼤前提 で、追加で実⾏経路評価などの観点があるだけ • 上記の範囲で、「ペアーズでの、Langfuseを中⼼とした評価ドリブンなリリース サイクル」を5分 LTでお話しできる範囲でお話しします ◦ 詳しく知りたい⽅は、2024 Pairs Advent Calenderに記載した以下の記事も ご参照 ◦ ペアーズにおける評価ドリブンなリリースサイクル:Langfuseをフル活⽤ したLLMOps基盤
Agenda 1. ペアーズにおけるLLMアプリケーション運⽤課題 2. ペアーズのLLMOps基盤のアーキテクチャ 3. LLMOpsツールとしてのLangfuseの採⽤理由 4. 評価ドリブンなリリースサイクルの全体像 5.
オンライン評価プロセス 6. オフライン評価プロセス 7. 導⼊ステップ 8. 評価データセットの育てはじめ⽅ 9. まとめ
ペアーズにおけるLLMアプリケーション運⽤課題 • LLM APIを活⽤したアプリケーションの運⽤では、以下のような課題が顕著 ◦ 出⼒の評価が難しい ◦ 従来のMLOps⼿法がそのままでは通じない ◦ モデル∕プロンプトの出⼒精度低下(デグレ)の検知の重要性
• 弊社ではLLMアプリケーションを開発運⽤しているのがAI Teamだけでなく、 SRE∕Platform Teamも開発者の⽣産性向上のためのLLM活⽤を戦略の⼀部とし て実施しており、全社的に使えるこういった課題の解決を⽀援する基盤を必要と していた
ペアーズのLLMOps基盤のアーキテクチャ
LLMOpsツールとしてのLangfuseの採⽤理由 • LLMOpsに必要な機能を網羅 ◦ LangfuseはSelf-hostするパターンでも、ログ‧トレース管理、プロンプト マネジメント、評価データセット、実験管理、カスタムスコアによる評価 など、LLMOpsに必要な機能を網羅的に提供 • Self-hostしやすさ ◦
LLMOps系のSaaSソリューションは、⼤規模トラフィックのログ‧トレー スデータ量によるコストが課題で、弊社規模のtoCサービスだと採⽤が難し い ◦ LangfuseはOSSとして提供され、Self-hostすることが可能であり、しかも helm chartまで提供されているので、弊社のメインホスティング先である AWS EKSを⽤いて構築できることも⼤きかった
評価ドリブンなリリースサイクルの全体像
オンライン評価プロセス
オフライン評価プロセス ※LLMアプリケーション統合実験もほぼ同様のフロー
導⼊ステップ
評価データセットの育て始め⽅ • 1. 初期データセット作成 ◦ 10~20問程度からスタートでOK ◦ 例えばシンプルなRAGアプリケーションなどであれば、Ragasで⽣成したシ ングル/マルチホップの問答ケース や他LLMで⽣成したケースの採⽤も検討
◦ ユーザー、ドメインエキスパート評価付きオンラインログトレースがすで にある場合はそちらも使⽤ ▪ 正例/負例(検索不備、⽣成不備、プロンプト命令違反) • 2. オンラインログトレースから追加し継続的に育てていく ◦ 情報検索できていない、不完全回答などを洗い出してケース追加 ◦ このプロセスを通して、評価基準の⾔語化、プロンプト改善にもつなげる
まとめ • LLMアプリケーションの運⽤は従来のMLOpsの⼿法が通じず、かつ出⼒の評価が 難しいことなどが起因して、⾮常に難しい • 上記の課題を解決するために、Langfuseを中枢に据えたLLMOps基盤を⽤いて、 オンライン評価とオフライン評価でリリースを挟み込んだ評価ドリブンなリリー スサイクルを回していくのがおすすめ • 上記を実践するために
◦ まずはアプリケーションのログ‧トレースを保存 ◦ 次にプロンプトマネジメント導⼊と、評価データセット作りを10件から ◦ そこからプロンプト実験と、LLM-as-a-JudgeなどのLLM Evaluatorの仕組 みを、評価基準など不完全で良いので導⼊してみる ◦ これらをまずは実践することで、評価ドリブンなリリースライフサイクル が、評価データセットと評価基準を育てながら回せるようになる
We’re hiring! ペアーズではエンジニアを積極採⽤中! カジュアル⾯談もお待ちしております! (X: @fukubaka0825)
None