Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
レンズの下のLLM / LLM under the Lens
Search
Henry Cui
December 30, 2023
Programming
0
140
レンズの下のLLM / LLM under the Lens
Henry Cui
December 30, 2023
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
68
Direct Preference Optimization
zchenry
0
260
Diffusion Model with Perceptual Loss
zchenry
0
210
Go with the Prompt Flow
zchenry
0
130
Mojo Dojo
zchenry
1
170
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
330
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
160
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
80
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
140
Other Decks in Programming
See All in Programming
グローバルなソフトウェアテスト組織における課題と戦略 / Challenges and Strategies in a Global Software Testing Organization #mf_techday
imtnd
0
220
モジュラモノリス、その前に / Modular monolith, before that
euglena1215
3
390
Assembling the Future: crafting the missing pieces of the Ruby on Wasm puzzle
skryukov
0
120
CSC509 Lecture 02
javiergs
PRO
0
140
◯◯エンジニアになった理由
gessy0129
PRO
0
580
WEBアプリケーションにおけるAWS Lambdaを用いた大規模な非同期処理の実践
delhi09
PRO
7
3.6k
実践Dash - 手を抜きながら本気で作るデータApplicationの基本と応用 / Dash for Python and Baseball
shinyorke
2
210
MLOps in Mercari Group’s Trust and Safety ML Team
cjhj
1
100
Findy - エンジニア向け会社紹介 / Findy Letter for Engineers
findyinc
4
93k
Pythonによるイベントソーシングへの挑戦と現状に対する考察 / Challenging Event Sourcing with Python and Reflections on the Current State
nrslib
3
840
推しの夫に恋のGPS「ときメーター」#M5Stack #IoT #M5JPTour2024
riyu
0
220
Frontend Magic mit CSS Houdini
joergneumann
0
420
Featured
See All Featured
Designing for humans not robots
tammielis
249
25k
Design by the Numbers
sachag
278
19k
Producing Creativity
orderedlist
PRO
341
39k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.3k
Designing for Performance
lara
604
68k
Faster Mobile Websites
deanohume
304
30k
StorybookのUI Testing Handbookを読んだ
zakiyama
26
5.1k
We Have a Design System, Now What?
morganepeng
49
7.1k
Unsuck your backbone
ammeep
667
57k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.6k
Agile that works and the tools we love
rasmusluckow
327
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
2
210
Transcript
レンズの下のLLM 機械学習の社会実装勉強会第30回 Henry 2023/12/30
LLM開発 ▪ LLM開発に必要な機能 • プロンプトエンジニアリングの繰り返し • 実験管理・性能評価・結果比較 ▪ これらの機能を達成する急成長のレポジトリ trulens
2
TruLens-Eval ▪ カルフォルニアにある会社TruEraのプロダクト • MLのMonitor. Debug. Test.にフォーカス ▪ TruLens-EvalはLLMの実験管理のために開発された ▪
TruLens-Explainは深層モデルの解釈性のために開発された ▪ 今日はTruLens-Evalに入門 3
TruLens-Evalを使う ▪ ライブラリインストール pip install trulens-eval==0.19.0 • 最新版の0.20.0では不明のエラーでimportできなかった ▪ シンプルなllm_app
• 2つの引数はサポートされてない ▪ Feedbackのカスタマイズ ▪ trulens-evalコマンドでstreamlitを開く • streamlit-javascriptが必要 4
まとめ ▪ TruLens-Evalの基本的な使い方 ▪ 余力ある方はLangChainなどとの組み合わせ 5