Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
レンズの下のLLM / LLM under the Lens
Search
Henry Cui
December 30, 2023
Programming
0
180
レンズの下のLLM / LLM under the Lens
Henry Cui
December 30, 2023
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
190
Direct Preference Optimization
zchenry
0
370
Diffusion Model with Perceptual Loss
zchenry
0
370
Go with the Prompt Flow
zchenry
0
160
Mojo Dojo
zchenry
0
200
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
550
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
240
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
110
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
160
Other Decks in Programming
See All in Programming
統一感のある Go コードを生成 AI の力で手にいれる
otakakot
0
3k
Cloudflare Realtime と Workers でつくるサーバーレス WebRTC
nekoya3
0
410
カクヨムAndroidアプリのリブート
numeroanddev
0
430
Rails産でないDBを Railsに引っ越すHACK - Omotesando.rb #110
lnit
1
160
ドメインモデリングにおける抽象の役割、tagless-finalによるDSL構築、そして型安全な最適化
knih
11
1.9k
複数アプリケーションを育てていくための共通化戦略
irof
10
3.9k
事業戦略を理解してソフトウェアを設計する
masuda220
PRO
22
6.2k
Practical Tips and Tricks for Working with Compose Multiplatform Previews (mDevCamp 2025)
stewemetal
0
130
生成AIで日々のエラー調査を進めたい
yuyaabo
0
600
XSLTで作るBrainfuck処理系
makki_d
0
210
単体テストの始め方/作り方
toms74209200
0
490
FormFlow - Build Stunning Multistep Forms
yceruto
1
180
Featured
See All Featured
Music & Morning Musume
bryan
46
6.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Speed Design
sergeychernyshev
31
1k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Designing for humans not robots
tammielis
253
25k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.8k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
660
Code Review Best Practice
trishagee
68
18k
Transcript
レンズの下のLLM 機械学習の社会実装勉強会第30回 Henry 2023/12/30
LLM開発 ▪ LLM開発に必要な機能 • プロンプトエンジニアリングの繰り返し • 実験管理・性能評価・結果比較 ▪ これらの機能を達成する急成長のレポジトリ trulens
2
TruLens-Eval ▪ カルフォルニアにある会社TruEraのプロダクト • MLのMonitor. Debug. Test.にフォーカス ▪ TruLens-EvalはLLMの実験管理のために開発された ▪
TruLens-Explainは深層モデルの解釈性のために開発された ▪ 今日はTruLens-Evalに入門 3
TruLens-Evalを使う ▪ ライブラリインストール pip install trulens-eval==0.19.0 • 最新版の0.20.0では不明のエラーでimportできなかった ▪ シンプルなllm_app
• 2つの引数はサポートされてない ▪ Feedbackのカスタマイズ ▪ trulens-evalコマンドでstreamlitを開く • streamlit-javascriptが必要 4
まとめ ▪ TruLens-Evalの基本的な使い方 ▪ 余力ある方はLangChainなどとの組み合わせ 5