Slide 10
Slide 10 text
© LayerX Inc.
技術組織としての分岐点
Datasets & Scores をつかった精度検証
⼩さい仕事をするLLMと精度検証
# 実装のイメージ
from langfuse import get_client
langfuse = get_client()
# 1. Datasetを取得
dataset = langfuse.get_dataset("dataset_name")
# 2. 新しいプロンプトで全テストケースを実行
for item in dataset.items:
# プロンプトを実行
result = invoke_llm(
prompt=new_prompt,
input_text=item.input["text"]
)
# 3. 結果を評価してスコアを付与
# ここでは予想される結果と一致しているかだけチェック
is_correct = (result == item.expected_output)
# Langfuseにスコアを記録
langfuse.score(
name="accuracy",
value=1.0 if is_correct else 0.0,
trace_id=trace.id
)