Slide 15
Slide 15 text
©Legalscape, Inc.
If you cannot measure it, you cannot improve it.
2. 定量評価できるデータセットを構築する
LLM-as-a-judge
データセットを(高すぎて遅すぎる)
FrontierLLMにアノテーションさせる (※ライセ
ンス要確認)
例:クエリに対する正解・不正解ドキュメント
を判定させる
Expert-in-the-loop
ドメインの専門家(弁護士)によるドメイン知
識を活かしたアノテーション
例:この質問には必ずこの最高裁の判例を
参照するべきなので、正解データに加える
query: “労働者の定義に関する判例を教えて”
true_doc_id: [111,222,333,444]
query: “労働者の定義に関する判例を教えて”
true_doc_id: [111,222,333,444]
query: “労働者の定義に関する判例を教えて”
true_doc_id: [111,222,333,444]
query: “労働者の定義に関する判例を教えて”
true_doc_id: [111,222,333,444]