Upgrade to Pro — share decks privately, control downloads, hide ads and more …

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

seya
November 24, 2024

 継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

seya

November 24, 2024
Tweet

More Decks by seya

Other Decks in Technology

Transcript

  1. ©️ Gaudiy Inc. 関連資料 Who Validates the Validators? Aligning LLM-Assisted

    Evalu... Due to the cumbersome nature of human evaluation and limitations of c... arxiv.org Who validates the validators? 正に継続的に評価をアップデートする仕組みを
 検証した結果作ったフレームワークである EvalGenを紹介している論文。読むべし。 Creating a LLM-as-a-Judge That Drives Business... A step-by-step guide with my learnings from 30+ AI implementations. hamel.dev Creating a LLM-as-a-Judge That Drives Business Results LLM-as-a-Judgeの作成手順や勘所をかなり 具体的に解説している記事 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-... Use cases, techniques, alignment, finetuning, and critiques against LLM... eugeneyan.com Evaluating the Effectiveness of LLM-Evaluators LLM-as-a-Judgeの有効性を評価した記事。 LLM-as-a-Judgeに関連した論文が大集合し ているのでぜひ読んでみてください。 表示 自動化するLLMシステム... こんにちは。ファンと共に時代... Hatena Blog 自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方 私のLLM-as-a-Judgeの作成手順を解説して いる記事