.NET Day 2025: Enhancing Legal Document Analysis with Reflection Agents, Semantic Kernel, and Azure AI Search

ENHANCING LEGAL DOCUMENT ANALYSIS WITH REFLECTION AGENTS, SEMANTIC KERNEL, AND
AZURE AI SEARCH

CÉDRIC MENDELIN Software Developer - isolutions AG

AGENDA LLM Basics Customer Project - FTA The Microsoft Way
- Azure AI Services Step-by-Step Improvements - FTA Conclusion

LLM BASICS

PROMPT History Parameters (Top-P, Temperature) System Message (Persona) Input

What is the current date?

RAG – RETRIEVAL-AUGMENTED GENERATION Search Engine Data Model User Application

RETRIEVAL STEP Is the document relevant for the query? +
=

EMBEDDINGS Source: https://weaviate.io/blog/how-to-choose-an-embedding-model

VECTOR SEARCH VECTORIZE DATA VECTORIZE QUERY VECTOR SEARCH (COSINE SIMILARITY)

FEDERAL TAX ADMINISTRATION

Federal Tax Administration 4 k

LAWS AND ORDINANCES (XML)

COURT RULING – FTA PUBLICATIONS (PDF)

CHALLENGES Wording/Style of texts Citation requirement Hierarchy in data Amount
of data

AZURE AI SERVICES

AZURE AI SERVICES OpenAI Vision Speech Language Content Safety Face
Document Intelligence Azure AI services AI Search AI Agent Service AI Model Inference AI Foundry

SEMANTIC KERNEL • Open-Source SDK • Middleware • Abstraction over
different Models

RAG – Azure OpenAI on your data Azure OpenAI Azure
AI Search

What is the current date?

FUNCTION CALLING

STEP-BY-STEP IMPROVEMENTS FTA

1ST ITERATION

1ST ITERATION Focus on 50 documents Index Laws per article
Index PDFs per page Azure Open AI – on your data Vector Search

AZURE OPENAI – ON YOUR DATA

1ST ITERATION – FEEDBACK Relevant documents not found Hallucination Poor
Answer Quality Other reasons

2ND ITERATION

2ND ITERATION Hybrid Search Prompting Writing Profiles (Persona) Chat Settings

HYBRID SEARCH PIPELINE Vector Search Text Search N Search Results
Derive Vector Query Derive Text Query

HYBRID SEARCH CODE

2ND ITERATION - FEEDBACK Relevant documents not found Hallucination Poor
Answer Quality Other reasons

We need more than a gut feeling

LLM EVALUATION

EVALUATION TYPES LLM evaluation How good the foundation models performs
on a certain task. LLM system evaluation How good the LLM performs in your specific use case, on your data, in your domain.

EVALUATION PIPELINE LLM System Evaluation Dataset Evaluators Score Input Reference
Answer Expected Doc Answer

LLM SYSTEM EVALUATION - METRICS Reference-based Reference-free LLM based

MEAI.EVALUATION OVERVIEW • Open-source • Predefined LLM-based evaluators • Interface
for custom-evaluators • Local and Azure Storage Account • In Preview

MEAI.EVALUATION.CONSOLE

EVALUATION QUESTIONS Question Reference Answer Expected Doc(s) Category

EVALUATION RESULTS 0 10 20 30 40 50 60 70
80 90 100 Provided source Applied source Retrieval Step - % of documents provided and applied Vector Search Hybrid Search

EVALUATION RESULTS 0.8 0.948 0.914 0.85 0.948 0.917 0.7 0.75
0.8 0.85 0.9 0.95 1 Relevance Groundedness Cosin Sim Answer Generation – Quality Metrics Vector Search Hybrid Search

3RD ITERATION

3RD ITERATION – RETRIEVAL OPTIMIZATION AI Enrichment Semantic Reranking

AI ENRICHMENT

SEMANTIC RERANKING Vector Search Text Search N Search Results Derive
Vector Query Derive Text Query Reranking

SEMANTIC RERANKING

3RD ITERATION - FEEDBACK Retrieval improved Sometimes poor Answer Quality
Other reasons

EVALUATION RESULTS 0 10 20 30 40 50 60 70
80 90 100 Provided source Applied source Retrieval Step - % of documents provided and applied Vector Search Hybrid Search Hybrid Search with Summary Hybrid Search with Reranking

EVALUATION RESULTS 0.8 0.948 0.914 0.85 0.948 0.917 0.86 0.945
0.917 0.9 0.988 0.927 0.7 0.75 0.8 0.85 0.9 0.95 1 Relevance Groundedness Cosin Sim Answer Generation – Quality Metrics Vector Search Hybrid Search Hybrid Search with Summary Hybrid Search with Reranking

4TH ITERATION

4TH ITERATION – ANSWER GENERATION OPTIMIZATION Reflection Agent

REFLECTION AGENT Writer Agent Critic Agent N Fact Checker Style
Checker Citation Checker

IMPLEMENTATION • Not supported by Azure OpenAI - On your
data • Derive Search Query • Using Azure AI Search SDK + Autogen

4TH ITERATION - FEEDBACK Other Reason

EVALUATION – EXECUTION TIME 2889 1999 2966 0 500 1000
1500 2000 2500 3000 3500 Azure OYOD - Hybrid Custom - Hybrid Multiagent (with Reranking) ms LLM system evaluation – Mean Execution Time

EVALUATION RESULTS 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1
Relevance Groundedness Cos Sim LLM System evaluation – MultiAgent Single Agent MultiAgent

LAST ITERATION

CONCLUSION

SURVEY RESULTS 86% OF ANSWERS RATED POSITIVELY 89% OF THE
USERS WANT TO USE THE SYSTEM PRODUCTIVELY

CONCLUSION • SK is your SDK of choice • Azure
AI Search for unstructured data • Use advanced capabilities • Start Evaluating early • What is your Use case • Business Value & Innovation The dotnet Stack is ready for productive AI Applications

.NET Day 2025: Enhancing Legal Document Analysi...

.NET Day 2025: Enhancing Legal Document Analysis with Reflection Agents, Semantic Kernel, and Azure AI Search

More Decks by .NET Day

Other Decks in Technology

Featured

Transcript