Schluss mit der Zettelwirtschaft! AI-basierte Dokumentenlösungen mit Azure bauen

SCHLUSS MIT DER ZETTELWIRTSCHAFT! AI-basierte Dokumentenlösungen mit Azure bauen Jörg
Neumann

THEMEN  AI Development  Business App Development  Frontend
Technologies  Development, Consulting, Coaching, Training KONTAKT  Mail: [email protected]  LinkedIn: www.linkedin.com/in/jörgneumann  X: @JoergNeumann  Web: www.neogeeks.de JÖRG NEUMANN Founder & CEO NeoGeeks GmbH Azure OpenAI Service, Azure Machine Learning Platform NeoGeeks IDAW

ARBEITEN MIT DOKUMENTEN AUSGANGSLAGE  Unzählige Dokumente › Verträge, Rechnungen,
Berichte, Formulare  Enthalten Daten in unstrukturierter Form › Felder, Listen, QR-Codes, …  OCR erfasst zwar den Text, tut sich aber schwer bei: › Erkennung von Layouts (Tabellen, Bilder, Feldern) › mehrsprachigen Inhalten › Analyse der Inhalte  Fazit › Langsame, manuelle Arbeitsabläufe, Fehler und verpasste Erkenntnisse

TEXTERKENNUNG HERAUSFORDERUNGEN  Abfotografierte Dokumente  Geknickte oder verformte Dokumente
 Handschriftliche Texte  Layout LÖSUNGEN  Mit GenAI meist nicht sicher genug  Machine Learning beantwortet keine Fragen  Eine Mischung aus beidem ist der Weg

AZURE SERVICES DOCUMENT INTELLIGENCE  Extraktion von Daten aus Dokumenten
CONTENT UNDERSTANDING  Extraktion und Interpretation von Dokumenten, Audio und Video MISTRAL DOCUMENT AI  Extraktion und Interpretation von Dokumenten

AZURE CONTENT UNDERSTANDING BASICS  Dienst zur Analyse von Dokumenten,
Audio- und Video-Files FEATURES  Klassifizierung des Dokumententyps  Extraktion der Daten  Transformation in ein Zielschema  Analyse und Zusammenfassen des Inhalts  Aufbereiten der Inhalte für semantische Suche

AZURE CONTENT UNDERSTANDING MULTIMODALE DATENERFASSUNG  Dokumente, Bilder, Audios oder
Videos erfassen ANPASSBARE AUSGABESCHEMAS  Struktur für Daten, Zusammenfassungen und Erkenntnissen anpassen KONFIDENZBEWERTUNGEN  Genauigkeit der Erkennung messen und auswerten GROUNDING  Modelle anlernen und trainieren

AZURE CONTENT UNDERSTANDING CONTENT EXTRACTION ANALYZERS  OCR- und Layoutanalyse
und Barcode-Erkennung. BASE ANALYZERS  Basismodell für eigener Analyzer für Dokumente, Bild, Audio und Videoinhalte. RAG ANALYZERS  Optimiert für die semantische Suche in Dokumenten. DOMAIN-SPECIFIC ANALYZERS  Vorkonfigurierte Analyzer für Rechnungen, Steuerformulare, Ausweise und Verträge. UTILITY ANALYZERS  Werkzeuge für Schemagenerierung, Extraktion von Feldern und Schlüssel-Wert-Paaren.

AZURE CONTENT UNDERSTANDING DOMAIN-SPECIFIC ANALYZERS  Für gängige Dokumententypen gibt
es vorgefertigte Analyzer (Models) › prebuilt-invoice: Rechnungen, Hilfsrechnungen, Verkaufsaufträge, Bestellungen › prebuilt-receipt: Verkaufsbelege von Einzelhandels- und Gastronomiebetrieben › prebuilt-receipt.hotel: Hotelbestätigungen und Folios › prebuilt-creditCard: Kreditkartenauszüge › …  Sie enthalten die wesentlichen Felder › Einfache Felder: CustomerName, InvoiceDate, TotalAmount › Listen: LineItems

DEMO Azure Content Understanding

CONTENT UNDERSTANDING - DEVELOPMENT PACKAGE  Azure Content Understanding client
library for .NET dotnet add package Azure.AI.ContentUnderstanding –prerelease

DEMO Rechnungsanalyse mit prebuilt-invoice

METADATEN HINTERGRUND  Neben den Nutzdaten werden auch Metadaten ermittelt
› source: die Koordinaten des Inhalts › confidence: Erkennungswahrscheinlichkeit  Hilfreich bei der manuellen Prüfung durch den Anwender

DEMO Meta data

CUSTOM ANALYZERS HINTERGRUND  Es sollen bestimmte Daten aus dem
Dokument gelesen werden  Die Struktur und Namen der Felder soll fest definiert werden  Fertig zur Weitergabe an Drittsysteme  Über einen Custom Analyzer kann das Schema definiert werden  Neben der Extraktion sind auch Klassifizierung des Dokumententyps und eine Zusammenfassung des Dokumenteninhalts möglich

DEMO Custom Analyzers

CUSTOM EXTRACTION MODELS HINTERGRUND  Manche Dokumente haben einen komplexen
Aufbau  Automatische Erkennung des Layouts und der Felder nicht möglich  Ein eigenes Modell muss trainiert werden, bestimmte Daten zu erkennen

DEMO Custom Extraction Models mit Document Intelligence Service

FAZIT  Dokumentenverarbeitung ist kompliziert  Erkennen von Text, Layout,
Feldern, Tabellen, Bildern, Audio, Video  Strukturierte Ausgabe der Daten  Interpretieren und Zusammenfassen von Inhalten  Document Intelligence & Content Understanding ermöglichen Dokumenten-Workflows

RESSOURCEN – DOCUMENT INTELLIGENCE  Azure Document Intelligence Home https://azure.microsoft.com/en-us/products/ai-services/ai-document-intelligence
 Document Intelligence Studio https://documentintelligence.ai.azure.com/studio  Pricing https://azure.microsoft.com/de-de/pricing/details/ai-document-intelligence/#pricing  https://azure.microsoft.com/de-de/pricing/calculator/  Microsoft Learn https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/quickstarts/try- document-intelligence-studio?view=doc-intel-4.0.0  Models & Features https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/model-overview

RESSOURCEN – CONTENT UNTERSTANDING ALLGEMEIN  Dokumentation  Pricing SAMPLES
 .NET Samples  Python Samples  Erstellen einer Azure Content Understanding-Clientanwendung  Data extraction using Azure Content Understanding

RESSOURCEN - MISTRAL  Mistral Document AI  Blog-Post zu
Document AI

RESSOURCEN – WEITERE ANBIETER  Alibaba: Text extraction (Qwen-OCR) 
Deepseek OCR

VORTRAINIERTE MODELLE: RAG Modell Beschreibung prebuilt-documentSearch Extrahiert verschiedene Inhalts- und
Layoutelemente wie Absätze, Tabellen und Abbildungen aus Dokumenten. Generiert Markdown-Content für die Vektorisierung. prebuilt-imageSearch Analysiert Bilder, um Beschreibungen und Erkenntnisse zu generieren. Generiert eine Ein-Absatz- Beschreibung des Bildinhalts. prebuilt-audioSearch Transkribiert Unterhaltungen aus Audio- und Videodateien. Generiert eine Zusammenfassung in einem Absatz des Gesprächsinhalts. prebuilt-videoSearch Analysiert Videos, um Transkriptionen und Beschreibungen für jedes Segment zu extrahieren. Segmentiert Videos automatisch in aussagekräftige Abschnitte basierend auf Themenverschiebungen, Szenenänderungen oder visuellen Hinweisen. Quelle

UNTERSTÜTZTE DATEITYPEN Unterstützte Dateitypen Dateigröße Länge Extraktion ✓ .pdf ✓
.tiff ✓ .jpg, .jpeg, .jpe, .png, .bmp, .heif, .heic ≤ 200 MB ≤ 300 Seiten Einfach (OCR) oder Standard (Layout) ✓ .docx, .xlsx.pptx ≤ 200 MB ≤ 1 Mio. Zeichen Wenig ✓ .txt ✓ .html, .md.rtf • .eml, .msg ✓ .xml ≤ 1 MB ≤ 1 Mio. Zeichen Wenig Quelle

UNTERSTÜTZTE MODELLE Modelltyp Model Version Chat Completion gpt-4o 2024-08-06 gpt-4o
2024-11-20 gpt-4o-mini 2024-11-20 gpt-4.1 2024-11-20 gpt-4.1-mini 2024-11-20 gpt-4.1-nano 2024-11-20 Embeddings text-embedding-3-small text-embedding-3-large text-embedding-ada-002 Aktuelle Liste

Schluss mit der Zettelwirtschaft! AI-basierte D...

Schluss mit der Zettelwirtschaft! AI-basierte Dokumentenlösungen mit Azure bauen

Jörg Neumann

More Decks by Jörg Neumann

Other Decks in Programming

Featured

Transcript