Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Schluss mit der Zettelwirtschaft! AI-basierte D...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

Schluss mit der Zettelwirtschaft! AI-basierte Dokumentenlösungen mit Azure bauen

Mit Document Intelligence Service und Content Understanding bietet Microsoft zwei KI-basierte Services zur Inhaltsanalyse in Azure an. Sie können nicht nur Informationen in beliebigen Formen aus Dokumenten und Bildern extrahieren, sondern diese auch intelligent bewerten und weiterverarbeiten. Jörg Neumann zeigt anhand realer Beispiele, wie Sie smarte Dokumentenlösungen bauen und diese in Agent-basierte Workflows integrieren können.

Avatar for Jörg Neumann

Jörg Neumann

March 08, 2026
Tweet

More Decks by Jörg Neumann

Other Decks in Programming

Transcript

  1. THEMEN  AI Development  Business App Development  Frontend

    Technologies  Development, Consulting, Coaching, Training KONTAKT  Mail: [email protected]  LinkedIn: www.linkedin.com/in/jörgneumann  X: @JoergNeumann  Web: www.neogeeks.de JÖRG NEUMANN Founder & CEO NeoGeeks GmbH Azure OpenAI Service, Azure Machine Learning Platform NeoGeeks IDAW
  2. ARBEITEN MIT DOKUMENTEN AUSGANGSLAGE  Unzählige Dokumente › Verträge, Rechnungen,

    Berichte, Formulare  Enthalten Daten in unstrukturierter Form › Felder, Listen, QR-Codes, …  OCR erfasst zwar den Text, tut sich aber schwer bei: › Erkennung von Layouts (Tabellen, Bilder, Feldern) › mehrsprachigen Inhalten › Analyse der Inhalte  Fazit › Langsame, manuelle Arbeitsabläufe, Fehler und verpasste Erkenntnisse
  3. TEXTERKENNUNG HERAUSFORDERUNGEN  Abfotografierte Dokumente  Geknickte oder verformte Dokumente

     Handschriftliche Texte  Layout LÖSUNGEN  Mit GenAI meist nicht sicher genug  Machine Learning beantwortet keine Fragen  Eine Mischung aus beidem ist der Weg
  4. AZURE SERVICES DOCUMENT INTELLIGENCE  Extraktion von Daten aus Dokumenten

    CONTENT UNDERSTANDING  Extraktion und Interpretation von Dokumenten, Audio und Video MISTRAL DOCUMENT AI  Extraktion und Interpretation von Dokumenten
  5. AZURE CONTENT UNDERSTANDING BASICS  Dienst zur Analyse von Dokumenten,

    Audio- und Video-Files FEATURES  Klassifizierung des Dokumententyps  Extraktion der Daten  Transformation in ein Zielschema  Analyse und Zusammenfassen des Inhalts  Aufbereiten der Inhalte für semantische Suche
  6. AZURE CONTENT UNDERSTANDING MULTIMODALE DATENERFASSUNG  Dokumente, Bilder, Audios oder

    Videos erfassen ANPASSBARE AUSGABESCHEMAS  Struktur für Daten, Zusammenfassungen und Erkenntnissen anpassen KONFIDENZBEWERTUNGEN  Genauigkeit der Erkennung messen und auswerten GROUNDING  Modelle anlernen und trainieren
  7. AZURE CONTENT UNDERSTANDING CONTENT EXTRACTION ANALYZERS  OCR- und Layoutanalyse

    und Barcode-Erkennung. BASE ANALYZERS  Basismodell für eigener Analyzer für Dokumente, Bild, Audio und Videoinhalte. RAG ANALYZERS  Optimiert für die semantische Suche in Dokumenten. DOMAIN-SPECIFIC ANALYZERS  Vorkonfigurierte Analyzer für Rechnungen, Steuerformulare, Ausweise und Verträge. UTILITY ANALYZERS  Werkzeuge für Schemagenerierung, Extraktion von Feldern und Schlüssel-Wert-Paaren.
  8. AZURE CONTENT UNDERSTANDING DOMAIN-SPECIFIC ANALYZERS  Für gängige Dokumententypen gibt

    es vorgefertigte Analyzer (Models) › prebuilt-invoice: Rechnungen, Hilfsrechnungen, Verkaufsaufträge, Bestellungen › prebuilt-receipt: Verkaufsbelege von Einzelhandels- und Gastronomiebetrieben › prebuilt-receipt.hotel: Hotelbestätigungen und Folios › prebuilt-creditCard: Kreditkartenauszüge › …  Sie enthalten die wesentlichen Felder › Einfache Felder: CustomerName, InvoiceDate, TotalAmount › Listen: LineItems
  9. CONTENT UNDERSTANDING - DEVELOPMENT PACKAGE  Azure Content Understanding client

    library for .NET dotnet add package Azure.AI.ContentUnderstanding –prerelease
  10. METADATEN HINTERGRUND  Neben den Nutzdaten werden auch Metadaten ermittelt

    › source: die Koordinaten des Inhalts › confidence: Erkennungswahrscheinlichkeit  Hilfreich bei der manuellen Prüfung durch den Anwender
  11. CUSTOM ANALYZERS HINTERGRUND  Es sollen bestimmte Daten aus dem

    Dokument gelesen werden  Die Struktur und Namen der Felder soll fest definiert werden  Fertig zur Weitergabe an Drittsysteme  Über einen Custom Analyzer kann das Schema definiert werden  Neben der Extraktion sind auch Klassifizierung des Dokumententyps und eine Zusammenfassung des Dokumenteninhalts möglich
  12. CUSTOM EXTRACTION MODELS HINTERGRUND  Manche Dokumente haben einen komplexen

    Aufbau  Automatische Erkennung des Layouts und der Felder nicht möglich  Ein eigenes Modell muss trainiert werden, bestimmte Daten zu erkennen
  13. FAZIT  Dokumentenverarbeitung ist kompliziert  Erkennen von Text, Layout,

    Feldern, Tabellen, Bildern, Audio, Video  Strukturierte Ausgabe der Daten  Interpretieren und Zusammenfassen von Inhalten  Document Intelligence & Content Understanding ermöglichen Dokumenten-Workflows
  14. RESSOURCEN – DOCUMENT INTELLIGENCE  Azure Document Intelligence Home https://azure.microsoft.com/en-us/products/ai-services/ai-document-intelligence

     Document Intelligence Studio https://documentintelligence.ai.azure.com/studio  Pricing https://azure.microsoft.com/de-de/pricing/details/ai-document-intelligence/#pricing  https://azure.microsoft.com/de-de/pricing/calculator/  Microsoft Learn https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/quickstarts/try- document-intelligence-studio?view=doc-intel-4.0.0  Models & Features https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/model-overview
  15. RESSOURCEN – CONTENT UNTERSTANDING ALLGEMEIN  Dokumentation  Pricing SAMPLES

     .NET Samples  Python Samples  Erstellen einer Azure Content Understanding-Clientanwendung  Data extraction using Azure Content Understanding
  16. VORTRAINIERTE MODELLE: RAG Modell Beschreibung prebuilt-documentSearch Extrahiert verschiedene Inhalts- und

    Layoutelemente wie Absätze, Tabellen und Abbildungen aus Dokumenten. Generiert Markdown-Content für die Vektorisierung. prebuilt-imageSearch Analysiert Bilder, um Beschreibungen und Erkenntnisse zu generieren. Generiert eine Ein-Absatz- Beschreibung des Bildinhalts. prebuilt-audioSearch Transkribiert Unterhaltungen aus Audio- und Videodateien. Generiert eine Zusammenfassung in einem Absatz des Gesprächsinhalts. prebuilt-videoSearch Analysiert Videos, um Transkriptionen und Beschreibungen für jedes Segment zu extrahieren. Segmentiert Videos automatisch in aussagekräftige Abschnitte basierend auf Themenverschiebungen, Szenenänderungen oder visuellen Hinweisen. Quelle
  17. UNTERSTÜTZTE DATEITYPEN Unterstützte Dateitypen Dateigröße Länge Extraktion ✓ .pdf ✓

    .tiff ✓ .jpg, .jpeg, .jpe, .png, .bmp, .heif, .heic ≤ 200 MB ≤ 300 Seiten Einfach (OCR) oder Standard (Layout) ✓ .docx, .xlsx.pptx ≤ 200 MB ≤ 1 Mio. Zeichen Wenig ✓ .txt ✓ .html, .md.rtf • .eml, .msg ✓ .xml ≤ 1 MB ≤ 1 Mio. Zeichen Wenig Quelle
  18. UNTERSTÜTZTE MODELLE Modelltyp Model Version Chat Completion gpt-4o 2024-08-06 gpt-4o

    2024-11-20 gpt-4o-mini 2024-11-20 gpt-4.1 2024-11-20 gpt-4.1-mini 2024-11-20 gpt-4.1-nano 2024-11-20 Embeddings text-embedding-3-small text-embedding-3-large text-embedding-ada-002 Aktuelle Liste