Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision, OCR, Bounding-Boxen - was zu tun ist, w...

Vision, OCR, Bounding-Boxen - was zu tun ist, wenn im PDF kein Text steht

Document AI kann der Schlüssel zur Erschließung wertvoller Informationen aus historischen und aktuellen Dokumentenbeständen sein. In diesem Vortrag zeigt Lukas Köhler praxisnahe Ansätze für die Verarbeitung von PDFs mit und ohne Text-Layer sowie die Generierung belastbarer Zitate mit präzisen Bounding-Boxen. Wichtige Konzepte wie Annotation-Workflows, der Einsatz spezialisierter Modelle wie Mistral Document AI und DeepSeek OCR sowie Matching-Strategien werden anhand eines Proof of Concept demonstriert. Entwickler und Architekten erhalten einen pragmatischen Überblick über die mögliche Implementierung nachvollziehbarer Datenextraktion in eigenen Projekten.

Avatar for Lukas Köhler

Lukas Köhler

November 13, 2025
Tweet

Other Decks in Technology

Transcript

  1. Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF

    kein Text steht Lukas Köhler @lukkoeh Generative AI Developer
  2. Datenextraktion aus PDFs Unser Ziel Was zu tun ist, wenn

    im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF JSON Datenbank
  3. SCHUFA Bonitätsauskunft verarbeiten ▪ Extraktion von Feldern aus Original-PDFs ▪

    Einfügen der Daten in eine Datenbank ▪ Zitate mit Bounding-Boxen z.B. zur Markierung auf der Original-PDF ▪ Genaue Zitate und zuverlässige Extraktion sind entscheidend Beispiel Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  4. So gleich und doch so unterschiedlich PDF != PDF Mit

    Text-Layer Ohne Text-Layer Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  5. … Informationen visualisiert sind? Was wäre aber, wenn… Was zu

    tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  6. Mixed Content Und was ist damit? Grafik Text (Text-Layer) Abhängigkeit:

    Grafik  Text! Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  7. Ein Revisit ▪ Zuverlässige Extraktion von strukturierten Informationen aus PDFs

    ▪ Extraktion von Zitaten, welche die extrahierten Informationen belegen ▪ Bestimmen einer exakten Bounding-Box für die Zitate (z.B. Highlight auf Original-PDF) Unsere Ziele Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  8. Lösungsansätze Was zu tun ist, wenn im PDF kein Text

    steht Vision, OCR, Bounding-Boxen?
  9. Eine Ideensammlung Was könnte man hier machen? ▪ Standard-LLM beauftragen,

    Felder & Bounding-Boxen zu extrahieren (Vision) ▪ Spezialisierte Dokumenten-KI nutzen ▪ Kombination der Ansätze mit OCR Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  10. Am Beispiel Google Gemini 2.5 Flash/Pro ▪ Gemini-Modelle sind ab

    Version 2.0 darauf trainiert, Elemente auf Bildern zu lokalisieren ▪ Gemini ist deutlich führend in Benchmarks für diese Aufgabe ▪ Extraktion von Zitaten & Werten mithilfe von Structured Outputs ▪ Orientierung der Koordinaten: [0-1000] in X und Y Richtung von oben links ▪ Theoretisch also nutzbar! Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  11. mit Reasoning: Aber… Korrekte Bounding-Box Was zu tun ist, wenn

    im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  12. Sehr hilfreich, man muss aber erstmal drauf kommen Vision, OCR,

    Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht Also Reasoning deaktivieren?
  13. Fazit ▪ Sehr gute und allermeistens zuverlässige Extraktion von Informationen

    und Zitaten ▪ Mittelmäßige Erstellung von Bounding-Boxen ▪ Oft richtig (Non-Reasoning), manchmal komplett daneben, manchmal leicht daneben ▪ Erkennt auch Informationen aus Visualisierungen zuverlässig ▪ Je spezifischer/ausführlicher der Prompt, desto ungenauer die Bounding-Boxen Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  14. Am Beispiel Mistral Document AI Spezialisierte Dokumenten-KI ▪ Vollständige Dokumentenextraktionspipeline

    von Mistral AI ▪ Ein einziger API-Call erzeugt auf Wunsch: ▪ Markdown aus Bildern & PDFs ▪ Document-Annotations: Strukturierte Datenextraktion mit Pydantic-Datenmodellen ▪ BBOX-Annotations: Verbalisierung von Bildern in Dokumenten ▪ Verfügbar in: La Plateforme, Google Vertex AI, Azure AI Foundry Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  15. Die Mistral-Document-AI-Pipeline Spezialisierte Dokumenten-KI Was zu tun ist, wenn im

    PDF kein Text steht Vision, OCR, Bounding-Boxen? Quelle: https://docs.mistral.ai/capabilities/docum ent_ai/annotations
  16. Was kann es? ▪ Extraktion äußerst zuverlässig, auch bei Mixed

    Content und manipulierten PDFs ▪ Zitate allermeistens genau (Interpunktion, genauer Wortlaut) ▪ Flexibel für PDFs mit und ohne Text-Layer, Mixed Content, etc. ▪ Sehr einfache Benutzung für Entwickler, alles in einem API-Call enthalten Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  17. Was kann es nicht? ▪ Strukturierte Datenextraktion (Document Annotations) ist

    auf 8 Seiten PDFs limitiert ▪ Reines OCR ist auf 50 MB Dateigröße oder 1000 Seiten limitiert ▪ Proprietär, nur bei entsprechenden Cloud-Plattformen nutzbar ▪ Es werden (noch) keine Bounding-Boxen generiert, diese müssen auf einem anderen Weg erzeugt werden Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  18. Wie kann man an die Bounding-Boxen rankommen Die Sache mit

    den Bounding-Boxen Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF Extraktion Zitate OCR Text-Layer? Exact Match Fuzzy Match Ja Nein Fallback
  19. Warum Fuzzy Matching als Fallback? Find the difference Ihr Versandhandel/eCommercescore

    beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel/eCommerce. Ihr Versandhandel / eCommercescore beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel / eCommerce. AI-Zitat Original ➔ Outputs bleiben niemals 100 % fehlerfrei, einzelne Zeichen können falsch sein Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  20. Gängige Optionen ▪ Google Tesseract (Python: pytesseract) ▪ Mindee docTR

    (Python: doctr) ▪ Docling (Python: docling) ▪ DeepSeek OCR ▪ … usw. Wichtig: wir benötigen Bounding-Boxen auf Wortebene ➔ Getestet wurde mit Tesseract & docTR – Docling als mögliche Alternative OCR-Engines Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  21. Was kann das Hype-Modell? ▪ Ausgezeichnetes OCR ▪ Bounding-Boxen auf

    Absatzbasis → nicht auf Wortbasis ▪ Unterstützt Verbalisierung von Grafiken & Tabellenverarbeitung ▪ Unterstützt Objekterkennung mittels „<image><|grounding|>Locate: the tennis ball“ mit Bounding- Box ▪ Keine Erkennung von Einzelsätzen in textlastigen Dokumenten möglich Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR
  22. Free OCR – Prompt: „<image>\nFree OCR“ Vision, OCR, Bounding-Boxen? Was

    zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase
  23. Convert to Markdown + grounding Prompt: „<image><|grounding|>\nConvert the document to

    markdown“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase
  24. Tennisball finden – Prompt: „<image><|grounding|>Locate: the tennis ball“ Vision, OCR,

    Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://stock.adobe.com/de/images/tennis-ball-tennisball-sport/42454818
  25. Visualisierungen – Prompt: „<image>\nParse the figure“ Vision, OCR, Bounding-Boxen? Was

    zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO
  26. Prompt-Cheatsheet ▪ „<image>\nFree OCR“ → Plain-Text-OCR für ein Bild ▪

    „<image><|grounding|>\nFree OCR“ → Plain-Text mit absatzbasierten Bounding-Boxen ▪ „<image><|grounding|>\nConvert the document to markdown“ → Markdown mit Bounding-Boxen ▪ “<image><|grounding|>\nLocate: Tennisball“ → findet alle Tennisbälle auf dem Bild und gibt die Bounding-Boxen zurück ▪ „<image>\nParse the figure“ → wandelt Visualisierungen in strukturierte Daten um ➔ Die Beeinflussbarkeit von DeepSeek OCR ist eingeschränkt! Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR
  27. Was ist zu tun, wenn eine PDF keinen Text hat?

    ▪ Daten mit Mistral Document AI oder VLMs extrahieren (Structured Outputs) ▪ OCR anwenden, um Texte in einem PDF-Dokument zu finden ▪ Exact Match, dann ggf. Fuzzy Match als Fallback einsetzen ▪ Wenn Text-Layer vorhanden, direkt darin suchen Fazit Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?
  28. Was zu tun ist, wenn im PDF kein Text steht

    Vision, OCR, Bounding-Boxen? Diskussion