Vision, OCR, Bounding-Boxen - was zu tun ist, wenn im PDF kein Text steht

Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF
kein Text steht Lukas Köhler @lukkoeh Generative AI Developer

Datenextraktion aus PDFs Unser Ziel Was zu tun ist, wenn
im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF JSON Datenbank

SCHUFA Bonitätsauskunft verarbeiten ▪ Extraktion von Feldern aus Original-PDFs ▪
Einfügen der Daten in eine Datenbank ▪ Zitate mit Bounding-Boxen z.B. zur Markierung auf der Original-PDF ▪ Genaue Zitate und zuverlässige Extraktion sind entscheidend Beispiel Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

So gleich und doch so unterschiedlich PDF != PDF Mit
Text-Layer Ohne Text-Layer Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

… Informationen visualisiert sind? Was wäre aber, wenn… Was zu
tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Mixed Content Und was ist damit? Grafik Text (Text-Layer) Abhängigkeit:
Grafik  Text! Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Ein Revisit ▪ Zuverlässige Extraktion von strukturierten Informationen aus PDFs
▪ Extraktion von Zitaten, welche die extrahierten Informationen belegen ▪ Bestimmen einer exakten Bounding-Box für die Zitate (z.B. Highlight auf Original-PDF) Unsere Ziele Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Lösungsansätze Was zu tun ist, wenn im PDF kein Text
steht Vision, OCR, Bounding-Boxen?

Eine Ideensammlung Was könnte man hier machen? ▪ Standard-LLM beauftragen,
Felder & Bounding-Boxen zu extrahieren (Vision) ▪ Spezialisierte Dokumenten-KI nutzen ▪ Kombination der Ansätze mit OCR Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Am Beispiel Google Gemini 2.5 Flash/Pro ▪ Gemini-Modelle sind ab
Version 2.0 darauf trainiert, Elemente auf Bildern zu lokalisieren ▪ Gemini ist deutlich führend in Benchmarks für diese Aufgabe ▪ Extraktion von Zitaten & Werten mithilfe von Structured Outputs ▪ Orientierung der Koordinaten: [0-1000] in X und Y Richtung von oben links ▪ Theoretisch also nutzbar! Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

mit Reasoning: Aber… Korrekte Bounding-Box Was zu tun ist, wenn
im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Sehr hilfreich, man muss aber erstmal drauf kommen Vision, OCR,
Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht Also Reasoning deaktivieren?

Fazit ▪ Sehr gute und allermeistens zuverlässige Extraktion von Informationen
und Zitaten ▪ Mittelmäßige Erstellung von Bounding-Boxen ▪ Oft richtig (Non-Reasoning), manchmal komplett daneben, manchmal leicht daneben ▪ Erkennt auch Informationen aus Visualisierungen zuverlässig ▪ Je spezifischer/ausführlicher der Prompt, desto ungenauer die Bounding-Boxen Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Am Beispiel Mistral Document AI Spezialisierte Dokumenten-KI ▪ Vollständige Dokumentenextraktionspipeline
von Mistral AI ▪ Ein einziger API-Call erzeugt auf Wunsch: ▪ Markdown aus Bildern & PDFs ▪ Document-Annotations: Strukturierte Datenextraktion mit Pydantic-Datenmodellen ▪ BBOX-Annotations: Verbalisierung von Bildern in Dokumenten ▪ Verfügbar in: La Plateforme, Google Vertex AI, Azure AI Foundry Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Die Mistral-Document-AI-Pipeline Spezialisierte Dokumenten-KI Was zu tun ist, wenn im
PDF kein Text steht Vision, OCR, Bounding-Boxen? Quelle: https://docs.mistral.ai/capabilities/docum ent_ai/annotations

Was kann es? ▪ Extraktion äußerst zuverlässig, auch bei Mixed
Content und manipulierten PDFs ▪ Zitate allermeistens genau (Interpunktion, genauer Wortlaut) ▪ Flexibel für PDFs mit und ohne Text-Layer, Mixed Content, etc. ▪ Sehr einfache Benutzung für Entwickler, alles in einem API-Call enthalten Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Was kann es nicht? ▪ Strukturierte Datenextraktion (Document Annotations) ist
auf 8 Seiten PDFs limitiert ▪ Reines OCR ist auf 50 MB Dateigröße oder 1000 Seiten limitiert ▪ Proprietär, nur bei entsprechenden Cloud-Plattformen nutzbar ▪ Es werden (noch) keine Bounding-Boxen generiert, diese müssen auf einem anderen Weg erzeugt werden Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Wie kann man an die Bounding-Boxen rankommen Die Sache mit
den Bounding-Boxen Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF Extraktion Zitate OCR Text-Layer? Exact Match Fuzzy Match Ja Nein Fallback

Warum Fuzzy Matching als Fallback? Find the difference Ihr Versandhandel/eCommercescore
beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel/eCommerce. Ihr Versandhandel / eCommercescore beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel / eCommerce. AI-Zitat Original ➔ Outputs bleiben niemals 100 % fehlerfrei, einzelne Zeichen können falsch sein Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Gängige Optionen ▪ Google Tesseract (Python: pytesseract) ▪ Mindee docTR
(Python: doctr) ▪ Docling (Python: docling) ▪ DeepSeek OCR ▪ … usw. Wichtig: wir benötigen Bounding-Boxen auf Wortebene ➔ Getestet wurde mit Tesseract & docTR – Docling als mögliche Alternative OCR-Engines Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Was kann das Hype-Modell? ▪ Ausgezeichnetes OCR ▪ Bounding-Boxen auf
Absatzbasis → nicht auf Wortbasis ▪ Unterstützt Verbalisierung von Grafiken & Tabellenverarbeitung ▪ Unterstützt Objekterkennung mittels „<image><|grounding|>Locate: the tennis ball“ mit Bounding- Box ▪ Keine Erkennung von Einzelsätzen in textlastigen Dokumenten möglich Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR

Free OCR – Prompt: „<image>\nFree OCR“ Vision, OCR, Bounding-Boxen? Was
zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase

Convert to Markdown + grounding Prompt: „<image><|grounding|>\nConvert the document to
markdown“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase

Tennisball finden – Prompt: „<image><|grounding|>Locate: the tennis ball“ Vision, OCR,
Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://stock.adobe.com/de/images/tennis-ball-tennisball-sport/42454818

Visualisierungen – Prompt: „<image>\nParse the figure“ Vision, OCR, Bounding-Boxen? Was
zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

Prompt-Cheatsheet ▪ „<image>\nFree OCR“ → Plain-Text-OCR für ein Bild ▪
„<image><|grounding|>\nFree OCR“ → Plain-Text mit absatzbasierten Bounding-Boxen ▪ „<image><|grounding|>\nConvert the document to markdown“ → Markdown mit Bounding-Boxen ▪ “<image><|grounding|>\nLocate: Tennisball“ → findet alle Tennisbälle auf dem Bild und gibt die Bounding-Boxen zurück ▪ „<image>\nParse the figure“ → wandelt Visualisierungen in strukturierte Daten um ➔ Die Beeinflussbarkeit von DeepSeek OCR ist eingeschränkt! Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR

Was ist zu tun, wenn eine PDF keinen Text hat?
▪ Daten mit Mistral Document AI oder VLMs extrahieren (Structured Outputs) ▪ OCR anwenden, um Texte in einem PDF-Dokument zu finden ▪ Exact Match, dann ggf. Fuzzy Match als Fallback einsetzen ▪ Wenn Text-Layer vorhanden, direkt darin suchen Fazit Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Was zu tun ist, wenn im PDF kein Text steht
Vision, OCR, Bounding-Boxen? Diskussion

Vielen Dank für eure Aufmerksamkeit! Lukas Köhler @lukkoeh [email protected]

Vision, OCR, Bounding-Boxen - was zu tun ist, w...

Vision, OCR, Bounding-Boxen - was zu tun ist, wenn im PDF kein Text steht

Lukas Köhler

Other Decks in Technology

Featured

Transcript

Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF

Datenextraktion aus PDFs Unser Ziel Was zu tun ist, wenn

SCHUFA Bonitätsauskunft verarbeiten ▪ Extraktion von Feldern aus Original-PDFs ▪

So gleich und doch so unterschiedlich PDF != PDF Mit

… Informationen visualisiert sind? Was wäre aber, wenn… Was zu

Mixed Content Und was ist damit? Grafik Text (Text-Layer) Abhängigkeit:

Ein Revisit ▪ Zuverlässige Extraktion von strukturierten Informationen aus PDFs

Lösungsansätze Was zu tun ist, wenn im PDF kein Text

Eine Ideensammlung Was könnte man hier machen? ▪ Standard-LLM beauftragen,

Am Beispiel Google Gemini 2.5 Flash/Pro ▪ Gemini-Modelle sind ab

mit Reasoning: Aber… Korrekte Bounding-Box Was zu tun ist, wenn

Sehr hilfreich, man muss aber erstmal drauf kommen Vision, OCR,

Fazit ▪ Sehr gute und allermeistens zuverlässige Extraktion von Informationen

Am Beispiel Mistral Document AI Spezialisierte Dokumenten-KI ▪ Vollständige Dokumentenextraktionspipeline

Die Mistral-Document-AI-Pipeline Spezialisierte Dokumenten-KI Was zu tun ist, wenn im

Was kann es? ▪ Extraktion äußerst zuverlässig, auch bei Mixed

Was kann es nicht? ▪ Strukturierte Datenextraktion (Document Annotations) ist

Wie kann man an die Bounding-Boxen rankommen Die Sache mit

Warum Fuzzy Matching als Fallback? Find the difference Ihr Versandhandel/eCommercescore

Gängige Optionen ▪ Google Tesseract (Python: pytesseract) ▪ Mindee docTR

Was kann das Hype-Modell? ▪ Ausgezeichnetes OCR ▪ Bounding-Boxen auf

Free OCR – Prompt: „<image>\nFree OCR“ Vision, OCR, Bounding-Boxen? Was

Convert to Markdown + grounding Prompt: „<image><|grounding|>\nConvert the document to

Tennisball finden – Prompt: „<image><|grounding|>Locate: the tennis ball“ Vision, OCR,

Visualisierungen – Prompt: „<image>\nParse the figure“ Vision, OCR, Bounding-Boxen? Was

Prompt-Cheatsheet ▪ „<image>\nFree OCR“ → Plain-Text-OCR für ein Bild ▪

Was ist zu tun, wenn eine PDF keinen Text hat?

Was zu tun ist, wenn im PDF kein Text steht

Vielen Dank für eure Aufmerksamkeit! Lukas Köhler @lukkoeh [email protected]