Vision, OCR, Bounding-Boxen - was zu tun ist, wenn im PDF kein Text steht

by Lukas Köhler

Slide 1

Slide 1 text

Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht Lukas Köhler @lukkoeh Generative AI Developer

Slide 2

Slide 2 text

Datenextraktion aus PDFs Unser Ziel Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF JSON Datenbank

Slide 3

Slide 3 text

SCHUFA Bonitätsauskunft verarbeiten ▪ Extraktion von Feldern aus Original-PDFs ▪ Einfügen der Daten in eine Datenbank ▪ Zitate mit Bounding-Boxen z.B. zur Markierung auf der Original-PDF ▪ Genaue Zitate und zuverlässige Extraktion sind entscheidend Beispiel Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 4

Slide 4 text

So gleich und doch so unterschiedlich PDF != PDF Mit Text-Layer Ohne Text-Layer Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 5

Slide 5 text

… Informationen visualisiert sind? Was wäre aber, wenn… Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 6

Slide 6 text

Mixed Content Und was ist damit? Grafik Text (Text-Layer) Abhängigkeit: Grafik  Text! Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 7

Slide 7 text

Ein Revisit ▪ Zuverlässige Extraktion von strukturierten Informationen aus PDFs ▪ Extraktion von Zitaten, welche die extrahierten Informationen belegen ▪ Bestimmen einer exakten Bounding-Box für die Zitate (z.B. Highlight auf Original-PDF) Unsere Ziele Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 8

Slide 8 text

Lösungsansätze Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 9

Slide 9 text

Eine Ideensammlung Was könnte man hier machen? ▪ Standard-LLM beauftragen, Felder & Bounding-Boxen zu extrahieren (Vision) ▪ Spezialisierte Dokumenten-KI nutzen ▪ Kombination der Ansätze mit OCR Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 10

Slide 10 text

Am Beispiel Google Gemini 2.5 Flash/Pro ▪ Gemini-Modelle sind ab Version 2.0 darauf trainiert, Elemente auf Bildern zu lokalisieren ▪ Gemini ist deutlich führend in Benchmarks für diese Aufgabe ▪ Extraktion von Zitaten & Werten mithilfe von Structured Outputs ▪ Orientierung der Koordinaten: [0-1000] in X und Y Richtung von oben links ▪ Theoretisch also nutzbar! Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 11

Slide 11 text

mit Reasoning: Aber… Korrekte Bounding-Box Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 12

Slide 12 text

Sehr hilfreich, man muss aber erstmal drauf kommen Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht Also Reasoning deaktivieren?

Slide 13

Slide 13 text

Fazit ▪ Sehr gute und allermeistens zuverlässige Extraktion von Informationen und Zitaten ▪ Mittelmäßige Erstellung von Bounding-Boxen ▪ Oft richtig (Non-Reasoning), manchmal komplett daneben, manchmal leicht daneben ▪ Erkennt auch Informationen aus Visualisierungen zuverlässig ▪ Je spezifischer/ausführlicher der Prompt, desto ungenauer die Bounding-Boxen Reine LLM-Vision Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 14

Slide 14 text

Am Beispiel Mistral Document AI Spezialisierte Dokumenten-KI ▪ Vollständige Dokumentenextraktionspipeline von Mistral AI ▪ Ein einziger API-Call erzeugt auf Wunsch: ▪ Markdown aus Bildern & PDFs ▪ Document-Annotations: Strukturierte Datenextraktion mit Pydantic-Datenmodellen ▪ BBOX-Annotations: Verbalisierung von Bildern in Dokumenten ▪ Verfügbar in: La Plateforme, Google Vertex AI, Azure AI Foundry Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 15

Slide 15 text

Die Mistral-Document-AI-Pipeline Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? Quelle: https://docs.mistral.ai/capabilities/docum ent_ai/annotations

Slide 16

Slide 16 text

Was kann es? ▪ Extraktion äußerst zuverlässig, auch bei Mixed Content und manipulierten PDFs ▪ Zitate allermeistens genau (Interpunktion, genauer Wortlaut) ▪ Flexibel für PDFs mit und ohne Text-Layer, Mixed Content, etc. ▪ Sehr einfache Benutzung für Entwickler, alles in einem API-Call enthalten Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 17

Slide 17 text

Was kann es nicht? ▪ Strukturierte Datenextraktion (Document Annotations) ist auf 8 Seiten PDFs limitiert ▪ Reines OCR ist auf 50 MB Dateigröße oder 1000 Seiten limitiert ▪ Proprietär, nur bei entsprechenden Cloud-Plattformen nutzbar ▪ Es werden (noch) keine Bounding-Boxen generiert, diese müssen auf einem anderen Weg erzeugt werden Spezialisierte Dokumenten-KI Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 18

Slide 18 text

Wie kann man an die Bounding-Boxen rankommen Die Sache mit den Bounding-Boxen Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? PDF Extraktion Zitate OCR Text-Layer? Exact Match Fuzzy Match Ja Nein Fallback

Slide 19

Slide 19 text

Warum Fuzzy Matching als Fallback? Find the difference Ihr Versandhandel/eCommercescore beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel/eCommerce. Ihr Versandhandel / eCommercescore beträgt 9905. Dies entspricht einem sehr geringen Risiko bei Vertragsabschlüssen in der Branche Versandhandel / eCommerce. AI-Zitat Original ➔ Outputs bleiben niemals 100 % fehlerfrei, einzelne Zeichen können falsch sein Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 20

Slide 20 text

Gängige Optionen ▪ Google Tesseract (Python: pytesseract) ▪ Mindee docTR (Python: doctr) ▪ Docling (Python: docling) ▪ DeepSeek OCR ▪ … usw. Wichtig: wir benötigen Bounding-Boxen auf Wortebene ➔ Getestet wurde mit Tesseract & docTR – Docling als mögliche Alternative OCR-Engines Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 21

Slide 21 text

Was kann das Hype-Modell? ▪ Ausgezeichnetes OCR ▪ Bounding-Boxen auf Absatzbasis → nicht auf Wortbasis ▪ Unterstützt Verbalisierung von Grafiken & Tabellenverarbeitung ▪ Unterstützt Objekterkennung mittels „<|grounding|>Locate: the tennis ball“ mit Bounding- Box ▪ Keine Erkennung von Einzelsätzen in textlastigen Dokumenten möglich Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR

Slide 22

Slide 22 text

Free OCR – Prompt: „\nFree OCR“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase

Slide 23

Slide 23 text

Convert to Markdown + grounding Prompt: „<|grounding|>\nConvert the document to markdown“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase

Slide 24

Slide 24 text

Tennisball finden – Prompt: „<|grounding|>Locate: the tennis ball“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://stock.adobe.com/de/images/tennis-ball-tennisball-sport/42454818

Slide 25

Slide 25 text

Visualisierungen – Prompt: „\nParse the figure“ Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR Showcase Quelle: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

Slide 26

Slide 26 text

Prompt-Cheatsheet ▪ „\nFree OCR“ → Plain-Text-OCR für ein Bild ▪ „<|grounding|>\nFree OCR“ → Plain-Text mit absatzbasierten Bounding-Boxen ▪ „<|grounding|>\nConvert the document to markdown“ → Markdown mit Bounding-Boxen ▪ “<|grounding|>\nLocate: Tennisball“ → findet alle Tennisbälle auf dem Bild und gibt die Bounding-Boxen zurück ▪ „\nParse the figure“ → wandelt Visualisierungen in strukturierte Daten um ➔ Die Beeinflussbarkeit von DeepSeek OCR ist eingeschränkt! Vision, OCR, Bounding-Boxen? Was zu tun ist, wenn im PDF kein Text steht DeepSeek OCR

Slide 27

Slide 27 text

Was ist zu tun, wenn eine PDF keinen Text hat? ▪ Daten mit Mistral Document AI oder VLMs extrahieren (Structured Outputs) ▪ OCR anwenden, um Texte in einem PDF-Dokument zu finden ▪ Exact Match, dann ggf. Fuzzy Match als Fallback einsetzen ▪ Wenn Text-Layer vorhanden, direkt darin suchen Fazit Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen?

Slide 28

Slide 28 text

Was zu tun ist, wenn im PDF kein Text steht Vision, OCR, Bounding-Boxen? Diskussion

Slide 29

Slide 29 text

Vielen Dank für eure Aufmerksamkeit! Lukas Köhler @lukkoeh [email protected]