Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

PDFs bezwingen: Dokumentenanalyse über reinen T...

PDFs bezwingen: Dokumentenanalyse über reinen Text hinaus

Talk for Bitkom e.V. AK Legal Tech (Berlin, 10.12.2025)

NLP und Data Science könnten so einfach sein, wenn all unsere Daten als sauberer, reiner Text vorlägen. Doch in der Praxis sind sie meist versteckt in PDFs, Word-Dokumenten, Scans und anderen Formaten, deren Verarbeitung sich als Albtraum erwiesen hat. In diesem Talk präsentiere ich einen neuen, modularen Ansatz für die Entwicklung von robusten Systemen für Dokumentenanalyse mit Hilfe von modernsten Modellen und dem großartigen Python-Ökosystem. Ich zeige, wie wir von PDFs zu strukturierten Daten gelangen und sogar vollständig benutzerdefinierte Informationsextraktions-Pipelines für spezifische Anwendungsfälle aus der Praxis erstellen können.

Für die praktischen Beispiele verwende ich spaCy, sowie die Bibliothek und Layoutanalysemodelle von Docling. Ich thematisiere außerdem optische Zeichenerkennung (OCR) für bildbasierten Text, die Verwendung von bewährten NLP-Techniken, und Strategien zur Erstellung von Trainings- und Evaluationsdaten für Informationsextraktionsaufgaben wie Textklassifizierung und Entitätserkennung anhand von PDFs und anderen Dokumenten.

Blogpost: https://explosion.ai/blog/pdfs-nlp-structured-data

Avatar for Ines Montani

Ines Montani PRO

December 10, 2025
Tweet

Resources

From PDFs to AI-ready structured data: a deep dive

https://explosion.ai/blog/pdfs-nlp-structured-data

Blogpost und Basis dieses Talks mit mehr Informationen und Beispielen

Conquering PDFs: document understanding beyond plain text

https://speakerdeck.com/inesmontani/conquering-pdfs-document-understanding-beyond-plain-text

Englische Version und Video dieses Talks

A practical guide to human-in-the-loop distillation

https://explosion.ai/blog/human-in-the-loop-distillation

Praktische Lösungen für die Destillation der neusten Large Language Models in kleinere, schnellere und datenprivate Komponenten

Docling

https://docling-project.github.io/docling/

Open-Source-Bibliothek und Modelle für die Verarbeitung von PDFs, Word-Dokumenten etc.

spaCy Layout

https://github.com/explosion/spacy-layout

Open-Source-Bibliothek für die Verarbeitung von PDFs mit spaCy

Prodigy PDF

https://prodi.gy/docs/plugins#pdf

Plugin für das Annotationstool Prodigy mit Workflows für bild- und textbasierte Annotation von PDFs

More Decks by Ines Montani

Other Decks in Technology

Transcript

  1. Softwarefirma spezialisiert auf Entwicklertools für KI, Machine Learning und NLP

    explosion.ai Gründung Ines Montani Gründerin & CEO
  2. “Ich habe die Daten in einem PDF.” “Ich habe die

    Daten auf meinem Computer.” Dokumente “Source of Truth”
  3. explosion.ai/blog/human-in-the-loop-distillation Im Kern bestehen viele NLP-Systeme aus flachen Klassifizierungen. Wir

    können diese in einen einzelnen Prompt packen, oder sie in kleinere Teile zerlegen. Viele Klassifizierungsaufgaben lassen sich heutzutage einfach lösen – aber sie werden viel komplexer, wenn ein Modell sie alle gleichzeitig bearbeiten muss.
  4. github.com/explosion/spacy-layout Doc-Objekt Entitäten, Wortarten, syntaktische Beziehungen, … Transformer-basierte Pipeline für

    Englisch PDF wende Pipeline auf Doc an Doc-Objekt NLP-Pipeline Doc-Objekt Verarbeitung
  5. explosion.ai/blog/pdfs-nlp-structured-data Doc-Objekt Verarbeitung PDF Doc-Objekt NLP-Pipeline Annotation Transfer Learning Prüfe

    die Rolle von Layout-Features Wie wichtig sind sie wirklich? Was können wir abstrahieren, um besser zu generalisieren?
  6. prodigy.ai/docs/plugins $ prodigy pdf.spans.manual papers blank:en ./pdfs -- label EVENT,PLACE

    -- focus text,list_item Rezept Input-Daten Sektionen gespeichert in Datenset
  7. $ prodigy train ./models -- ner papers - - eval-split

    0.3 Output Datenset % für Evaluation
  8. $ prodigy train ./models -- ner papers - - eval-split

    0.3 NLP-Modell Output Datenset % für Evaluation
  9. $ prodigy train ./models -- ner papers - - eval-split

    0.3 NLP-Modell Output Datenset wende PDF-Verarbeitung an % für Evaluation
  10. $ prodigy train ./models -- ner papers - - eval-split

    0.3 NLP-Modell Output Datenset wende PDF-Verarbeitung an wende Modell an % für Evaluation
  11. $ prodigy train ./models -- ner papers - - eval-split

    0.3 NLP-Modell Output Datenset wende PDF-Verarbeitung an wende Modell an skaliere Dokumentenverarbeitung Produktion % für Evaluation
  12. aufgaben- spezifischer Output Prompt Input LLM GPT-5 API Input aufgaben-

    spezifischer Output destillierte aufgabenspezifische Komponenten
  13. aufgaben- spezifischer Output Prompt Input LLM GPT-5 API Input aufgaben-

    spezifischer Output destillierte aufgabenspezifische Komponenten modular
  14. aufgaben- spezifischer Output Prompt Input LLM GPT-5 API Input aufgaben-

    spezifischer Output destillierte aufgabenspezifische Komponenten modular klein & schnell
  15. aufgaben- spezifischer Output Prompt Input LLM GPT-5 API Input aufgaben-

    spezifischer Output destillierte aufgabenspezifische Komponenten modular klein & schnell datenprivat
  16. aufgaben- spezifischer Output Prompt Input LLM GPT-5 API Input aufgaben-

    spezifischer Output destillierte aufgabenspezifische Komponenten modular klein & schnell datenprivat Fallstudie: S&P Global explosion.ai/blog/sp-global-commodities 6 MB Modellgröße 10× schnellere Datenentwicklung Hochsicherheitsumgebung
  17. Arbeite mit einem einheitlichen, strukturierten Format und hole deine Daten

    so früh wie möglich aus PDFs. PDFs sind keine gute Quelle der Wahrheit
  18. Kombiniere Dokumentenverarbeitung mit eigenständig entwickelten NLP-Komponenten. Modularität ist deine Superpower

    Arbeite mit einem einheitlichen, strukturierten Format und hole deine Daten so früh wie möglich aus PDFs. PDFs sind keine gute Quelle der Wahrheit
  19. Kombiniere Dokumentenverarbeitung mit eigenständig entwickelten NLP-Komponenten. Modularität ist deine Superpower

    Modelle für Layoutanalyse werden stets besser, schneller and kleiner! Wir sind noch ganz am Anfang Arbeite mit einem einheitlichen, strukturierten Format und hole deine Daten so früh wie möglich aus PDFs. PDFs sind keine gute Quelle der Wahrheit
  20. Kombiniere Dokumentenverarbeitung mit eigenständig entwickelten NLP-Komponenten. Modularität ist deine Superpower

    Modelle für Layoutanalyse werden stets besser, schneller and kleiner! Wir sind noch ganz am Anfang Arbeite mit einem einheitlichen, strukturierten Format und hole deine Daten so früh wie möglich aus PDFs. PDFs sind keine gute Quelle der Wahrheit Keine Kompromisse bei E ff izienz und Privatsphäre!