Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Strukturierung finanzstatistischer Jahrbücher ...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Philipp Zumstein Philipp Zumstein
September 06, 2016
120

Strukturierung finanzstatistischer Jahrbücher (Aktienführer II)

OCR-D Workshop, 2016-09-06

Avatar for Philipp Zumstein

Philipp Zumstein

September 06, 2016
Tweet

Transcript

  1. 2 / 10 Universitätsbibliothek Mannheim Übersicht • Projektübersicht • Vorgehen

    im Projekt • Strukturerkennung I • Zeichenerkennung • Strukturerkennung II • Strukturerkennung III
  2. 3 / 10 Universitätsbibliothek Mannheim Projektübersicht • DFG-Projekt “Aktienführer-Datenarchiv II”:

    Erweiterung der digitalen Präsentation des Aktienführers sowie seiner Vorgänger • 2016-2018 (offizieller Start Dez. 2016) • Aktienführer = finanzstatistisches Jahrbuch • Erscheint seit 1870, jährlich ca. 1 Band
  3. 5 / 10 Universitätsbibliothek Mannheim Strukturerkennung I • Sectioning in

    die Firmenprofile • Aktienführer ist gleich geblieben: – Kopf- und Fußzeile – Überschrift mit Firmenname oder Logo – Zweispaltiger Text • Plan: – Bilder, Kopf-, Fußzeile entfernen – Firmenprofile neu zusammen- setzen als einspaltigen Text
  4. 6 / 10 Universitätsbibliothek Mannheim Zeichenerkennung • Normale Antiqua Schrift

    • Zahlen, Namen von Personen, Unternehmen, Orte • Aufzählungen vs. ganze Sätze • Beispiel für einen Fehler: Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern? 1966 Erhöhung auf DM 1 148 000 0U0. -
  5. 7 / 10 Universitätsbibliothek Mannheim Zeichenerkennung von Zahlen • Speziell

    trainierte Modelle auf Zahlen verwenden • Double-OCR-Verfahren • Regelbasierte Ersetzungen anwenden Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern?
  6. 8 / 10 Universitätsbibliothek Mannheim Strukturerkennung II • Unternehmensprofile in

    Kategorien auftrennen • Definierte Überschrift (z.B. Bericht, Umsatz) finden • Texterkennung muss Überschrift richtig erkennen • Problem: g e s p e r r t e S c h r i f t
  7. 9 / 10 Universitätsbibliothek Mannheim Strukturerkennung III • Parsing der

    Binnenstruktur • Erkennen und Aufteilung von Tabellen
  8. 10 / 10 Universitätsbibliothek Mannheim Schlussbemerkungen • Allgemeine Methoden und

    Vorgehen • Spezifische Methoden für die Datenquelle “Aktienführer” • Open Source Entwicklung • Wir freuen uns Teil der OCR-Community DE zu sein! • https://bib.uni-mannheim.de/index.php?id=1471 • https://digi.bib.uni-mannheim.de/aktienfuehrer/ • {baierer, zumstein}@bib.uni-mannheim.de