Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Strukturierung finanzstatistischer Jahrbücher ...

Philipp Zumstein
September 06, 2016
100

Strukturierung finanzstatistischer Jahrbücher (Aktienführer II)

OCR-D Workshop, 2016-09-06

Philipp Zumstein

September 06, 2016
Tweet

Transcript

  1. 2 / 10 Universitätsbibliothek Mannheim Übersicht • Projektübersicht • Vorgehen

    im Projekt • Strukturerkennung I • Zeichenerkennung • Strukturerkennung II • Strukturerkennung III
  2. 3 / 10 Universitätsbibliothek Mannheim Projektübersicht • DFG-Projekt “Aktienführer-Datenarchiv II”:

    Erweiterung der digitalen Präsentation des Aktienführers sowie seiner Vorgänger • 2016-2018 (offizieller Start Dez. 2016) • Aktienführer = finanzstatistisches Jahrbuch • Erscheint seit 1870, jährlich ca. 1 Band
  3. 5 / 10 Universitätsbibliothek Mannheim Strukturerkennung I • Sectioning in

    die Firmenprofile • Aktienführer ist gleich geblieben: – Kopf- und Fußzeile – Überschrift mit Firmenname oder Logo – Zweispaltiger Text • Plan: – Bilder, Kopf-, Fußzeile entfernen – Firmenprofile neu zusammen- setzen als einspaltigen Text
  4. 6 / 10 Universitätsbibliothek Mannheim Zeichenerkennung • Normale Antiqua Schrift

    • Zahlen, Namen von Personen, Unternehmen, Orte • Aufzählungen vs. ganze Sätze • Beispiel für einen Fehler: Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern? 1966 Erhöhung auf DM 1 148 000 0U0. -
  5. 7 / 10 Universitätsbibliothek Mannheim Zeichenerkennung von Zahlen • Speziell

    trainierte Modelle auf Zahlen verwenden • Double-OCR-Verfahren • Regelbasierte Ersetzungen anwenden Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern?
  6. 8 / 10 Universitätsbibliothek Mannheim Strukturerkennung II • Unternehmensprofile in

    Kategorien auftrennen • Definierte Überschrift (z.B. Bericht, Umsatz) finden • Texterkennung muss Überschrift richtig erkennen • Problem: g e s p e r r t e S c h r i f t
  7. 9 / 10 Universitätsbibliothek Mannheim Strukturerkennung III • Parsing der

    Binnenstruktur • Erkennen und Aufteilung von Tabellen
  8. 10 / 10 Universitätsbibliothek Mannheim Schlussbemerkungen • Allgemeine Methoden und

    Vorgehen • Spezifische Methoden für die Datenquelle “Aktienführer” • Open Source Entwicklung • Wir freuen uns Teil der OCR-Community DE zu sein! • https://bib.uni-mannheim.de/index.php?id=1471 • https://digi.bib.uni-mannheim.de/aktienfuehrer/ • {baierer, zumstein}@bib.uni-mannheim.de