Erweiterung der digitalen Präsentation des Aktienführers sowie seiner Vorgänger • 2016-2018 (offizieller Start Dez. 2016) • Aktienführer = finanzstatistisches Jahrbuch • Erscheint seit 1870, jährlich ca. 1 Band
die Firmenprofile • Aktienführer ist gleich geblieben: – Kopf- und Fußzeile – Überschrift mit Firmenname oder Logo – Zweispaltiger Text • Plan: – Bilder, Kopf-, Fußzeile entfernen – Firmenprofile neu zusammen- setzen als einspaltigen Text
• Zahlen, Namen von Personen, Unternehmen, Orte • Aufzählungen vs. ganze Sätze • Beispiel für einen Fehler: Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern? 1966 Erhöhung auf DM 1 148 000 0U0. -
trainierte Modelle auf Zahlen verwenden • Double-OCR-Verfahren • Regelbasierte Ersetzungen anwenden Problem: Wie kann man die Erkennungs- genauigkeit von Zahlen verbessern?
Kategorien auftrennen • Definierte Überschrift (z.B. Bericht, Umsatz) finden • Texterkennung muss Überschrift richtig erkennen • Problem: g e s p e r r t e S c h r i f t
Vorgehen • Spezifische Methoden für die Datenquelle “Aktienführer” • Open Source Entwicklung • Wir freuen uns Teil der OCR-Community DE zu sein! • https://bib.uni-mannheim.de/index.php?id=1471 • https://digi.bib.uni-mannheim.de/aktienfuehrer/ • {baierer, zumstein}@bib.uni-mannheim.de