Das OCR-D-Projekt

Jun 1, 2016

OCR-D ist ein Koordinierungsprojekt, welches auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.

Dabei werden Workflow und Verfahren der automatischen Texterkennung untersucht, beschrieben und ggf. optimiert. Ein wesentliches Ziel ist es, die Transformation von Drucke des deutschsprachigen Raums aus dem 16.-19. Jahrhundert in elektronischen Volltext konzeptuell vorzubereiten.

An diesem Vorhaben beteiligen sich die Herzog August Bibliothek Wolfenbüttel, die Berlin-Brandenburgische Akademie der Wissenschaften in Berlin sowie die Staatsbibliothek zu Berlin Preußischer Kulturbesitz und dem Karlsruher Institut für Technologie. Ebenfalls beteiligt war bis zum 31.08.2016 die Bayerische Staatsbibliothek. Unterstütz wird das Projekt durch Experten, Wissenschaftler und Bibliotheken.

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Der Mehrwert durch die Nutzung von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar.

Bislang ist der Zugriff auf den elektronischen Volltext jedoch oft nicht oder nur in unzureichender Form möglich. Viele historische Bestände liegen in digitalisierter Form durch die „Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke“ (kurz VD) vor. Resultate aus gängigen OCR-Verfahren waren bislang ungenügend. Insbesondere werden alte Drucktypen, vor allem Fraktur, nur schwerlich erkannt.

Hier besteht Entwicklungsbedarf, den wir in OCR-D aufdecken. Wir bauen dabei auf die bereits bestehende Tools und Untersuchungen auf. Durch eine Neu-Kombination, in seltenen Fällen auch durch Neuentwicklung, soll der OCR-Prozess für die VD-Drucke spezialisiert werden. Dabei wird nach Antworten auf aktuelle technische, informationswissenschaftliche und organisatorische Probleme gesucht.

Das Projekt wird durch die Deutsche Forschungsgemeinschaft (DFG) gefördert und hat eine Laufzeit von drei Jahren bis September 2018. In der ersten Phase werden Bedarfe aufgedeckt und Konzepte für den weiteren Verlauf erarbeitet. Die Kooperationsstruktur wird gefestigt und in der zweiten Phase fortgeführt. In dieser werden Ausschreibungen für Pilotprojekte erfolgen, die eine Beteiligung weiterer Einrichtungen ermöglicht. In allen Schritten begrüßen wir einen regen Austausch mit Kolleginnen und Kollegen aus artverwandten Projekten und Einrichtungen sowie Dienstleistern.

Am Ende des Gesamtvorhabens soll ein konsolidiertes Verfahren zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jh. erarbeitet sein.