📓 Struktur-Ground-Truth

Der OCR-D Struktur-Ground-Truth beinhaltet Publikationen bei denen ausschließlich die Strukturen oder Regionen erfasst wurden. Die einzelne Regionen entsprechend dem PAGE-Schema.

Das von OCR-D angebotene Struktur-Ground-Truth-Korpus setzt sich aus Publikationen aus dem Zeitraum von 1500 - 1900 zusammen. Auf dem Digitalisat sind einzelne Regionen entsprechend des PAGE-Schema ausgezeichnet. Darüberhinaus sind einzelne Seiten entsprechend ihres Inhaltes kategorisiert.

Der Inhalt des Korpus basiert auf manuell erfassten Zoning-Daten, die im Zuge des DFG Projektes Deutsches Textarchiv erfasst wurden. Diese Daten dienten ursprünglich der Unterstützung der manuellen Transkription im Double Keying-Verfahren. Eine Bearbeitung (Cropping, Dewarping) der Digitalisate wurde nicht vorgenommen. Die Daten wurden im Rahmen des DFG Projektes Deutsches Textarchiv im Unterschied zum Element-Repertoire des PAGE-Formates in Teilen tiefer erschlossen. Diese Tiefenerschließung ist als Wert des custom-Atributt festgehalten.

Der Struktur-Ground-Truth kann ebenfalls in drei unterschiedlichen Level erstellt werden. Die Level unterscheiden sich dabei im Umfang, der Ausdifferenzierung der einzelnen Seitentypen und Regionen. Weitere Hinweise und Informationen werden in den folgenden Kapiteln dargestellt: