Layout und Struktur

Richtlinien zur Erfassung des Layouts und der Struktur von gedruckten Texten für die Nutzung als Ground Truth

Die Bereitstellung von Ground-Truth mit Layout und Strukturinformationen verfolgt das Ziel, dass sowohl im Trainingsprozess als auch im Endergebnis der Texterkennung (OCR+OLR) alle auf einer Seite erkennbaren Regionen erkannt und entsprechend den Anforderungen klassifiziert werden können. Die trainierten Modelle sollen dazu beitragen, dass die Volltexterfassung der Drucke aus dem Zeitraum des 16.-18. Jahrhundert als Massenanwendung realisierbar und die Textgenauigkeit, im Gesamtergebnis des Texterfassungsprozesses den höchsten wissenschaftlichen Ansprüchen genügt. Wie bei der Texterfassung-Transkription kann der Ground-Truth in unterschiedlichen Erfassungstiefen (Level) vorliegen.