Richtlinien zur Transkription für Ground Truth

Richtlinien zur Transkription der Volltexte für die Nutzung als Ground Truth

Das OCR-D Ground-Truth-Korpus umfasst Publikationen aus dem Zeitraum 1500 - 1900. Der Inhalt des Korpus basiert auf einer gezielten Auswahl aus dem Bestand des DFG-Projektes „Deutsches Textarchiv“, der Digitalisierten Sammlungen der Staatsbibliothek zu Berlin und der Wolfenbütteler Digitalen Bibliothek der Herzog August Bibliothek. Bestände von Projekten und digitalen Sammlungen anderer Bibliotheken sowie zusätzliche Ground-Truth-Daten, die zusammen mit Modulprojekten erarbeitet werden, können in Abstimmung mit dem OCR-D-Koordinierungsgremium in das Korpus als spezielle Erweiterungen aufgenommen werden. Sollten zusätzliche Annotationen oder spezifische Transkriptionsanweisungen für Texte notwendig sein, können diese in Abstimmung erstellt werden.

Ziele der Bereitstellung von Ground Truth Daten sind:
  • Vorlagen und Daten zum Zweck des Trainings von OCR Programmen bereit zu stellen,
  • sowie eine Prüfung und Evaluation der OCR-Erkennungsergebnisse vornehmen zu können.

Diese Transkriptionsrichtlinien folgen in weiten Teilen den Richtlinien des Deutschen Textarchivs. Im folgenden werden dessen grundlegenden Prinzipien wiedergegeben, denen diese Richtlinien ebenfalls folgen:

  • "Die Erfassung der Texte erfolgt nach dem Prinzip der Wahrung des historischen Sprachstandes der Texte.
  • Aufgrund dieser Zielsetzung wird darauf geachtet, bei der Texterfassung die Zahl der (unvermeidbaren) Interpretationen typographischer Gegebenheiten gering zu halten.
  • Eine Druckfehlerkorrektur erfolgt nicht.
  • Aus dem Prinzip größtmöglicher Bewahrung des Vorlagentextes bei gleichzeitiger Konzentration auf die lexikalischen Gegebenheiten ergeben sich für die Texterfassung die folgenden Richtlinien."

Das Korpus ist im Bezug auf die Interpretation von einzelnen typographischen und graphematischen Phänomenen in unterschiedlichen Leveln transkribiert bzw. kann transkribiert werden. Die Level werden im Weiteren näher erläutert.