Level 2

Sowohl die konsonantischen Ligaturen (tz, ct, ts, ff etc.) sowie die Ligatur ij als auch die in deutschsprachigen Texten üblichen Ligaturen wie fi, fl, ft, deren Derivate, sowie fk, fj, fh, fb, fz, ll, mm, nn, st, ch, ck, ct, th, tt, tz, kk, Qu, ſi, ſſ, ſt, ſch sind grundsätzlich aufzuspalten.

Um aufgespaltene Ligaturen im Ground-Truth zu erkennen, werden diese Ligaturen als typographische Besonderheiten betrachtet und als diese gekennzeichnet.

Vokalische Ligaturen werden grundsätzlich als ein Zeichen realisiert:

Vorlage Zeichen Entität Beschreibung
ae-Ligatur æ U+00E6 LATIN SMALL LETTER AE
oe-Ligatur œ U+0153 LATIN SMALL LIGATURE OE
AE-Ligatur Æ U+00C6 LATIN CAPITAL LETTER AE
OE-Ligatur ΠU+0152 LATIN CAPITAL LIGATURE OE