Jede Zeichenerkennung, also auch KADMOS, kann auf unterster Ebene nur Zeichenformen erkennen. So kann die Zeichenform
q sowohl eine Neun als auch ein kleines q bedeuten,
die Zeichenform 9 dagegen kann - je nach Stellung in der Zeile - eine Neun oder ein
kleines g bedeuten. Damit haben wir bereits ein Beispiel für zwei Zeichenformen
(q, g), die beide eine Ziffer Neun bedeuten können.
Alle gängigen Zeichenformen werden in KADMOS durch zwei Unicode©-Zeichen gekennzeichnet. Diese Kennzeichnung nennen wir
Basis-Kennungen. Bestimmte Zeichenformen können mehrere Basis-Kennungen gleichzeitig haben. So hat etwa die Zeichenform
q die Basis-Kennung q1 und 91
und die Zeichenform 9 die Basis-Kennung 9_ und
g1 (solche Basis-Kennungen, die zu einer gleichen Zeichenform gehören, sind in der
Alc
-Datei unter [equivalence]
, moma=...
verzeichnet).
Bei “normalen” Anwendungen interessiert man sich jedoch gar nicht für Zeichenformen, sondern für Zeichenbedeutungen.
So will man etwa nur wissen, ob in einem Zahlenfeld eine Neun erkannt wurde. Dazu wurden bei KADMOS die Gruppen-Kennungen
eingeführt (Gruppenkennungen sind in der Alc-Datei unter [equivalence]
, rename=...
verzeichnet).
Den beiden Basis-Kennungen 91 und 9_ wird
also die Gruppen-Kennung 9_ (Hanschrift-Neun) zugeordnet. Es ist wählbar ob mit
Gruppen-Kennung oder Basis-Kennungen gearbeitet werden soll, voreingestellt sind Gruppen-Kennung. Siehe
OPTIONS_BASICLABELS
🗏
Die Erkennungsresultate werden von KADMOS mit zwei Unicode©-Zeichen zurückgeliefert. Das erste Unicode©-Zeichen (Erstkennung) ist üblicherweise
das erkannten Zeichen. Siehe code
🗏
Das zweite Unicode©-Zeichen (Zweitkennung) gibt eine nähere Kennzeichnung (Standard ist blank
für Maschinenschrift und
_
für Handschrift). Darüberhinaus gibt es Sonderfälle, die durch ein spezielles
zweites Zeichen gekennzeichnet sind, besonders bei Basis-Kennungen.
🖉 = _ 1 3 5 7 9 C S U V W X Y Z ( ; ) * / = ? { } A
⌨ = 2 4 6 8
c s u v w x y z | : , . ' - ! [ ] ^
Ligaturen 🖉 = L
Ligaturen ⌨ = l
Ligaturen Fraktur = p
Ligaturen Sütterlin = P
Griechisch: 🖉 = G
⌨ = g
Kyrillisch: 🖉 = K
⌨ = k
Hebräisch: 🖉 = H
⌨ = h
Fraktur: ⌨ = f
Arabisch/Persisch/Farsi:🖉 = M I
⌨ = m i
Tamil:🖉 = Z
⌨ = z
Thai:🖉 = T
⌨ = t
Einige Zweitkennungen lassen sich direkt mit einem speziellen Aussehen oder einem dem Zeichen zugehörigen Akzent-Zeichen verbinden.
🖉 (
⌨ |
: Zeichen als Strich, z.B. Grosses I, kleines L ohne Serife.
🖉 ;
⌨ :
: Buchstaben mit Diärese, z.B. ä ö Ü
.
🖉 )
⌨ ,
: Buchstaben mit Gravis, z.B. À Ò Ù
.
🖉 *
⌨ .
: Buchstaben mit Ring oder Punkt oben, z.B. Å Ċ
; Ziffern hochgestellt z.B. ² ³
und Gradzeichen.
🖉 /
⌨ '
: Buchstaben mit Akut z.B. Á É Ó
.
🖉 =
⌨ -
: Buchstaben mit Macron, z.B. Ā Ū
; lateinischer Buchstabe ETH und Divisionszeichen.
🖉 ?
⌨ !
: Buchstaben mit Doppelt-Akut, z.B. Ő Ű
.
🖉 {
⌨ [
: Buchstaben mit Häkchen, z.B. Ơ Ư
sowie Diakritische Zeichen, Ligaturen und Silben.
🖉 }
⌨ ]
: Diakritische Zeichen, Ligaturen und Silben.
🖉 A
⌨ ^
: Buchstaben mit Zirkumflex, z.B. Â Ĉ Ĝ
.
🖉 C
⌨ c
: Buchstaben mit Ogonek oder Cedille, z.B. Ą Ç Ę
.
🖉 S
⌨ s
: Buchstaben mit Tilde, z.B. Ñ Ũ
.
🖉 U
⌨ u
: Buchstaben mit Breve, z.B. Ă Ğ
.
🖉 W
⌨ w
: Buchstaben mit Querstrich, z.B. Đ đ Ƶ ƶ
.
🖉 Y
⌨ y
: Buchstaben wie Ae Oe
.
a
: Latein / Norm OCR-A
b
: Latein / Norm OCR-B
c
: Latein / Norm CMC7
d
: Latein / Norm Semi
e
: Latein / Norm E13B
f
: Latein / Norm F7B
+
Ecke oben
-
Ecke unten
d
Boxen
Übersicht der Zeichen und ihrer Kennungen findet sich auf unserer Webseite.