Handschriftliche Texterkennung mit künstlicher Intelligenz

Die Technik der optischen Erkennung von Zeichen, Symbolen und anderen Buchstaben, kurz OCR (Optical Character Recognition), war bereits vor dem Einsatz von Computern bekannt. Den ersten Versuch, den Inhalt eines Bildes wahrzunehmen, unternahm 1928 der österreichische Informatikpionier Gustav Tauschek mit der Erfindung einer Magnettrommel, deren Potenzial diese Technologien Ende der 1940er Jahre als Lesehilfe für Texte ausschöpften Blinde und Sehbehinderte.


Ausschnitt aus der elektronischen Version des Dokuments des istrischen Präfekten Angelo Calafati aus dem Jahr 1808, als er die Einrichtung der Koper-Bibliothek genehmigte.

Ein wichtigerer Durchbruch für die Entwicklung der Technologie des optischen Lesens von handschriftlichem und maschinengeschriebenem Text erfolgte 1960, als Postunternehmen wie der amerikanische USPS United States Postal Service, die englische The Royal Mail und die deutsche Deutsche Post sie in ihre Arbeit einführten Verfahren. Diese Technologie wurde in den 1990er Jahren mit dem Einsatz von Personal Digital Assistants (PDA – Personal Digital Assistant) und der zunehmenden Nutzung von Computern und intelligenten mobilen Geräten einer breiteren Bevölkerung zugänglich.

In den letzten Jahren rückt die Digitalisierung in Archiven immer stärker in den Fokus, was einen einfacheren, schnelleren Zugriff und eine transparentere Nutzung von Archivgut in der elektronischen Version ermöglicht. Letzteres ermöglicht dadurch auch einen weiteren Schutz der Originale vor den äußeren Einflüssen der weiteren Verwendung. Bei der Implementierung eines hochwertigen Formatkonvertierungsprozesses reicht es nicht aus, das Material einfach optisch abzubilden oder zu scannen, sondern die Bedürfnisse des Benutzers zu berücksichtigen und das digitalisierte Material auf dem geeignetsten Weg zum Benutzer zu bringen . In diesem Bereich ist die OCR-Technologie mit Schwerpunkt auf der Erkennung von handschriftlichem Text oder HTR (Handwritten Text Recognition) von zentraler Bedeutung. 2019 wurde READ-COOP SCE mit der Aufgabe gegründet, die Transkribus-Plattform zu entwickeln, die basierend auf künstlicher Intelligenz handschriftliche und maschinell geschriebene Texte erkennt und die Suche innerhalb einzelner Dokumente ermöglicht, die in verschiedenen Typografien verfasst sind. Die Plattform stellt mehr als 100 öffentliche Modelle zur Erkennung verschiedener Texte bereit und bietet die Möglichkeit, ein eigenes Modell zu erstellen, das der Forscher oder der Autor auf der Grundlage bereits vorhandener Vorschläge verwandter Sprachen erstellt.

Anlässlich des 600. Jahrestages des Koper-Statuts beschloss das Regionalarchiv Koper, das Alte mit dem Neuen zu verbinden. Anhand der elektronischen Versionen einzelner Abschnitte der Statuten von Koper und Piran und anderer Dokumente, die im Regionalarchiv Koper aufbewahrt werden, haben wir uns daran gemacht, den Betrieb der Transkribus-Plattform zu überprüfen, um die Genauigkeit und Genauigkeit ihres Betriebs festzustellen. Ziel ist es festzustellen, ob ein automatisches Texterkennungstool die Erwartungen für den allgemeinen Einsatz erfüllen kann. Die erhaltenen Ergebnisse der Transkription des fünften Buches des Koper-Statuts von 1668 zeigten, dass diese Art von Text für das Tool kein großes Problem in Bezug auf die Texterkennung darstellte, da der Text im Original klar, transparent und klar gedruckt wird . Dennoch ist zu betonen, dass die Texterkennung nicht fehlerfrei war. Die Plattform oder das Tool ist noch nicht so ausgereift, dass es eine automatische Trennung ähnlich geschriebener Briefe ermöglichen würde. Das verwendete Transkribus Print M1-Modell, das basierend auf CER eine 2,2-prozentige Abweichung von der wahren Bedeutung des Textes vorhersagt, hat in unserem Fall 2,04 Prozent des Inhalts falsch erkannt.

Die Besonderheiten der Typografie werden durch Manuskripte dargestellt, die sich vor allem im Stil und in der Schreibweise des Textautors voneinander unterscheiden. Im Koper-Archiv bewahren wir viele handschriftliche Dokumente auf, die für das Verständnis der Vergangenheit von unschätzbarem Wert sind und bleibende Bedeutung für die Geschichte haben. Eines davon ist das Dokument des istrischen Präfekten Angelo Calafati aus dem Jahr 1808, das die Einrichtung der Koper-Bibliothek genehmigte. Trotz der Tatsache, dass es sich um ein einfacher zu lesendes Dokument handelt, ist in diesem Fall der Prozentsatz der Abweichung der Texterkennung mit dem Transkribus-Tool deutlich höher (12,75 Prozent). Die verwendeten Texterkennungsmodelle mischen einzelne Buchstaben und teilweise Wörter.

Transkribus ist zweifellos eines der interessanteren und wichtigeren forschungsfreundlichen Werkzeuge zum Studium des schriftlichen Erbes, wenn es darum geht, die Vergangenheit mit der Zukunft zu verweben. Es sollte jedoch betont werden, dass das Programm noch „viel zu lernen“ hat, da es sich um einen systematischen und langfristigen Prozess zur Erstellung geeigneter, genauer und spezifischer Modelle der Texterkennung durch Fachleute und Fachexperten handelt. Der Nachteil sind die noch fehlenden Modelle für z. B. slowenische, italienische und lateinische Sprachen, während andere Sprachen (z. B. Deutsch, Englisch usw.) aus anderen Zeiträumen deutlich besser vertreten sind.


IVANČICA SABADIN (Informatikerin, Provinzialarchiv Koper) und JAN COTIČ (Archivar, Provinzialarchiv Koper)


Helfried Kraus

"Möchtegern-Speck-Buff. Preisgekrönter Student. Internet-Praktiker. Alkohol-Ninja."

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert