Articles
Digital mit reCAPTCHA
Die Digitalisierung ist bereits fest in unserem Bewusstsein verankert und stellt einen der wichtigsten Trends dar, den ein Unternehmen nicht verpassen darf, wenn es den Anschluss nicht verlieren oder dadurch auf seinem Markt gar einen Vorsprung erreichen will. Aber wissen wir denn wirklich genau, was sich hinter diesem Begriff verbirgt, welchen Nutzen sie uns bringt und auf welche Weise sie umgesetzt wird? Wussten Sie übrigens, dass fast jeder von uns — unbewusst — bereits zu ihrem Bestandteil wurde bzw. sich an der Digitalisierung beteiligt hat?
Millionen Nutzer „schreiben ab“
Ein ideales Beispiel dafür kann reCAPTCHA sein — ein Mechanismus, der es erlaubt, die Mehrheit der Portale oder Webseiten vor Zugangsversuchen durch sogenannte „Bots“ abzusichern. Er verlangt vom Nutzer, die in einem Fenster auf dem Bildschirm angezeigten Worte abzuschreiben, um damit zu bestätigen, dass er „eine lebende Person“ ist.
Aber, außer Sicherheit zu gewährleisten, ist er auch eine höchst effiziente Methode, kostenlos und schnell die Digitalisierung von ganzen Texten zu unterstützen. Wie funktioniert das? reCAPTCHA zeigt zwei Worte, wovon der Software eins bekannt ist und das zweite nicht mit hundertprozentiger Genauigkeit durch die Mechanismen der automatischen Texterkennung erkannt werden konnte. Wenn eine bestimmte Anzahl von Nutzern beide Worte genau gleich angibt, nimmt das Programm an, dass das „unsichere“ Wort ebenfalls erkannt wurde und fügt es der Datenbank hinzu. Auf diese Weise trug in den letzten Jahren (fast) jeder von uns zur Digitalisierung von z.B. Papierausgaben der New York Times oder des Bestandes der amerikanischen Nationalbibliothek (jährlich ca. 17.000 Bücher) bei.
Was aber hat das mit Digitalisierung zu tun?
Konzentrieren wir uns nun auf das Wesentliche — was ist eigentlich „die texterkennende Digitalisierung“? Sie kann in einfachen Worten als ein Prozess beschrieben werden, der zum Ziel hat, die Maschinen- der Handschrift, die auf einem physischen (materiellen) Träger (meist Papier) aufgeschrieben bzw. gedruckt ist, zu erkennen und in digitaler Form aufzuzeichnen. Jedoch ist das populäre Scannen von Dokumenten keine Digitalisierung im vollständigen Sinne dieses Wortes. Es weist zwar einige Merkmale der vollständigen Digitalisierung auf, bleibt aber letztlich nur ein einfaches Abbild des gescannten Dokuments. Von der vollendeten Digitalisierung können wir erst dann sprechen, wenn ein physisches (materielles) Dokument in eine digitale Version in Form einzelner Zeichen verwandelt wird. Und eben diese Grundeigenschaft bringt den meisten Nutzen im Digitalisierungsprozess und führt uns vor Augen, warum dieser Prozess zu einem der führenden Trends unserer Zeit wurde.
Dank der Digitalisierung gewinnen wir an so selbstverständlichen Dingen wie den Wegfall der Notwendigkeit, große Mengen Papierdokumente aufzubewahren und dafür entsprechende Lagerflächen (Archive) vorzuhalten. Sie gewährleistet auch die Sicherheit der Dokumente vor Risiken, denen das Papier ausgesetzt ist (Feuer, Feuchtigkeit, Altern usw.). Vor allem aber bieten digitale Dokumente eine wesentlich vielfältigere sogenannte Usability, quasi Nutzungsvielfalt, die bei dem Standardträgermaterial Papier eher beschränkt und in manchen Fällen ganz unmöglich ist. Dank der Digitalisierung verliert auch die Entfernung zum Dokument an Bedeutung, wird der physische Transport des Dokuments oder der Bibliotheks- bzw. Archivbesuch überflüssig. Wir gewinnen den sofortigen Zugang zu den gewünschten Daten, haben die Möglichkeit, gewaltige Bestände nach beliebigen Inhalten abzusuchen, Abschnitte oder einzelne Worte zu kopieren, aber auch am selben Dokument in derselben Zeit, unabhängig vom Ort, zusammenzuarbeiten. Was hier zählt ist, dass die Digitalisierung gewaltige Potenziale erschließt, Prozesse zu optimieren und zu automatisieren und dadurch dieselben Aufgaben erheblich effizienter zu erledigen als zuvor.
Ziel: die (voll)automatische Texterkennung
Der Schlüssel zu den genannten Vorteilen ist mithin das in einzelnen Zeichen digitalisierte Dokument, nicht das gescannte. Der zu Beginn erwähnte Mechanismus reCAPTCHA ist z.B., trotz des Skalenniveaus, ein manueller Prozess, der die automatische Texterkennung unterstützt, selber aber noch kein derartiger Automatismus ist, da er ja auf das Abschreiben der vermutet richtigen Zeichenfolge angewiesen ist.
Das derzeit populärste Werkzeug automatischer Texterkennung heißt OCR (Optical Character Recognition), daneben gibt es aber auch noch andere Methoden wie OWR (Optical Word Recognition) oder ICR (Intelligent Character Recognition), die sich auf die Erkennung von ganzen Worten bzw. der Handschrift konzentrieren. Diese sogenannten „Engines“ werden in zahlreichen unterschiedlichen Softwaretypen genutzt, deren aktuell bekannteste der ABBYY FineReader ist.
Leider verläuft der texterkennende Digitalisierungsprozess noch nicht ideal und liefert trotz der Anwendung der genannte Mechanismen nicht immer ein zu 100 Prozent eindeutiges Ergebnis. Deswegen wenden diese Softwaresysteme zusätzliche Mechanismen an, die die Korrektheit der Texterkennung unterstützen, erleichtern und verifizieren, z.B. Wörter- und Handbuch-Datenbanken (Wörterbücher, Register geographischer Namen) oder bestimmte Standardeigenschaften und –verbindungen (IBAN, PESEL-Nummer).
Die größte Herausforderung für die Digitalisierung stellt zweifelsohne die Handschrift dar. Die auf Digitalisierungstechniken spezialisierten Firmen arbeiten bereits seit Jahren daran, die Effizienz der richtigen Erkennung von Handschriften zu erhöhen, jedoch ist die Genauigkeit noch weit geringer als bei Maschinenschrift.
Die Digitalisierung ist bereits jetzt allgegenwärtig in vielen Aspekten des täglichen Lebens und das Bestreben, in möglichst vielen Bereichen und Prozessen papierlos bzw. ohne physische Informationsträger auszukommen, hält unvermindert an. Mittelbar wird der vollständige Verzicht auf Papier zumindest in unserem Geschäft jedoch (noch) nicht möglich sein, weil auch weiterhin ein Teil der Dokumente aufgrund juristischer und regulatorischer Anforderungen sowie aus technologischen Gründen in der Papierversion aufbewahrt werden müssen. Trotzdem wird die Digitalisierung für die kommenden Jahre die führende Technologie sein und die allermeisten Unternehmen werden deren breite Anwendung anstreben un sie in ihren Geschäftsabläufen nutzen. Ihr direkt und ganz real kostensenkender und effizienzsteigender Einfluss ist ein entscheidender Wettbewerbsvorteil auch bei der Durchführung von sensitiven Prozessen. Nutzen wir diesen!
Marcin Ujazda,
Direktor IT