Crowd Computing 27.08.2010, 08:35 Uhr

IBM korrigiert historische Texte

Bei Frakturschrift kommt Texterkennungs-Software ins Schleudern. Um historische Schriften digital zu erfassen, sind viele Korrekturen notwendig. Ein IBM-Programm erlaubt Berichtigungen durch die «Crowd».
Die «Aufschlüsse zur Magie» von Karl von Eckartshausen ist ein gescanntes Buch
Moderne Texterkennungs-Software wie Abbyy FineReader oder Nuance OmniPage erreicht im Test bei sauberen, maschinengeschriebenen Vorlagen Erkennungsraten von 95 Prozent und mehr. Bei Testscans von Texten in Frakturschrift sinkt die Rate auf 50 Prozent und weniger. Dann muss der Korrektor viel Arbeit und Zeit aufwenden, um einen lesbaren, durchsuchbaren und reproduzierbaren Text zu erhalten. Das gilt auch für verschmutzte Originale oder von Hand geschriebene Druckbuchstaben.
Im Rahmen des EU-Forschungsprojekts «Impact» (Improving Access to Text) entwickeln Bibliotheken, Forscher und Unternehmen Technologien zur Digitalisierung von historischen Texten. Das Ziel ist den Initiatoren zufolge ein durchsuchbares Online-Archiv, in dem auch digitale Kopien der Bücher und Dokumente bezogen werden können. Vergleichbare Projekte beschränken sich beim Archivieren der Texte auf die rein fotografische Abbildung. Die Suche nach Stichwörtern ist dann höchstens in den etwaigen Metadaten möglich.
IBMs Crowd Computing
Das Einlesen der historischen Druckwerke geschieht bei «Impact» künftig in zwei Phasen: in der ersten verarbeitet die OCR (Optical Character Recognition) hoch aufgelöste Scans der Originaltexte und markiert unsichere Zeichen elektronisch. Dann kommt ein kollaboratives Online-Korrektursystem zum Einsatz, das Experten von IBM Reseach in Haifa entwickelt haben. In das System können sich die Projektbeteiligten von Bibliotheken und Universitäten einklinken, um gemeinsam die Korrekturen zu beschleunigen. Überdies ist die Technologie «lernfähig», so dass zum Beispiel einmal manuell korrigierte Schriftzeichen hinterher automatisch verarbeitet werden.
Projektkoordinatorin Hildelies Balk von der Koninklijke Bibliotheek in Den Haag verspricht sich von dem System, dass es den Nachbearbeitungsaufwand «entscheidend reduziert». IBM-Forscher Tal Drory will die Einsparungen quantifizieren können: Ein Stenotypist würde vier Stunden benötigen, um ein dünnes Buch abzutippen. Eine OCR mit anschliessender manueller Korrekturschleife benötigt eine Stunde. Durch kollektives Arbeiten mit dem Online-System halbiert sich die erforderliche Zeit, die «lernende» Software verkürzt den Verarbeitungsprozess nochmals auf insgesamt eine Viertelstunde. Somit lassen sich in vier Stunden nicht 1 sondern 16 Bücher erfassen, rechnet Drory vor.



Das könnte Sie auch interessieren