Uni macht aus „Transkribus“ ein Unternehmen
Seit 2016 kann man über die Plattform „Transkribus“ historische Schriften entziffern lassen. Das Interesse an der Software sei groß, heißt es von Seiten der Uni Innsbruck. Mitte 2019 endet das millionenschwere, von der EU bisher mit acht Millionen Euro geförderte Projekt, vorerst.
Doch am Freitag habe man von der Universität Innsbruck das „Go“ bekommen, ein Unternehmen auf die Beine stellen zu dürfen, erzählte Projektleiter Günter Mühlberger, der an der Universität Innsbruck im Bereich der Digitalisierung und elektronischen Archivierung arbeitet. Der noch fehlende Business-Plan werde noch vorgelegt, kostenpflichtige Premium-Modelle der derzeit für User kostenlos herunterzuladenden Software noch konzipiert und nachgeschärft.
Finnisches Nationalarchiv will Software
Erste potenzielle Kunden der lernenden Software gibt es schon, etwa das finnische Nationalarchiv, das ab 2019 höchstwahrscheinlich mit der Transkribus-Technologie arbeiten wird. Generell sei laut Mühlberger so gut wie jede Universität und jedes Archiv ein möglicher Transkribus-Nutzer. Mit dem Transkribus-Tool könne man die Bestände durchsuchbar machen.
Wenige Monate vor dem Verlassen des universitären Umfeldes und vor Markteintritt habe man schon gute Zahlen vorzuweisen, heißt es von den Projektverantwortlichen - beispielsweise 13.000 registrierte Benutzer und Kooperationsvereinbarungen mit 70 Institutionen aus 22 Ländern weltweit.
Weltweit größte Sammlung an Trainingsdaten
Beteiligt sind an Transkribus neben der Universität Innsbruck, an der die Plattform ins Leben gerufen wurde, unter anderem auch die Universität Valencia und die Universität Rostock. Punkten will man am Markt vor allem damit, dass man bereits die „weltweit größte Sammlung an Trainingsdaten für handschriftliche Dokumente“ habe, so Mühlberger. Derzeit seien mehr als 500 „neuronale Netze“ trainiert und kaum einem Netz seien weniger als 100 bis 200 Seiten zugrunde gelegt.
Daten sind dabei von enormer Wichtigkeit. Da man es nicht mit einem Mainstream-Thema wie Gesichts- oder Nummerntafelerkennung zu tun hat, sondern mit der Erkennung von historischen Handschriften, die primär für Philologen oder Familienforscher beim Durchsuchen von alten Dokumenten interessant ist, sind diese rar.
Korrektur schneller als Abschreiben
Je mehr Daten, desto besser könne das „neuronale“ Netz nach internen Regeln und Mechanismen suchen und so den Zusammenhang zwischen Text und Schrift-Bild herstellen, erklärte der Projektleiter. Als Beispiel nannte Mühlberger die Arbeit eines Kollegen aus Frankreich. Dieser bearbeite die nachgelassenen Schriften des französischen Philosophen Michel Foucault. „Das Modell ist jetzt schon so gut, dass die Korrektur der anfallenden Fehler schneller geht als das reine Abschreiben“, berichtete Mühlberger.
Uni Innsbruck
Fünf Prozent Fehlerquote
Für eine breitere Masse außerhalb der Universitäten und Archive dürfte das sogenannte Keyword-Spotting interessant sein. Im Zuge dieses Services kann ein beliebiger Begriff eingegeben und mit mittlerweile großer Wahrscheinlichkeit gefunden werden. Ein „typisches Dokument mit einer Kanzlei-Schrift“ stelle schon jetzt kein großes Problem dar, führte Mühlberger aus. Er zeigte sich darüber hinaus zuversichtlich, dass künftig mit einem ständig wachsenden Daten-Pool auch bald das Tagebuch des Urgroßvaters oder der Urgroßmutter fehlerfrei lesbar sein wird, auch wenn diese eine „Sauklaue“ gehabt hätten.
Bei einer durchschnittlichen Kurrentschrift der eigenen Vorfahren liege man jetzt schon, bei 15.000 bis 20.000 Wörtern, die das „Netz“ braucht um die Handschrift überhaupt gut zu erlernen, bei einer Fehlerquote von rund fünf Prozent auf Zeichenebene, führte Mühlberger aus. Zukunftsmusik bleibt hingegen - noch - das fehlerfreie Entziffern eines kurzen handschriftlichen Briefes der Familien-Ahnen.