Graph-basierte Schlüsselworterkennung in historischen Dokumenten

Automatische Erkennung und Transkription von Textbildern mit Schlüsselworterkennung.

Auf der ganzen Welt haben zahlreiche Bibliotheken zur Erhaltung des Weltkulturerbes mit der Digitalisierung ihrer wertvollsten Handschriften begonnen. Die Vielzahl der vorhandenen handschriftlichen Dokumentbilder erweckte das Bedürfnis, sie für die Suche zugänglich zu machen. Die automatische Erkennung und die Transkription von Textbildern sind jedoch noch ein weitgehend ungelöstes Problem (vor allem für sehr abgetragene historische Manuskripte). Darüber hinaus ist die Transkription ganzer Texte für die Suche ineffizient und kann zu schlechter Leistung führen, da falsch erkannte Wörter nicht gefunden werden können. Daher schlug man anstelle von kompletten Transkriptionen die Schlüsselworterkennung (Keyword Spotting, KWS) vor. KWS bezieht sich auf den Prozess des Abrufens aller Instanzen eines bestimmten Schlüsselwortes oder eines Schlüsselsatzes in einem Dokument.

Ziele

In den letzten zwei Jahrzehnten wurde eine Vielzahl von Algorithmen für die KWS entwickelt. Sehr selten verwendete man jedoch Graph-basierte Darstellungen und Graph-Matching für diese spezielle Aufgabe. Dies ist höchstwahrscheinlich auf bekannte Probleme im Zusammenhang mit Graphen auf dem Gebiet der uneingeschränkten Handschrifterkennung zurückzuführen. KWS basiert jedoch nicht unbedingt auf der Handschrifterkennung. In der Tat stellte sich heraus, dass das Paradigma des Graph-Matchings in der Lage ist, den Anforderungen der KWS Genüge zu tun. Das heisst, durch die Darstellung isolierter Wörter mittels Graphen, können die Suche und die Abfrage in Dokumenten als Vergleich eines eingegebenen Graphen (Schlüsselwort) mit einer grossen Gruppe von verschiedenen Graphen oder mit nur einem grossen Graphen (Dokument) interpretiert werden. Das Hauptziel des vorliegenden Projektes ist die Entwicklung von bestimmten Graph-Darstellungen, neuartigen Graph-Matching Technologien, Graph-Einbettung sowie Kernel-Techniken im Bereich der Graph basierten KWS.

Praxis

Zum Testen unseres neuartigen Algorithmus werden zwei historische Dokumente verwendet, nämlich das George Washington Manuskript und das Parzival Manuskript. Diese beiden historischen Dokumente sind in der Gemeinschaft der Dokumentenanalyse wohlbekannt und darüber hinaus bieten sie Benchmark-Tests für KWS.

Theorie

Der Schwerpunkt des Projektes ist, ein vertieftes Verständnis der Vorteile und Beschränkungen von Graph-basierten Methoden im Bereich der KWS zu erlangen.

Projektpartner und Sponsor(en)

Hasler Stiftung

Weitere Informationen/Publikationen finden Sie auf http://www.histograph.ch/.

Kontakt

laden

Social Media des Instituts für Wirtschaftsinformatik

No social media links available.