Skip to main content

Spracherkennung für Schweizerdeutsch

Das Institut für Data Science der FHNW arbeitet an einer Spracherkennung und Übersetzung auf Hochdeutsch für die Schweizer Dialekte.

Probieren Sie den aktuellen Stand unserer schweizerdeutschen Spracherkennung selber aus:

ZUR DEMO

Ausgangslage

Während die Spracherkennung für Englisch oder Hochdeutsch schon ziemlich gut funktioniert und dank Siri und Co. in unserem Alltag angekommen ist, gestaltet sich die Sache für Schweizerdeutsch etwas schwieriger. Die Dialektvielfalt, die fehlende standardisierte Rechtschreibung und die vergleichsweise wenigen Sprecher sind die wichtigsten Gründe dafür. Es gibt zwar Lösungen, die Spracherkennung für einen bestimmten Use Case ermöglichen, z.B. für eine bestimmte Domäne in einem Dialekt. Diese sind aber teuer und nicht wiederverwendbar, weil sie zu stark auf eine bestimmte Aufgabe zugeschnitten sind.

Ziele

    In diesem Projekt streben wir eine allgemeine Spracherkennung an, die für alle Domänen und Dialekte funktioniert. So könnten die Kosten deutlich gesenkt und die Anwendungsgebiete erweitert werden. Mögliche Anwendungen sind Sprachassistenten, Protokollierung von Meetings oder Telefongesprächen, Steuerung von Robotern und vieles mehr.

    Ergebnis

      Unser Ansatz basiert auf den neusten Erkenntnissen in den Bereichen Deep Learning und Natural Language Processing (NLP). Damit gelingt es uns, ein Modell zu trainieren, das Spracherkennung und Übersetzung kombiniert und somit direkt schweizerdeutsche Sprachaufnahmen auf hochdeutschen Text übersetzen kann. Solche Modelle brauchen allerdings grosse Mengen an Trainingsdaten, also hunderte bis tausende Stunden von gesprochenen Sätzen in Schweizerdeutsch aligniert mit dem entsprechenden hochdeutschen Text.

      Um an genügend Trainingsdaten heranzukommen, haben wir eine Methode entwickelt, die aus langen schweizerdeutschen Aufnahmen mit zugehörigem hochdeutschem Text, z.B. Parlamentsdiskussionen mit Wortlautprotokoll, automatisch Sprach-Text-Paare auf Satzebene extrahiert. Details können in unserem Paper nachgelesen werden. Das Dataset ist öffentlich und steht hier zum Download bereit.

      Unser aktuelles Modell erreicht eine Word Error Rate von 15 % und einen BLEU Score von 72 auf einem Testset, das Sprecher*innen aus allen grossen schweizerdeutschen Dialektregionen enthält. Sie können die Spracherkennungs- und Übersetzungsqualitäten unseres Modells hier selber testen.

      Projekt-Information

      Kooperationspartner

      Institut für Data Science FHNWSwissNLP, ZHAW, Universität Zürich

      Projektteam

      Prof. Dr. Manfred Vogel, Christian Scheller, Claudio Paonessa, Michel Plüss, Yanick Schraner


      Diese Seite teilen: