Suchen

Spracherkennung IBM erreicht Meilenstein bei der Erkennung natürlicher Sprache

Redakteur: Franz Graser

Der amerikanische IT-Konzern hat nach eigenen Angaben einen neuen Rekord bei der Spracherkennung durch Computer erreicht. Big Blue konnte die Fehlerrate bei der Worterkennung auf 5,5 Prozent reduzieren und bewegt sich damit in etwa auf demselben Niveau wie wir Menschen. Das Endziel sei aber noch nicht erreicht, heißt es.

Firma zum Thema

Bei der Spracherkennung geht es darum, analoge akustische Äußerungen digital verständlich zu machen. IBM hat hier nach eigenen Angaben einen neuen Bestwert erzielt, sagt aber auch, dass es noch viel zu tun gebe.
Bei der Spracherkennung geht es darum, analoge akustische Äußerungen digital verständlich zu machen. IBM hat hier nach eigenen Angaben einen neuen Bestwert erzielt, sagt aber auch, dass es noch viel zu tun gebe.
(Bild: Clipdealer)

George Saon, Principal Research Scientist bei IBM, schreibt in einem Weblog-Eintrag, dass die menschliche Fehlerrate bei der Worterkennung zwischen fünf und zehn Prozent liege: „Je nachdem wen Sie fragen, verstehen Menschen ein oder zwei von zwanzig Worten, die sie hören, nicht. Für die meisten von uns ist das kein Problem. Stellen Sie sich aber vor, wie schwierig das für einen Computer sein muss.“

Die Worterkennungsquote eines Menschen zu erreichen, so Saon, sei schon lange Zeit das ultimative Ziel der Industrie. Ein Mitbewerber – gemeint ist Microsoft – habe bereits im vergangenen Jahr behauptet, diese Marke erreicht zu haben. Microsoft nahm im Oktober 2016 für sich in Anspruch, die Fehlerrate auf 5,9 Prozent gedrückt zu haben und sich damit auf dem Level menschlicher Spracherkennung zu bewegen.

IBM-Mann Saon sagt jedoch: „Bei uns knallen noch keine Sektkorken.“ Big Blue verortet die Parität mit den Menschen bei einer Fehlerrate von 5,1 Prozent. Zu dieser Erkenntnis sei IBM im Laufe seiner Forschungsarbeiten gekommen.

Das Ergebnis von 5,5 Prozent will der IBM-Researcher jedoch nicht kleinreden: „Wir haben einen großen Durchbruch erzielt. Aber wir haben ein gutes Stück Weg zurückzulegen, bevor wir behaupten können, bei der Spracherkennung denselben Level wie Menschen erreicht zu haben.“ Saon zitiert Yoshua Bengio vom Montreal Institute for Learnung Algorithms (MILA), der dieselbe Meinung vertritt.

IBM sei aber auf einem guten Weg, so Bengio, indem das Unternehmen neurale Netze und Deep-Learning-Methoden verwende, um die Spracherkennung zu verbessern. IBM-Mann Saon zitiert zudem Julia Hirschberg, Leiterin des Departments of Computer Science an der Columbia University. Sie sagt: „Menschliche Sprache ist extrem komplex, gerade auch bei spontanen Konversationen. Es ist auch schwierig, das menschliche Sprachverständnis zu definieren, da die Fähigkeit der Menschen, andere zu verstehen, schwankt.“

„Wenn wir automatische Spracherkennung und menschliches Sprachverständnis miteinander vergleichen, dann ist es sehr wichtig, die Leistung des automatischen Systems und das menschliche Verständnis auf dasselbe Sprechbeispiel zueinander in Beziehung zu setzen“, so Professorin Hirschberg. Vor diesem Hintergrund habe IBM sich um die Verbesserung der Messtandards SWITCHBOARD und CallHome verdient gemacht.

Erst im Dezember, so Saon, sei der IBM-Dienst Watson Speech to Text um die sogenannte Diarization ergänzt worden. Das erlaubt es, verschiedene Sprecher auseinanderzuhalten und deren Eigenheiten in die Spracherkennung einzubeziehen. „Unser Fortschritt motiviert uns natürlich“, schließt Saon, „aber unsere Arbeit hängt von weiterer Forschung ab – und davon, uns mit den höchsten Standards messen zu lassen.“

(ID:44572743)