Darum haben es Voice Phone Bots in Deutschland noch so schwer.

Die Probleme der Voicebots fangen besonders beim Übertragungsmedium Telefon schon bei der speech to text Wandlung an, die leider noch viel zu schlecht ist.

Ein aus Voice transkribierter Text mit falsch erkannten Wörtern macht es einer Intent Erkennung, die meist für Chatbots entwickelt wurde schwer, Inhalte richtig zu “verstehen”. So wird zum Beispiel meine Antwort “ja bitte” auf eine ja/nein Abfrage eines Voicebot Dialogs in der Praxis gerne mal als “Erwitte” transkribiert und von Google auch gleich als “Stadt in Deutschland” erkannt. Damit kommt der Bot an dieser Stelle nicht weiter un landet im “Fallback Intent”, der meiste ein nutzerunfreundliches “wie bitte…” zur Folge hat. Klar, so genannte “Hints” in der Spracherkennung verbessern im dargestellten einfachen ja/nein Fall den Text Output, in komplexeren Situationen ist das aber nicht so einfach.

Hier wäre es notwendig, daß der inhaltliche Kontext nicht nur für die reine Text Intent Erkennung nach der Speech to Text (STT) Wandlung genutzt wird, sondern bereits vorher für die Speech to Text Wandlung selbst statt nur auf Hints zu setzen. Theoretisch bietet Google so etwas glaube ich sogar ansatzweise an, wenn man stt und Intent Erkennung kombiniert.

Leider sind jedoch diese fortgeschrittenen Technologien meist nur im englischen Sprachraum verfügbar, was daran liegen kann, daß für europäische Sprachen noch zu wenige Trainingsdaten zur Verfügung stehen und/oder das Markt Interesse zu gering ist.

Fazit: es gibt noch viel Raum für Verbesserung von Sprachbots in Europa.