Warum Ihr AI Voice Agent Anrufer AI Voice Agent und wie Sie das Problem beheben können
Bei jedem AI voice agent muss vor allem eines einwandfrei funktionieren, bevor alles andere überhaupt in Gang kommen kann. Noch vor der Logik. Noch vor den Integrationen. Noch bevor die Daten Ihre Backend-Systeme erreichen.
Der Mitarbeiter muss hören, was der Anrufer tatsächlich gesagt hat.
Wenn die Spracherkennungsschicht die Eingabe falsch interpretiert, steht alles, was danach folgt, auf einer falschen Grundlage. Die KI verarbeitet die falschen Wörter, generiert eine Antwort auf eine Frage, die der Anrufer gar nicht gestellt hat, und das Gespräch bricht ab. Der Anrufer wiederholt sich. Der Mitarbeiter versteht ihn erneut falsch. Der Anrufer bittet darum, mit einem Menschen zu sprechen.
Das ist kein hypothetischer Sonderfall. So etwas passiert in der Praxis, branchenübergreifend, jeden Tag. Und für die meisten Unternehmen, die KI-Sprachassistenten einsetzen, ist dies die am stärksten unterschätzte Ursache für fehlgeschlagene Anrufe.
Wir setzen ASR-Hinweise bereits seit Jahren ein, und nun sind sie auch im Flow Designer verfügbar. In diesem Artikel wird erläutert, was ASR ist, warum es in realen Geschäftsumgebungen zu Fehlern führt und wie diese Hinweise das Problem auf eine Weise lösen, die keine technischen Fachkenntnisse für die Konfiguration erfordert.
Was ASR ist und was es tatsächlich leistet
ASR steht für „Automatic Speech Recognition“ (automatische Spracherkennung). Dabei handelt es sich um die Technologie, die die gesprochenen Worte eines Anrufers in Text umwandelt. Dieser Text wird anschließend vom Sprachmodell verarbeitet, das ihn nutzt, um die Absicht zu erkennen und eine Antwort zu generieren.
ASR ist keine KI, die denkt, sondern eine KI, die zuhört.
Jeder AI voice agent, unabhängig davon, auf welcher Plattform er läuft, verfügt über eine ASR-Engine, die in Echtzeit unterhalb der Konversationsebene arbeitet. Die Qualität aller Äußerungen und Handlungen des Assistenten hängt davon ab, ob die ASR-Engine die Äußerungen des Anrufers zunächst korrekt erfasst hat.
Allgemeine ASR-Engines werden anhand umfangreicher Datensätze mit aufgezeichneter menschlicher Sprache trainiert. Sie erzielen gute Ergebnisse bei gängigen Wörtern, die in Standardaussprache und unter angemessenen Tonbedingungen gesprochen werden. Sie wurden entwickelt, um Alltagssprache zu einer Vielzahl von Themen zu verarbeiten.
Sie wurden nicht dafür entwickelt, zu erkennen, dass Ihre Anrufer den Namen eines bestimmten Versicherungsprodukts, den Namen eines niederländischen Medikaments, den Code eines Logistikunternehmens oder den Namen einer Rollermarke nennen, die in den üblichen Sprachtrainingsdaten nirgends vorkommen.
Wenn ein Anrufer Begriffe verwendet, denen die ASR-Engine bisher nur selten oder gar nicht begegnet ist, trifft die Engine auf der Grundlage phonetischer Ähnlichkeiten eine bestmögliche Vermutung. Manchmal ist diese Vermutung richtig. Oftmals ist sie es jedoch nicht. Und wenn dies der Fall ist, gelangen die tatsächlichen Worte des Anrufers gar nicht erst in das Sprachmodell.
Warum ASR-Fehler schwerwiegender sind, als es den Anschein hat
Ein einziger ASR-Fehler in einem Anruf löst eine Kettenreaktion aus.
Das Sprachmodell erhält eine Transkription, die nicht mit dem übereinstimmt, was der Anrufer gesagt hat. Es generiert eine Antwort auf die falsche Eingabe. Der Anrufer hört eine Antwort auf eine Frage, die er gar nicht gestellt hat. Er korrigiert sich. Der Mitarbeiter verarbeitet die Korrektur. Wird dasselbe Wort erneut falsch erkannt, verliert der Anrufer das Vertrauen in das System.
Über das individuelle Gesprächserlebnis hinaus haben ASR-Fehler in großem Umfang messbare betriebliche Folgen.
Der Anteil der Anrufe, die die KI eigenständig bearbeiten kann, sinkt, da immer mehr Anrufe an einen menschlichen Mitarbeiter weitergeleitet werden müssen. Die durchschnittliche Bearbeitungszeit steigt, da es mehr Gesprächsrunden erfordert, bis eine Lösung gefunden wird. Die Erstlösungsquote sinkt, da der Mitarbeiter bei falsch verstandenen Daten nicht richtig reagieren kann. Und die Datenqualität in den angeschlossenen Systemen leidet darunter, da die Ausgabe einer falsch verstandenen Eingabe niemals den Daten entspricht, die Ihr Backend erwartet hat.
In Branchen, in denen es auf Präzision ankommt, sind die Folgen noch gravierender. Ein Gesundheitsdienstleister, dessen Sprachassistent den Namen eines Medikaments falsch versteht, hat es nicht nur mit einer Unannehmlichkeit zu tun. Es handelt sich um ein Risiko. Eine Versicherungsgesellschaft, deren Mitarbeiter die Art der Police falsch versteht, leitet den Anrufer in den falschen Arbeitsablauf weiter. Ein Logistikunternehmen, dessen Mitarbeiter den Spediteurcode falsch versteht, kann den richtigen Sendungsdatensatz nicht abrufen.
Der rote Faden ist in jedem Fall derselbe. Das Problem ist nicht, dass das Sprachmodell unintelligent ist. Das Problem ist, dass es nie die richtigen Eingaben erhalten hat.
Wo ASR konkret Schwierigkeiten hat
Wenn Sie wissen, welche Wortkategorien die meisten ASR-Fehler verursachen, können Sie genau feststellen, an welchen Stellen Hinweise in Ihren eigenen Anrufabläufen die größte Wirkung erzielen.
Markennamen und Produktnamen
Für die meisten Unternehmen stellen diese die Kategorie mit dem höchsten Risiko dar. Markennamen, Produktlinien und Dienstleistungsnamen kommen in allgemeinen Sprachdatensätzen in der Regel nicht vor. Ein Anrufer, der den Namen eines bestimmten Versicherungsprodukts, einer bestimmten Rollermarke oder einer bestimmten Software-Stufe nennt, verwendet Begriffe, denen die ASR-Engine wahrscheinlich nur sehr selten begegnet ist.
Eigennamen und Ortsnamen
Stadts, Straßennamen, Stadtteilnamen und Firmennamen führen bei universellen Spracherkennungssystemen regelmäßig zu Fehlern, insbesondere bei niederländischen Sprachströmen, bei denen sich der Namensbestand erheblich von den englischen Trainingsdaten unterscheidet.
Medizinische und pharmazeutische Terminologie
Arzneimittelnamen, Facharztbezeichnungen, Bezeichnungen für medizinische Verfahren und klinische Fachbegriffe sind in hohem Maße fachspezifisch. Eine allgemeine ASR-Engine, die zum ersten Mal auf einen niederländischen Arzneimittelnamen stößt, liefert eine phonetisch ähnliche, aber sinnlose Transkription.
Branchenspezifische Codes und Kennungen
Dies ist einer der Bereiche, in denen die automatische Spracherkennung (ASR) die größten Schwierigkeiten hat und in denen Hinweise den größten Unterschied machen. Denken Sie an Kfz-Kennzeichen, Geburtsdaten, Postleitzahlen, Versicherungsnummern, Bestellnummern, Speditionscodes und Produkt-SKUs. Diese folgen Mustern, auf deren Verarbeitung eine ASR-Engine durch allgemeine Trainingsdaten nicht vorbereitet ist. Kurze alphanumerische Kennungen sind besonders anfällig, da es kaum phonetischen Kontext gibt, an dem sich die Erkennung orientieren kann. Ein Kennzeichen wie 47 XBP 9 oder eine Postleitzahl wie 1234 AB wird ohne Hinweise oft falsch interpretiert, obwohl genau diese Eingaben für Unternehmen entscheidend sind, um Kundendaten, Fahrzeuginformationen oder Lieferadressen abzurufen.
Genau auf diese Art von Eingaben sind Unternehmen bei der automatisierten Überprüfung und Weiterleitung am stärksten angewiesen, und hier führt ein ASR-Fehler unmittelbar zu einer fehlgeschlagenen Transaktion.
Die Lösung: ASR-Hinweise im AssistYou Flow Builder
AssistYou können Sie AssistYou ASR-Hinweise direkt an jedem beliebigen node Ihrem Gesprächsablauf einfügen.
Wenn die ASR-Engine einen node erreicht node Hinweise konfiguriert sind, erhält sie diese Wörter als zusätzlichen Kontext, bevor der Sprecher zu sprechen beginnt. Anhand dieses Kontexts gewichtet sie ihre Transkriptionsentscheidungen zugunsten des erwarteten Vokabulars. Der Name einer Rollermarke, der andernfalls als zufällige phonetische Übereinstimmung transkribiert würde, wird nun korrekt erkannt, da die Engine darauf vorbereitet wurde, ihn zu erwarten.
So funktioniert die hinweisbasierte Vokabularerweiterung in professionellen Spracherkennungssystemen. Mithilfe von benutzerdefinierten Vokabularfunktionen können Sie dem System mitteilen, dass es bestimmte Begriffe erwarten soll, was die Genauigkeit bei fachspezifischen Inhalten erheblich verbessert.
Die Implementierung in der AssistYou erfordert keinerlei technisches Fachwissen. Sie navigieren zu dem node Anrufer voraussichtlich bestimmte Wörter sagen werden, öffnen die node und fügen die entsprechenden Hinweise als Liste hinzu. Die Hinweise gelten node für diesen node , was bedeutet, dass Sie der ASR-Engine im genau richtigen Moment des Ablaufs präzise, kontextbezogene Anweisungen geben, anstatt eine pauschale Vokabelliste zu verwenden, die unterschiedslos angewendet wird.
Ein praktisches Beispiel: Erkennung von Versicherungsnamen
Nehmen wir als Beispiel eine Versicherungsgesellschaft, die einen AI voice agent die Entgegennahme von Schadensmeldungen einsetzt. An einer Stelle im Ablauf bittet der Assistent den Anrufer, anzugeben, auf welches Produkt sich seine Schadensmeldung bezieht.
Das Unternehmen bietet zwölf verschiedene Produkte an, von denen jedes einen spezifischen Namen trägt, der sich aus einer Kombination des Markennamens und einer Beschreibung zusammensetzt: Begriffe wie „Rechtsbijstand“, „Aansprakelijkheid“ und „Inboedel“, die für einen niederländischen Muttersprachler klar verständlich sind, für eine allgemeine ASR-Engine jedoch phonetisch ungewöhnlich sind, insbesondere unter den Tonqualitätsbedingungen einer Standard-Telefonleitung.
Ohne ASR-Hinweise gibt die Engine ihre beste Vermutung aus. Einige Produktnamen werden korrekt erkannt, andere hingegen nicht. Der Mitarbeiter erhält den falschen Produktnamen, leitet den Anrufer an den falschen Schadensbearbeitungs-Workflow weiter, und der Fehler wird erst entdeckt, wenn ein menschlicher Mitarbeiter das Ticket überprüft.
Wenn an diesem node ASR-Hinweise konfiguriert sind, werden der Engine alle zwölf Produktnamen bereitgestellt, bevor der Anrufer spricht. Die Engine transkribiert diese Namen nun mit deutlich höherer Genauigkeit. Der Schadensbearbeitungs-Workflow erhält den korrekten Produktnamen. Der Anrufer wird korrekt weitergeleitet. Die Daten im angeschlossenen CRM korrekt.
Das ist der Unterschied zwischen einem Sprachassistenten, der regelmäßig von Menschen korrigiert werden muss, und einem, der auch in großem Maßstab zuverlässig funktioniert.
Tipps zur ASR und speziell zur niederländischen Sprache
Für niederländischsprachige Gesprächsabläufe sind ASR-Hinweise besonders wertvoll.
Niederländisch wird in kommerziellen ASR-Systemen gut unterstützt, doch niederländische Eigennamen, Ortsnamen und Fachvokabular sind in den meisten Trainingsdatensätzen nach wie vor unterrepräsentiert. Eine ASR-Engine, die gängige niederländische Gesprächsformulierungen zuverlässig verarbeitet, kann dennoch Schwierigkeiten mit einem Stadtteilnamen in Utrecht oder einem Medikamentennamen haben, der die niederländische Phonologie auf unerwartete Weise nutzt.
Bei AssistYou vereinen wir die Stärken führender ASR-Anbieter, darunter Speechmatics und Deepgram, in einem integrierten System, das die Konfiguration von Hinweisen nativ unterstützt. Durch die Zusammenführung dieser Engines nutzen wir die jeweiligen Stärken der einzelnen Anbieter und steigern die Erkennungsgenauigkeit auf eine Weise, die keine einzelne Engine für sich allein erreichen könnte. Das Hint-System arbeitet mit den Funktionen zur Wortschatzanreicherung des zugrunde liegenden ASR-Anbieters zusammen, was bedeutet, dass die Verbesserung auf der Ebene der Erkennung selbst stattfindet und nicht als Korrektur in der Nachbearbeitung.
Dies ist von Bedeutung, da Korrekturen in der Nachbearbeitung, die manche Plattformen nach der Erzeugung der ASR-Ausgabe vornehmen, nur Fehler beheben können, auf deren Erkennung das System bereits trainiert wurde. Das hint-basierte Boosting greift bereits früher im Prozess, noch bevor der Fehler entsteht.
Was ASR-Hinweise nicht leisten
Es ist wichtig, den Umfang dieser Funktion genau zu kennen, damit Sie sie korrekt konfigurieren können.
ASR-Hinweise verbessern die Transkriptionsgenauigkeit für erwartete Vokabeln an bestimmten Stellen im Gesprächsverlauf. Sie sind kein Ersatz für eine gut trainierte ASR-Engine. Sie beheben keine Probleme mit der Audioqualität, die durch schlechte Telefonverbindungen oder starke Hintergrundgeräusche verursacht werden. Sie verbessern nicht die Erkennung spontaner, unvorhersehbarer Vokabeln, die Sie nicht im Voraus antizipieren können.
Hinweise sind am effektivsten, wenn Sie wissen, was ein Anrufer in einem bestimmten Schritt voraussichtlich sagen wird. Wenn in einem Schritt eine offene Frage mit einer Vielzahl möglicher Antworten gestellt wird, sind Hinweise weniger sinnvoll. Wenn in einem Schritt eine bestimmte Art von Eingabe verlangt wird, wie beispielsweise ein Produktname, eine Marke, eine Versicherungsart oder eine Fachkategorie, sorgen Hinweise für eine deutliche und messbare Verbesserung.
Setzen Sie sie dort ein, wo der Wortschatz bekannt und spezifisch ist. Dort entfalten sie die größte Wirkung.
Häufig gestellte Fragen
Was bedeutet ASR im Zusammenhang mit einem AI voice agent? ASR steht für „Automatic Speech Recognition“ (automatische Spracherkennung). Dabei handelt es sich um die Technologie, die gesprochene Eingaben des Anrufers in Text umwandelt, den das KI-Sprachmodell verarbeiten kann. Jeder AI voice agent auf eine ordnungsgemäß funktionierende ASR-Engine AI voice agent , damit die Gesprächslogik überhaupt funktionieren kann.
Warum liefert die Spracherkennung bei bestimmten Wörtern Fehlerergebnisse? Allzweck-Spracherkennungsmodule werden anhand umfangreicher Sprachdatensätze trainiert. Sie erzielen gute Ergebnisse bei allgemeinem Vokabular, haben jedoch Schwierigkeiten mit fachspezifischen Begriffen, Markennamen, Eigennamen und branchenspezifischer Sprache, die in den Standard-Trainingsdaten nur selten oder gar nicht vorkommt.
Was sind ASR-Hinweise? ASR-Hinweise sind eine Liste von Wörtern oder Phrasen, die Sie der ASR-Engine an einem bestimmten node Ihrem Gesprächsablauf zur Verfügung stellen. Sie teilen der Engine mit, welches Vokabular in diesem Moment zu erwarten ist, was die Wahrscheinlichkeit einer korrekten Transkription für diese bestimmte Eingabe erhöht.
Sind für ASR-Hinweise Programmieraufwand oder technische Konfigurationen erforderlich? Nein. Die Hinweise werden direkt imflow builder die node konfiguriert. Es ist weder Programmieraufwand noch eine Änderung der Infrastruktur erforderlich, und es ist keine Einbindung eines technischen Teams notwendig.
In welchen Anwendungsfällen sind ASR-Hinweise am nützlichsten? Jeder Prozess, bei dem Anrufer fachspezifisches Vokabular verwenden, profitiert von ASR-Hinweisen. In den Bereichen Versicherungen, Gesundheitswesen, Mobilität, Logistik und Rechtsdienstleistungen ist die Verbesserung am deutlichsten spürbar, da in diesen Branchen Fachbegriffe verwendet werden, die in den allgemeinen ASR-Trainingsdaten nur unzureichend vertreten sind.
Funktionieren ASR-Hinweise bei niederländischsprachigen Sprachabläufen? Ja. AssistYou die Konfiguration von Hinweisen in niederländischsprachigen Sprachabläufen durch Integrationen mit Speechmatics und Deepgram, die beide eine native Wortschatzanreicherung für Niederländisch bieten.
