Wie man einen Sprachroboter entwickelt, der seine Kunden wirklich versteht

BLOG

21. November

Geschrieben von Amaury de la Fouchardière

In den letzten Jahren sind immer mehr Unternehmen dazu übergegangen, Verwaltungsaufgaben zu automatisieren.

Aber in vielen Fällen endet diese Automatisierung bei einem Chatbot oder einem Self-Service-Portal. Der Telefonkanal ist jedoch nach wie vor einer der am schwierigsten zu automatisierenden Kanäle und gleichzeitig der wertvollste. Ein einziger Telefonanruf ist immer noch die direkteste, persönlichste und kostspieligste Form des Kundenkontakts.

In einem kürzlich auf Frankwatching veröffentlichten Artikel erklärt AssistYou, was "unter der Haube" passiert, wenn ein Kunde seine Adresse am Telefon angibt und wie Voice AI diesen Prozess automatisieren kann, ohne dass die Interaktion menschlich und natürlich wirkt.

Was hinter jedem Gespräch steckt

Wenn ein Kunde seine Versicherungsgesellschaft anruft, um eine neue Adresse zu melden, klingt das nach einem einfachen Austausch. Doch um diesen Prozess vollständig zu automatisieren, müssen vier Schlüsseltechnologien nahtlos zusammenarbeiten:

Erkennung von Sprachaktivität (VAD)
Automatische Spracherkennung (ASR)
Sprachmodelle (LLMs)
Text-to-Speech (TTS)

Diese Technologien hören zu, interpretieren und reagieren in Echtzeit. Jede dieser Technologien spielt eine entscheidende Rolle, wenn es darum geht, dass ein digitaler Sprachassistent versteht, was der Kunde sagt, und natürlich reagieren kann.

Warum der Telefonkanal so komplex ist

Die meisten Telefonsysteme verwenden immer noch eine Abtastrate von 8.000 Hz, eine weitaus geringere Qualität als die 48.000 Hz, die wir bei Streaming oder TV-Audio erleben. Das bedeutet, dass subtile Klänge wie "sechs" im Gegensatz zu "sieben" oder "A" im Gegensatz zu "H" leicht missverstanden werden können. Für einen menschlichen Agenten ist das kein Problem. Für einen Sprachroboter kann es den Unterschied zwischen einem reibungslosen Erlebnis und der Frustration des Kunden ausmachen.

Wie man Voice AI zum Laufen bringt

Der Artikel hebt mehrere Best Practices zur Verbesserung der Spracherkennung in automatisierten Telefonsystemen hervor.
Dazu gehören kontextbezogene Hinweise ("Erwarten Sie eine Postleitzahl"), die parallele Verwendung mehrerer ASR-Engines, die Anwendung logischer Korrekturen auf Transkripte und die Einführung von Vertrauensschwellen zur Bestätigung unsicherer Antworten.

Durch die Kombination dieser Strategien können Unternehmen die Genauigkeit ihrer Sprachassistenten drastisch erhöhen und dafür sorgen, dass sich automatisierte Telefongespräche zuverlässiger und menschlicher anfühlen.

Die Zukunft der Sprach-KI

Neue End-to-End-Audiomodelle wie Google Gemini Live sind im Kommen, die Erkennung, Verständnis und Reaktion in einem einzigen System vereinen. Diese Modelle sind schneller und klingen natürlicher, aber sie bringen auch neue Herausforderungen in Bezug auf Kontrolle, Datensicherheit und Einhaltung des kommenden EU-KI-Gesetzes mit sich.

Bei der Entwicklung eines wirklich effektiven Sprachroboters geht es nicht darum, ein einziges intelligentes Modell zu wählen. Es geht darum, mehrere Technologien zu orchestrieren, von der Spracherkennung bis zur Interpretation in Echtzeit, und jedes Detail so zu gestalten, dass es dem Kundenerlebnis dient.

Möchten Sie erfahren, wie Sie einen KI-Sprachassistenten entwickeln, der Ihre Kunden tatsächlich versteht?

Lesen Sie den vollständigen Artikel von AssistYou auf Frankwatching:

👉 Wie man einen Voicebot baut, der seine Kunden wirklich versteht