Waarom uw AI Voice Agent bellers AI Voice Agent en hoe u dit precies kunt oplossen

BLOG

12 mei

Geschreven door Amaury de la Fouchardière

Bij elke AI voice agent moet er één ding goed werken voordat er verder iets kan gebeuren. Nog vóór de logica. Nog vóór de integraties. Nog voordat de gegevens je back-endsystemen bereiken.

De medewerker moet horen wat de beller precies heeft gezegd.

Als de spraakherkenningslaag de invoer verkeerd interpreteert, is alles wat daarna volgt op een verkeerde basis gebouwd. De AI verwerkt de verkeerde woorden, genereert een antwoord op een vraag die de beller nooit heeft gesteld, en het gesprek loopt vast. De beller herhaalt zichzelf. De medewerker begrijpt het opnieuw verkeerd. De beller vraagt om een medewerker te spreken.

Dit is geen hypothetisch randgeval. Het gebeurt dagelijks in de praktijk, in allerlei sectoren. En voor de meeste bedrijven die AI-spraakassistenten gebruiken, is dit veruit de meest onderschatte oorzaak van mislukte gesprekken.

We maken al jaren gebruik van ASR-hints, en deze zijn nu beschikbaar in de Flow Designer. In dit artikel wordt uitgelegd wat ASR is, waarom het in echte bedrijfsomgevingen tot fouten leidt, en hoe hints dit probleem oplossen zonder dat er technische kennis nodig is om ze te configureren.

Wat ASR is en wat het precies doet

ASR staat voor Automatic Speech Recognition (automatische spraakherkenning). Dit is de technologische laag die de gesproken woorden van een beller omzet in tekst. Die tekst wordt vervolgens verwerkt door het taalmodel, dat deze gebruikt om de bedoeling te begrijpen en een antwoord te genereren.

ASR is geen AI die denkt, maar een AI die luistert.

Elke AI voice agent, ongeacht het platform waarop deze draait, maakt onder de conversational gebruik van een ASR-engine die in realtime werkt. De kwaliteit van alles wat de agent zegt en doet, hangt af van de vraag of de ASR-engine eerst correct heeft vastgelegd wat de beller heeft gezegd.

Algemene ASR-engines zijn getraind op basis van grote datasets met opgenomen menselijke spraak. Ze presteren goed bij veelgebruikte woorden die met een standaardaccent worden uitgesproken onder redelijke geluidsomstandigheden. Ze zijn ontwikkeld om alledaagse taal over een breed scala aan onderwerpen te verwerken.

Ze zijn niet ontworpen om te weten dat je bellers de naam van een specifiek verzekeringsproduct, een Nederlandse medicijnnaam, een code van een transportbedrijf of een scootermerk zullen noemen die nergens in de standaard spraaktrainingsgegevens voorkomen.

Wanneer een beller woorden gebruikt die de ASR-engine zelden of nooit eerder is tegengekomen, doet de engine een zo goed mogelijke inschatting op basis van fonetische gelijkenis. Soms klopt die inschatting. Vaak is dat niet het geval. En als dat niet zo is, komen de daadwerkelijke woorden van de beller helemaal niet bij het taalmodel terecht.

Waarom ASR-fouten schadelijker zijn dan ze lijken

Eén enkele ASR-fout tijdens een gesprek veroorzaakt een kettingreactie.

Het taalmodel krijgt een transcriptie te verwerken die niet overeenkomt met wat de beller heeft gezegd. Het genereert een reactie op de verkeerde invoer. De beller krijgt een antwoord op een vraag die hij niet heeft gesteld. Hij corrigeert zichzelf. De medewerker verwerkt de correctie. Als hetzelfde woord opnieuw verkeerd wordt herkend, verliest de beller zijn vertrouwen in het systeem.

Afgezien van de individuele belervaring hebben ASR-fouten op grote schaal meetbare operationele gevolgen.

Het percentage gesprekken dat de AI zelfstandig kan afhandelen, daalt, omdat steeds meer gesprekken moeten worden doorgeschakeld naar een menselijke medewerker. De gemiddelde afhandelingstijd neemt toe, omdat er meer stappen nodig zijn om tot een oplossing te komen. Het percentage problemen dat bij het eerste contact wordt opgelost, daalt, omdat de medewerker niet correct kan reageren op verkeerd verstaan gegevens. En de gegevenskwaliteit in gekoppelde systemen gaat achteruit, omdat de uitvoer van verkeerd verstaan invoer nooit overeenkomt met de gegevens die je backend verwachtte.

In sectoren waar precisie van cruciaal belang is, zijn de gevolgen nog veel concreter. Een zorgverlener wiens spraakagent de naam van een medicijn verkeerd verstaat, heeft niet zomaar te maken met een ongemak. Het is een risico. Een verzekeringsmaatschappij waarvan de medewerker het type polis verkeerd verstaat, leidt de beller naar de verkeerde procedure. Een logistiek bedrijf waarvan de medewerker de vervoerscode verkeerd verstaat, kan het juiste verzendingsdossier niet opvragen.

De rode draad is in alle gevallen dezelfde. Het probleem is niet dat het taalmodel niet intelligent is. Het probleem is dat het nooit de juiste input heeft gekregen.

Waar ASR het specifiek moeilijk heeft

Als u weet welke woordcategorieën de meeste ASR-fouten veroorzaken, kunt u precies vaststellen waar aanwijzingen het meeste effect zullen hebben in uw eigen gespreksstromen.

Merknamen en productnamen

Dit is voor de meeste bedrijven de categorie met het hoogste risico. Merknamen, productlijnen en dienstnamen komen doorgaans niet vaak voor in datasets met alledaagse spraak. Een beller die de naam van een specifiek verzekeringsproduct, een specifiek scootermerk of een specifiek softwarepakket noemt, gebruikt woordenschat die de ASR-engine waarschijnlijk maar zelden is tegengekomen.

Eigennaamwoorden en plaatsnamen

Stadsnamen, straatnamen, wijknamen en bedrijfsnamen leiden vaak tot fouten bij algemene spraakherkenning, met name bij Nederlandse spraakfragmenten, waarbij de verzameling namen sterk afwijkt van de Engelse trainingsgegevens.

Medische en farmaceutische terminologie

De namen van geneesmiddelen, specialismen, medische ingrepen en klinische terminologie zijn zeer vakspecifiek. Een algemene ASR-engine die voor het eerst een Nederlandse geneesmiddelnaam tegenkomt, zal een fonetisch vergelijkbare maar inhoudsloze transcriptie opleveren.

Sectorspecifieke codes en identificatiecodes

Dit is een van de gebieden waar ASR de grootste moeite mee heeft, en waar aanwijzingen het grootste verschil maken. Denk aan kentekens, geboortedata, postcodes, polisnummers, orderreferenties, vervoerderscodes en product-SKU’s. Deze volgen patronen waarvoor algemene trainingsgegevens een ASR-engine niet hebben voorbereid. Korte alfanumerieke identificatiecodes zijn bijzonder kwetsbaar, omdat er weinig fonetische context is om de herkenning op te baseren. Een kenteken zoals 47 XBP 9 of een postcode zoals 1234 AB wordt zonder aanwijzingen vaak verkeerd geïnterpreteerd, terwijl bedrijven juist op deze input vertrouwen om klantgegevens, voertuiginformatie of afleveradressen op te halen.

Dit zijn precies de soorten gegevens waarop bedrijven het meest vertrouwen voor geautomatiseerde verificatie en doorsturing, en waarbij een ASR-fout direct leidt tot een mislukte transactie.

De oplossing: ASR-tips in de AssistYou Flow Builder

Met AssistYou kun je AssistYou rechtstreeks bij elk node je conversational ASR-aanwijzingen toevoegen.

Wanneer de ASR-engine een node bereikt node hints zijn geconfigureerd, ontvangt deze die woorden als aanvullende context voordat de spreker begint te spreken. De engine gebruikt die context om bij het transcriberen meer gewicht toe te kennen aan het verwachte vocabulaire. Een merknaam van een scooter die anders als een willekeurige fonetische overeenkomst zou worden getranscribeerd, wordt nu correct herkend omdat de engine is geïnstrueerd om hierop te letten.

Zo werkt het uitbreiden van de woordenschat op basis van hints in professionele spraakherkenningssystemen. Met aangepaste woordenschatfuncties kunt u het systeem laten weten dat het bepaalde termen moet verwachten, wat de nauwkeurigheid bij domeinspecifieke inhoud aanzienlijk verbetert.

Voor de implementatie in AssistYou is geen technische kennis vereist. Je navigeert naar het node bellers waarschijnlijk bepaalde woorden zullen uitspreken, opent de node en voegt de relevante hints toe in de vorm van een lijst. De hints gelden node voor dat specifieke node , wat betekent dat je de ASR-engine op precies het juiste moment in het proces nauwkeurige, contextgebonden aanwijzingen geeft, in plaats van een algemene woordenlijst die zonder onderscheid wordt toegepast.

Een praktisch voorbeeld: herkenning van de naam van een verzekeringspolis

Stel je een verzekeringsmaatschappij voor die een AI voice agent inzet AI voice agent de ontvangst van schadeclaims. Op een bepaald punt in het proces vraagt de agent de beller om te bevestigen op welk product de schadeclaim betrekking heeft.

Het bedrijf biedt twaalf verschillende producten aan, elk met een specifieke naam die bestaat uit een combinatie van de merknaam en een omschrijving: woorden als "Rechtsbijstand", "Aansprakelijkheid" en "Inboedel", die voor een moedertaalspreker van het Nederlands duidelijk zijn, maar fonetisch gezien ongebruikelijk zijn voor een algemene ASR-engine, met name gezien de geluidskwaliteit van een standaard telefoonverbinding.

Zonder ASR-aanwijzingen geeft de engine zijn beste schatting. Sommige productnamen worden correct herkend, andere niet. De medewerker krijgt de verkeerde productnaam te zien, leidt de beller naar de verkeerde claimprocedure en de fout wordt pas ontdekt wanneer een menselijke medewerker het ticket controleert.

Als op dat node ASR-aanwijzingen zijn geconfigureerd, worden alle twaalf productnamen aan de engine doorgegeven nog voordat de beller iets zegt. De engine transcribeert die namen nu in aanzienlijk meer gevallen correct. De claimsworkflow ontvangt de juiste productnaam. De beller wordt correct doorgeschakeld. De gegevens in het gekoppelde CRM correct.

Dit is het verschil tussen een spraakagent die regelmatig door mensen moet worden gecorrigeerd en een die op grote schaal betrouwbaar functioneert.

Tips voor ASR en de Nederlandse taal in het bijzonder

Voor Nederlandstalige gespreksstromen zijn ASR-aanwijzingen bijzonder waardevol.

Het Nederlands wordt goed ondersteund in commerciële ASR-systemen, maar specifiek Nederlandse eigennamen, plaatsnamen en vaktaal komen in de meeste trainingsdatasets nog steeds te weinig voor. Een ASR-engine die standaard Nederlandse conversational betrouwbaar verwerkt, kan nog steeds moeite hebben met bijvoorbeeld een wijknaam in Utrecht of de naam van een medicijn waarin de Nederlandse fonologie op een onverwachte manier wordt toegepast.

Bij AssistYou combineren we de sterke punten van toonaangevende ASR-aanbieders, waaronder Speechmatics en Deepgram, in één geïntegreerd systeem dat native ondersteuning biedt voor hintconfiguratie. Door deze engines te combineren, benutten we de sterke punten van elke aanbieder en verbeteren we de herkenningsnauwkeurigheid op een manier die geen enkele engine op zichzelf kan evenaren. Het hintsysteem werkt samen met de functies voor het uitbreiden van de woordenschat van de onderliggende ASR-aanbieder, wat betekent dat de verbetering plaatsvindt op het herkenningsniveau zelf, en niet als een correctie in de nabewerking.

Dit is van belang omdat correcties in de nabewerking, die sommige platforms toepassen nadat de ASR-uitvoer is gegenereerd, alleen fouten kunnen corrigeren die het systeem al heeft geleerd te herkennen. Hint-based boosting vindt eerder in het proces plaats, nog voordat de fout wordt gemaakt.

Wat ASR-aanwijzingen niet doen

Het is belangrijk om duidelijk te zijn over de reikwijdte van deze functie, zodat u deze correct kunt configureren.

ASR-aanwijzingen verbeteren de transcriptienauwkeurigheid voor verwachte woordkeuzes op specifieke punten in een gesprek. Ze zijn geen vervanging voor een goed getrainde ASR-engine. Ze lossen geen problemen met de geluidskwaliteit op die worden veroorzaakt door slechte telefoonverbindingen of aanzienlijke achtergrondruis. Ze verbeteren de herkenning niet van spontane, onvoorspelbare woordkeuzes die u niet van tevoren kunt voorzien.

Hints werken het beste als je weet wat een beller bij een bepaalde stap waarschijnlijk zal zeggen. Als er bij een stap een open vraag wordt gesteld met een breed scala aan mogelijke antwoorden, zijn hints minder geschikt. Als er bij een stap om een specifiek soort invoer wordt gevraagd, zoals een productnaam, een merk, een polistype of een specialisatiecategorie, zorgen hints voor een duidelijke en meetbare verbetering.

Gebruik ze wanneer de woordenschat bekend en specifiek is. Dan hebben ze het meeste effect.

Veelgestelde vragen

Wat is ASR in de context van een AI voice agent? ASR staat voor Automatic Speech Recognition (automatische spraakherkenning). Dit is de technologie die gesproken input van een beller omzet in tekst die het AI-taalmodel kan verwerken. Elke AI voice agent van een goed werkende ASR-engine voordat de conversational kan functioneren.

Waarom levert ASR bij bepaalde woorden fouten op? Algemene ASR-engines worden getraind op basis van uitgebreide spraakdatasets. Ze presteren goed bij algemene woordenschat, maar hebben moeite met vakspecifieke termen, merknamen, eigennamen en branchespecifieke taal die zelden of helemaal niet voorkomt in de standaardtrainingsdata.

Wat zijn ASR-hints? ASR-hints zijn een lijst met woorden of zinsdelen die u op een bepaald node uw gespreksstroom aan de ASR-engine doorgeeft. Ze geven de engine aan welk vocabulaire er op dat moment verwacht mag worden, waardoor de kans op een correcte transcriptie van die specifieke invoer toeneemt.

Is er voor ASR-hints programmeerwerk of technische configuratie nodig? Nee. Hints worden rechtstreeks in deflow builder geconfigureerdflow builder de interface node . Er is geen programmeerwerk, geen aanpassingen aan de infrastructuur en geen tussenkomst van een technisch team nodig.

In welke situaties zijn ASR-hints het meest nuttig? In elke situatie waarin bellers vakspecifieke terminologie gebruiken, zijn ASR-hints nuttig. Verzekeringen, gezondheidszorg, mobiliteit, logistiek en juridische dienstverlening zijn de sectoren waar de verbetering het meest merkbaar is, omdat in deze sectoren terminologie wordt gebruikt die in de algemene trainingsgegevens voor ASR ondervertegenwoordigd is.

Werken ASR-hints voor Nederlandstalige spraakstromen? Ja. AssistYou het instellen van hints voor Nederlandstalige spraakstromen via integraties met Speechmatics en Deepgram, die beide native woordenschatverbetering voor het Nederlands ondersteunen.