Zo bouw je een voicebot die jouw klanten écht begrijpt
Wat er onder de motorkap gebeurt wanneer je een adres doorgeeft aan de telefoon
De afgelopen jaren kiezen steeds meer bedrijven ervoor om administratieve taken te automatiseren. Dit blijft echter in veel gevallen beperkt tot een ‘mijn omgeving’ of een chatbot. Reden hiervoor is dat telefonie technische uitdagingen meebrengt waardoor dit het meest complexe kanaal is om goed te implementeren. Tegelijkertijd is een telefoongesprek ook het meest kostbaar, hierdoor kan er veruit de beste businesscase gerealiseerd worden.
Daarom staan we in dit artikel stil bij de verschillende onderdelen van een voicebot (AI agent), de ontwikkelingen op dit gebied en hoe deze slim toegepast kunnen worden, om ook op dit kanaal de volgende stap te kunnen zetten. Om dit toe te lichten beginnen we met een veel voorkomend voorbeeld:
Stel je voor je belt met jouw zorgverzekeraar om je verhuizing door te geven.
De medewerker vraagt: “Wat is je nieuwe postcode?”
Jij zegt: “Drieëntwintig elf AX.”
Voor jou en de medewerker is dit één simpele zin. Echter om dit proces te kunnen automatiseren is het een samenwerking van vier technieken. Ze moeten naadloos op elkaar aansluiten om je goed te verstaan en natuurlijk terug te praten.
Voice Activity Detection (VAD)
VAD herkent wanneer iemand begint en stopt met praten. De voicebot gebruikt dit om te bepalen welk deel van de audio moet worden verwerkt en wanneer hij zelf mag antwoorden. Een goed ingestelde VAD voorkomt dat ademhalingen, achtergrondgeluid of stiltes worden opgepikt. Zonder goede VAD weet de bot simpelweg niet wanneer hij moet luisteren, en wanneer hij moet reageren.
Automatic Speech Recognition (ASR)
ASR zet gesproken woorden om in tekst. Dat lijkt eenvoudig, maar is technisch gezien het meest kritieke onderdeel: elke fout in deze stap werkt door in het hele gesprek. Moderne ASR-systemen gebruiken neurale netwerken die getraind zijn op duizenden uren audio en worden vaak geleverd door partijen zoals Deepgram, Mistral, Speechmatics of Google Speech. In de praktijk wordt ASR toegepast in vrijwel elke telefonische voicebot, maar ook in transcriptiediensten of personal assistants zoals Siri of Alexa.
Language Model (LLM)
Een LLM, zoals (Chat)GPT, interpreteert de tekst die uit de ASR komt en bepaalt wat de beller bedoelt. Het vertaalt woorden naar betekenis en kiest vervolgens een logische reactie. In telefonie worden vaak lichtere, snelle modellen gebruikt, omdat vertraging dodelijk is voor de gespreksflow. In digitale assistenten worden LLM’s gebruikt om onder andere de intentie te herkennen (“verhuizing doorgeven”, “factuur opvragen”) of om entiteiten te bepalen zoals een (verhuis)datum of factuurnummer. Tot slot genereren ze ook vragen ter verduidelijking of om het gesprek samen te vatten voor de medewerker.
Text-to-Speech (TTS)
TTS zet het antwoord om van tekst naar natuurlijke spraak met de juiste uitspraak, toon en pauzes. Waar TTS vroeger mechanisch klonk, gebruiken moderne engines deep learning om menselijke intonatie te benaderen. Deze technologie vind je niet alleen in voicebots, maar ook in navigatiesystemen en virtuele assistenten. Leveranciers als ElevenLabs en Microsoft Azure bieden realistische stemmen in tientallen talen. Een goede TTS zorgt ervoor dat de bot betrouwbaar en menselijk klinkt.
Samenspel
Als één van bovenstaande onderdelen haperingen, vertraging of onnauwkeurigheid introduceert, merk je dat meteen: een ongemakkelijke stilte, een verkeerd verstaan woord of een onnatuurlijke stem. Succes aan de telefoon is dus geen kwestie van één “slim” model, maar van vier technieken die zorgvuldig in real-time op elkaar zijn afgesteld. In dit artikel focussen we op de tweede techniek, Spraakherkenning (ASR), omdat dit uniek is voor het telefonisch kanaal én hetgeen waar je het meeste verschil kan maken.
Spraakherkenning als kritieke schakel
Om historische redenen maakt het overgrote deel van telefonie nog steeds gebruik van geluid met een sampling rate (kwaliteit) van 8000 Hz. Dat klinkt misschien als veel; maar het geluid als je televisie luistert is maar liefst 48000 Hz (6 keer zoveel detail!). Het verschil hoor je bijvoorbeeld heel duidelijk als iemand inbelt met een telefoon in een televisieprogramma. Dit klinkt vaak vlakker en soms blikkerig. Het gevolg is dat door telefonie fijne details in spraak verloren gaan; zoals bijvoorbeeld de s-klanken (“zes” versus “zeven”).
Praat je met ChatGPT via de app dan zit je doorgaans op 48000 Hz audio. Dat biedt veel meer nuance en klinkt natuurlijker. In ons voorbeeld van de postcode, is het goed mogelijk dat een ASR-engine de (juiste) postcode 2311 AX kan uitschrijven als 2311 HX: de ‘A’ en de ‘H’ zitten fonetisch namelijk erg dicht bij elkaar. De kans op dit soort fouten is groter bij 8000 Hz audio. En dit soort fouten hebben natuurlijk een zeer significant negatief effect op de ervaring van de beller. Gelukkig zijn er manieren om hiervoor te corrigeren; later in dit artikel leggen we uit hoe.
Publieke benchmarks laten zien hoe je de kwaliteit van ASR meet met WER (Word Error Rate) en waarom je altijd met representatieve data per use-case moet testen. Het ingewikkelde is dat het heel veel uitmaakt op welke data deze WER bepaald wordt. Is dat bijvoorbeeld op kraakhelder, accentloos Nederlands in simpele zinnen, of telefoongesprekken in een rumoerige omgeving met een flink accent?
Voor oriëntatie op Nederlands kun je open benchmarks raadplegen zoals de Dutch Open Speech Recognition Benchmark die verschillende modellen over meerdere datasets naast elkaar zet.
Databeheer en Europese verwerking
Momenteel wordt er veel aandacht besteed aan dataveiligheid en data-opslag van LLM’s. Echter wordt vaak vergeten dat ook bij ASR’s data wordt verwerkt. Hierbij gelden dezelfde overwegingen en adviezen. Zorg dat er een duidelijke audit trail is voor jouw data en een duidelijke verwerkersovereenkomst. Daarnaast kunnen verwerkers hun voorwaarden veranderen. Het is daarom van belang dat je geen lock-in creëert bij één partij, maar zorg dat je setup flexibel is waarbij je eenvoudig kan wisselen tussen partijen.
Toekomstige ontwikkelingen: end-to-end-audiomodellen
Sinds een aantal maanden zijn er ook (productie klare) modellen die alle componenten integreren in één overkoepelend model; dat gaat dus direct van spraak (…van de beller) naar spraak (…van een voicebot). Een voorbeeld van zo’n ‘end-to-end model’ is Google Gemini Live. De belangrijkste voordelen van deze modellen zijn dat ze sneller en natuurlijker kunnen reageren op spraak.
Dit zijn belangrijke en waardevolle voordelen. Maar er zijn ook nadelen. Zo is er een complete ‘vendor-lock-in’; je zit volledig vast aan één leverancier. Ook kunnen deze modellen geen gebruik maken van meerdere mogelijke herkende varianten; wat nadelig is voor de kwaliteit van de herkenning van gegevens zoals postcodes. Tot slot is het aanzienlijk ingewikkelder om in controle te blijven en bijvoorbeeld hallucinaties te voorkomen. Let ook op dat het herkennen van emoties (uit stemgeluid) binnen de EU AI Act een gevoelig puntje is; waarvoor additionele (strengere) compliance regels van toepassing zijn.
Al met al zijn digitale assistenten een domein waar ontzettend veel innovatie plaatsvindt en (architectuur) keuzes die vandaag logisch lijken, zijn volgend jaar wellicht al achterhaald. Het bijhouden van de ontwikkelingen en hierop snel kunnen acteren is dan ook van cruciaal belang.
Best practices die spraakherkenning merkbaar verbeteren
Op basis van onze ervaringen delen wij graag een aantal concrete maatregelen die direct effect hebben op de herkenning tijdens geautomatiseerde telefoongesprekken. Ze zijn technologie‑agnostisch en toepasbaar bij gangbare engines zoals Google, Microsoft en Speechmatics.
Gebruik speech‑adaptation en hints
Geef de ASR engine zo veel mogelijk context: “verwacht een postcode”, “verwacht een straatnaam” of “verwacht een kenteken”. Bekende ASR leveranciers zoals Google Cloud Speech‑to‑Text en Azure AI Speech ondersteunen dit met model adaptation, class tokens of phrase lists zodat woorden uit jouw domein vaker goed vallen.
Pas cross-validatie toe
Veel ASR engines kunnen meerdere varianten teruggeven van wat ze mogelijk verstaan hebben. Door de verschillende varianten te gebruiken in de verdere verwerking kan je de accuraatheid van de digitale assistent aanzienlijk verbeteren. Dit doe je door bijvoorbeeld twee postcodes tegelijk uit te vragen aan een CRM of door deze te combineren met de antwoorden op de volgende vraag om zo tot een unieke match te komen.
Pas logische correctie toe op de transcriptie
Herken patronen zoals afdelingsnamen of postcodes en corrigeer twijfelgevallen.
Voorbeeld: als de ASR “Cola” hoort terwijl in jouw context “COA” logisch is doordat het de naam van een afdeling is, corrigeer je dat direct en zorg je dat de beller op de juiste plek uitkomt.
Implementeer meerdere ASR engines tegelijk
Laat twee ASR‑engines parallel meedraaien in kritieke stappen zoals adres‑ of nummerherkenning. Engines hebben verschillende fout profielen, door de sterke punten te benutten verhoog je de herkenning.
Hanteer confidence‑drempels en reprompt slim
Veel ASR modellen geven via een zogenaamde ‘confidence score’ aan hoe zeker ze zijn van hetgeen ze hebben verstaan. Wanneer deze score onder een drempelwaarde zit kan je gericht doorvragen: “Ik hoorde ‘2311 AX’. Klopt dat? Ook kan je ervoor kiezen om verschillende alternatieven voor te leggen aan de beller: ”Bedoelde u AX of HX?
Test en meet met de juiste data
Meet periodiek met WER op jouw eigen telefonie‑audio en accenten. Open sets geven richting, maar jouw echte belverkeer is leidend. Hierdoor weet jij welke modellen het beste passen bij jouw belverkeer.
Zelf aan de slag?
Een voicebot die mensen goed verstaat, is geen truc met één slim model. Het is het resultaat van vier technieken die samenwerken en bewuste ontwerpkeuzes: nette audio segmenten, context geven aan de herkenner, logische correctie, verstandig omgaan met confidence scores en testen op je eigen verkeer. Wie dit op orde heeft, oogst meteen de beloning in de vorm van kortere gesprekken, minder correctierondes en tevreden bellers.
Wil je sparren over hoe je dit in jouw voice‑flow toepast of een demo zien van een telefonische use‑case zoals adresherkenning? Neem dan contact op via assistyou.ai/contact.
