Innovatie

Belofte van spraaktechnologie wordt eindelijk ingelost

0

Het gaat te ver om te zeggen dat spraaktechnologie zo oud is als de weg naar Rome, maar het is toch als een jaar of dertig beschikbaar. Spreken is heel natuurlijk en makkelijk, iedereen kan het. Maar het is nu pas dat de belofte van spraak wordt ingelost. Kijk maar om je heen: Siri van Apple, Inge van ING en spraakherkenning onder andere op je navigatiesysteem. Spraak wordt steeds meer een geaccepteerde ‘interface’.

Het begin van spraak

De eerste computergebaseerde spraakherkenning en -synthese is al meer dan 60 jaar oud. Spraakherkenning kwam in een stroomversnelling door DARPA (Amerikaans onderzoeksbureau van de Defensie) toen zij een spraakherkenningssysteem bouwden, Harpy. Toen de eerste personal en spelcomputers op de markt kwamen (IBM, Apple II, Commodore en Atari) kwam de ontwikkeling van spraaktechnologie in een stroomversnelling. Het programma SAM (Software Automatic Mouth) deed een voor die tijd behoorlijke poging om spraak te genereren op onder andere de Commodore. Het leek in de verste verte niet op een menselijke stem, maar was wel te verstaan.

Spraak heeft altijd iets magisch gehad

Eind jaren 90 was spraaktechnologie groot in België: Lernout & Hauspie was de Belgische TomTom op het gebied van spraak. In 1995 ging het bedrijf naar de beurs. En zoals veel bedrijven in de high techindustrie in de tijd, was het een groot succes. Op het hoogtepunt was het bedrijf 10 miljard waard.

Vector Smart phone with speech BubbleSpraak heeft altijd iets magisch gehad, een makkelijke manier om te communiceren. Door onder andere fraude, het verkeerd opgeven van inkomsten, maar ook technologie die de belofte niet kon waarmaken, is spraaktechnologie nooit van de grond gekomen. De oprichters zijn tot enkele jaren cel veroordeeld. De technologie is overgenomen door Scansoft, wat nu Nuance is, de grootste partij op het gebied van spraaktechnologie en de partij achter vrijwel alle grote commerciële producten.

De belofte van spraak

Wat is dan de belofte van spraak? De eerste belofte kwam uit de toekomstbeelden die begin jaren 90 werden verteld: we gaan allemaal tegen onze computers praten (smartphones en tablets waren er nog niet).

De computer praat terug en snapt precies wat we zeggen. Deze belofte is gedeeltelijk gerealiseerd. Teksten op websites kunnen worden uitgesproken, maar voegen met name voor blinden en slechtzienden iets toe. Hetzelfde geldt voor de navigatie en het gebruik van bijvoorbeeld een computer. Narrator (voorlezen van tekst op het scherm en de vensters) en Windows Speech Recogniton zijn onderdeel van Windows. Wordt het veel gebruikt? Ik denk het niet. Ook Siri wordt volgens mij niet door een grote groep gebruikt.

Te vroeg gepiekt?

Je kunt je afvragen of spraaktechnologie te vroeg kwam. De meest recente hype cycle van Gartner toont speech recognition nu eindelijk aan het eind van de curve. De ontwikkeling van spraak past bij het concept van de hypecycle: na alle opgeklopte verwachtingen stort de markt ineen en duurt het een lange tijd om op het niveau te komen dat het bruikbaar wordt.

Let wel, dit is speech recognition in brede zin, niet de toepassing in bijvoorbeeld een Interactive Voice Response systeem (de vervanging van de druktoetsen in een call center-applicatie) of voice-navigatie (inspreken waarvoor je belt). Zoals je kunt zien is spraak is te vinden in verschillende toepassingen.

(c) Gartner Hype Cycle of Emerging Technologies 2014

Gartner Hype Cycle of Emerging Technologies 2014

Vormen van spraak

Spraak zie je overal terugkomen, op je smartphone in de vorm van Siri of bijvoorbeeld S Voice. Probeer het maar eens, je zult verbaasd staan over de kwaliteit. Maar ook in de auto zie je steeds meer spraakherkenning, als onderdeel van een navigatiesysteem of als losse TomTom. Eén van de meest bekende personen die Text to Speech gebruikt is Stephen Hawking. Door zijn ziekte (Amytrofe Laterale Sclerose, ALS) en complicaties kan hij zijn stem niet meer gebruiken. Met text to speech kan hij communiceren met de wereld.

Bankieren met je stem

Eén van de meest in het oog springende spraakapplicaties in 2014 was Inge van ING, de uitbreiding van Mobiel bankieren waarmee je met je stem de app kunt besturen. Maar er zijn momenten dat je spraak niet wilt gebruiken om te navigeren of om een overboeking te doen. In een volle treincoupé is het heel gek als je de Mobiel bankieren-app van ING op je smartphone pakt, inlogt met je stem en vervolgens een overboeking gaat doen naar één van je vrienden.

Mobiel bankieren-app van ING

Toch is het goed om de Mobiel bankieren-app van ING eens te proberen. De app combineert spraakherkenning (sprekeronafhankelijk, dus geen tekst lezen om de app aan je stem te laten wennen) met tekst to speech om rekeningnummers en saldi op te lezen. Verwacht trouwens ook geen turing test machine (een test ontwikkeld door wetenschapper Alan Turing waarbij een computer voor een mens door gaat). Inge heeft een beperkte vocabulaire.

In plaats van het bekende ‘1 voor geld overmaken, 2 voor sparen en 3 voor saldo-informatie’ kun je bij het callcenter nu gewoon zeggen waarvoor belt: ‘Ik wil geld overmaken’. Ook kun je nu steeds meer in een keer doen. Waar je vroeger in een dialoog door de transactie geleid werd, kun je nu in één keer de hele zin uitspreken: ‘Ik wil euro overmaken naar Pietje Puk in Petten’. ING test nu sprekerverificatie. Met de zin ‘Luister naar mijn stem en je weet wie ik ben’ kun je inloggen. Op basis daarvan kijkt de app of ‘jij echt jij’ bent.

‘Dragon naturally speaking’

Een groot gedeelte van dit artikel is gedicteerd met Dragon 12, de software voor spraakherkenning op pc. Ging dat vlekkeloos? Nee. Na een storing in één van de bestanden heb ik het systeem opnieuw moeten installeren. Daarna werkte het naar behoren.

Tekst dicteren: Dragon 12

Wat ik merkte is dat de software aan je stem moet wennen. Volgens de leverancier kun je in een week of drie, door iedere dag een kwartier te dicteren, het systeem zo ver krijgen dat het vrijwel foutloos werkt. Een andere uitdaging is dat je eigenlijk tegen het systeem moet praten alsof je tegen een vriend praat. De hele zin moet je vloeiend uitspreken. Zonder pauzes, herhalingen of ‘uh’. Pas dan gebruik je een systeem zoals je het zou moeten. Voorwaarde is dus dat je precies moet weten wat je wilt zeggen. Waar ik het voor gebruik is het dicteren van artikelen of rapporten die al in mijn hoofd zitten. Ook voor het vertalen van een artikel werkt Dragon goed: ik spreek de tekst gewoon in.

Spraakherkenning lijkt makkelijk, maar is het niet. Je moet veel woorden naderhand toch nog verbeteren. Naast het dicteren wat je met Dragon kunt doen, kun je met je stem ook de opmaak aanpassen. Voor mensen met een beperking kan het een uitkomst zijn. Al met al is het dicteren van tekst op dit moment op een niveau gekomen dat het echt bruikbaar is. Als je echt de tijd neemt om het systeem aan je stem te laten wennen, haalt het eindelijk het niveau wat ze in de jaren 90 aan ons beloofd hebben.

Advocaten en artsen

Voor een aantal beroepsgroepen zijn specifieke woordenboeken ontwikkeld die je kunt gebruiken voor het dicteren van dossiers, anamneses en resultaten van onderzoeken. In dit geval worden specifieke, veel gebruiktetermen toegevoegd aan de standaard woordenboeken. Voor de meeste medische specialismen is wel een specifiek woordenboek ontwikkeld. Sommige artsen werken er graag mee, anderen typen gewoon of dicteren gewoon. De secretaresse werkt het dan verder uit. Ik denk dat hetzelfde geldt voor advocaten: het is een kwestie van voorkeur.

Spraak werkt

De belofte van spraak is eigenlijk tweedelig. De eerste was dat spraak de primaire interface zou worden, iets wat heel duidelijk niet zo is. De tweede belofte van spraak is die van een extra interface die in bepaalde omstandigheden, bepaalde applicaties en zeker voor bepaalde groepen (zoals blinden en slechtzienden, maar ook mensen met RSI) waardevol is en steeds beter wordt.

Deze belofte wordt nu ingelost. Met een beetje training kan het systeem zinnen herkennen die je op een normale manier uitspreekt. Het is best indrukwekkend om te zien dat een hele zin in het Nederlands of het Engels opeens op je scherm verschijnt. Spraaktechnologie is een waardevolle en bruikbare toevoeging aan de manieren waarop we kunnen communiceren met apparaten.

Accepteer cookies

Gelukkig niet op de manier van Talkie Toaster uit de sci-fi-serie Red Dwarf.

Illustraties met dank aan Fotolia.