How to

Technologie is niet neutraal: op weg naar betrouwbare & inclusieve AI-modellen

0

In het gebruik van voorspellende algoritmes gaat een risico op discriminatie schuil. De algoritmes worden getraind aan de hand van gegevens uit het verleden, die vaak (onbewust) veel vooroordelen bevatten. Hoe kunnen we dit oplossen?

Sinds de dood van George Floyd is er wereldwijd meer aandacht voor institutioneel racisme en anti-zwart politiegeweld. Diverse organisaties geven daarbij gehoor aan de oproep om te onderzoeken of hun beleid en werkzaamheden institutioneel racisme in stand houden. Zo besloot IBM te stoppen met de verkoop en ontwikkeling van zijn gezichtsherkenningssoftware voor algemene doeleinden. Reden hiervoor: het risico is groot dat de artificial intelligence-software (AI) te veel vooroordelen bevat en dat bijvoorbeeld de politie, die gebruikmaakt van de software, inbreuk maakt op de rechten van de mens.

Niet veel later volgden Microsoft en Amazon het voorbeeld om – al dan niet tijdelijk – de verkoop van hun software deels een halt toe te roepen. Niet alleen in de Verenigde Staten is hiervoor aandacht. Al in mei 2019 berichtte de NOS over het op grote schaal inzetten van voorspellende algoritmes door de Nederlandse overheid. Onderzoeker Marlies van Eck van de Universiteit Leiden stelt in het artikel dat hierbij een groot risico op discriminatie bestaat.

Artificial intelligence

AI is afhankelijk van algoritmes: de volgorde van stappen die gezet worden om van een input (ingevoerde data) naar een bepaalde output (resultaat) te gaan. Een steeds groter wordende hoeveelheid data traint het algoritme. Van daaruit kan elke nieuwe data-input van een bepaalde output worden voorzien. AI wordt op veel verschillende plekken ingezet. Denk aan het voorspellen van het aantal passagiers op een luchthaven, het herkennen van gezichten in een mensenmassa of het identificeren van mogelijke fraudeurs bij de Belastingdienst. In het laatste geval vormt een aantal kenmerken van een persoon samen een profiel. Dit profiel wordt vervolgens gebruikt als invoer, op basis waarvan het algoritme bepaalt of het specifieke profiel een risico vormt op belastingfraude.

Risico’s

In het gebruik van voorspellende algoritmes gaat echter een risico op discriminatie schuil. De algoritmes worden namelijk getraind aan de hand van gegevens uit het verleden. Deze gegevens bevatten vaak onbedoeld al veel vooroordelen, als een reflectie van onze samenleving.

Zo kan een politieagent bijvoorbeeld mensen uit een bepaalde bevolkingsgroep vaker staande houden. Kenmerken over deze groepen komen dan juist vaker voor in deze politiestatistieken. Volgens het algoritme moet de politie deze groepen dan (buitensporig) vaak controleren, het baseert zijn voorspellingen immers op de statistieken uit het verleden. Criminelen met andere kenmerken kunnen zo onopgemerkt blijven. Mogelijke veranderingen in de samenleving komen daarbij niet rechtstreeks terug. Het algoritme moet eerst voldoende nieuwe gegevens als input hebben gekregen om de verandering te kunnen verwerken.

Witte mensen zijn oververtegenwoordigd in databases

Onderzoek van Timnit Gebru, computerwetenschapper bij Google, en Joy Buolamwini, computerwetenschapper bij MIT, verduidelijkt dat in open (vrij toegankelijke) databases, witte mensen vaak zijn oververtegenwoordigd. Het algoritme heeft daarbij meer moeite met het herkennen van gezichten van de ondervertegenwoordigde (niet-witte) groepen. Software kan daarbij moeilijker onderscheid maken tussen mannen en vrouwen, naarmate hun huidskleur donkerder is. De software ziet bijvoorbeeld een vrouw met een donkere huid veel vaker aan voor een man. De voorspellingen of het ‘oordeel’ over deze groep zijn dan ook vaker fout.

Westers vs. niet-westers

Ook bij het verzamelen van gegevens door de Nederlandse overheid over burgers bestaat er een risico op discriminatie. In de gemeentelijke basisadministratie worden gegevens verzameld over nationaliteit(en), geboorteplaats en de geboorteplaats van ouders. Op basis daarvan wordt vervolgens bepaald tot welke groep iemand behoort. Het Centraal Bureau voor de Statistiek (CBS) gebruikt deze data vervolgens om statistieken over onze samenleving te creëren. Het maakt daarbij onder andere onderscheid in een categorie ‘westerse’ en ‘niet-westerse’ achtergrond. Mensen uit Japan en Indonesië vallen daarbij bijvoorbeeld onder de categorie ‘westers’, terwijl de rest van Azië, Suriname en Turkije als ‘niet-westers’ wordt beschouwd. De Wetenschappelijke Raad voor het Regeringsbeleid schreef hierover al in 2016 dat ‘niet de geografische ligging van het herkomstland, maar de overwegend witte kenmerken van de migranten uiteindelijk de doorslag geeft’.

Oplossingen

Technologie is niet neutraal. Het is een reflectie van onze samenleving en cultuur, waarvan ongelijkheden, vooroordelen en racisme onderdeel zijn. Om hier verandering in te brengen, worden vanuit verschillende hoeken oplossingen aangedragen. Amnesty International suggereerde al een verbod op het gebruik en de ontwikkeling van gezichtsherkenningssoftware door overheidsinstanties. Ook de introductie van zogenaamde fairness en explainability tools moeten helpen om discriminatie in AI te voorkomen.

IBM lanceerde in 2018 de AI Fairness 360 toolkit voor AI-ontwikkelaars. Deze toolkit helpt helpt met de detectie van vooroordelen in data. Ook Google lanceerde een dergelijke tool in bèta-versie. ‘Explainable AI’ helpt bij het implementeren van begrijpelijke en inclusieve machine learning-modellen. Daarmee zouden AI-systemen begrijpbaarder moeten worden en mogelijke vooroordelen vroeg aan het licht brengen.

Chaesub Lee, directeur van de in telecommunicatie gespecialiseerde ‘International Telecommunication Union’ van de Verenigde Naties, waarschuwde al voor ‘de grote consequenties door het verkeerd gebruiken van AI-software’. Hij oppert dan ook om een onafhankelijke regulerende instantie in te stellen die bepaalt wat kwalitatief goede data is.
Ook de Europese Commissie (pdf) sprak zich onlangs uit: er moeten kwaliteitskaders en methoden voor de ontwikkeling van algoritmen worden ontwikkeld. Hierin moeten onder andere normen in worden opgenomen over het ontwerp van eerlijke algoritmen, het gebruik van statistiek en de kwaliteit van datasets. Daarnaast moet worden geborgd dat burgers voldoende rechtsbescherming hebben als zij door AI-geautomatiseerde beslissingen in hun rechten worden aangetast.

Verantwoordelijkheid bij datawetenschappers

Naast deze oplossingen ligt er ook een verantwoordelijkheid bij datawetenschappers zelf. Door zich te verdiepen in het thema en bewuster te worden over de mogelijke risico’s, kunnen zij vooroordelen in algoritmes mogelijk voorkomen. Veel organisaties hebben inmiddels beleidskaders opgesteld. Meer diversiteit onder AI-ontwikkelaars en datawetenschappers wordt vaker – terecht – opgenomen als een essentieel element bij de ontwikkeling van nieuwe technologieën.

Het is een waardevolle ontwikkeling dat er aandacht is voor discriminatie en vooroordelen in AI, en dat er op steeds grotere schaal over wordt nagedacht. Discriminatie zit ingebakken in onze samenleving. Doordat grote tech-partijen, overheden en verschillende vooraanstaande onderzoekers zich inmiddels uitspreken over – en op zoek zijn naar – het juiste gebruik van AI, kunnen we met elkaar het gesprek aangaan om discriminatie uiteindelijk te doorbreken. Wie weet helpt, door het op een juiste manier trainen van algoritmes met inclusieve data, AI ons in de toekomst dan zelfs bij het voorkomen hiervan.

Hoe kijk jij aan tegen de rol van AI in het bevorderen of voorkomen van institutioneel racisme? Wat zijn mogelijke andere oplossingsrichtingen om discriminatie bij AI te voorkomen? Graag nodigen we je uit om hierover verder te discussiëren en bij te dragen.