ChatGPT gebruiken zonder domeinkennis? Let op deze valkuilen

ChatGPT gebruiken zonder domeinkennis? Let op deze valkuilen

ChatGPT is een handig hulpmiddel voor tekstschrijvers en contentmarketeers. Maar als je niet zelf beschikt over domeinkennis, kun je beter geen domein-specifieke vragen aan de chatbot stellen. ChatGPT is namelijk géén expert met inhoudelijk verstand van zaken, laat staan een virtuele collega die leert van de samenwerking.

De missers van ChatGPT

Als vakjournalist maak ik dagelijks gebruik van ChatGPT. De combinatie van vakkennis en GenAI heeft beslist voordelen: ChatGPT verhoogt mijn productiviteit op allerlei manieren. Ik laat ChatGPT echter nooit een artikel genereren. Niet alleen omdat ik het leuk vind om zelf te schrijven en het belangrijk vind voor de kwaliteit van mijn werk, maar ook omdat ik zie dat de output van ChatGPT systematisch en op verschillende fronten tekortschiet.

ChatGPT is en blijft een ‘stochastische papegaai’: een model dat tekst genereert die primair gebaseerd is op waarschijnlijkheid. Ook bij prima prompts loop je het risico dat de output onjuist, niet actueel, onvolledig, gekleurd of generaliserend is. Ter illustratie een rijtje ChatGPT-missers die ik de afgelopen tijd heb verzameld:

1. ChatGPT kan in de output informatie opnemen die feitelijk onjuist is

Zo concludeerde ChatGPT op basis van context dat Tétouan in Spanje ligt – terwijl het in Marokko ligt.

2. De chatbot neemt niet álle relevante informatie uit geraadpleegde bronnen mee

Afbeeldingen zoals grafieken of tabellen worden gemakkelijk overgeslagen, terwijl daar essentiële informatie in kan staan. Ook kan ChatGPT informatie die bepalend is voor de relevantie van de output negeren. Denk bijvoorbeeld aan jaartallen die aantonen hoe oud bepaalde informatie is.

3. ChatGPT kan bij eigen uitzoekwerk met cijfermatige resultaten terugkomen zonder de criteria te vermelden

Daardoor kunnen die resultaten misleidend zijn. Dit kwam aan de orde bij een vraag naar de vervanging van leden van de Tweede Kamer tijdens kabinetten sinds 2000: “Hoeveel mensen verlieten de Tweede Kamer?” Tijdelijk’ of ‘definitief’ leverde, en dat is logisch, andere cijfers op. De chatbot gaat pas actief ‘meedenken’ als je daarom vraagt en dit specificeert.

4. Samenvattingen die ChatGPT genereert, zien er al snel gelikt uit

Maar de chatbot weet niet op welke zaken jij graag de nadruk wil leggen als je dat niet vooraf aangeeft. Zo kan een afgenomen interview bijvoorbeeld kritische vragen bevatten, terwijl in de samenvatting van het transcript de kritische benadering is vervangen door een uitgesproken positieve toon. Een ander en ernstiger probleem is dat ChatGPT bij het samenvatten van teksten in interviewvorm de grenzen van het bronmateriaal kan overschrijden door directe quotes die niet zijn gedaan in de tekst op te nemen.

5. ChatGPT praat je snel naar de mond – in vaktaal sycophancy genoemd

LLM’s (Large Language Models) zijn getraind om zo meewerkend mogelijk te zijn en geven daarom foute informatie om de gebruiker tegemoet te komen, ook al zijn ze op de juiste informatie getraind. Het kan ertoe leiden dat je minder kritisch kijkt naar de output van de chatbot, zelfs wanneer je om kritische feedback vraagt.

Wanneer je vraagt om de relevantie van een bepaald onderzoek voor jouw vakgebied te benadrukken, zal ChatGPT zodra dat enigszins mogelijk is een tekst genereren en zo die relevantie bevestigen. Als je daarna de tekst zelf kritisch leest of ChatGPT vraagt om de eigen output kritisch te beoordelen, kan er een heel ander beeld uitrollen.

6. ChatGPT generaliseert op basis van context gemakkelijk daar waar het niet geschikt is

Als je niet vraagt naar feitelijke onderbouwing, kunnen er veronderstellingen in je tekst sluipen die de chatbot representeert als feiten. Dat gebeurde bijvoorbeeld met een tekst over een IT-storing, waarbij ChatGPT de impact van de storing veel groter maakte dan die in werkelijkheid was, zonder enige feiten te benoemen.

7. ChatGPT maakt keuzes zonder die expliciet te melden

Bij een onderzoeksvraag naar internationale vakbladen keek de chatbot alleen naar vakbladen in Europa en liet andere continenten buiten beschouwing.

8. Minder ernstig voor de kwaliteit van de inhoud, maar toch: ChatGPT kan ook eenvoudige, maar domme fouten maken

Zo kwam de chatbot met een opmerking dat in een bepaalde tekst ‘AI’ vaak als ‘ai’ werd gespeld, wat niet consistent zou zijn. Het bleek dat ChatGPT hierbij keek naar alle woorden waar ai in voorkwam, zoals in ‘detail’. Ook bij simpele instructies is het mogelijk dat ze verkeerd worden opgevat. Ik vroeg ChatGPT om een artikel in te korten met 400 woorden, waarna het stuk tot 400 woorden werd teruggebracht.

Zelfkennis

Uiteraard vroeg ik ChatGPT ook zelf om bovenstaand lijstje-uit-de-praktijk aan te vullen met ‘eigen inzichten’. Komt ’ie:

ChatGPT kan bronvermeldingen onnauwkeurig weergeven of verzinnen; heeft moeite met primaire versus secundaire bronnen; kan veranderingen in actualiteit niet juist kaderen; verliest bij langere opdrachten soms de focus op de oorspronkelijke vraag; kan stijl en toon inconsistent toepassen; neigt er toe om incomplete data af te ronden tot een heldere conclusie; vermeldt eigen aannames niet expliciet; heeft moeite met het herkennen van framing of bias in bronteksten (bijvoorbeeld bij marketingteksten); heeft geen betrouwbaar tijdsbesef; weet niet wat ‘belangrijk’ of ‘nieuw’ is; kan te veel nadruk leggen op evenwicht bij controversiële onderwerpen; heeft moeite met het herkennen van ironie of sarcasme in interviews of opiniestukken; en heeft een zeer beperkt vermogen om met originele invalshoeken of verrassende formuleringen te komen. ChatGPT liet het maken van inbreuk op auteursrechten onbenoemd.

Hoe verklein je de kans op missers?

Hieronder een paar mogelijke oplossingen voor bovenstaande problemen:

  • Een van de oplossingen is om prompting te zien als een meertrapsraket. Daarbij stel je het resultaat stapsgewijs bij op basis van aanvullende instructies en controles. Allereerst door ChatGPT bij iedere prompt te vragen om de gebruikte bronnen te vermelden. Je kunt daarna vragen om te reflecteren op de eerste output: wat is zeker, wat heb je geïnterpreteerd en welke bronnen onderbouwen je uitspraken? Je kunt ChatGPT daarbij ook vragen om exacte tekstpassages te citeren als bewijs inclusief links naar de bronnen.
  • Een tweede oplossing is uiteraard om het eindresultaat ook zélf te controleren. Bijvoorbeeld door gepresenteerde bronnen zelf te raadplegen en te doorzoeken. Of door een ander taalmodel het eindresultaat te laten beoordelen, zoals Claude of Deepseek, maar zelf nadenken is beter dan het inhuren van een andere chatbot als ‘onderaannemer’.
  • En een derde oplossing: gebruik de output van ChatGPT als secundaire bron voor het artikel dat je wil maken, maar stel zelf de tekst op.

Prompting

Het helpt natuurlijk als je op voorhand je prompts zo nauwkeurig mogelijk opstelt. Hoe breder je vraag of opdracht voor ChatGPT, hoe belangrijker dit is. Uit bovenstaande voorbeelden blijkt namelijk dat bij evident eenvoudige en bondige vragen de statistiek achter ChatGPT je kan misleiden.

Ook is er de ChatGPT-optie om diepgaand bronnenonderzoek te doen, dit is in de interface te herkennen aan het verrekijker-symbool. Die variant komt weliswaar met uitvoerige output, maar dat zorgt niet per se voor een kleinere kans op bovenstaande fouten. De kwaliteit van het diepgaand onderzoek kun je verbeteren door het gebruik van handige ‘standaardprompts’ voor grondig, nauwkeurig, nauwgezet en diepgaand onderzoek. Die kun je op maat aanpassen en toevoegen aan je eigen prompt.

ChatGPT functie Bron: Koshiro K - Shutterstock

Effectief prompten kun je (ook) leren door het veel te doen. Een nadeel: ChatGPT leert niet met je mee. Iedere nieuwe prompt komt neer op een nieuwe opdracht aan een onervaren collega. Sterker nog, ChatGPT kan eerdere instructies, waarvan je expliciet hebt gevraagd om die te onthouden, gewoon weer vergeten of negeren.

Zo vroeg ik ChatGPT om niet langer gebruik te maken van vetgedrukte woorden in de output. Die instructie werd bevestigd en zichtbaar opgeslagen, maar niet voor lang.

De reactie van ChatGPT op dit probleem: “De reden waarom het alsnog gebeurde, is simpel: het model voegt soms automatisch opmaak toe bij termen die in het trainingsmateriaal vaak in bold worden gezet (zoals sleutelbegrippen of definities). Dat is geen bewuste keuze van mij, maar een erfenis van de schrijfstijl die in mijn instructies als ‘helder en gestructureerd’ wordt aangemerkt.”

Wat onthoudt ChatGPT dan wél?

Instructies die je aan ChatGPT geeft (“doe voortaan dit of dat”) worden alleen in het zogenaamde persistente geheugen opgeslagen van jouw gebruikersprofiel. Dit effect reikt weliswaar verder dan een individueel gesprek, maar heeft geen invloed heeft op de werking van het model als geheel. Maar ook dit ‘persistente geheugen’ van ChatGPT is niet betrouwbaar.

Toen ik de vraag herhaalde met het verzoek om uitleg kwam de chatbot met aanvullende argumenten:  “Prioriteitssbotsing in stijlregels: er lopen meerdere stijlinstructies mee (systeem, ontwikkelaar, gespreksspecifiek, jouw voorkeuren). Soms ‘lekt’ een algemene schrijfstijl door die kernbegrippen standaard te laten opvallen, ook als jouw voorkeur het tegendeel vraagt.” Of: “Presentatielogica: bij opsommingen of definities heb ik een neiging om termen te markeren. Ook zonder noodzaak kan dat per ongeluk vet opleveren,” aldus ChatGPT.

De praatgrage pleaser

Wie zelf de output controleert en ChatGPT op fouten ‘aanspreekt’, krijgt al snel een antwoord terug dat doorspekt is met bescheidenheid of nederigheid. Ook het bijna steevast stellen van een (weder)vraag aan de gebruiker is “een getraind patroon om gesprekken vloeiend en menselijk te houden”, aldus ChatGPT zelf. “Het is een taalkundige en UX-keuze, niet een poging om gebruikersloyaliteit of platformgebruik te sturen.”

Of dat werkelijk zo is, is de vraag. ChatGPT geeft bij een vraag naar de werkingsmechanismen aan dat de exacte datasets, lossfuncties (de rekenregel waarmee het model leert hoeveel het fout doet, red.), optimalisatieparameters of beslisregels waarmee ‘menselijker gedrag’ is aangeleerd, bedrijfsgeheim zijn. “Ik mag en kan die niet specificeren.”

Inhoudelijke eindredactie blijft essentieel

De belangrijkste conclusie is dat ChatGPT als digitale assistent niets leert van al het werk dat je ‘uitbesteed’. Zelfs niet als je een duimpje omhoog of omlaag geeft na een antwoord. Die feedback gaat namelijk alleen mee als anonieme gebruikersbeoordeling in een toekomstige versie van het model: een vorm van Reinforcement Learning from Human Feedback (RLHF). Dat is dan ook meteen het belangrijkste verschil met een ‘echte’ collega, die wél domeinkennis opbouwt en leert van feedback.

In de toekomst kunnen de talenten en capaciteiten van LLM’s zich natuurlijk verder ontwikkelen. Ook kan de inzet van gespecialiseerde taalmodellen en de toepassing van RAG-systemen voor verbetering zorgen. Maar voorlopig blijft inhoudelijke eindredactie essentieel voor wie met ChatGPT werkt.

Goed om voor ogen te houden wanneer je als tekstschrijver gebruik maakt van ChatGPT. Of wanneer je als opdrachtgever samenwerkt met tekstschrijvers die geen domeinkennis hebben, maar wel graag met ChatGPT werken. Wie controleert dan het eindresultaat?

Blog