Hoe zichtbaar ben jij in AI-tools? Maak het meetbaar met serverlogs

Hoe zichtbaar ben jij in AI-tools? Maak het meetbaar met serverlogs

Bedrijven willen zichtbaar worden in AI-zoekmachines, maar hoe meet je die zichtbaarheid nu exact? Hoe vaak wordt jouw content bijvoorbeeld gebruikt in antwoorden? En hoe vaak wordt jouw naam vermeld als bron? In Google Analytics zie je wél hoe vaak er wordt doorgeklikt naar je website vanuit AI-tools, maar de mate van zichtbaarheid blijft voor veel bedrijven een vraagteken. Maar, uit ons SEO voor AI-experiment blijkt: je kunt deze data wel degelijk inzien! Namelijk in serverlogs. Ik vertel je graag wat serverlogs zijn, waar je ze kunt vinden, hoe je ze analyseert én welke 6 waardevolle inzichten over serverlogs we opdeden in ons experiment.

Wat zijn serverlogs?

Voor de niet-techneuten onder ons: eerst een korte uitleg. Wat zijn serverlogs precies?

Serverlogs zijn tekstbestanden (vastgelegd als .txt- of .log-bestanden) die de server van je website automatisch aanmaakt met gebeurtenissen op de server. Interessante documenten als het gaat om inzicht in jouw zichtbaarheid in AI-tools.

In serverlogs zie je namelijk wie welke informatie van jouw website opgevraagd heeft. En zo kun je dus ook zien of er content op jouw website is geraadpleegd door AI-bots.

Welke gegevens worden precies bijgehouden in serverlogs?

Er zijn twee soorten serverlogs: access logs en error logs. De error logs kun je als marketeer negeren; hierin vinden ontwikkelaars terug welke foutmeldingen er optreden bij het laden van de website. De access log is de log waarin je waardevolle informatie terugvindt. Hier wordt namelijk elk opgevraagd bestand (en dus pagina) gelogd.

Per bestand wordt informatie bijgehouden, zoals het IP-adres van de ontvanger van het bestand, het gebruikte protocol (HTTP/1.1, HTTP/2 of HTTP/3) en de bestandsgrootte in bytes. Maar ook het tijdstip van het bezoek, de URL en de user-agent worden genoteerd. Met name die laatste drie gegevens zijn interessant.

Want wat zijn user-agents nu precies? Met user-agent-gegevens zie je of het om een bezoek van een bot gaat, zoals Googlebot, Bingbot of GPTBot. En ja: dát is natuurlijk wat je wil weten. Want bezoekt een bot jouw server, dan betekent dit dat deze iets met jouw content doet.

Verschillende user-agents: wat betekenen ze?

Laten we wat dieper ingaan op de user-agents. Welke user-agents zijn nu met name interessant om te analyseren en, nog belangrijker: wat betekenen ze?

De meest interessante user-agents voor het meten van zichtbaarheid in AI, kun je onderscheiden in twee categorieën: user-agents voor het trainen van de kennis en user-agents die gebruikt worden om actuele informatie op te halen.

User-agents voor het trainen van kennis

LLM’s werken hun interne kennis eens in de zoveel tijd bij. Dit gaat om algemene kennis, die niet per se actueel is. Als jouw content is gecrawld voor het trainen van kennis, herken je dat aan een user-agent die op ‘bot’ eindigt. Zoals:

  • GPTBot
  • PerplexityBot
  • ClaudeBot

User-agents voor het ophalen van actuele informatie

Wordt er een vraag gesteld die niet te beantwoorden is met interne kennis? Dan kan er actuele informatie opgehaald worden op het web. Als jouw content is gecrawld voor het ophalen van actuele informatie, herken je dat aan een user-agent die op ‘user’ eindigt. Zoals:

  • ChatGPT-user
  • Perplexity-user
  • Claude-user

Goed om te weten: Google en Bing gebruiken voor hun AI-tools gewoon hun reguliere crawlers. Oftewel: dezelfde die ze inzetten voor hun zoekfunctie.

Voorbeeld serverlog

Om een beeld te krijgen van de informatie die je kunt inzien in een serverlog: hieronder een voorbeeld van een serverlog van een LiteSpeed-server.

4.227.36.22 – – [02/Jul/2025:01:56:29 +0200] “GET /en/ HTTP/2” 200 201 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

Wat kunnen we hieruit opmaken? In dit geval is op 2 juli 2025 om 01:56 uur de Engelse homepage van een website bezocht door GPTBot, de user-agent van OpenAI, voor het trainen van zijn kennis.

6 inzichten uit ons GEO-experiment: dit moet je weten over serverlogs

Straks vertel ik je hoe je jouw eigen serverlogs kunt zien en analyseren. Maar eerst deel ik graag een aantal waardevolle inzichten rondom serverlogs. Want de grote vraag is natuurlijk: welke gegevens vertellen je hoe zichtbaar je nu echt bent in AI-zoekmachines? En wanneer word je wél als bron vermeld in antwoorden in AI-tools en wanneer niet?

Dat hebben we getest met ons GEO-experiment bij Doublesmart. Samengevat leidt ons dat naar onderstaande 6 inzichten.

1. Je wordt als bron vermeld als jouw content wordt gecrawld voor actuele informatie

Laten we direct beginnen met een interessante: in ChatGPT en Perplexity word je als bron vermeld in antwoorden als jouw content wordt gecrawld voor het ophalen van actuele informatie.

Hoe zat dat ook alweer? Zoals eerder verteld zijn er twee soorten user-agents waar we naar kijken om zichtbaarheid in AI te meten: user-agents die content crawlen voor het trainen van kennis en user-agents die content crawlen voor het ophalen van actuele informatie.

En uit ons experiment blijkt dus: in ChatGPT en Perplexity krijg je een directe bronvermelding in een antwoord als jouw content wordt gebruikt voor het ophalen van actuele informatie. Als jouw content wordt gecrawld voor het trainen van kennis, word je daarentegen niet direct als bron vermeld (mogelijk wel indirect, als die bron onderdeel is geworden van de interne kennis van een LLM).

Hoe ziet zo’n bronvermelding er precies uit? Het betekent dat er in ChatGPT of Perplexity een link naar jouw website achter de tekst komt te staan, of dat je als bron wordt genoemd onderaan het gegeven antwoord.

Gemini, Copilot en Claude raadplegen geen externe bronnen voor actuele informatie

Bij Gemini van Google, Copilot van Bing en Claude is bovenstaande niet van toepassing. Gemini en Copilot werken beide met hun eigen actuele index, terwijl Claude het ophalen van actuele informatie zeer beperkt. Van deze drie tools zal je daarom geen of vrijwel geen verzoeken in je serverlogs terugzien als het gaat om het ophalen van actuele informatie.

2. Aantal bronvermeldingen is meetbaar met user-agents eindigend op ‘user’

Op basis van bovenstaande inzicht kunnen we meetbaar maken hoe váák je als bron wordt genoemd in AI-zoekmachines.

Want zoals eerder beschreven: hoe vaak jouw content door ChatGPT en Perplexity wordt gebruikt voor actuele data zie je terug in je serverlogs. Je herkent deze bezoeken aan de user-agent die op ‘user’ eindigt, zoals ChatGPT-user en Perplexity-user.

Elke keer dat jouw content geraadpleegd wordt voor het ophalen van actuele informatie, kun je er vanuit gaan dat jij als bron wordt genoemd in het antwoord.

3. Niet alle content is geschikt voor het ophalen van actuele informatie

Voordat je nu allerlei content gaat maken om gecrawld te kunnen worden voor actuele informatie (en bronvermeldingen te genereren): niet alle content is hiervoor geschikt. Je moet kritisch nadenken over de inhoud van je content.

Informatie over het onderhouden van je tuin is bijvoorbeeld nog precies hetzelfde als dit vorig jaar het geval was. Dit zal een AI-tool daarom eerder uit zijn interne kennis beantwoorden; het is niet nodig om actuele informatie op te halen. Dit in tegenstelling tot een vraag zoals “hoeveel punten staat Max Verstappen achter op Oscar Piastri in de Formule 1?”.

Content die wél geschikt is voor het ophalen van actuele informatie

Voorbeelden van content die wél vaak live wordt opgevraagd:

  • Nieuws
  • Evenementen
  • Sportuitslagen en -standen
  • Weer en natuurverschijnselen
  • Actuele wetgeving
  • Technologie en software
  • Reisinformatie
  • Producten en prijzen

Sportnieuws: voorbeeld live content

4. Met links vergroot je de kans dat je content gecrawld wordt voor training

Misschien vraag je je nu af: waarom zou je willen dat jouw content gecrawld wordt voor training van kennis? Als je hier tóch geen bronvermelding mee krijgt?

Goed om te weten is dat óók deze crawls erg waardevol zijn voor zichtbaarheid. LLM’s gaan namelijk lang niet altijd op zoek naar actuele informatie. Dit doen ze alleen als ze bepalen dat dit écht nodig is om een vraag te beantwoorden. Actuele informatie ophalen is namelijk kostbaar, en dat vermijden LLM’s dan ook liever.

Om vindbaar te worden in AI-zoekmachines, is jouw content laten crawlen voor training een belangrijke basis. Op die manier laat je LLM’s kennismaken met jouw producten, diensten en bedrijf. En zo kunnen zij die informatie gebruiken in hun antwoorden. Als jouw bedrijfsnaam bovendien onderdeel is geworden van de interne kennis van AI-tools, en deze wordt gebruikt in antwoorden, genereer je mogelijk alsnog een bronvermelding.

Maar: wat als je in je serverlogs ziet dat de pagina’s, die jij graag gecrawld wil hebben, maar niet gecrawld lijken te worden voor het trainen van kennis? Oftewel: als je geen user-agents eindigend op ‘bot’ terugziet in jouw serverlogs? In dat geval kan het helpen om extra interne of externe links naar deze content te genereren.

Wel goed om te weten hierbij: serverlogs worden vaak slechts 30 dagen bewaard. Daardoor kun je niet zien of AI-tools jouw content eerder al hebben gecrawld voor training. Dit inzicht is dus met name interessant voor recente crawls.

5. Alle AI-tools hebben hun eigen crawlpatroon

Hoe vaak crawlen AI-tools content? Onze analyses laten zien dat er duidelijke verschillen zijn tussen AI-tools. ChatGPT en Claude crawlen relatief weinig, maar kennen plotselinge pieken waarbij ze enkele dagen heel intensief crawlen. Dit blijkt bovendien taalgebonden: bij meertalige websites liggen de pieken per taal op andere momenten. Perplexity heeft een gelijkmatiger crawlpatroon, net als Bing en Google.

6. Shopping-resultaten in ChatGPT werken anders dan je verwacht

Het laatste inzicht uit ons experiment gaat over shopping-resultaten in ChatGPT. ChatGPT toont soms productresultaten met productnaam, afbeelding, prijs en een link naar een productpagina; vergelijkbaar met hoe je het kent uit Google Shopping. Je zou verwachten dat deze informatie altijd live wordt opgehaald, maar uit ons onderzoek blijkt dat dit niet altijd zo is.

Wanneer je een algemene prompt geeft, zoals “Ik ben op zoek naar een krik voor de auto, wat beveel je me aan?” voert ChatGPT wel een zoekopdracht uit, maar aangezien er weinig specificaties worden gevraagd, haalt deze de productinformatie uit de verkregen rich snippets. Om deze reden is structured data op je productpagina erg belangrijk, zodat je op deze wijze rich snippets kunt creëren.

Geef je meer input, bijvoorbeeld “Ik ben op zoek naar een pneumatische krik voor een Ford Focus van 1.300 kilo. Ik wil de auto kunnen opkrikken tot 50 cm. Welke beveel je me aan?”, dan moet ChatGPT dieper in de specificaties duiken en bezoekt het daadwerkelijk de productpagina. Dit zie je uiteraard ook weer terug in de serverlogs.

Waar vind je jouw serverlogs?

Terug naar jouw eigen serverlogs. Waar kun je die vinden?

Vaak zie je deze eenvoudig in via je webhosting control panels, zoals Plesk en DirectAdmin. Via dit soort systemen is het vaak wel lastiger om de opgebouwde log-historie in te zien. Daarvoor kun je het beste de logs via de FTP downloaden.

Wanneer je de logs via FTP wilt downloaden, vind je de logs bij veel shared hosting oplossingen simpelweg in de logs-map wanneer je inlogt op je ftp-account (op hetzelfde niveau als public_html). Bij dedicated hosting oplossingen of een VPS staan deze vaak in de /var/logs/-map.

Omdat logbestanden erg groot kunnen worden, worden ze vaak per dag gecomprimeerd opgeslagen, meestal als .tar.gz-bestand. Die kun je openen met software als WinRAR of 7-Zip.

In de gecomprimeerde mappen vind je uiteindelijk een .txt- of .log-bestand dat je simpel kunt openen met bijvoorbeeld Kladblok of Notepad++.

Klinkt dit ingewikkeld? Als marketeer kun je natuurlijk ook even met je developer in gesprek gaan. Hij of zij weet waarschijnlijk direct waar je het over hebt.

Hoe analyseer je jouw serverlogs?

Als je jouw serverlogs hebt gedownload, zal je direct merken: deze bestanden bevatten extreem veel data. Logs kunnen enorm groot worden. Je hebt daarom software nodig om ze inzichtelijk te maken. Dit noem je log file analysers.

Er zijn twee typen log file analysers:

  1. Online log file analysers importeren je log-bestanden automatisch, waardoor deze dus beter zijn op gebied van gebruiksgemak. Vervolgens kun je deze via een gebruiksvriendelijke interface analyseren. Een voorbeeld van zo’n online log file analyser is Botify. Het nadeel van dit soort online services is dat deze vaak wel kostbaar zijn en je betaalt per website.
  2. Offline log file analysers bestaan uit software die je op je computer installeert. Je moet handmatig de serverlogs downloaden en mogelijk uitpakken, om die vervolgens te importeren voordat je dit kunt analyseren.

Deze oplossing is qua gebruiksgemak aanzienlijk tijdrovender, en je computer wordt zwaarder belast bij grote logbestanden. Hier staat tegenover dat de kosten aanzienlijk lager zijn. Zo kost de Log File Analyser van Screaming Frog ‘slechts’ € 129 per jaar; onafhankelijk van het aantal websites dat je analyseert.

De belangrijkste informatie op een rij

  • Dat is een hoop waardevolle informatie. Wat heb je nu allemaal gelezen? We vatten de belangrijkste punten nog eens samen:
  • In serverlogs kun je zien of LLM’s jouw content hebben gebruikt voor het opstellen van antwoorden. Dit zegt dus over jouw zichtbaarheid in AI-tools.
  • User-agents die eindigen op ‘bot’ hebben jouw content gecrawld voor het trainen van kennis. En user-agents die eindigen op ‘user’ hebben jouw content gebruikt voor het ophalen van actuele informatie.
  • Content laten crawlen voor het trainen van kennis is belangrijk om jouw producten of diensten kenbaar te maken bij AI-tools. Een directe bronvermelding krijg je hiermee meestal echter niet.
  • Als je content wordt gecrawld voor actuele informatie word je wél direct als bron vermeld in het antwoord. Dit gebeurt voornamelijk in ChatGPT en Perplexity, én enkel als zij het nodig vinden om actuele informatie op te halen.
  • Hoe vaak je direct als bron vermeld wordt in LLM’s, meet je door het aantal user-agents eindigend op ‘user’ bij te houden.
  • Shopping-resultaten worden niet altijd live opgehaald; dit hangt af van de specifieke zoekopdracht

Wat kun je nu doen met deze inzichten?

Dus, hoe pak je dit nu concreet aan? Begin met het ophalen van je eigen serverlogs, eventueel samen met een developer, en kijk welke pagina’s door AI-bots worden gecrawld. Kijk vervolgens welke content echt geschikt is voor actuele informatie en zorg dat deze makkelijk vindbaar is, bijvoorbeeld door interne links of gestructureerde data toe te voegen.

Houd daarnaast regelmatig bij welke user-agents eindigen op ‘user’, zodat je ziet hoe vaak je daadwerkelijk als bron wordt genoemd. Op die manier verander je inzichten uit je logs in concrete acties en kun je actief werken aan het vergroten én meetbaar maken van je zichtbaarheid in AI-tools.

Bron headerafbeelding: Pexels

Blog