Beste Google, wil je mijn zoekresultaten alsjeblieft verwijderen?

Heb je een website en staat er informatie op die je liever niet terug ziet bij de zoekresultaten van Google, dan kun je dit kenbaar maken. Dit zijn de mogelijkheden.

Er kunnen verschillende redenen zijn om een pagina uit de zoekresultaten van Google te weren. Misschien is de informatie achterhaald, heb je een nieuwe website, of per ongeluk vertrouwelijke informatie online gezet. Wil je genegeerd worden door Google dan doe je dit als volgt.

Blokkeer de toegang tot bepaalde pagina’s

Hoewel zoekmachines steeds slimmer worden zijn het geen mensen. Ze hebben moeite met interpreteren en slim verbanden leggen. Komt een zoekmachine op een website, dan is zijn enige doel informatie verzamelen en opslaan. Gaat het om vertrouwelijke informatie of gegevens die je liever niet deelt dan weten zoekmachines dit niet. Kritische vragen stellen ze evenmin.

Omdat voorkomen beter is dan genezen, kun je bepaalde pagina’s en bestanden op je website afschermen voor zoekmachines. Dit doe je met het bestand robots.txt dat je in de root (de hoofdmap) zet van je website op internet.

Robots.txt bestand

Met het bestand robots.txt geef je zoekmachines heel gericht informatie waar ze wel mogen kijken en waar niet. Je kunt dus vooraf mappen en pagina’s uitsluiten van weergave bij de zoekresultaten. Dit is bijvoorbeeld erg handig bij vertrouwelijke bestanden.

Hoe maak je een robots.txt bestand?

Een robots.txt bestand is een tekstbestand en je kunt hem in Windows het beste maken met Notepad. Als opdracht voor zoekmachines plaats je in het bestand bijvoorbeeld de volgende opdracht

User-agent: *
Disallow: /prive/

De bestanden in de map privé worden nu niet geïndexeerd. Een iets uitgebreider voorbeeld op artikelniveau is:

User-agent: Googlebot
Disallow: /mijn-pincode.html

Met deze opdracht geef je specifiek Google de opdracht de pagina mijn-pincode.html te negeren. Mocht je die pagina al hebben.

Meer uitleg over robots.txt vind je op deze uitstekende help-pagina van Google. Je leest hier ook hoe je het robots.txt bestand test.

Vertrouwelijke bestanden

Tip: zoek eens in Google met het commando ‘site:jouwsite.nl filetype:pdf’.

Je zoekt nu binnen je eigen site naar PDF bestanden. Dit kun je ook doen in combinatie met filetype:xls, filetype:doc of filetype:docx. Staan er vertrouwelijke stukken op je site en heeft Google ze opgeslagen, dan zie je dit meteen. Zoek ook eens in Google op ‘”voor intern gebruik” filetype:pdf’ en laat je verrassen.

Alleen voor intern gebruik

Een webpagina handmatig verwijderen

Wil je een pagina van je eigen website verwijderen uit de zoekresultaten van Google dan kan dit met  Google Hulpprogramma voor webmasters. Maak je hier nog geen gebruik van dan kun je je gratis aanmelden met je Google-account.

  1. Open de startpagina van Webmasterhulpprogramma’s en selecteer jouw site.
  2. Selecteer in het linkermenu Optimalisatie
  3. Klik op URL’s verwijderen.
  4. Klik op Een nieuwe aanvraag voor verwijdering maken
  5. Geef de directe url’s op en klik op Doorgaan.
  6. Klik op Ja, deze pagina verwijderen
  7. Klik op Verzoek verzenden.

Opmerking! Met Google Cache zie je hoe een webpagina er in het verleden uitzag, ook als deze niet meer bestaat. Wil je een Cache-versie van een webpagina op jouw site verwijderen, selecteer dan bij Stap 6 de optie ‘Cache-versie verwijderen’

Cache versie webpagina verwijderen

Bekijk de door Google opgeslagen versie van een webpagina. Klik bij een zoekresultaat op het pijltje en vervolgens op Cache.

Enkele tips bij het verwijderen:

  • Verwijder je de pagina’s definitief, zorg er dan voor dat ze de foutmelding 404 (niet gevonden) of 410 (verdwenen) geven. Doe je dit niet en bezoekt Google ze een volgende keer dan slaat hij ze opnieuw op.
  • Laat je de pagina op je site staan, maar wil je hem niet tonen bij de zoekresultaten, blokkeer hem dan ook via het bestand robots.txt. Verwijst een andere website naar de pagina en staat hij niet in Google’s database dan wil de zoekmachine hem dolgraag indexeren. Dankzij het robots-bestand verbied je dit.
  • Verwijder PDF bestanden helemaal van de server
  • Je kunt ook een afbeelding verwijderen, geef in dat geval de precieze url van het plaatje op.  Je achterhaalt deze o.a. door  in Google Afbeeldingen te klikken op een plaatje. Selecteer nu in de rechterkolom ‘Volledige grootte’, dan verschijnt de afbeeldings-url in de adresbalk.
  • Wil je weten welke afbeeldingen van jouw website Google heeft opgeslagen, zoek dan bij Google Afbeeldingen op site:jouwsite.nl.
Afbeeldingen verwijderen uit Google

Gegevens van andere Google-producten verwijderen

Gebruik je andere diensten van Google, zoals blogger, YouTube, Adwords of Google Maps, dan kun je met een speciaal hulpprogramma een verzoek tot verwijdering indienen. Ga naar het hulpprogramma inhoud verwijderen van Google.

Webpagina’s van anderen verwijderen

Je kunt Google’s hulpprogramma ook gebruiken als je bezwaren hebt tegen een andere website, waarop bijvoorbeeld jouw teksten of foto’s staan. Selecteer in dat geval als product ‘Zoeken op het web’ en geef de aard van het bezwaar aan. De vervolgstappen wijzen zichzelf.

Google pagina verwijderen

Tip! Plagiaat hoef je niet te accepteren. Met deze stappen doe je er wat aan:

  1. Stuur de webmaster een bericht met het verzoek de content te verwijderen.
  2. Geen reactie? Stuur ze een rekening voor het gebruiken van jouw content.
  3. Nog steeds geen reactie? Vul een klachtenformulier in via het hulpprogramma inhoud verwijderen en overweeg een belletje naar Moszkowicz (of een betaalbaardere advocaat).

Bellen is sneller?

Geloof het of niet, maar als je heel goed zoekt, heeft Google kantoren die bereikbaar zijn per telefoon. Heb je geen doorkiesnummer van een medewerker, dan verwijst het antwoordapparaat je echter vriendelijk terug naar de website.

Afsluitende tips voor het verwijderen van zoekresultaten uit Google

  • Denk logisch na. Zoekmachines slaan standaard alle informatie op, ook de ledenlijst van de plaatselijke tennisvereniging die toevallig op de clubsite staat.  Is dit echt nodig? Wil je de lijst toch op de site hebben, scherm hem dan in ieder geval af via het bestand robots.txt.
  • Google eens op je voornaam en achternaam tussen aanhalingsteken en stel je voor dat je recruiter bent. Ben je blij met wat je ziet?
  • Wil je juist gevonden op je naam? Pas hem dan bewust toe en begin bijvoorbeeld een blog op persoonlijke titel.

Interessant?

Lees dan ook onze andere artikelen over , , , , , , , , , .

Reacties

  1. Christian Luijten |

    Als iets een vertrouwelijk document betreft zet je het toch helemaal niet openbaar weg? De robots.txt is slechts een leidraad waar zoekmachines zeggen zich aan te houden. Google doet dat inderdaad, maar bijvoorbeeld de Chinese Baiduspider kijkt hier helemaal niet eens naar.

    Is informatie echt vertrouwelijk? Bescherm het dan tenminste met een inlogmechanisme. Zodoende kunnen zoekmachines er niet meer bij.

  2. Aardig overzicht, Rutger, maar je artikel is niet volledig.

    Een pagina uitsluiten in Robots.txt zorgt er NIET altijd voor dat de betreffende pagina uit de index/zoekresultaten verwijderd wordt.

    Er hoeft maar één link naar die pagina te verwijzen en Google neemt in ieder geval de URL op in de zoekresultaten.

    Zie bijvoorbeeld deze praktijkcase van Auping.nl:
    http://www.edwords.nl/2009/10/19/robots-txt-uitsluiting-toch-index/

    Als je echt UIT de zoekresultaten wilt blijven, gebruik dan de meta tag robots met de waarde “noindex” (of de X-Robots-Tag bij bijv. pdf of word bestanden)

  3. “Dit doe je met het bestand robots.txt dat je in de root (de hoofdmap) zet van je website op internet.”
    OF
    “Een robots.txt bestand is een tekstbestand en je kunt hem in Windows het beste maken met Notepad.”

    Zit ik nu echt op Frankwatching? Of zit ik nu op een website met informatie over ‘websites voor beginners’? Ik voel me net een klein kind als ik dit lees…

  4. Eens met Christian, vertrouwelijk info hoort achter een login te staan en niet in een robots.txt. Dat bestand zou ik direct gebruiken om te zien waarom iets geblokkeerd wordt. Daarbij gebruikt Google ook toolbar data voor het crawlen, als jij een toolbar geïnstalleerd hebt en de ‘geheime’ pagina bezoekt weet Google van het bestaan af. En dan kan de pagina zoals Eduard al zegt prima in de index komen. Zelfs met een titel er bij zonder dat Google de pagina zelf leest.

    En nog een aanvulling op Eduard zijn terechte comment: gebruik niet de noindex+robots.txt samen op een bestand, omdat Google anders door de robots.txt niet eens de noindex kan lezen.

  5. @ Eduard,

    Dank voor je aanvulling, dat is een goed punt. Bij Joomla-sites doe ik het altijd via een plugin in de backend, waarbij ik artikelen op noindex / nofollow kan zetten. Dank voor je link ook.

    @ JSO,

    Zoveel mensen, zoveel niveaus. Ik geef regelmatig trainingen en daar sta je versteld van de vragen die je soms krijgt, vandaar dat ik liever overduidelijk dan onvolledig ben.

  6. @ André,

    Dank voor je aanvullingen, dat van die toolbar sta ik van te kijken, heb ik nog nooit van gehoord. Ik leer nog elke dag bij.

  7. wees voorzichtig met uitsluiten in robots.txt! Er zijn diverse bots die juist de robots.txt bekijken om “verborgen” pagina’s en mappen door te spitten. De robots.txt is niets meer dan een heren-afspraak waar google zich aan houdt, iedereen (bots en menselijke bezoekers) kunnen simpelweg de robots.txt lezen en besluiten deze te negeren.

    Als iets echt intern moet blijven zet dan een IP check op en beveilig je mappen met een wachtwoord.

    Overigens is het simpel bots te tracken welke bewust de robots.txt afstruinen: in de robots.txt een map opnemen. Vervolgens elke hit op de index.php/html in die map loggen. Levert mij 1 a 2 IPs per maand op die standaard naar de ip-ban lijst gaan.

  8. Tsja, elke dag bijleren en toch je beperkte (en foutieve informatie) aan een ander doorgeven. Hooray voor vrijdag de 13e laten we maar zeggen.

  9. Ter demonstratie:

    open deze maar eens gewoon in de browser:
    http://seozwolle.nl/robots.txt

    of

    http://www.frankwatching.com/robots.txt

    (handig om direct te zien welke adminlogin url wordt gebruikt. Een evt hacker is u dankbaar)

  10. Voor Pagina’s die een nieuwere versie is het volgens mij beter om een 301 redirect te gebruiken. Dan gaat de gebruiker automatisch naar de goede pagina. Zoekmachines respecteren een 301 ook dus de oude pagia verdwijnt uit de zoekresultaten. Je kunt dit met een .htaccess bestand regelen. Als je een robots.txt kunt maken kun je ook een .htaccess bestand maken.
    Beter is het om de 301 redirect aan het begin van de programmacode van de pagina op te nemen. In veel Contentmangementsystemen zijn redirects makkelijk in te stellen.

    Vertouwelijke bestanden horen niet in de openbare mappen of directories van een webserver terecht te komen. Wanneer de gebruikers bestanden kunnen/mogen uitwisselen of uploaden moeten deze in een niet zichtbare directory opgeslagen worden. Wat een zoekmachine niet ziet kan het ook niet indexeren.
    Om de gebruikers de upload/download mogelijkheden te laten gebruiken moeten ze eerst inloggen.
    PDF bestanden die iedereen mag zien kunen natuurlijk wel in een openbare directory die mogen ook gevonden worden door een zoekmachine.

  11. @tom, een 301 zorgt er niet direct voor dat de informatie uit Google verdwijnt. Noindex doet dat wel (nouja geef het een dag of 2, afhankelijk van de populariteit van je site en de betreffende pagina).

  12. Mss wat omstreden en wild ideetje dat me plots te binnenschiet (en zelf nog niet getest). Mocht je nu eens eerst een loop met een 301 redirect maken en die opvolgen. PDF of pagina haal je offline, de url redirect je en zorg je voor loopje… wat zou dat geven?

  13. Een pagina die nog niet uit de Google cache is.

  14. En de HTTP code 410 (Gone)?

  15. Op de google webmaster blogs wordt hier ook het e.e.a over gezegd.
    http://googlewebmastercentral.blogspot.nl/2010/03/url-removal-explained-part-i-urls.html
    Verder is er op youtube een filmpje te vinden, van google die dit issue ook bescherijft.

  16. Dag heren,

    Even een vraagje. Ik zie werkelijk overal hoe en waarom je de robots.txt kan ophalen/creeeren en maken… maar hoe krijg je dat ding weg en waar zit het? Mijn website wordt niet meer geindexeerd vanwege een robots.txt. Ik heb helemaal niets gedaan. En opeens is alles van Google. Het lijkt alsof ik nu letterlijk moet Goog(e)len.

    Wie weet wat? so, pls help..Thnx

Plaats een reactie

Je e-mailadres wordt niet gepubliceerd. Verplichte velden zijn met een * aangegeven.

Verschijnt je reactie niet, dan is deze mogelijk in de spam terechtgekomen. Mail ons dan even!