Weet welke pagina’s niet zijn geïndexeerd door Google!

Regelmatig komen klanten met de volgende vraag: ‘Waarom zijn niet alle pagina’s geïndexeerd in Google?’ Om deze vraag te kunnen beantwoorden en er vervolgens iets aan te kunnen doen, moet je eerst weten welke pagina’s niet zijn geïndexeerd. In dit artikel een aantal tips om hier achter te komen.

Onbetrouwbare resultaten

Veelal geven klanten de volgende query in Google in: ‘site:http://www.website.nl’. Deze methode is verre van betrouwbaar: de cijfers geven overal een ander resultaat, zoals duidelijk te zien is in onderstaande 3 afbeeldingen.

Hier 94 resultaten:

Een paar pagina’s verder:

Het Google Webmaster Centrum geeft vervolgens weer iets anders aan:

Je kan je natuurlijk afvragen: wil je dit eigenlijk wel weten? Over het algemeen is het toch veel belangrijker dat je aan de slag gaat met pagina’s die bezoekers krijgen vanuit de zoekmachines?

Dat is in principe waar, maar pagina’s die niet geïndexeerd zijn, krijgen natuurlijk ook geen bezoekers uit de zoekmachines. En dit kunnen nogal eens een hoop pagina’s en bezoekers zijn. Daarnaast zit hier een achterliggende gedachte achter die nog veel simpeler is.

Waarom zijn ze niet geïndexeerd?

Als je het antwoord weet te vinden op deze vraag, stel je een veel belangrijker onderdeel van je website aan de kaak. Wat gaat er mis wanneer Google mijn pagina’s niet interessant genoeg vindt om op te nemen in de zoekmachines? Wat voor problemen zijn er die ik kan oplossen om meer waarde te geven aan deze pagina’s voor zowel de zoekmachines als de gebruikers? De opties zijn namelijk legio: interne linking, duplicate content, geen backlinks etc.

Voordat je het juiste antwoord kan geven op deze vraag, moet je eerst even kijken naar welke pagina’s niet geïndexeerd zijn. Dit is over het algemeen moeilijker dan verwacht. Het Google Webmaster Centrum geeft deze informatie dus helaas niet weer.  Verder geeft ‘site:http://www.yonego.nl’ dit ook niet aan, zeker niet met de onduidelijke data.

Hierop kan een zeer klein trucje het antwoord zijn. De volgende Query in Google geeft weer of een pagina wel of niet geïndexeerd is op pagina niveau:

‘site:http://www.yonego.nl/diensten/zoekmachine-optimalisatie.html’

Inurl

Je zou ook het commando ‘inurl:’ kunnen gebruiken om dit te weten te komen. Dit commando geeft echter verkeerde resultaten op URL’s met spaties, dit wordt herschreven naar %20. Onderstaande URL’s geven dan geen resultaten als we ‘inurl:’ zouden gebruiken in plaats van site:

‘site:http://www.lachmee.nl/Teksten/tekst%20windowsautos.htm’

Het handmatig nalopen van alle URL’s vergt teveel tijd. Je kan dit wel automatisch doen via een rank-checker. Dan zijn die dingen toch nog ergens goed voor! Zelf heb ik het getest met zowel WebCEO als Advanced Web Ranking en beide programma’s geven een goed beeld van de indexatie van de URL’s.

Deze combinatie van het combineren van een programma met een Query in Google kan bepaalde zaken dus erg inzichtelijk maken die anders moeilijker inzichtelijk zouden zijn. Ik ben benieuwd of jullie nog vernuftige manieren hebben om uit dit soort combinaties leuke informatie te halen.

Interessant?

Lees dan ook onze andere artikelen over , , , .

Reacties

  1. Goeie tip Edwin, om de %20 toe te passen, verklaart veel.

    Mbt backlinks als reden voor het opkrikken van een vaak wel opgenomen maar niet hoog genoeg gerankte pagina : vaak kun je wel een backlink op domeinnaam nivo krijgen, maar is dat voor deelsektoren toch meer lastig. Gaat je domein over een kostuum, gaan de pagina’s over colbert en pantalon uitstekend, kan het toch zijn dat de pagina over het manchet of revers niet mee kan komen.
    Heb je daar ook een tip voor ?

  2. Ik begrijp het niet helemaal. Hoe gebruik je webceo nou om pagina’s te rank checken en zodoende te weten te komen welke pagina’s niet geindexeerd zijn? Waar op CEO.com staat daar een tool voor?
    Alvast bedankt
    Peter

  3. Yahoo geeft de geindexeerde pagina’s overigens wel goed aan, google doet dit niet. Dus misschien is Yahoo daarvoor gebruiken een goed idee? (niet dat Yahoo precies hetzelfde in hun DB heeft staan, maar extra info is altijd handig.

  4. @Ruud Klopt, hoe dieperliggende hoe moeilijker het wordt om links te verkrijgen natuurlijk. Ik gebruik deze truuk vooral om punten in website op te sporen die gewoon slecht zijn. Denk aan product pagina’s met duplicate content zonder toegevoegde waarde. Ik zie die vaak naar boven komen en kan daar dan aan werken, met goed resultaat uiteindelijk voor de verkopen van zo’n product.

    @peter Omdat als de pagina gevonden is er link staat naar de website, met andere woorden: positie 1. Als hij niet is geïndexeerd staat er dat er geen rank is.

    @tom Yahoo! hebben we echter hier niet zo heel veel aan zoals je zelf al aangeeft, maar ik bevestig wel dat dat beter geregeld is. Yahoo! gaat er natuurlijk wel uit.

    Dank voor de leuke reacties en een goed weekend!

  5. @Edwin: leuke post. Een beter SEO KPI voor je site als geheel is de ‘page yield’. Het aandeel pagina’s van je site t.o.v. je totaal aantal pagina’s dat verkeer naar je site genereert. Naast een page scan waarin gemeten wordt of je URL geïndexeerd is in de grote 3 gaan wij van http://www.seoeffect.com deze KPI gebruiken voor je website scan.

  6. @keesjan Dank je voor de toevoeging. Dit was echter niet als KPI bedoelt echter als tool om de kwaliteit van de website nog flink te verbeteren.

    Ik ben erg benieuwd naar je website scan, ben je een tool aan het bouwen a la Lipperhey?

  7. Dag Edwin,

    Leuk artikel, slaan we op in Delicious ;-).

    Ik heb wel een vraagje over jouw laatste reactie aan Keesjan. Je haalt namelijk Lipperhey aan en ik ben erg benieuwd naar jou/jullie ervaring met deze tool. Een #durftevragen haalde op Twitter namelijk niet zoveel uit ;-). Gebruiken jullie de tool? Is ‘ie volledig en correct? Ik kan me voorstellen dat de tool erg handig is voor eerste analyses/sitescans…

    Groet,
    Floor

  8. @Edwin De SEO Effect webpage scan wordt onderdeel van onze geïntegreerde tool platform. Vanuit zoekwoordonderzoek koppel je zoekwoorden aan individuele pagina al dan niet op basis van het huidig zoekverkeer (koppeling Google Analytics). Vervolgens kun je per pagina een SEO scan doen, waaronder of deze pagina geïndexeerd is zoals je in dit artikel beschrijft. Daar rolt een lijstje uit in volgorde van verbeteringen met de meeste impact op je score. Erg actiematig dus en dat is gelijk wat ik mis in Lipperhey. Te veel punten, te weinig weging, te veel kruisverwijzingen, te weinig aanzetten tot actie. Bovendien is Lipperhey geen geïntegreerde tool waarin je ook zoekwoordonderzoek en linkbuilding doet. Deze let op techniek en content. Een website brede scan komt er ook; deze kijkt meer naar dubbele elementen tussen pagina’s, website structuur en bv de ‘page yield’ en indexatie. Juist omdat indexatiegegevens vanuit Google onbetrouwbaar is, is het beter over te stappen op KPI’s die en betrouwbaarder zijn en meer zeggen over het doel waarmee je bezig bent. Maak maar een account aan dan ben je als eerste op de hoogte wanneer ook de page scan erin zit. Lees ook de site gespot over SEO Effect: http://www.frankwatching.com/archive/2010/08/31/seo-effect-optimaliseert-je-website/

    @Floor: Lipperhey ziet er wel mooi uit en je kan er zeker wat aan hebben als je weet wat je doet. Ik vind het vrij duur voor wat je ervoor krijgt. Zie verder boven.

  9. Zoals Keesjan zegt, ga liever voor een KPI dan teveel te focussen op indexatie van pagina’s. Concrete cijfers zal je toch nooit krijgen van Google. Nét zoals die link operator niet veel zegt (http://www.youtube.com/watch?v=TjQ2QVQpaK0). Kijk liever naar de trend die er uit voort vloeit. Stijgende trend van geïndexeerde pagina’s is goed (http://www.driesbultynck.be/index.php/2010/07/19/google-sitemap-xml-als-graadmeter)

  10. @keesjan Ziet er goed uit, veel succes met de de tool!

    @Dries Klopt, maar zoals ik al zei, het is geen KPI, en ook geen vervanging van een KPI of focuspunt. Het is extra, om informatie uit te verkrijgen, uit te leren en actie op te kunnen ondernemen.

    Stijging geïndexeerde pagina’s is prima als trend zoals je aangeeft, maar dan weet je niet welke pagina’s er niet zijn geïndexeerd en op deze manier kom je daar wél achter > kan je je pagina’s verbeteren > en dus gaat trend weer omhoog.

  11. @Keesjan Deelstra
    Lipperhey is gebouwd als analyse-tool. Met behulp van onze spider kunnen we precies laten zien waar het mis zit.

    Maar het is nu inderdaad niet actie-gericht genoeg en we hebben veel verzoeken gekregen om dit beter weer te geven. We zijn over enkele weken klaar met Lipperhey 3.0 die je taak na taak voorschotelt. Hierin komt trouwens ook een hele goede keyword suggestion tool. Voor de nieuwsgieringen onder ons alvast een sneak preview: http://www.lipperhey.com/preview/

    Wordt vervolgd dus!

  12. @Gijs Barends : heel fijn zo’n Lipperhey tool, ook heel fijn dat die tool zich niet houdt aan de robots.txt ( en in no time allemachtig veel pagina’s opvraagt ) en ik dus al geruime tijd genoodzaakt ben geweest, om Lipperhey naast anderen via htaccess te weren. Elke site, na site, na site opnieuw. Dat het voor Lipperhey (Lipperhey Spider; http://www.lipperhey.com/) http://www.lipperhey.nl)commercieel interessant is, mag duidelijk zijn. Logisch dat Lipperhey die goede gewoonte aan zijn/haar laars lapt, ten koste van anderen. Persoonlijk zou ik graag zien dat jullie een andere hobby zoeken. :(

    Wanneer – en waarom zou dat niet – meerdere webmasters dat doen, wat is dan uiteindelijk nog de waarde van Lipperhey …. een illusie.

  13. @Ruud. Vervelend dat je last hebt van onze spider, maar in tegenstelling tot wat jij beweert houden we ons wel degelijk aan het robot exclusion protocol (zie ook: http://www.lipperhey.com/nl/website-spider/). Laat even weten wat jouw site is, dan kijken we wat er misgaat.

    Dan je tweede opmerking: wat is er mis mee dat mensen hun site technisch beter maken en zo goed mogelijk duidelijk maken aan bezoekers en zoekmachines waar hun site over gaat? Allemaal volgens de richtlijnen van de Nederlandse overheid, W3C en Google.

  14. @Gijs:
    1. ik heb teveel websites om even 1 op te noemen en al zeker niet hier.
    2. bovengenoemde aktie heb ik in februari 2010 genomen, en ondermeer ook Lipperhey een mail gestuurd, naast Redmonkey. Geen antwoord. Dat ga ik niet allemaal bewaren. Er zijn genoeg sites waar dit allemaal wel opgeslagen wordt.
    3. het feit dat ik de aktie moest nemen, zegt genoeg over de effectiviteit van het volgen van het exclusion protocol, zie boven.
    4. internet is publiek, dus ieder mag de voor- en de achterkant van de webpagina bekijken, dat is duidelijk. Een veelvuldig SEO advies is dan ook : check de beste 10 van je concurrenten en verbeter die. Ga je daarmee door tot ad fundum, rank je beter dan Google zelf. Forget it.

    In het verlengde daarvan proberen diverse bedrijven zoals Lipperhey om geautomatiseerd zaken als keywords en andere tags te verzamelen. Er zijn er ook, die complete pagina’s dupliceren om er elders mee te cashen. En kom ik op punt 5 met je woorden :
    5. wat is er mis mee dat mensen hun site technisch beter maken en….
    Niets mis mee. Laat zij zelf rustig doorgaan.
    Totdat clubs met commercieel belang de ene helft van de wereld aan de andere helft willen verkopen. Uiteindelijk zal het tot niets leiden, zie bovenstaand SEO advies, immers, het zit ‘m niet alleen in meta’s .
    Het probleem is de overlast. Ik en mijn collega’s doen dit werk niet voor Jan met de korte achternaam. Zelf kan ik mijn statistieken wel schoon houden, helaas mijn – technisch toch hoogstaande – zakelijke partners niet. Doordat hun statistieken worden vervuild, daalt optisch mijn resultaat en dat leidt tot schade, op z’n minst image-schade. Dat verwijt ik jullie.

    Verwijzen naar richtlijnen van Overheid, W3C en Google slaat nergens op. De eerste heeft geen flauw benul omtrent dit aspekt, de tweede bemoeit zich niet met dit aspekt, de derde weet beter dan wie ook wat de mogelijkheden van dit aspekt zijn, maar zal zich gegeven de commerciele baten daar niet over uitlaten.

    Ik vind en vond dit een goede gelegenheid om alle afnemers van bovengenoemde “handige tools” even met de neus op de feiten te drukken, in die zin dat men zaken afneemt, die anderen schade kan toebrengen. Op zich een discussie waard.

  15. enig idee waarom de info: operator van Google niet werkt voor onze site? Ik heb de vraag ook al op webmasterhulp geplaatst, maar ben er nog niet achter. het betreft de website: https://www.countingflowers.nl

  16. Hoi,

    Hoe kan het dat mijn site (een .com) 1 pagina in de google.com zoekmachine heeft, en in Google.NL 17? Heb in Analytics aangegeven de Hawaii tijd..

    Oplossing?

    BVD

  17. Ik heb hier ook last. Ik heb genoeg content, maar er blijven pagina met 400 worden en juiste zoektermen. zoals deze pagina http://gemiddelden.nl/verbruik/gemiddeld-verbruik-auto/

  18. Ik begrijp het niet helemaal. Hoe gebruik je webceo nou om pagina’s te rank checken en zodoende te weten te komen welke pagina’s niet geindexeerd zijn? Waar op CEO.com staat daar een tool voor?

    Alvast bedankt

Plaats een reactie

Je e-mailadres wordt niet gepubliceerd. Verplichte velden zijn met een * aangegeven.

Verschijnt je reactie niet, dan is deze mogelijk in de spam terechtgekomen. Mail ons dan even!