Crawl budget: wat het is en waarom dit interessant is voor jou.

 Blogs
Crawl budget: wat het is en waarom dit interessant is voor jou

Crawlen is wat zoekmachinespiders doen om de inhoud van je webpagina’s te lezen en interpreteren, en deze vervolgens (als dat wordt toegelaten) te indexeren. De crawler graaft niet onbeperkt door je website heen. Het hanteert daarvoor een soort budget. Maar wat is crawl budget? En waarom zou je hier rekening mee moeten houden?

Lees het blogartikel en het wordt je allemaal wat duidelijker!

Wat is crawl budget?

De dagtaak van een zoekmachinespider is kort door de bocht het crawlen van websites. Op basis van verschillende factoren bepaalt een zoekmachinespider hoeveel crawl budget het heeft voor een website. De kunst voor jou als website-eigenaar/beheerder is in te schatten welke factoren van belang zijn en deze goed te benutten, zodat de crawler alle (of zoveel mogelijk) pagina’s efficiënt meepakt.

De hoeveelheid pagina’s die gecrawld wordt hangt af van een aantal factoren zoals ‘Crawl rate limiet’ en ‘crawl demand’. Deze factoren samen definiëren crawl budget in zijn geheel als: het aantal URL’s dat een zoekmachinespider kan en wil crawlen.

Crawl rate limiet

Om te voorkomen dat een website trager wordt vanwege het aantal zoekmachinespiders op de website, is er een crawl rate limiet. Dit betekent dat een zoekmachinespider rekening houdt met eventuele nadelige gevolgen voor de gebruikerservaring. Daarnaast kan veel websiteverkeer tegelijk de bandbreedte beperken, waardoor de website minder snel geladen wordt.

De crawl rate van een website kan stijgen en dalen. Wanneer het een ‘gezonde’ website betreft zal een zoekmachinespider vaker de website bezoeken. Op het moment dat hier verandering in komt, door bijvoorbeeld aanwezigheid van duplicate content en een vergroot aantal HTTP 404 Not Found of HTTP 301 Moved Permanently statuscodes, zal een zoekmachinespider hoogst waarschijnlijk minder vaak langskomen. Je kunt het aantal gecrawlde pagina’s ook controleren binnen GSC (Google Search Console) → crawlstatistieken. Let op: dit is (nog) niet beschikbaar in de nieuwe omgeving van GSC.

crawl budget - statistieken

Als websitebeheerder kun je via GSC (voor de Googlebot) of Robots.txt (andere zoekmachinespiders) een crawl delay meegeven. Let op: zoekmachinespiders kunnen deze instructie ook negeren. Beter is met behulp van de meta tag robots of X-robots tag per pagina bepalen of de zoekmachinespider deze mag indexen en de links volgen. Daarnaast maakt een goed uitgekiende navigatiestructuur groot verschil.

Crawl demand

Ook al is een crawl rate limit niet bereikt, als er geen vraag is naar indexatie, dan zal een zoekmachinespider een lage activiteit hebben op jouw website. Crawl demand kun je beïnvloeden door regelmatige nieuwe content toe te voegen aan je website. Een zoekmachinespider zal dit onthouden en daardoor vaker terugkomen op je website.

De populariteit van je website en de pagina’s heeft ook invloed op je crawl budget. Hoe populairder je bent, hoe vaker een zoekmachinespider terug zal komen.

Wat levert het op?

  • Snelle(re) indexatie van URL’s
  • Alleen ‘schone’ URL’s in de zoekresultaten
  • Verbetering in de gebruikservaring van een bezoeker
  • Hogere rankings

Crawl budget optimaliseren

Het optimaliseren van je crawl budget kun je doen op verschillende manieren. Hieronder een aantal voorbeelden.

Pagespeed optimalisatie

Je kunt op verschillende manieren de snelheid van je website verbeteren. Veelal zien wij dat het minifyen van de broncode, het samenvoegen van CSS en JS bestanden en het comprimeren van afbeeldingen al een positieve invloed hebben op de snelheid van je website.  

Robots.txt

De robots.txt is een tekstbestand waarin je meerdere instructies kunt meegeven aan zoekmachinespiders. Bijvoorbeeld dynamische filterpagina’s uitsluiten en het benoemen van je XML sitemap URL kan bijdragen aan snellere indexatie van je pagina’s. Een XML sitemap bevat de URL’s waarvan je wilt dat een zoekmachinespider deze crawlt. Zorg dat de XML sitemap up-to-date blijft en dat deze alleen URL’s bevat met een HTTP 200 OK statuscode.

Canonical tag

Pagina’s met een vorm van duplicate content worden door tools zoals Google Search Console gelabeld als ‘soft duplicate URL’s’ (Soft 404’s).

Het toevoegen van een canonical tag zorgt dat een zoekmachinespider beter snapt dat het de desbetreffende URL moet negeren en de canonical-URL de autoriteit moet geven.

HTTP 4xx/5xx statuscodes

Het beperken van het aantal pagina’s met een HTTP 4xx Client Error en HTTP 5xx Server Error statuscodes komt ten goede van je crawl budget. Op het moment dat een zoekmachinespider teveel en te vaak URL’s tegenkomt met een dergelijke statuscode, kan de spider stoppen met crawlen. Als je nieuwe pagina’s toevoegt die door de negatieve signalen van de statuscodes niet gecrawld worden, kan dat een gemiste kans zijn voor extra organisch verkeer.

Redirect chains

Hoe meer redirects je toekent aan een URL, hoe slechter een zoekmachine kan bepalen naar welke pagina je eigenlijk wilt refereren. Dit wordt gelabeld als ‘redirect chains’. Door redirect chains zoveel mogelijk te voorkomen, verminder je het aantal requests dat een server moet verwerken om een website te laden. Het verwijderen van deze redirect chains heeft dan ook een positief invloed op de pagespeed van je website.

Crawl budget

Backlinks

Hoe populairder je bent, hoe vaker een zoekmachinespider terug zal komen’. Door het aantal relevante backlinks naar jouw website te vergroten komt een zoekmachinespider vaker op jouw website terecht. Hierdoor wordt jouw website vaker gecrawld en vergroot je de domeinautoriteit (DA) van je website. Dit is ook weer positief voor je organische rankings.  

Rel=”nofollow”

Door het toevoegen van een rel=”nofollow” instructie aan links naar niet-relevante pagina’s kun je het crawl budget van je website beïnvloeden. Hierdoor slaat een zoekmachinespider de desbetreffende pagina’s over waar naartoe wordt gelinkt en benut je het crawl budget beter. Let op: zorg dat alle pagina’s waarin gerefereerd wordt naar de desbetreffende pagina, een rel=”nofollow” instructie op de links hebben staan. Anders komt een zoekmachinespider alsnog uit bij de pagina via een andere route. Als je dit wilt voorkomen kun je beter de meta tag robots gebruiken.

Wil je meer weten over SEO? Ga dan naar de SEO-kennisbank van Maxlead.

 

Geef een reactie