Robots.txt is een eenvoudig tekstbestand dat zoekmachines vertelt welke pagina’s of bestanden ze mogen crawlen en indexeren. Het ondersteunt je als website-eigenaar om te bepalen welke delen van je site toegankelijk moeten zijn voor zoekmachines zoals Google.
Wat doet robots.txt exact?
Met het toevoegen van een robots.txt bestand aan je site kun je zoekmachines instructies geven om welke pagina’s wel of niet gecrawld en/of geïndexeerd moeten worden. Je stuurt als het ware de zoekmachine de richting in die jij wil. Door de niet-relevante pagina’s uit te sluiten zorg je ervoor dat belangrijke pagina’s juist wel geïndexeerd en gecrawld kunnen worden.
Waarom is een robots.txt-bestand belangrijk voor SEO?
Er zijn een aantal verschillende redenen waarom een robots.txt-bestand belangrijk is voor je SEO-waarde.
- Duplicate content voorkomen: Op het moment dat je meerdere pagina’s hebt die (deels) dezelfde content bevatten kan dit negatieve invloed hebben op je SEO. Door een aantal van deze pagina’s in je robots.txt bestand te blokkeren voorkom je dat deze worden geïndexeerd, wat duplicate content voorkomt.
- Crawling-efficiëntie: Met een robots.txt-bestand kun je zoekmachines aanwijzingen geven over welke delen van je website ze wel of niet mogen crawlen. Zo kun je hun aandacht richten op de belangrijkste pagina’s en voorkomen dat onbelangrijke of dubbele content onnodig wordt gecrawld.
- Gebruikerservaring verbetering: Het robots.txt-bestand stelt je in dat bepaalde delen van je site die nog in ontwikkeling zijn uit te sluiten en te verbergen.
Hoe maak ik een robots.txt-bestand?
Als website-eigenaar zijn er een aantal stappen die je moet volgen om een robots.txt bestand aan te maken. zie hier:
- Maak een tekstbestand aan zoals Notepad of TextEdit. Sla dit bestand op als robots.txt
- Schrijf de regels: Verwerk standaardregels in dit bestand. Dit zijn regels die de crawler beperkt of toestaat om te volgen:
- Disallow:
- Allow:
- User-agent *
- Upload bestand naar website: Plaats het robots.txt bestand in de root van je website. Dit houdt in dat het toegankelijk moet zijn.
- Test het bestand: Via Google Search Console kun je robots.txt testen en ervoor zorgen dat het juist is geconfigureerd.
Kunnen alle zoekmachines robots.txt lezen?
Bijna alle zoekmachines kunnen robots.txt lezen, en de instructies volgen die erin verwerkt staan. Bekende zoekmachines als Google, Yahoo en Bing controleren dit bestand standaard om te bepalen welke onderdelen wel/niet gecrawld moeten werken.
Wat is het verschil tussen Disallow en Noindex?
Binnen je sitemap kun je verschillende instructies verwerken die onder andere vertellen of pagina’s op disallow of noindex moeten. Bij disallow geef je de zoekmachine aan dat deze pagina niet gecrawld mag worden. Dit kunnen bijvoorbeeld pagina’s zijn als “privé” of “admin”.
Met het verwerken van noindex, geef je aan dat bepaalde pagina’s niet meegenomen mogen worden in de zoekresultaten. Je pagina is dus eigenlijk niet te vinden op Google. Echter kunnen deze pagina’s wel gecrawld en bekeken worden door de zoekmachine.
Wat gebeurt er als ik geen robots.txt-bestand heb?
Op het moment dat je site geen robots.txt bestand heeft kan er het volgende gebeuren:
Zoekmachines crawlen je hele website. Zonder robots.txt heeft de zoekmachine geen instructies en dus geen beperkingen waardoor ze vrijuit alle pagina’s op je site kunnen crawlen. Geen effect op indexering: Het niet bezitten van een robots.txt bestand heeft aan zich geen invloed op de indexering. Echter kun je bepaalde pagina’s niet afsluiten om geindexeerd te worden. Hiervoor zal je “noindex” in het robots.txt bestand moeten zetten. Bij het bezitten van een grote site zonder robots.txt kunnen problemen oplopen met het crawlen van pagina’s die je liever had uitgesloten, zoals afbeeldingen, tijdelijke content en scripts.
Is robots.txt een veilige manier om gevoelige informatie te verbergen?
Robots.txt is niet het goede bestand om veilige informatie te verbergen. Het bestand is namelijk openbaar en toegankelijk voor iedereen, en is niet gemaakt om informatie te beveiligen.
Nee, een robots.txt-bestand is niet verplicht. Als het ontbreekt, gaan zoekmachines er gewoon vanuit dat ze alle toegankelijke pagina’s mogen crawlen. Het is wel handig om er één te hebben als je bepaalde delen van je site wilt uitsluiten of crawlers wilt sturen.
Ja, in theorie. Omdat robots.txt openbaar is, kunnen kwaadwillenden zien welke mappen of bestanden je probeert te verbergen voor zoekmachines en daar bewust naar gaan zoeken. Daarom is het geen geschikte methode om gevoelige informatie te beschermen. Gebruik daarvoor serverbeveiliging of wachtwoorden.
Een fout kan ertoe leiden dat zoekmachines onbedoeld belangrijke pagina’s niet crawlen of juist ongewenste delen wel. In het ergste geval kan je hele site uit de zoekresultaten verdwijnen. Controleer wijzigingen daarom altijd zorgvuldig en test ze.
Ja, je kunt regels maken voor specifieke user-agents (zoals Googlebot
of Bingbot
) om hun toegang tot bepaalde delen van je site te beperken. Houd er rekening mee dat alleen zoekmachines die zich aan de regels houden, deze ook daadwerkelijk zullen volgen.
Je kunt de robots.txt-tester in Google Search Console gebruiken om te controleren of de regels goed worden toegepast. Ook kun je handmatig je bestand bekijken en testen door een URL in te voeren in tools zoals “Inspecteer URL” in Search Console.