Het bestand robots.txt is een heel eenvoudig tekstbestand. De belangrijkste functie is om te voorkomen dat sommige crawlers van zoekmachines, zoals Google, inhoud op een website crawlen en indexeren voor SEO. Als u niet zeker weet of uw website of de website van uw klant een bestand robots.txt heeft, kunt u dit eenvoudig controleren: typ gewoon example.com/robots.txt. U zult ofwel een foutpagina of een gewone pagina vinden.
Er zijn verschillende manieren om een robots.txt bestand te maken. U kunt het aanmaken vanuit uw: Content Management System, Computer, waarna u het uploadt via uw webserver, Handmatig bouwen en uploaden naar Webserver.
Het eerste bestand dat de bots van de zoekmachine bekijken, is het tekstbestand van de robot. Als het niet wordt gevonden, is de kans groot dat de crawlers niet alle pagina's van uw site indexeren. Dit kleine bestand kan later worden gewijzigd als je meer pagina's toevoegt met een paar instructies, maar zorg ervoor dat je de basispagina niet toevoegt aan de instructie Niet toestaan. Google heeft een crawlbudget; dit budget is gebaseerd op de scanlimiet.
Een sitemap is essentieel voor alle websites omdat deze nuttige informatie bevat voor zoekmachines. De sitemap vertelt de bots hoe vaak je website bijwerkt en welke inhoud je site biedt. Het belangrijkste doel is om zoekmachines op de hoogte te stellen van alle pagina's op uw site die moeten worden gecrawld, terwijl het robottekstbestand bestemd is voor zoekrobots. Het vertelt de crawlers welke pagina ze moeten crawlen en welke niet. De sitemap is nodig om je site te indexeren, maar de txt van de robot niet (als je geen pagina's hebt die niet geïndexeerd hoeven te worden).