Le fichier robots.txt est un fichier texte très simple. Sa principale fonction est d'empêcher certains robots d'exploration des moteurs de recherche tels que Google d'explorer et d'indexer le contenu d'un site Web à des fins de référencement. Si vous ne savez pas si votre site Web ou celui de votre client contient un fichier robots.txt, vous pouvez facilement le vérifier : tapez simplement example.com/robots.txt. Vous trouverez soit une page d'erreur, soit une page au format brut.
Il existe différentes manières de créer un fichier robots.txt. Vous pouvez le créer à partir de votre système de gestion de contenu, de votre ordinateur, puis de le télécharger via votre serveur Web, de le créer manuellement et de le télécharger sur le serveur Web.
Le premier fichier que les robots des moteurs de recherche consultent est le fichier texte du robot. S'il n'est pas trouvé, il est fort probable que les robots d'exploration n'indexent pas toutes les pages de votre site. Ce petit fichier peut être modifié ultérieurement lorsque vous ajouterez d'autres pages avec quelques instructions, mais veillez à ne pas ajouter la page principale à la directive d'interdiction. Google utilise un budget d'exploration ; ce budget est basé sur la limite de numérisation.
Un plan du site est essentiel pour tous les sites Web car il contient des informations utiles pour les moteurs de recherche. Le plan du site indique aux robots à quelle fréquence vous mettez à jour votre site Web et quel contenu votre site fournit. Son objectif principal est d'informer les moteurs de recherche de toutes les pages de votre site qui doivent être explorées, tandis que le fichier texte de robotique est destiné aux robots de recherche. Il indique aux robots d'exploration les pages à explorer et celles à ne pas explorer. Le plan du site est nécessaire pour que votre site soit indexé, mais le texte du robot ne l'est pas (si vous n'avez pas de pages qui n'ont pas besoin d'être indexées).