Il file robots.txt è un file di testo molto semplice. La sua funzione principale è impedire ad alcuni crawler dei motori di ricerca come Google di scansionare e indicizzare i contenuti di un sito Web per la SEO. Se non sei sicuro che il tuo sito web o quello del tuo cliente contenga un file robots.txt, puoi controllarlo facilmente: basta digitare example.com/robots.txt. Troverai una pagina di errore o una pagina in formato semplice.
Esistono diversi modi per creare un file robots.txt. Puoi crearlo dal tuo: Content Management System, Computer, dopodiché lo carichi tramite il tuo server web, Creazione manuale e caricamento su Webserver.
Il primo file che i bot dei motori di ricerca esaminano è il file di testo del robot, se non viene trovato, c'è un'alta probabilità che i crawler non indicizzino tutte le pagine del tuo sito. Questo piccolo file può essere modificato in seguito quando aggiungi altre pagine con poche istruzioni, ma assicurati di non aggiungere la pagina master alla direttiva disallow. Google utilizza un budget di indicizzazione, che si basa sul limite di scansione.
Una mappa del sito è fondamentale per tutti i siti Web in quanto contiene informazioni utili per i motori di ricerca. La mappa del sito indica ai bot la frequenza con cui aggiorni il tuo sito Web, quali contenuti fornisce il tuo sito. Il suo scopo principale è notificare ai motori di ricerca tutte le pagine del sito che devono essere scansionate, mentre il file di testo robotico è destinato ai robot di ricerca. Indica ai crawler quale pagina eseguire la scansione e quale no. La mappa del sito è necessaria per l'indicizzazione del tuo sito, ma il testo del robot no (se non hai pagine che non devono essere indicizzate).