Die Datei robots.txt ist eine wirklich einfache Textdatei. Ihre Hauptfunktion besteht darin, einige Suchmaschinen-Crawler wie Google daran zu hindern, Inhalte auf einer Website zu SEO-Zwecken zu crawlen und zu indexieren. Wenn Sie sich nicht sicher sind, ob Ihre Website oder die Website Ihres Kunden über eine Datei robots.txt verfügt, können Sie das ganz einfach überprüfen: Geben Sie einfach example.com/robots.txt ein. Sie finden entweder eine Fehlerseite oder eine Seite im einfachen Format.
Es gibt verschiedene Möglichkeiten, eine Datei robots.txt zu erstellen. Sie können es von Ihrem Content Management System, Computer aus erstellen und anschließend über Ihren Webserver hochladen, manuell erstellen und auf den Webserver hochladen.
Die erste Datei, die sich die Suchmaschinen-Bots ansehen, ist die Textdatei des Roboters. Wenn sie nicht gefunden wird, besteht eine hohe Wahrscheinlichkeit, dass die Crawler nicht alle Seiten Ihrer Website indexieren. Diese winzige Datei kann später geändert werden, wenn Sie weitere Seiten mit ein paar Anweisungen hinzufügen, aber stellen Sie sicher, dass Sie die Masterseite nicht zur Disallow-Direktive hinzufügen. Google arbeitet mit einem Crawl-Budget; dieses Budget basiert auf dem Scan-Limit.
Eine Sitemap ist für alle Websites von entscheidender Bedeutung, da sie nützliche Informationen für Suchmaschinen enthält. Die Sitemap teilt den Bots mit, wie oft Sie Ihre Website aktualisieren und welche Inhalte Ihre Website bietet. Ihr Hauptzweck besteht darin, Suchmaschinen über alle Seiten auf Ihrer Website zu informieren, die gecrawlt werden müssen, während die Robotics-Textdatei für Suchroboter bestimmt ist. Es teilt den Crawlern mit, welche Seite gecrawlt werden soll und welche nicht. Die Sitemap ist notwendig, damit Ihre Website indexiert werden kann, der Text des Roboters jedoch nicht (wenn Sie keine Seiten haben, die nicht indexiert werden müssen).