Plik robots.txt to plik, który wskazuje które części serwisu powinny być niedostępne dla robotów przeglądarek. Jak możemy przeczytać na stronie Pomocy Google Search Console.
Plik robots.txt korzysta z mechanizmu Robots Exclusion Protocol, który dzięki niewielkiemu zestawieniu poleceń, pozwala wskazać dostęp do danych części witryny wybranym robotom indeksującym.
Z informacji zawartej na stronie Google Search Console możemy przeczytać, że plik robots.txt wykorzystywany jest tylko w przypadku, gdy chcemy zablokować przed indeksowaniem wybrane treści naszej witryny.
Gdy w głównym katalogu witryny nie ma pliku robots.txt, to roboty wyszukiwarek mają uprawnienia do całej zawartości strony, a więc traktują naszą stronę tak samo, jak byłoby w przypadku takiego ustawienia robots:
User-agent: * Allow: /
Jest to najprostszy kod, używany często jako domyślna wartość robots.txt.
Pierwsza linijka wskazuje jakich wyszukiwarek (robotów) dotyczy dana regułka, w powyższym przykładzie użyta zostałą gwiazdka (*) – zastępuje ona WSZYSTKIE roboty indeksujące, które przestrzegają zasad zawartych w pliku robots.
Druga linijka informuje o prawach dla danego katalogu. Możemy użyć opcji “Allow” aby zezwolić na dostęp lub “Disallow” aby zablokować dostęp robotom.
Po dwukropku umieszczamy ścieżkę do katalogu. Sam slash (“/”) wskazuje całą zawartość głównego katalogu domeny.
Należy zatem mieć na uwadze, że niektóre wyszukiwarki i inne boty spamerskie mogą całkowicie ignorować zawartość tego pliku. Aby mieć całkowitą ochronę poufnych danych trzeba skorzystać z dodatkowych zabezpieczeń, np. w pliku .htaccess lub bezpośrednio w httpd.conf (jeśli korzystamy z Apache’a). Osoby korzystające z serwera nginx, mogę zablokować wybrane user-agenty w pliku nginx.conf (/usr/local/nginx/conf/nginx.conf)
Plik robots.txt możemy skonfigurować za pomocą gotowych narzędzi online, tzw. generatorów pliku robots.txt.