Robots.txt (ang. Robots Exclusion Protocol)

Robots.txt to plik tekstowy umieszczony na serwerze internetowym, który służy do zarządzania działaniem robotów internetowych, zwanych także „botami” lub „web crawlerami”. Jest to kluczowy element SEO (Optymalizacji Dla Wyszukiwarek Internetowych), który pozwala właścicielom stron kontrolować, które części ich witryny internetowej są dostępne dla indeksowania przez wyszukiwarki, a które powinny być wyłączone z indeksu.

Główne cechy Robots.txt

  1. Kontrola dostępu: Plik robots.txt zawiera dyrektywy, które określają, które sekcje witryny lub konkretne pliki nie powinny być indeksowane przez roboty internetowe.

  2. Struktura: Plik robots.txt jest zwykle umieszczany w głównym katalogu domeny (np. www.domena.pl/robots.txt) i jest publicznie dostępny.

  3. User-Agent: W pliku robots.txt można określić, które roboty internetowe lub rodzaje robotów powinny przestrzegać określonych dyrektyw. Najczęściej stosowanym User-Agent jest „User-Agent: *”, który odnosi się do wszystkich robotów.

  4. Dyrektywy: Dyrektywy w pliku robots.txt zawierają polecenia „Allow” (pozwala na indeksację) lub „Disallow” (zabrania indeksacji) w stosunku do określonych URL-ów lub katalogów na stronie.

Przykład pliku robots.txt

robots.txt

W powyższym przykładzie plik robots.txt zabrania robotom indeksowania stron w katalogach „prywatne” i „archiwum”, ale zezwala na indeksację zawartości znajdującej się w katalogu „/wp-content/uploads/”.

Plik robots.txt jest ważnym narzędziem kontrolującym, jakie informacje o witrynie internetowej zostaną uwzględnione w wynikach wyszukiwania. Poprawne skonfigurowanie tego pliku może pomóc w optymalizacji indeksacji strony przez wyszukiwarki oraz w zachowaniu prywatności lub kontrolowaniu dostępu do określonych treści.