Plik robots.txt

Dzięki plikowi robots.txt możemy zabronić robotom dostęp do plików i katalogów. Plik ten powinien znajdować się w głównym katalogu strony (tak aby znajdował się pod adresem: http://naszastrona.pl/robots.txt). Jeżeli nasza strona znajduje się w podkatalogu i nie mamy dostępu do katalogu głównego - nie możemy korzystać z dobrodziejstw pliku robots.txt.

Składnia tego pliku nie jest skomplikowana. Aby zabronić dostępu wszystkim robotom do katalogu należy wpisać:

# za znakiem hash można pisać komentarze w plikach
User-agent: *
Disallow: /katalog
Aby zabronić dostępu do całości strony:
User-agent: *
Disallow: /
Aby zabronić dostępu tylko jednemu robotowi (wielkość znaków z nazwie robota jest ignorowana):
User-agent: NazwaRobota
Disallow: /katalog
Aby zabronić dostępu do plików graficznych:
User-agent: *
Disallow: *.jpg
Disallow: *.gif
Disallow: *.png

Zazwyczaj każdy robot w swoim user agent podaje adres strony z informacjami o sobie. Można w nich znaleźć także sposoby ich blokowania.