Robots.txt

Robots, ook wel spiders of crawlers genoemd zijn stukken software die het web afzoeken naar informatie. Zo werkt bijvoorbeeld Google ook met robots om onder andere nieuwe websites op te sporen. Als web ontwikkelaar kun je deze robots een handje helpen met de robots.txt file in je website. Meestal gebruik je de robots.txt file om de robots te vertellen dat bepaalde stukken van jouw site niet geïndexeerd of niet eens bezocht mogen worden. Dat doe je als volgt. Een binnenkomende robot zoekt naar de robot.txt file onder de hoofd url, bijvoorbeeld www.bedrijf.nl/robots.txt. Daar zet je dan het volgende in als je robots wilt weren van de hele server:
User-agent: * Disallow: /
Zijn er bepaalde stukken of directories op de server die niet bezocht mogen worden, maar de rest wel? Dan kun je die stuk voor stuk zo aangeven:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
Uiteraard kan het natuurlijk zijn dat je sommige (spam) robots wilt weren, maar niet allemaal. Dat kun je vermelden door ze bij naam op te nemen. In het voorbeeld geef je Google toegang, maar alle anderen niet.
User-agent: Google Disallow: User-agent: * Disallow: /