Mit der robots.txt kann man den Crawlern der Suchmaschine mitteilen, dass bestimmte Verzeichnisse einer Domain bzw. Webpräsenz nicht gecrawlt werden sollen. Ein typischer Eintrag der robots.txt kann also so aussehen:
User-agent: *
Disallow: /meine-bilder-und-pdfs/
Diese zwei Code-Zeilen würden bewirken, dass kein Crawler das Verzeichnis www.meinedomain.tld/meine-bilder-und-pdfs/ durchsucht und deren Inhalt an die Suchmaschine übermittelt.
Soweit so gut.
Allerdings kann es trotzdem passieren, dass diese URL sehr wohl in den Suchergebnissen auftaucht und somit öffentlich bekannt wird. Warum ist das so?
Das hat den Grund, dass Google und Co sich zwar an die zwei Code-Zeilen von oben halten, ABER bei starkem Interesse (viele Verlinkungen auf dieses Verzeichnis) Google davon ausgeht, dass dies doch eine wichtige Information ist. Somit taucht der Link trotz dieser Direktive auf.
Um das zu unterbinden sollten die Seiten in dem Verzeichnis mit dem Meta-Tag “noindex” versehen werden, der im HEAD-Bereich zu verankern ist. Die Codezeile dafür sieht so aus:
<META NAME="robots" CONTENT="noindex">
Gibt es in dem jeweiligen Verzeichnis keine HTML- oder PHP-Datei, dann erstelle ganz einfach eine leere Datei und versehe diese mit diesem Inhalt:
<!html>
<head>
<META NAME="robots" CONTENT="noindex">
</head>
<body>
Hier gibt es nichts zu sehen.
</body>
</html>