$# Aufbau der robots.txt # Um das zu erm?glichen, gibt es den Robots Exclusion Standard. Nach diesem Standard mu? man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so da? Robots sie finden. Die Suchpfade sehen dann z.B. so aus: # http://www.beispiel.de/robots.txt # http://download.beispiel.de/robots.txt # http://beispiel.de:8080/robots.txt # Die robots.txt Datei ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, f?r welchen Crawler die Anweisungen gelten und dann die einzelnen Anweisungen. Ein Beispiel: # robots.txt fuer http://www.beispiel.de/ # User-agent: BeispielRobot # Disallow: /temp/ # Die Dateien sind sehr kurzlebig # Disallow: /logfiles/ # Die ?ndern sich jeden Tag # Disallow: /bilder/ # Bilder nicht downloaden # Disallow: /cgi-bin/ # CGI Ausgaben nicht indexieren # Disallow: /news.html # Die news.html ?ndert sich t?glich # Mit User-agent: BeispielRobot bestimmt man, da? die Anweisungen nur f?r den Crawler BeispielRobot gelten. Mit den einzelnen Disallow Eintr?gen bestimmt man Dateien und Verzeichnisse die nicht indexiert werden sollen. Alles, vor dem ein # steht, gilt als Kommentar und wird von den Robots ignoriert. # Wenn man mit einem Mal alle Crawler ausschlie?en will, benutzt man den sog. Wildchar *, also: # Alle Robots ausschlie?en # User-agent: * # Disallow: /temp/ # Wenn man nicht gleich alle Crawler, sondern nur ein paar bestimmte meint, kann man diese so angeben: # Massendownloader vom CGI Verzeichnis fernhalten # User-agent: wget # User-agent: webzip # User-agent: webmirror # User-agent: webcopy # Disallow: /cgi-bin/ # Um seine Site ganz von der Indexierung auszuschlie?en kann man folgendes benutzen: # Ganze Site f?r alle Robots sperren # User-agent: * # Disallow: / # Wenn man den Slash (/) wegl??t, gibt man Seine Site ganz f?r die Indexierung frei: # Ganze Site freigeben User-agent: * Disallow: # Bei den Disallow Eintr?gen ist die Gro?- und Kleinschreibung egal. Man sollte aber darauf achten, wo und ob man den Slash (/) setzt, denn der Eintrag # User-agent: * # Disallow: /index # Disallow: /temp/ # W?rde dazu f?hren, da? alle Urls die mit /index anfangen nicht indexiert werden, auch z.B. /index.html oder /indexed-files/datei.html statt einfach nur das Verzeichnis /index/, wohingegen bei Disallow: /temp/ wirklich nur die Dateien im Verzeichnis /temp/ ausgeschlossen werden. # Beispieltabelle # Um das alles zusammenzufassen ein kleines Beispiel: # http://beispiel.de/robots.txt # User-agent: scooter # Disallow: / # User-agent: wget # User-agent: webzip # Disallow: # User-agent: * # Disallow: /news/ # Disallow: /radio.html # Disallow: /temp
Folgende Keywords wurden erkannt. Überprüfe die Optimierung dieser Keywords für Deine Seite.
(Nice to have)