Die Datei robots.txt
 

Worum
geht es ?

Es geht um die ominöse Datei "/robots.txt", die vermutlich immer wieder in Ihren Fehlerlisten auftaucht, obwohl Sie gar keine solche Datei haben.

Was hat es damit auf sich ?

Eine Reihe von Spidern, dies sind Programme von Suchmaschinenbetreibern, die das Web nach Seiten durchforsten, schauen in Ihrem Grundverzeichnis nach der Datei "robots.txt". Diese Datei KANN Anweisungen für den Spider (oder auch Robot genannt) enthalten, bestimmte Seiten Ihrer Präsenz nicht zu durchsuchen, also auch nicht in die entsprechende Suchmaschine einzutragen. Fehlt bei Ihnen die Datei "robots.txt", so ergibt die vergebliche Suche einen Fehler 404: "Not Found" und der Spider wird in seiner "Suchwut" nicht eingeschränkt - also normalerweise das gewünschte Resultat.

Auch mit Ihren Meta-Tags KÖNNEN Sie einem Spider expliziet verbieten, Ihre Seiten zu durchsuchen. Dazu wäre folgende Zeile erforderlich: <meta name="robots" content="noindex"> (statt "noindex" kann auch "none" verwendet werden).

Auf der anderen Seite können Sie einem Spider auch ausdrücklich erlauben, nicht nur diese, sondern auch die Folgeseiten zu durchkämmen: <meta name="robots" content="follow">. Nicht jeder Spider wird sich aber von dieser Zeile beeindrucken lassen; wenn er alle Seiten durchsuchen wollte, wird er es auch ohne diese Zeile tun.

Weder die Meta-Tags noch die "robots.txt" sind ganz offizielle und standardisierte Eigenschaften bzw. Befehle. Aber die meisten Spider halten sich daran. Wenn Sie so viele Suchmaschineneinträge wie nur möglich haben wollen, lassen Sie die "robots.txt" wie gehabt weg oder legen Sie eine Datei mit diesem Namen, aber ohne Inhalt an und fügen Sie die Zeile <meta name="robots" content="follow"> in Ihre "index.html" ein.

Aber vielleicht wollen Sie ja die Möglichkeiten der robots.txt nutzen, um bestimmte Ihrer Seiten vor Zugriffen von bestimmten Suchmaschienen zu schützen, so können Sie auch eine eigene robots.txt (z.B. mit dem Windows Notepad) erstellen.

So könnte eine robots.txt aussehen:

# DALA robots.txt vom 22.09.2000; (ist eine Kommentarzeile)
# Pentagon GmbH, mail@pentagon-gmbh.de (wieder nur Kommentar)

User-agent: *         # * = alle Spider ...
Disallow: /geheim/  # dürfen nicht in den geheim-Ordner oder untergeordnete Ordner schauen

User-agent: Gulliver   # dieser spezielle Spider ...(Leerzeile oben nicht vergessen !)
User-agent: Scooter  # und dieser ebenfalls ...
Disallow: /dala/net/    # dürfen nicht in diesen Ordner oder untergeordnete
Disallow: /php/roundandround.php3    # dürfen nicht diese Datei öffnen (z.B. Endlosschleife möglich)

User-agent: killer     # dieser Spider ...(Leerzeile oben nicht vergessen !)
Disallow: /               # darf gar nichts !
("/" ist das Grundverzeichnis)

User-agent: dala-Spider 1     # dieser Spider ...(Leerzeile oben nicht vergessen !)
Disallow:                              # darf überall hin !

Erklärung:
mit # wird Kommentar eingeleitet (Schreiben Sie ruhig Kommentarzeilen, aber lassen Sie angehängte Kommentare wie hinter "User-Agent..." besser weg.)
User-agent: gibt den Namen des Spiders an, für den die folgenden Disallow-Zeilen gelten (bis zur nächsten Leerzeile)
Alle URLs, die mit den Zeichen beginnen, die hinter "Disallow: " stehen, dürfen nicht besucht werden.
Beispiel: "Disallow: /nein" verbietet sowohl den Besuch von "/nein/doch.htm" als auch von "/neinonein/" oder "/neiner.html"

Die robots.txt-Datei müssen Sie in das Grundverzeichnis Ihrer Web-Präsenz legen.

Auch die Datei "/favicon.ico" werden Sie vermutlich in Ihrer 404-Fehlerliste finden. Ist ein solches Icon nicht bei Ihnen im Grundverzeichnis vorhanden, gibt's häufig auch einen Fehler 404.

Für wen ?

Wenn bestimmte Bereiche Ihrer Präsenz vor den Augen der Öffentlichkeit (also den Suchmaschinen) verborgen bleiben soll, können Sie die "robots.txt"-Datei einsetzen.