Zahd.de – Der Blog mit deutschsprachigen Themen

Mein Blog. Dein Blog. Unser Blog

Die robots.txt-Datei

Erstellt von thebrain3 am Montag 18. Oktober 2010

Obwohl die robots.txt-Datei eine wichtige Datei ist, wenn Sie gute Suchmaschinenplatzierungen haben möchten, bieten viele Websites diese Datei nicht an.

Wenn Ihre Website keine robots.txt-Datei besitzt, dann erfahren Sie in diesem Artikel, wie Sie so eine Datei erzeugen können. Wenn Sie bereits eine robots.txt-Datei haben, dann lesen Sie diesen Artikel, um sicher zu stellen, dass die Datei keine Fehler enthält.
Was ist robots.txt?

Wenn ein Suchmaschinen-Spider Ihre Website besucht, dann sucht er eine bestimmte Datei auf Ihrer Website. Dieses Datei heißt robots.txt und sie sagt dem Suchmaschinen-Spider, welche Dateien Ihrer Website indiziert werden und welche Dateien ignoriert werden sollen.

Die robots.txt-Datei ist eine einfache Textdatei (kein HTML), die im Hauptverzeichnis Ihrer Internet-Präsenz gespeichert werden muss, zum Beispiel:

    http://www.beispiel.de/robots.txt

Wie erstelle ich eine robots.txt-Datei?

Wie bereits erwähnt sind robots.txt-Dateien einfache Text-Dateien. Verwenden Sie einen einfachen Text-Editor, um die robots.txt-Datei zu erstellen. Der Inhalt der robots.txt-Datei besteht aus sogenannten „Records“.

Ein „Record“ enthält die Anweisungen für eine bestimmte Suchmaschine. Jeder „Record“ besteht aus zwei Feldern: der Zeile für den User-Agent (das ist der Name des Suchmaschinen-Spiders) und einer oder mehreren Zeilen für die „Disallow“-Befehle. Hier ist ein Beispiel:

User-agent: googlebot
Disallow: /cgi-bin/

Diese robots.txt-Datei würde dem Suchmaschinen-Spider Googlebot (dem Spider von Google) erlauben, alle Seiten bis auf das cgi-bin-Verzeichnis zu indizieren. Alle Dateien im Verzeichnis „cgi-bin“ werden vom Googlebot ignoriert.

Der Disallow-Befehl funktioniert wie ein Joker. Wenn Sie folgendes eingeben

User-agent: googlebot
Disallow: /support

dann werden die Dateien „/support-desk/index.html“ und „/support/index.html“ sowie alle anderen Dateien im „support“-Verzeichnis nicht von Suchmaschinen indiziert.

Wenn Sie nichts in der „Disallow“-Zeile eintragen, dann teilen Sie den Suchmaschinen mit, dass alles indiziert werden darf. Auf jeden Fall müssen Sie für jeden User-Agent-Eintrag eine Disallow-Zeile einfügen.

Wenn Sie möchten, dass alle Suchmaschinen die gleichen Rechte erhalten, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:

User-agent: *
Disallow: /cgi-bin/

Wo finde ich die Namen von User-Agents?

Sie finden die Namen in den Log-Dateien Ihrer Website, indem Sie nach robots.txt suchen. In der Regel sollten alle Suchmaschinen die gleichen Rechte erhalten. Dann verwenden Sie einfach „User-agent: *“ wie oben erwähnt.
Dinge, die Sie vermeiden sollten

Wenn Sie Ihre robots.txt-Datei nicht ordentlich formatieren, dann können manche oder alle Dateien auf Ihrer Website eventuell nicht von Suchmaschinen indiziert werden. Um dies zu vermeiden, tun Sie bitte folgendes:

  1. Verwenden Sie keine Kommentare in Ihrer robots.txt-Datei.

    Obwohl Kommentare generell erlaubt sind, können manche Suchmaschinen-Spider davon verwirrt werden.

    Disallow: support # Das Support-Verzeichnis nicht indizieren“ könnte missverstanden werden als „Disallow: support#Das Support-Verzeichnis nicht indizieren„.

  2. Verwenden Sie keine Leerzeichen am Zeilenanfang. Schreiben Sie zum Beispiel nicht
    placeholder User-agent: *
    place Disallow: /support

    sondern

    User-agent: *
    Disallow: /support


  3. Verändern Sie die Reihenfolge nicht. Die robots.txt-Datei funktioniert dann nicht mehr richtig. Schreiben Sie nicht
    Disallow: /support
    User-agent: *

    sondern

    User-agent: *
    Disallow: /support
  4. Benennen Sie nicht mehr als ein Verzeichnis pro Disallow-Zeile. Schreiben Sie nicht
    User-agent: *
    Disallow: /support /cgi-bin/ /../images/

    Suchmaschinen-Spider verstehen dieses Format nicht. Das korrekte Format sieht so aus:

    User-agent: *
    Disallow: /support
    Disallow: /cgi-bin/
    Disallow: /../images/


  5. Achten Sie auf Groß- und Kleinschreibung. Die Dateinamen auf Ihrem Webserver unterscheiden Groß- und Kleinbuchstaben. Wenn der Name des Verzeichnisses „Support“ ist, schreiben Sie nicht „support“ in Ihre robots.txt-Datei.
  6. Listen Sie nicht alle Dateien auf. Wenn Sie alle Dateien in einem bestimmten Verzeichnis schützen wollen, dann müssen Sie diese nicht alle aufführen:
    User-agent: *
    Disallow: /support/orders.html
    Disallow: /support/technical.html
    Disallow: /support/helpdesk.html
    Disallow: /support/index.html

    Dies können Sie ersetzen mit:

    User-agent: *
    Disallow: /support
  7. Es gibt keinen „Allow“-Befehl.

    Verwenden Sie keinen „Allow“-Befehl in Ihrer robots.txt-Datei. Erwähnen Sie nur Dateien, die Sie nicht indiziert haben möchten. Alle anderen Dateien werden automatisch indiziert, wenn diese durch Links auf Ihrer Website gefunden werden können.

Tipps und Tricks:

1. Wie Sie allen Suchmaschinen-Spidern erlauben, alle Dateien zu indizieren:

    Verwenden Sie den folgenden Inhalt für Ihre robots.txt-Datei, wenn Sie möchten, dass alle Suchmaschinen-Spider alle Dateien Ihrer Website indizieren:

    User-agent: *
    Disallow:

2. Wie Sie alle Dateien für alle Suchmaschinen sperren:

    Wenn Sie möchten, dass Suchmaschinen überhaupt keine Dateien Ihrer Website indizieren, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:

    User-agent: *
    Disallow: /

3. Wo Sie komplexere Beispiele finden:

    Wenn Sie komplexere Beispiele sehen möchten, sehen Sie sich einfach die robotx.txt-Dateien einiger großer Websites an:

Ihre Website sollte eine ordentliche robots.txt-Datei besitzen, wenn Sie in Suchmaschinen gut platziert werden möchten. Nur wenn Suchmaschinen wissen, wie sie mit Ihrer Website umgehen sollen, dann können Sie gute Platzierungen erhalten.

Kommentar schreiben

XHTML: Sie können diese Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

CAPTCHA-Bild
*