Robots.txt richtig konfigurieren: Anleitung mit Vorlagen und häufigen Fehlern (2026)

Stand: Mai 2026 · Lesezeit: ca. 11 Minuten · Aktualisiert für das Google Core Update März 2026

Kurzfassung: Die robots.txt ist eine winzige Textdatei im Hauptverzeichnis deiner Webseite — und gleichzeitig eine der mächtigsten SEO-Stellschrauben überhaupt. Sie sagt Suchmaschinen-Crawlern, welche Bereiche sie aufrufen dürfen und welche nicht. Ein Fehler in einer einzigen Zeile kann deine komplette Webseite aus den Google-Ergebnissen verschwinden lassen — gleichzeitig ist eine gut konfigurierte robots.txt ein wirksamer Schutz vor verschwendetem Crawl-Budget. Dieser Leitfaden zeigt dir, was die Datei macht, wie sie aufgebaut ist, gibt dir 4 fertige Vorlagen für die häufigsten Fälle und warnt vor den 6 gefährlichsten Fehlern.

Was die robots.txt ist — und warum ein Tippfehler reichen kann, um deine Webseite zu zerstören

Stell dir vor, du betreibst seit drei Jahren erfolgreich einen Online-Shop. Eines Morgens schaust du in die Search Console — dein gesamter Traffic ist über Nacht eingebrochen. Du suchst panisch nach der Ursache. Nach drei Stunden findest du sie: Vor zwei Wochen hat ein Praktikant ein Plugin installiert, das die robots.txt überschrieben hat. Eine einzige Zeile mit dem Inhalt Disallow: / hat Google angewiesen, deine komplette Webseite zu ignorieren.

Klingt wie ein Horror-Szenario? Es passiert in Deutschland mehrmals pro Woche. Die robots.txt ist eines der am meisten unterschätzten technischen SEO-Elemente — gerade weil sie so einfach aussieht. Eine kleine Textdatei, ein paar Zeilen Code. Aber: Wer die Logik nicht versteht, riskiert mit zwei Tippfehlern Monate von SEO-Arbeit.

Die robots.txt ist eine Datei mit dem Namen robots.txt, die im Hauptverzeichnis deiner Webseite liegen muss. Du erreichst sie immer unter https://deine-domain.de/robots.txt. Beim ersten Besuch deiner Webseite ruft jeder Suchmaschinen-Crawler diese Datei auf und folgt ihren Anweisungen.

Wie eine robots.txt aufgebaut ist

Die Syntax ist einfach. Drei Hauptbefehle reichen für 95 Prozent aller Anwendungsfälle:

  • User-agent: An welchen Crawler richtet sich die folgende Anweisung? * bedeutet alle, Googlebot bedeutet nur den Google-Crawler, Bingbot nur Bing.

  • Allow: Erlaubt den Zugriff auf den genannten Pfad. Wird oft zur Spezifizierung innerhalb eines disallow-Bereichs genutzt.

  • Disallow: Verbietet den Zugriff auf den genannten Pfad. Mehrere Disallow-Zeilen pro User-agent möglich.

Ein einfaches Beispiel sieht so aus:

Das bedeutet: Alle Crawler dürfen die gesamte Webseite indexieren, außer den Verzeichnissen /admin/ und /private/. Die Sitemap-Zeile am Ende verweist auf deine XML-Sitemap — das ist optional, aber gute Praxis.

4 fertige Vorlagen für die häufigsten Fälle

Vorlage 1: Standard-Webseite (sicherer Start für 80 Prozent aller Fälle)

Diese minimale Konfiguration erlaubt allen Crawlern den Zugriff auf alle Inhalte und verweist auf die Sitemap. Kein Verbot, kein Sperren — die meisten Webseiten brauchen nicht mehr.

Vorlage 2: WordPress-Standard

Sperrt die WordPress-System-Ordner, lässt aber den admin-ajax.php-Endpunkt offen (notwendig für viele Plugins). Verweist auf den typischen Yoast/Rank-Math Sitemap-Index.

Vorlage 3: Online-Shop (Shopify, WooCommerce, Shopware)

Sperrt Funktions-URLs, die keinen SEO-Wert haben — Warenkorb, Checkout, Kundenkonto, interne Suche, Filter- und Sortier-URLs. Verhindert, dass Google Crawl-Budget für endlose Filter-Kombinationen verschwendet.

Vorlage 4: Webseite, die noch nicht öffentlich gehen soll

Komplette Sperrung — sinnvoll bei Staging-Servern, Testseiten oder Webseiten in Entwicklung. Wichtig: Vor dem Live-Gang muss diese Konfiguration unbedingt geändert werden. Hier passieren die meisten Katastrophen — Webseiten gehen live, aber niemand denkt daran, das Disallow: / zu entfernen.

Wo du die robots.txt platzierst und prüfst

Platzierung

Die Datei muss im Hauptverzeichnis (Root) deiner Webseite liegen. Bei einem typischen Webserver also dort, wo auch die index.html oder index.php liegt. Sie muss exakt robots.txt heißen — kleingeschrieben, ohne Erweiterung.

Bei modernen CMS und Hostern:

  • WordPress: Wird vom SEO-Plugin verwaltet (Rank Math, Yoast). In den Plugin-Einstellungen anpassbar — meist unter „SEO → Allgemein → robots.txt".

  • Shopify: Wird automatisch generiert. Direkter Edit-Zugriff erst seit 2021 möglich, im Theme-Code-Editor unter robots.txt.liquid.

  • Grigora und ähnliche moderne CMS: Meist über die Backend-Einstellungen anpassbar.

  • Statische HTML-Seiten: Per FTP oder Hosting-Dateimanager hochladen.

Prüfung

Nach jeder Änderung die robots.txt unbedingt testen:

  • Browser-Test: https://deine-domain.de/robots.txt aufrufen. Du musst den exakten Dateiinhalt sehen.

  • Google Search Console — robots.txt Tester: Unter „Einstellungen → Crawling-Tools" findest du den robots.txt-Tester. Er zeigt dir, ob Google deine Datei korrekt liest und welche URLs blockiert wären.

  • Externer Test: Tools wie der kostenlose SEO-Check auf seoturboscan.com prüfen automatisch, ob deine robots.txt sinnvoll konfiguriert ist und ob versehentlich wichtige Bereiche blockiert sind.

Die 6 gefährlichsten Fehler bei der robots.txt

Fehler 1: Disallow: / vergessen zu entfernen

Der Klassiker. Bei der Entwicklung wurde Disallow: / gesetzt. Beim Live-Gang vergisst man, es zu entfernen. Folge: Webseite ist offiziell online, aber für Google unsichtbar. Effekt zeigt sich erst nach 1 bis 2 Wochen — wenn der Schaden bereits massiv ist. Schutz: Vor jedem Live-Gang die robots.txt manuell prüfen.

Fehler 2: Wichtige Ressourcen blockieren

Manche sperren reflexartig /wp-content/ oder /css/ — ohne zu wissen, dass Google CSS und JavaScript braucht, um die Seite zu rendern. Wenn der Crawler die Seite nicht visuell laden kann, fällt sie in den Mobile-Friendly- und Core-Web-Vitals-Bewertungen durch. Schutz: Niemals CSS, JS oder Bilder-Verzeichnisse pauschal sperren.

Fehler 3: robots.txt mit noindex verwechseln

Disallow in robots.txt ist KEIN noindex-Befehl. Eine per robots.txt gesperrte Seite kann trotzdem in den Suchergebnissen auftauchen — nur ohne Inhaltsanzeige. Wer eine Seite wirklich aus dem Index nehmen will, muss den Meta-Tag <meta name="robots" content="noindex"> auf der Seite selbst nutzen — und zwar bei nicht durch robots.txt blockierter Seite.

Fehler 4: Sitemap-URL falsch oder fehlend

Wer die Sitemap-Zeile vergisst oder eine falsche URL einträgt, verliert eine wichtige Hilfestellung für Crawler. Schutz: Sitemap-URL absolut angeben (mit https:// und vollem Domain-Namen) und regelmäßig prüfen.

Fehler 5: Wildcards falsch nutzen

Der Stern (*) und das Dollarzeichen ($) haben spezielle Bedeutungen. Disallow: /*.pdf$ sperrt alle PDFs. Disallow: /*? sperrt alle URLs mit Parametern. Wer hier die Logik nicht beherrscht, blockiert versehentlich zu viel oder zu wenig. Schutz: Komplexe Wildcard-Regeln immer im Search Console Tester durchspielen.

Fehler 6: Inkonsistenz mit der Sitemap

Wenn deine Sitemap URLs auflistet, die per robots.txt blockiert sind, sendest du widersprüchliche Signale. Google meckert in der Search Console — und ignoriert die widersprüchlichen URLs. Schutz: Sitemap und robots.txt müssen denselben Indexierungs-Wunsch ausdrücken.

Was du mit der robots.txt NICHT lösen solltest

Manche SEO-Probleme sehen aus wie robots.txt-Probleme, sind aber besser anders zu lösen.

  • Sensible Daten verstecken: Die robots.txt ist öffentlich. Jeder kann sehen, welche Bereiche du blockiert hast. Wer wirklich sensible Daten hat, braucht serverseitige Authentifizierung — kein Disallow.

  • Doppelte Inhalte vermeiden: Hier sind Canonical-Tags das richtige Werkzeug — robots.txt würde das Problem nur halb lösen.

  • Nicht-indexieren von Seiten: Dafür ist der noindex-Meta-Tag da, nicht die robots.txt.

  • Steuerung der Crawl-Frequenz: Es gibt das Crawl-delay-Feld, aber Google ignoriert es seit Jahren. Wer Crawling-Intensität steuern will, nutzt die Search Console.

robots.txt und AI Crawler 2026

Eine wichtige Entwicklung der letzten zwei Jahre: AI-Crawler von ChatGPT, Anthropic, Perplexity und anderen können über die robots.txt gesteuert werden. Die meisten dieser Anbieter respektieren spezifische User-agents wie GPTBot, ClaudeBot oder PerplexityBot.

Wer nicht will, dass die eigenen Inhalte für KI-Training genutzt werden, kann sie blockieren:

Wichtig: Das blockiert das KI-Training, nicht die KI-Suche-Antworten. Die ChatGPT-Suche und ähnliche Live-Tools nutzen andere Crawler — und blockieren bedeutet hier auch, dass deine Inhalte in AI-Antworten nicht zitiert werden. Das ist 2026 ein Trade-off zwischen „Inhalte schützen" und „Sichtbarkeit in der KI-Suche". Die meisten Webseiten profitieren mehr davon, sichtbar zu bleiben.

Häufige Fragen zur robots.txt

Brauche ich eine robots.txt, wenn ich keine Bereiche sperren will?

Nicht zwingend. Wenn keine Datei vorhanden ist, dürfen Crawler alles indexieren. Trotzdem ist eine minimale robots.txt mit Sitemap-Verweis empfehlenswert — sie hilft Crawlern, die Sitemap schneller zu finden.

Wie schnell wirken robots.txt-Änderungen?

Google liest die robots.txt bei jedem Besuch neu, meist mehrmals täglich. Änderungen werden also schnell übernommen. Was länger dauert: Bereits indexierte Seiten aus dem Index zu entfernen, wenn man sie nachträglich sperrt — das kann Wochen oder Monate dauern.

Was passiert, wenn meine robots.txt fehlerhaft ist?

Bei Syntaxfehlern ignoriert Google die Datei meist und indexiert alles. Bei semantischen Fehlern (z. B. versehentlich alles blockiert) folgt Google den falschen Anweisungen. Search Console zeigt dir Fehler in den Crawling-Berichten.

Wie groß darf die robots.txt sein?

Google liest maximal 500 KiB. Bei größeren Dateien wird der Rest ignoriert. Praktisch erreicht das fast niemand — eine sinnvolle robots.txt ist meist unter 5 KB.

Soll ich verschiedene Regeln für Googlebot und andere Crawler haben?

Selten nötig. In den allermeisten Fällen reicht User-agent: * für alle. Spezifische Regeln nur, wenn du z. B. KI-Crawler explizit blockieren willst oder einen aggressiven Bot drosseln musst.

Welche Verzeichnisse sollte ich in jedem Fall sperren?

Auf jeden Fall: Login- und Admin-Bereiche (z. B. /wp-admin/, /admin/), Account-Seiten, Warenkorb und Checkout (bei Shops), interne Suchergebnisse. Auf keinen Fall: CSS-, JavaScript- und Bilder-Verzeichnisse, die für das Rendering der Seiten nötig sind.

Was tun, wenn die Search Console robots.txt-Fehler meldet?Sofort prüfen — diese Fehler bedeuten oft, dass wichtige Inhalte nicht gecrawlt werden. Den Search Console Tester nutzen, um die fehlerhafte Zeile zu identifizieren, dann korrigieren.

Kann eine robots.txt vor unerwünschten Bots schützen?Nein, nicht zuverlässig. Seriöse Crawler halten sich an die Anweisungen, böswillige ignorieren sie. Wirklicher Schutz braucht serverseitige Maßnahmen wie Firewalls oder Bot-Blocker.

Was du jetzt tun solltest

Die robots.txt ist eine 5-Minuten-Aufgabe mit dem Potenzial, Monate von SEO-Arbeit zu retten — oder zu zerstören.

Konkrete Reihenfolge:

  • Schritt 1: Rufe deine-domain.de/robots.txt im Browser auf. Was siehst du?

  • Schritt 2: Prüfe, ob ein Disallow: / ohne weitere Einschränkung vorhanden ist. Falls ja: Notfall — sofort entfernen.

  • Schritt 3: Prüfe, ob CSS- oder JavaScript-Verzeichnisse blockiert sind. Falls ja: entsperren.

  • Schritt 4: Prüfe, ob die Sitemap-Zeile vorhanden ist. Falls nicht: ergänzen.

  • Schritt 5: Lass deine Webseite mit dem kostenlosen SEO-Check auf seoturboscan.com validieren — du bekommst eine konkrete Bewertung deiner robots.txt und einen Hinweis, falls etwas problematisch ist.

  • Schritt 6: Search Console öffnen, „Einstellungen → Crawling-Tools → robots.txt" — dort siehst du, wie Google deine Datei interpretiert.

Eine korrekt konfigurierte robots.txt ist wie ein gut gewartetes Schloss an deiner SEO-Tür. Die meisten Besucher kommen problemlos rein — und niemand sperrt sich versehentlich selbst aus.

Dieser Artikel ist Teil unserer Technisches-SEO-Reihe. Wer auch wissen will, wie Sitemap und Canonical-Tags dazu passen, findet beides hier. Mehr SEO-Wissen unter seoturboscan.com und vatha.de.

Copyright ©️ 2025 Storify