»robots.txt«

Nico Held25. Juni 2025

Die robots.txt ist eine kleine Textdatei im Stammverzeichnis einer Website (z. B. domain.de/robots.txt), die Suchmaschinen-Crawlern Anweisungen gibt: Welche Bereiche dürfen gecrawlt werden, welche nicht? Sie ist keine Sicherheitsmaßnahme – geschützte Inhalte gehören nicht in die robots.txt, sondern hinter Zugriffsschutz –, sondern eine Steuerung für Crawler. So kann man etwa Admin-Bereiche, Suchseiten oder technische Pfade von der Indexierung ausnehmen.

Die Syntax ist einfach: User-agent bezeichnet den Crawler (z. B. Googlebot, alle Crawler mit *), Disallow verbietet Pfade, Allow erlaubt sie explizit. Eine leere oder fehlende robots.txt bedeutet in der Regel: alles darf gecrawlt werden. Wichtig: Was in der robots.txt steht, ist eine Bitte; nicht alle Crawler halten sich strikt daran. Für echte Geheimhaltung reicht sie nicht.

Die robots.txt wird oft genutzt, um Crawl-Budget zu schonen (weniger irrelevante Seiten), Duplikate oder Parameter-URLs auszuschließen oder die Sitemap zu referenzieren (Sitemap: https://domain.de/sitemap.xml). Suchmaschinen lesen die Datei vor dem Crawl; eine fehlerhafte oder zu restriktive robots.txt kann dazu führen, dass wichtige Seiten nicht indexiert werden. Nach Änderungen lohnt ein Check in der Search Console.

Wer seine Website für Suchmaschinen optimiert, prüft die robots.txt: Ist sie vorhanden? Sind die richtigen Bereiche erlaubt oder ausgeschlossen? So behält man die Kontrolle über das, was gecrawlt und indexiert wird.

Die robots.txt ist die Ampel für Crawler. Mit ihr steuerst du, wo Suchmaschinen unterwegs sein dürfen – und wo nicht.

Das könnte dich auch interessieren

»Frontend«
Webdesign

Frontend

»Datenschutzerklärung«
Webdesign

Datenschutzerklärung