Die robots.txt ist eine Textdatei, die von Webmastern genutzt wird, um Suchmaschinen-Crawlern Anweisungen zu erteilen, welche Bereiche einer Website indexiert werden dürfen und welche nicht. Diese Datei folgt dem Robots Exclusion Standard, einem Protokoll, das von den meisten Suchmaschinen anerkannt wird.
Mit der robots.txt-Datei lassen sich spezifische Anweisungen geben, beispielsweise das Ausschließen bestimmter Seiten, Bilder oder anderer Dateitypen von der Indexierung. Zudem kann sie dazu dienen, die Crawling-Frequenz zu regulieren, also wie oft Suchmaschinenbots die Website besuchen.
Es ist jedoch wichtig zu beachten, dass die robots.txt-Datei keinen vollständigen Schutz bietet. Trotz der Anweisungen in der Datei kann es vorkommen, dass Inhalte von Suchmaschinen erfasst und indexiert werden, wenn andere Wege (wie direkte Links von anderen Seiten) zu den eigentlich ausgeschlossenen Inhalten führen. Daher sollten Webmaster nicht darauf vertrauen, dass die robots.txt-Datei sensible oder vertrauliche Daten komplett vor dem Zugriff durch Suchmaschinen schützt.