AI und Websites — Robots.txt, Meta-Tags und KI-Richtlinien
Veröffentlicht: 10. März 2026 · Aktualisiert: 21. März 2026
Inhaltsverzeichnis
Warum AI-Sichtbarkeit ein Thema für Webseitenbetreiber ist
Große KI-Modelle wie ChatGPT, Claude, Gemini und Perplexity durchsuchen das Internet, um ihre Trainingsdaten zu aktualisieren und Nutzeranfragen zu beantworten. Diese sogenannten AI-Crawler besuchen Websites ähnlich wie der Googlebot — laden Seiten herunter und verarbeiten deren Inhalte.
Für Webseitenbetreiber ergeben sich daraus zwei Fragen — neben den bestehenden Pflichten rund um SEO-Grundlagen und Datenschutz:
- Möchten Sie, dass Ihre Inhalte von KI-Modellen verwendet werden? Manche Unternehmen profitieren von der Sichtbarkeit in KI-Antworten. Andere möchten ihre Inhalte schützen.
- Haben Sie die technischen Möglichkeiten, dies zu steuern? Ja — über robots.txt, Meta-Tags und spezielle Policies.
AI-Bots in der Robots.txt steuern
Die robots.txt-Datei ist der etablierte Standard, um Crawlern Zugangsregeln mitzuteilen. Neben dem klassischen Googlebot gibt es mittlerweile zahlreiche AI-spezifische Bots.
Bekannte AI-Crawler (Stand März 2026)
| Bot-Name | Anbieter | Zweck |
|---|---|---|
| GPTBot | OpenAI | Training und Browsing |
| ChatGPT-User | OpenAI | Echtzeit-Websuche für ChatGPT |
| Google-Extended | Gemini-Training | |
| ClaudeBot | Anthropic | Training |
| PerplexityBot | Perplexity | Echtzeit-Suche |
| Bytespider | ByteDance | TikTok/Doubao-Training |
| CCBot | Common Crawl | Öffentlicher Datensatz |
Beispiel: Alle AI-Bots blockieren
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
Beispiel: Nur bestimmte Bots erlauben
User-agent: GPTBot
Allow: /ratgeber/
Disallow: /
User-agent: Google-Extended
Disallow: /
In diesem Beispiel darf GPTBot nur den Ratgeber-Bereich crawlen, während Google-Extended vollständig blockiert wird.
Wichtig: Die robots.txt ist eine Empfehlung, keine technische Sperre. Seriöse Anbieter halten sich daran, aber es gibt keine Garantie, dass jeder Crawler die Regeln befolgt.
Meta-Tags für KI-Steuerung
Neben der robots.txt können Meta-Tags im HTML-Header einzelner Seiten weitere Signale an AI-Crawler senden.
Das NoAI-Meta-Tag
<meta name="robots" content="noai, noimageai">
noai— signalisiert, dass der Seiteninhalt nicht für KI-Training verwendet werden sollnoimageai— bezieht sich speziell auf Bilder
Diese Tags werden bisher nicht von allen Anbietern einheitlich unterstützt. Google und OpenAI haben eigene Mechanismen (Google-Extended in robots.txt, bzw. GPTBot-Regeln). Dennoch empfiehlt es sich, diese Tags zu setzen, wenn man die Nutzung durch KI-Modelle einschränken möchte.
Das X-Robots-Tag als HTTP-Header
Alternativ zum HTML-Meta-Tag kann der X-Robots-Tag als HTTP-Header gesetzt werden:
X-Robots-Tag: noai, noimageai
Dieser Header funktioniert auch für Nicht-HTML-Ressourcen wie PDFs oder Bilder. Achten Sie darauf, dass auch rechtlich relevante Seiten wie Ihr Impressum korrekt konfiguriert sind.
WARD-Policies: Strukturierte KI-Richtlinien
Das WARD-Protokoll (Web Access Rights Declaration) ist ein neuerer Ansatz, der es Webseitenbetreibern ermöglicht, ihre KI-Richtlinien in einer strukturierten, maschinenlesbaren Datei zu hinterlegen.
Was eine WARD-Policy enthält
Eine WARD-Policy-Datei (üblicherweise unter /.well-known/ward.json) kann folgende Informationen umfassen:
- Trainingserlaubnis: Dürfen Inhalte für KI-Training verwendet werden?
- Zitierregeln: Soll die Quelle bei der Wiedergabe genannt werden?
- Kontaktdaten: An wen können sich KI-Anbieter bei Fragen wenden?
- Bereichsspezifische Regeln: Unterschiedliche Richtlinien für verschiedene Seitenbereiche
Beispiel einer WARD-Policy
{
"version": "1.0",
"contact": "[email protected]",
"rules": [
{
"path": "/ratgeber/*",
"training": "allowed",
"attribution": "required"
},
{
"path": "/intern/*",
"training": "denied"
}
]
}
Hinweis: WARD ist ein noch junges Protokoll. Die Unterstützung durch große KI-Anbieter befindet sich im Aufbau. Dennoch kann es sinnvoll sein, eine WARD-Policy frühzeitig einzurichten — sie dokumentiert die eigene Position und kann bei rechtlichen Fragen als Nachweis dienen. Die technische Implementierung ist als Open-Source-Projekt auf GitHub verfügbar: ward-protocol.
Empfehlungen für Webseitenbetreiber
Wenn Sie KI-Sichtbarkeit möchten
- Stellen Sie sicher, dass AI-Bots in der robots.txt nicht blockiert werden
- Setzen Sie keine NoAI-Meta-Tags
- Verwenden Sie strukturierte Daten (Schema.org), um Ihre Inhalte maschinenlesbar zu machen — mehr dazu in unserem Artikel zu SEO-Grundlagen
- Erstellen Sie eine WARD-Policy mit erlaubtem Training und Attributionspflicht
Wenn Sie Ihre Inhalte schützen möchten
- Blockieren Sie bekannte AI-Bots in der robots.txt
- Setzen Sie NoAI-Meta-Tags und X-Robots-Tag-Header
- Erstellen Sie eine WARD-Policy mit
"training": "denied" - Prüfen Sie regelmäßig Ihre Server-Logs auf neue, unbekannte Crawler
Häufige Fragen
Kann ich verhindern, dass KI meine Inhalte nutzt?
Technisch können Sie über robots.txt, Meta-Tags und HTTP-Header Signale an AI-Crawler senden. Seriöse Anbieter wie OpenAI und Google respektieren diese Signale. Eine absolute Garantie gibt es jedoch nicht — ähnlich wie bei regulären Suchmaschinen-Crawlern.
Schadet es meinem SEO, wenn ich AI-Bots blockiere?
In der Regel nicht. Die AI-Crawler sind von den Suchmaschinen-Crawlern getrennt. Wenn Sie beispielsweise Google-Extended blockieren, beeinflusst das nicht die Indexierung durch den regulären Googlebot. Es empfiehlt sich, die Einstellungen getrennt zu betrachten.
Was ist der Vorteil einer WARD-Policy?
Eine WARD-Policy ist ein maschinenlesbares Dokument, das Ihre Position zur KI-Nutzung Ihrer Inhalte klar definiert. Es kann als Nachweis dienen, dass Sie aktiv Stellung bezogen haben — ähnlich wie eine Datenschutzerklärung Ihre Position zum Datenschutz dokumentiert.
Häufige Fragen
Wie blockiere ich KI-Crawler in der robots.txt?
Schadet das Blockieren von AI-Bots meinem Google-Ranking?
Was ist eine WARD-Policy und wofür brauche ich sie?
Was bedeutet das NoAI-Meta-Tag?
IT-Berater für Website-Compliance
Über 14 Jahre Erfahrung in IT und Webentwicklung. Entwickler von Web-Prüfer — dem Compliance-Scanner für deutsche Websites.