Zum Inhalt springen
website-prüfung.de

AI und Websites — Robots.txt, Meta-Tags und KI-Richtlinien

Veröffentlicht: 10. März 2026 · Aktualisiert: 21. März 2026

Inhaltsverzeichnis

Warum AI-Sichtbarkeit ein Thema für Webseitenbetreiber ist

Große KI-Modelle wie ChatGPT, Claude, Gemini und Perplexity durchsuchen das Internet, um ihre Trainingsdaten zu aktualisieren und Nutzeranfragen zu beantworten. Diese sogenannten AI-Crawler besuchen Websites ähnlich wie der Googlebot — laden Seiten herunter und verarbeiten deren Inhalte.

Für Webseitenbetreiber ergeben sich daraus zwei Fragen — neben den bestehenden Pflichten rund um SEO-Grundlagen und Datenschutz:

  1. Möchten Sie, dass Ihre Inhalte von KI-Modellen verwendet werden? Manche Unternehmen profitieren von der Sichtbarkeit in KI-Antworten. Andere möchten ihre Inhalte schützen.
  2. Haben Sie die technischen Möglichkeiten, dies zu steuern? Ja — über robots.txt, Meta-Tags und spezielle Policies.

AI-Bots in der Robots.txt steuern

Die robots.txt-Datei ist der etablierte Standard, um Crawlern Zugangsregeln mitzuteilen. Neben dem klassischen Googlebot gibt es mittlerweile zahlreiche AI-spezifische Bots.

Bekannte AI-Crawler (Stand März 2026)

Bot-NameAnbieterZweck
GPTBotOpenAITraining und Browsing
ChatGPT-UserOpenAIEchtzeit-Websuche für ChatGPT
Google-ExtendedGoogleGemini-Training
ClaudeBotAnthropicTraining
PerplexityBotPerplexityEchtzeit-Suche
BytespiderByteDanceTikTok/Doubao-Training
CCBotCommon CrawlÖffentlicher Datensatz

Beispiel: Alle AI-Bots blockieren

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

Beispiel: Nur bestimmte Bots erlauben

User-agent: GPTBot
Allow: /ratgeber/
Disallow: /

User-agent: Google-Extended
Disallow: /

In diesem Beispiel darf GPTBot nur den Ratgeber-Bereich crawlen, während Google-Extended vollständig blockiert wird.

Wichtig: Die robots.txt ist eine Empfehlung, keine technische Sperre. Seriöse Anbieter halten sich daran, aber es gibt keine Garantie, dass jeder Crawler die Regeln befolgt.

Meta-Tags für KI-Steuerung

Neben der robots.txt können Meta-Tags im HTML-Header einzelner Seiten weitere Signale an AI-Crawler senden.

Das NoAI-Meta-Tag

<meta name="robots" content="noai, noimageai">
  • noai — signalisiert, dass der Seiteninhalt nicht für KI-Training verwendet werden soll
  • noimageai — bezieht sich speziell auf Bilder

Diese Tags werden bisher nicht von allen Anbietern einheitlich unterstützt. Google und OpenAI haben eigene Mechanismen (Google-Extended in robots.txt, bzw. GPTBot-Regeln). Dennoch empfiehlt es sich, diese Tags zu setzen, wenn man die Nutzung durch KI-Modelle einschränken möchte.

Das X-Robots-Tag als HTTP-Header

Alternativ zum HTML-Meta-Tag kann der X-Robots-Tag als HTTP-Header gesetzt werden:

X-Robots-Tag: noai, noimageai

Dieser Header funktioniert auch für Nicht-HTML-Ressourcen wie PDFs oder Bilder. Achten Sie darauf, dass auch rechtlich relevante Seiten wie Ihr Impressum korrekt konfiguriert sind.

WARD-Policies: Strukturierte KI-Richtlinien

Das WARD-Protokoll (Web Access Rights Declaration) ist ein neuerer Ansatz, der es Webseitenbetreibern ermöglicht, ihre KI-Richtlinien in einer strukturierten, maschinenlesbaren Datei zu hinterlegen.

Was eine WARD-Policy enthält

Eine WARD-Policy-Datei (üblicherweise unter /.well-known/ward.json) kann folgende Informationen umfassen:

  • Trainingserlaubnis: Dürfen Inhalte für KI-Training verwendet werden?
  • Zitierregeln: Soll die Quelle bei der Wiedergabe genannt werden?
  • Kontaktdaten: An wen können sich KI-Anbieter bei Fragen wenden?
  • Bereichsspezifische Regeln: Unterschiedliche Richtlinien für verschiedene Seitenbereiche

Beispiel einer WARD-Policy

{
  "version": "1.0",
  "contact": "[email protected]",
  "rules": [
    {
      "path": "/ratgeber/*",
      "training": "allowed",
      "attribution": "required"
    },
    {
      "path": "/intern/*",
      "training": "denied"
    }
  ]
}

Hinweis: WARD ist ein noch junges Protokoll. Die Unterstützung durch große KI-Anbieter befindet sich im Aufbau. Dennoch kann es sinnvoll sein, eine WARD-Policy frühzeitig einzurichten — sie dokumentiert die eigene Position und kann bei rechtlichen Fragen als Nachweis dienen. Die technische Implementierung ist als Open-Source-Projekt auf GitHub verfügbar: ward-protocol.

Empfehlungen für Webseitenbetreiber

Wenn Sie KI-Sichtbarkeit möchten

  • Stellen Sie sicher, dass AI-Bots in der robots.txt nicht blockiert werden
  • Setzen Sie keine NoAI-Meta-Tags
  • Verwenden Sie strukturierte Daten (Schema.org), um Ihre Inhalte maschinenlesbar zu machen — mehr dazu in unserem Artikel zu SEO-Grundlagen
  • Erstellen Sie eine WARD-Policy mit erlaubtem Training und Attributionspflicht

Wenn Sie Ihre Inhalte schützen möchten

  • Blockieren Sie bekannte AI-Bots in der robots.txt
  • Setzen Sie NoAI-Meta-Tags und X-Robots-Tag-Header
  • Erstellen Sie eine WARD-Policy mit "training": "denied"
  • Prüfen Sie regelmäßig Ihre Server-Logs auf neue, unbekannte Crawler

Häufige Fragen

Kann ich verhindern, dass KI meine Inhalte nutzt?

Technisch können Sie über robots.txt, Meta-Tags und HTTP-Header Signale an AI-Crawler senden. Seriöse Anbieter wie OpenAI und Google respektieren diese Signale. Eine absolute Garantie gibt es jedoch nicht — ähnlich wie bei regulären Suchmaschinen-Crawlern.

Schadet es meinem SEO, wenn ich AI-Bots blockiere?

In der Regel nicht. Die AI-Crawler sind von den Suchmaschinen-Crawlern getrennt. Wenn Sie beispielsweise Google-Extended blockieren, beeinflusst das nicht die Indexierung durch den regulären Googlebot. Es empfiehlt sich, die Einstellungen getrennt zu betrachten.

Was ist der Vorteil einer WARD-Policy?

Eine WARD-Policy ist ein maschinenlesbares Dokument, das Ihre Position zur KI-Nutzung Ihrer Inhalte klar definiert. Es kann als Nachweis dienen, dass Sie aktiv Stellung bezogen haben — ähnlich wie eine Datenschutzerklärung Ihre Position zum Datenschutz dokumentiert.

Häufige Fragen

Wie blockiere ich KI-Crawler in der robots.txt?
Fügen Sie für jeden AI-Bot einen eigenen Eintrag hinzu, z. B. 'User-agent: GPTBot' gefolgt von 'Disallow: /'. Die wichtigsten AI-Crawler sind GPTBot, ChatGPT-User, Google-Extended, ClaudeBot, PerplexityBot, Bytespider und CCBot.
Schadet das Blockieren von AI-Bots meinem Google-Ranking?
In der Regel nicht. Die AI-Crawler wie GPTBot oder Google-Extended sind von den Suchmaschinen-Crawlern getrennt. Das Blockieren von Google-Extended beeinflusst nicht die Indexierung durch den regulären Googlebot.
Was ist eine WARD-Policy und wofür brauche ich sie?
Eine WARD-Policy ist ein maschinenlesbares JSON-Dokument unter /.well-known/ward.json, das Ihre Position zur KI-Nutzung Ihrer Inhalte definiert. Sie kann Trainingserlaubnis, Zitierregeln und bereichsspezifische Richtlinien enthalten und dient als dokumentierter Nachweis Ihrer Position.
Was bedeutet das NoAI-Meta-Tag?
Das Meta-Tag 'noai' signalisiert AI-Crawlern, dass der Seiteninhalt nicht für KI-Training verwendet werden soll. Ergänzend gibt es 'noimageai' speziell für Bilder. Beide Tags werden noch nicht von allen Anbietern einheitlich unterstützt, sind aber eine sinnvolle zusätzliche Maßnahme.

Von Viacheslav Spitsyn

IT-Berater für Website-Compliance

Über 14 Jahre Erfahrung in IT und Webentwicklung. Entwickler von Web-Prüfer — dem Compliance-Scanner für deutsche Websites.

Ähnliche Ratgeber