Wie wählt ChatGPT seine Quellen aus? Mechanismen erklärt
Zusammengefasst: ChatGPT wählt seine Quellen über zwei unterschiedliche Mechanismen. Das Trainingskorpus (Daten bis Anfang 2025 für GPT-4o) liefert etwa 70% der klassischen Antworten — die darin enthaltenen Inhalte beeinflussen direkt die zitierte Marke. RAG/ChatGPT Search fragt Bing in Echtzeit ab und liefert die restlichen 30% mit URL-Zitaten. Gemeinsame Auswahlkriterien: semantische Kohärenz mit der Anfrage, extrahierbare Struktur, messbare externe Autorität. Das Verständnis dieser Mechanismen ermöglicht es, die richtigen Optimierungshebel anzusetzen.
Das Trainingskorpus: das Langzeitgedächtnis
GPT-4o wurde auf einem massiven Textkorpus aus dem Web bis zu einem Stichtag trainiert (Anfang 2025 für die aktuelle Version). Dieses Korpus umfasst Webseiten, Wikipedia-Artikel, Foren, Pressetexte, E-Books und Code.
Wenn ChatGPT ohne aktivierte Suche antwortet, „erinnert" es sich an das, was es während des Trainings gelesen hat. Wenn Ihre Marke, Ihre Expertise oder Ihre Argumente häufig und positiv in diesem Korpus erscheinen, dringen sie in das implizite Gedächtnis des Modells ein.
GEO-Auswirkungen:
- Inhalte, die vor dem Stichtag veröffentlicht wurden, haben mehr Gewicht
- Die Häufigkeit von Erwähnungen in verschiedenen Quellen verstärkt das Signal
- Semantische Konsistenz (gleiche Marke, gleiche Botschaft, mehrere Quellen) stärkt die Verankerung
ChatGPT Search: der RAG-Modus in Echtzeit
Wenn ein Nutzer ChatGPT Search aktiviert oder eine Frage mit starkem faktischen/zeitlichen Bezug stellt, fragt ChatGPT Bing ab und synthetisiert die Ergebnisse. Dieser Modus:
- Zitiert URLs in seiner Antwort
- Bevorzugt aktuelle Inhalte, die gut bei Bing indexiert sind
- Analysiert die Seitenstruktur, um relevante Elemente zu extrahieren
- Aggregiert mehrere Quellen, um eine differenzierte Antwort zu konstruieren
Das Bing-Ranking spielt hier eine Schlüsselrolle: Eine schlecht positionierte Seite bei Bing hat wenig Chancen, ausgewählt zu werden.
Die gemeinsamen Auswahlkriterien beider Modi
Ob Korpus oder RAG — ChatGPT bevorzugt:
- Semantische Relevanz: Beantwortet der Inhalt die Frage präzise?
- Extrahierbarkeit: Lässt sich der Inhalt in autonome, verständliche Textblöcke unterteilen?
- Quellenautorität: Wird die Marke/der Autor anderswo positiv erwähnt?
- Faktische Klarheit: Verifiable Daten, Daten, Datumsangaben, benannte Entitäten
- Scheinbare Neutralität: Zu werbliche Inhalte werden abgewertet
Was ChatGPT nicht tut
- Es hat keinen Zugriff auf Ihre Analysedaten (GA4, Search Console)
- Es liest nicht hinter Login-Schutz oder Paywalls
- Es interpretiert nicht Bilder ohne strukturierte Alt-Texte
- Es berücksichtigt nicht Social-Media-Signale (Likes, Shares) direkt
Ist Ihre Marke im ChatGPT-Korpus? Testen Sie Ihre AI-Sichtbarkeit in 2 Minuten mit BlastGEO. Kostenloses Audit starten
Häufig gestellte Fragen
Kann ChatGPT Inhalte zitieren, die nicht bei Google indexiert sind? ▼
Ja, über das Trainingskorpus. Inhalte, die nie von Google indexiert wurden, aber in Webarchiven oder zugänglichen Datenbanken vorhanden sind, können im Korpus enthalten sein.
Beeinflussen soziale Netzwerke das Korpus? ▼
Teilweise. Twitter/X (Zeitraum vor 2023) und Reddit sind im GPT-Korpus vertreten. LinkedIn und Facebook weniger direkt. Soziale Erwähnungen können jedoch indirekte Signale erzeugen.
Kann man OpenAI auffordern, seinen Inhalt aus dem Korpus zu entfernen? ▼
OpenAI bietet ein Opt-out-Formular für zukünftige Inhalte an. Das bestehende Korpus kann nicht rückwirkend modifiziert werden, ohne es neu zu trainieren.
Bevorzugt ChatGPT .com-Domains gegenüber .de-Domains? ▼
Nicht systematisch. Qualität und Konsistenz der Inhalte wiegen schwerer als die TLD. Domains mit hoher Autorität im Gesamtkorpus haben jedoch einen Vorteil.
Wird der Modus ohne Werkzeuge (klassisches ChatGPT) noch verwendet? ▼
Ja, überwiegend. Die meisten Nutzer aktivieren ChatGPT Search nicht explizit. Das Korpus bleibt daher der wichtigste Hebel für die überwiegende Mehrheit der Antworten.