Как ChatGPT выбирает источники? Механизмы объяснены
Краткая суть: ChatGPT выбирает источники через два различных механизма. Обучающий корпус (данные до начала 2025 года для GPT-4o) обеспечивает ~70% стандартных ответов — контент, присутствующий в этом корпусе, прямо влияет на упоминаемый бренд. RAG/ChatGPT Search в реальном времени опрашивает Bing и поставляет оставшиеся 30% с цитированием URL. Общие критерии отбора: семантическая релевантность к запросу, извлекаемая структура, измеримый внешний авторитет. Понимание этих механизмов позволяет правильно выбрать инструменты оптимизации.
Обучающий корпус: долгосрочная память
GPT-4o обучен на огромном корпусе текстов из веб-сети с датой отсечки (начало 2025 года для текущей версии). Корпус включает веб-страницы, статьи Wikipedia, форумы, прессу, электронные книги и исходный код.
Когда ChatGPT отвечает без активации поиска, он «помнит» то, что прочитал во время обучения. Если ваш бренд, ваша экспертиза или ваши аргументы часто и позитивно упоминаются в этом корпусе, они проникают в неявную память модели.
Последствия для GEO:
- Контент, опубликованный до даты отсечки, имеет больший вес
- Частота упоминаний в различных источниках усиливает сигнал
- Семантическая согласованность (один бренд, одно сообщение, несколько источников) укрепляет закрепление
ChatGPT Search: режим RAG в реальном времени
Когда пользователь активирует ChatGPT Search или задает вопрос с ярко выраженным фактическим/временным характером, ChatGPT опрашивает Bing и синтезирует результаты. Этот режим:
- Цитирует URL в своем ответе
- Отдает предпочтение свежему контенту, хорошо индексируемому Bing
- Анализирует структуру страницы для извлечения релевантных элементов
- Агрегирует несколько источников для создания продуманного ответа
Ранжирование Bing играет здесь ключевую роль: страница с плохой позицией в Bing имеет мало шансов быть отобранной.
Критерии отбора, общие для обоих режимов
Будь то корпус или RAG, ChatGPT отдает предпочтение:
- Семантической релевантности: точно ли контент отвечает на поставленный вопрос?
- Извлекаемости: можно ли разбить контент на самостоятельные и понятные фрагменты?
- Авторитету источника: упоминается ли бренд/автор где-то еще в позитивном контексте?
- Фактической четкости: проверяемые цифры, даты, именованные сущности
- Видимой нейтральности: чересчур промо-контент получает более низкую оценку
Чего ChatGPT не делает
- Он не имеет доступа к вашим аналитическим данным (GA4, Search Console)
- Он не читает контент за логином или paywall
- Он не интерпретирует изображения без структурированного альтернативного текста
- Он не учитывает социальные сигналы (лайки, репосты) напрямую
Присутствует ли ваш бренд в корпусе ChatGPT? Проверьте вашу видимость в ИИ за 2 минуты с помощью BlastGEO. Запустить бесплатный аудит
Часто задаваемые вопросы
Может ли ChatGPT цитировать контент, не индексируемый Google? ▼
Да, через обучающий корпус. Контент, никогда не индексируемый Google, но присутствующий в веб-архивах или доступных базах данных, может быть в корпусе.
Влияют ли социальные сети на корпус? ▼
Частично. Twitter/X (период до 2023 года) и Reddit присутствуют в корпусе GPT. LinkedIn и Facebook менее напрямую. Социальные упоминания тем не менее могут создавать косвенные сигналы.
Можно ли попросить OpenAI удалить свой контент из корпуса? ▼
OpenAI предоставляет форму отказа для будущего контента. Существующий корпус невозможно изменить ретроактивно без переобучения модели.
Отдает ли ChatGPT предпочтение доменам .com перед .fr? ▼
Не систематически. Качество и согласованность контента имеют приоритет над расширением домена. Домены с высокий авторитетом в глобальном корпусе тем не менее получают преимущество.
Все еще используется режим без инструментов (классический ChatGPT)? ▼
Да, в основном. Большинство пользователей не активирует ChatGPT Search явно. Корпус остается поэтому главным рычагом для подавляющего большинства ответов.