惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

A
Arctic Wolf
WordPress大学
WordPress大学
月光博客
月光博客
J
Java Code Geeks
罗磊的独立博客
V
Visual Studio Blog
阮一峰的网络日志
阮一峰的网络日志
Y
Y Combinator Blog
GbyAI
GbyAI
The Cloudflare Blog
B
Blog
S
SegmentFault 最新的问题
T
Tenable Blog
P
Privacy International News Feed
爱范儿
爱范儿
V
Vulnerabilities – Threatpost
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Scott Helme
Scott Helme
量子位
博客园 - 三生石上(FineUI控件)
The Hacker News
The Hacker News
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Security Latest
Security Latest
D
Darknet – Hacking Tools, Hacker News & Cyber Security
C
Cybersecurity and Infrastructure Security Agency CISA
P
Proofpoint News Feed
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
C
CXSECURITY Database RSS Feed - CXSecurity.com
U
Unit 42
D
DataBreaches.Net
T
Threatpost
C
Cisco Blogs
Project Zero
Project Zero
K
Kaspersky official blog
MongoDB | Blog
MongoDB | Blog
C
Check Point Blog
A
About on SuperTechFans
The Register - Security
The Register - Security
C
Cyber Attacks, Cyber Crime and Cyber Security
S
Schneier on Security
L
Lohrmann on Cybersecurity
T
Threat Research - Cisco Blogs
I
InfoQ
Simon Willison's Weblog
Simon Willison's Weblog
F
Fortinet All Blogs
Recorded Future
Recorded Future
AWS News Blog
AWS News Blog
The GitHub Blog
The GitHub Blog
C
CERT Recently Published Vulnerability Notes

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как попасть в ответы ChatGPT: технический разбор механики цитирования и актуальный гайд по GEO на июнь 2026
Максим Фомин · 2026-06-18 · via Все публикации подряд на Хабре

Если кратко:
ChatGPT не "ранжирует сайты" — он извлекает фрагменты из retrieval-слоя (преимущественно индекс Bing + собственные краулеры), оценивает их на пригодность к извлечению и синтезирует ответ со сносками. Чтобы попасть в этот ответ, нужно три вещи: чтобы краулеры OpenAI физически могли прочитать страницу, чтобы контент был структурно «выкусываемым» (прямой ответ в начале, факты с источниками, чистый HTML), и чтобы бренд имел подтверждение на независимых площадках. Ниже — разбор каждого этапа конвейера с проверкой цифр на актуальность и пометками, где данные подтверждены первоисточником, а где это отраслевая оценка. Можете расходиться хD

Как попасть в ответы ChatGPT

Как попасть в ответы ChatGPT

Меня зовут Максим Фомин, я сооснователь агентства Vverh.Digital — мы занимаемся GEO/AEO для B2B и B2C бизнеса— и организатор GEOMI Awards и со-организатор сообщество экспертов GEOMI.Агентство вверх дидижтал является Финалистом премии workspace digital awards 2026 в категории GEO продвижении. Эта статья — не очередной "гайд из 7 шагов", а попытка разобрать механику ChatGPT-цитирования настолько глубоко, насколько позволяют публичные данные, и при этом честно отделить проверенные факты от красивых, но непроверяемых цифр, которыми переполнены русскоязычные материалы по GEO. Там, где источник есть, я его называю и датирую. Там, где цифра гуляет по статьям без первоисточника, я об этом прямо предупреждаю.

Дисклеймер по конфликту интересов: я представляю агентство на этом рынке. Поэтому в тексте нет ни одного «мы подняли клиента на 447%» без указания, чьё это исследование и как оно считалось.

Почему старый SEO-фреймворк здесь не работает

Классический поиск был детерминированным: краулер обходит сеть, индексирует страницы по ключевым словам и ссылочному графу, выдаёт список синих ссылок, ранжированных по релевантности. Вы оптимизировали страницу — вы понимали, за счёт чего она поднялась.

Генеративный поиск работает иначе. Большая языковая модель не возвращает список документов — она синтезирует прямой ответ, опираясь на два источника знаний одновременно: параметрическую память (то, что модель "выучила" на этапе обучения) и retrieval в реальном времени (RAG — Retrieval-Augmented Generation). Это меняет правила: вы больше не боретесь за позицию, вы боретесь за цитирование внутри сгенерированного ответа.

Выдача Chatgpt

Выдача Chatgpt

Масштаб, ради которого это вообще стоит делать, на февраль 2026 года такой: OpenAI официально объявила о 900 млн еженедельных активных пользователей ChatGPT (анонс от 27 февраля 2026 года, одновременно с раундом финансирования на $110 млрд — источник TechCrunch). Это вдвое больше, чем 400 млн годом ранее. А в мае–июне 2026 приложение перешло отметку 1 млрд месячных активных пользователей, став самым быстрым в истории по достижению этого порога (Reuters со ссылкой на оценки Sensor Tower). Глобально пользователи отправляют около 2,5 млрд промптов в день (данные OpenAI).

Важная оговорка сразу, чтобы вы не приняли на веру кочующую по гайдам цифру: "80% пользователей обращаются к ИИ-резюме в 40% запросов" и подобные ей формулировки — это пересказы пересказов без внятного первоисточника. Я их использовать не буду. Проверяемый факт в том, что доля коммерческих исследовательских сессий внутри ChatGPT (когда человек реально выбирает продукт перед покупкой) оценивается в 5–6% от использования (First Page Sage, март 2026) — при 900 млн WAU это всё равно десятки миллионов сессий в неделю с покупательским намерением. Этого достаточно, чтобы тема была не хайпом, а рабочим каналом.

Чем GEO отличается от SEO — без мифа "GEO заменяет SEO"

Критерий

Классический SEO

GEO / AEO (2026)

Цель

ТОП-10 выдачи ради клика

Упоминание и цитирование бренда в ответе ИИ

Объект работы

Свой домен и его вес

Цифровой след во всей экосистеме: сайт + внешние площадки

Семантика

Коротко- и среднечастотные ключи

Длинные разговорные запросы, декомпозиция на подзапросы

Логика алгоритма

Ранжирование по релевантности и ссылкам

Синтез ответа по консенсусу источников

Ключевая метрика

Трафик, CTR, позиции

Доля присутствия в ответах (Share of Voice), частота цитирования

GEO не заменяет SEO — это надстройка, которая использует техническую базу SEO для новой цели. Более того, для ChatGPT конкретно SEO под Bing критичен напрямую (об этом ниже). Но GEO может существовать и отдельно: если задача — не присутствие сайта в ответе, а управление упоминаниями бренда в принципе.

Как ChatGPT на самом деле формирует ответ: четыре этапа RAG

Чтобы оптимизировать под систему, надо понимать её конвейер. ChatGPT Search работает не как "умный гугл", а как многоступенчатый RAG-пайплайн. Разберём каждый этап — потому что под каждый есть своя оптимизация.

 Схема RAG-конвейера

Схема RAG-конвейера

Этап 1. Декомпозиция запроса (Query Fan-Out)

Получив сложный промпт, модель не ищет по прямому совпадению всей фразы. Она разбивает запрос на серию атомарных подзапросов. "Какое оборудование для лазерной очистки лучше для малого бизнеса" превращается во внутренние под-запросы: производители → сравнение характеристик → диапазон цен → отзывы.

Что это значит для контента. Ваши страницы должны ранжироваться не по одному жирному ключу, а по узким "веерным" под-вопросам. Страница, которая отвечает на конкретный атомарный вопрос ("сколько стоит обслуживание X в год"), имеет больше шансов быть извлечённой, чем лендинг, пытающийся закрыть всю тему сразу.

Этап 2. Извлечение (Information Retrieval) — и здесь живёт зависимость от Bing

Для актуальных данных ChatGPT обращается в первую очередь к индексу Microsoft Bing, дополняя его собственными краулерами OpenAI. Это создаёт прямую зависимость: видимость в ChatGPT коррелирует с индексируемостью и позициями в Bing.

А вот дальше — место, где нужно быть аккуратным с цифрами, потому что в русскоязычных гайдах кочует одна цифра, поданная как абсолютная истина.

Самая цитируемая цифра — "87% цитирований ChatGPT совпадают с топом Bing" — это исследование Seer Interactive (авторы Christina Blake, Alisa Scharf), и важная деталь: оно опубликовано в феврале 2025 года, а не вчера. Цифра реальна, но ей больше года, и за это время появились данные, которые её нюансируют:

  • Ahrefs (август 2025): около 80% URL, цитируемых ChatGPT, вообще не входят в топ-100 Google по тому же запросу — ChatGPT строит собственную экосистему цитирования.

  • erlin.ai (апрель 2026): только 12% цитируемых ChatGPT URL входят в топ-10 Google; страницы из топ-1 Google цитируются в ~3,5 раза чаще, чем страницы за пределами топ-20 — корреляция есть, но она слабее, чем принято считать.

  • SEMrush / Seer: ~87% совпадение именно с Bing (не Google).

Честный вывод, который я делаю из этого разброса: связь с Bing сильная и игнорировать её нельзя, но это корреляция, а не гарантия. 44% B2B-брендов с сильными позициями в Google вообще не имеют видимости в ChatGPT (EMGI Group, апрель 2026). Поэтому регистрация в Bing Webmaster Tools, актуальный sitemap и протокол IndexNow — это не "волшебная кнопка", а гигиенический минимум, который убирает один из барьеров. Остальные барьеры — структура контента и внешний след — он не закрывает.

Этап 3. Суммаризация и оценка чанков

Получив пул документов-кандидатов, модель загружает фрагменты их текста в контекстное окно и оценивает каждый чанк изолированно — на плотность фактов, нейтральность тона и релевантность под-запросу. Это ключевой момент, который ломает привычную логику копирайтинга: модель не читает статью от начала до конца, она режет её на куски и смотрит, можно ли из конкретного куска "выкусить" готовый факт без потери смысла.

Если абзац теряет смысл в отрыве от предыдущего контекста — вероятность его цитирования стремится к нулю.

Этап 4. Синтез и атрибуция

Прошедшие фильтр фрагменты синтезируются в ответ, после чего система расставляет сноски. ChatGPT извлекает заметно больше страниц, чем в итоге цитирует, — отдавая предпочтение тем, чья структура позволяет легко вычленить факт. То есть "попасть в retrieval" и "попасть в финальный ответ" — две разные задачи, и вторая решается структурой текста.

Управление краулерами OpenAI: где брендам отрезают видимость своими руками

Один из самых частых способов случайно исчезнуть из ChatGPT — заблокировать его краулеры на уровне robots.txt или защиты от ботов (Cloudflare и аналоги). Многие сделали это в 2023–2024, опасаясь обучения моделей на своём контенте, и не разделили при этом три разных бота OpenAI.

А боты выполняют разные функции, и блокировать их "пакетом" — стратегическая ошибка:

Краулер (User-Agent)

Назначение

Рекомендация

GPTBot

Сбор данных для обучения базовых моделей

На усмотрение бренда. Блокировка не влияет на поиск в реальном времени

OAI-SearchBot

Индексация для ChatGPT Search (живой поиск)

Обязательно ALLOW. Без него контент не попадёт в поисковые ответы

ChatGPT-User

Запросы по требованию, когда пользователь даёт ChatGPT конкретный URL

Обязательно ALLOW. Иначе пользователь не сможет обсудить вашу страницу с ботом

Управление краулерами OpenAI:

Управление краулерами OpenAI:

Разделение ролей даёт гранулярный контроль: если политика компании запрещает использовать её контент для тренировки весов — можно закрыть Disallow: / только для GPTBot, явно разрешив OAI-SearchBot и ChatGPT-User. Данные защищены от обучающих датасетов, видимость в поиске сохранена. Изменения в robots.txt системы OpenAI подхватывают с задержкой около суток.

И тут любопытная отраслевая находка, которая показывает, насколько эта тема ещё "сырая": по данным BuzzStream (апрель 2026), около 70% цитируемых ChatGPT страниц принадлежат сайтам, которые блокируют ChatGPT-User или OAI-SearchBot. Звучит парадоксально, но объяснимо: часть retrieval идёт через индекс Bing, а не только через прямой обход краулерами OpenAI. Вывод не "можно блокировать", а ровно обратный: блокировка снижает ваши шансы, но не обнуляет их, потому что у retrieval несколько путей. Не оставляйте систему гадать — откройте боты.

Отдельная боль: client-side rendering

ИИ-краулеры в общем случае не выполняют тяжёлый JavaScript при сборе контента. Они читают сырой HTML из первого ответа сервера. Если цены, таблицы характеристик или FAQ за интерактивными вкладками подгружаются в браузере через JS — для краулеров OpenAI их нет.

Цифра, которую стоит держать в голове: успешность парсинга статического HTML со schema-разметкой оценивается примерно в 94%, тогда как для JS-рендеренного контента она резко падает (erlin.ai, 2026). Для приоритетных лендингов SSR или статическая пре-генерация (SSG) — обязательный технический минимум.

Инженерия контента: как писать, чтобы алгоритм мог "выкусить" факт

Здесь начинается часть, где академические данные дают самые надёжные ориентиры. Фундамент — исследование "GEO: Generative Engine Optimization" (Aggarwal et al.), представленное на KDD 2024, авторы из Принстона, IIT Delhi, Georgia Tech и Allen Institute for AI. Это первая крупная академическая работа на тему, препринт лежит на arXiv (2311.09735). Я опираюсь на неё, а не на агентские "кейсы", именно потому что её методология воспроизводима: 10 000 запросов из девяти датасетов, девять протестированных тактик, метрика на базе G-Eval.

Главные выводы исследования, которые держатся и сейчас:

Исследование по сигналам

Исследование по сигналам

1. Статистика, цитаты и ссылки на источники дают до +40% видимости. Три самые сильные тактики — Cite Sources, Quotation Addition, Statistics Addition — показали относительный прирост 30–40% по метрике Position-Adjusted Word Count. Это означает простое правило: меняйте качественные утверждения на проверяемые числа. "Многие клиенты экономят время" → "исследование 2026 года зафиксировало экономию 34%" со ссылкой на источник.

2. Keyword stuffing не просто бесполезен — он вредит. Искусственное повторение ключей дало отрицательную динамику (−8% на валидации Perplexity). Семантические движки работают с векторным пространством, а не совпадением строк; набивка ключей ломает беглость и классифицируется как спам. Это, пожалуй, самый важный вывод для тех, кто пришёл из классического SEO.

3. Эффект выравнивания для слабых доменов. Страницы, занимавшие 5-е место в классической выдаче, при добавлении ссылок на источники получали относительный прирост видимости в ИИ-ответах до +115%. Плотность фактов и внутритекстовая атрибуция компенсируют слабый ссылочный профиль. Для молодых брендов это и есть "историческое окно".

4. Лучший результат — комбинация тактик. Связка Fluency Optimization + Statistics Addition превзошла любую отдельную тактику более чем на 5,5%.

Свежее подтверждение, что направление верное: препринт AgentGEO (arXiv 2603.09296) показывает +40% относительного прироста цитируемости при модификации лишь 5% контента — но с важной оговоркой, о которой гайды молчат: "общая" оптимизация может навредить long-tail контенту, и часть документов структурой не вытащить в принципе. То есть GEO — не универсальное заклинание, и это нормально говорить вслух.

Конкретные правила из этих данных

Прямой ответ в начале (Answer-First). 44,2% всех фрагментов, которые LLM извлекают для ответа, берутся из первых 30% страницы. Длинные "прогревающие" вступления, которые работали в SEO ради удержания и плотности ключей, здесь катастрофичны. Каждый раздел и страница должны открываться объективным резюме на 40–80 слов, дающим прямой ответ на предполагаемый вопрос.

Синтаксическая сегментация. Стены текста — препятствие для векторного поиска. Абзацы на 2–4 предложения, маркированные списки, нумерованные инструкции, сравнительные таблицы. Из нумерованного списка модель уверенно вырывает отдельный шаг без искажения смысла.

Wiki-Voice. ChatGPT обучен генерировать нейтральный, энциклопедический текст и при выборе источника предпочитает материалы в той же тональности. Экспрессивный маркетинговый жаргон заставляет модель тратить ресурсы на "очистку" текста — она этого избегает и берёт источник почище.

Плотность фактов. Целевой ориентир — минимум один проверяемый факт (число, точная дата, имя собственное) на каждые 100–150 слов, каждый по возможности со ссылкой на первоисточник. Это сильнейший сигнал, что страница исследовательская, а не спекулятивная.

Свежесть. У генеративных систем выраженный recency bias. Статьи старше года систематически теряют позиции. Нужен реальный ежеквартальный апдейт фактуры — не механическая смена даты, а обновление данных, — с отображением "Last Updated". Модель умеет читать даты в тексте; "обновлено в 2023" по быстрой теме — приговор.

Форматы, которые любит ИИ: сравнительные таблицы (быстрое сопоставление параметров), нумерованные списки (пошаговые процессы), FAQ-блоки в конце статьи и на продуктовых страницах, рейтинги-подборки (их модель "выкусывает" целиком в свои списки), чёткая иерархия H1–H3.

Замечание про лонгриды. По гайдам ходит цифра "страницы свыше 20 000 знаков получают в 4,3 раза больше цитат". Я не нашёл для неё внятного первоисточника — она кочует между статьями без ссылки на исследование. Логика "глубже и полнее → чаще цитируют" подтверждается косвенно (например, требованиями Perplexity к глубине), но конкретный множитель 4,3x я бы пометил как непроверяемую оценку и не строил бы на нём стратегию

Микроразметка и llms.txt: семантический мост, а не SEO-трюк

JSON-LD: паспорт сущности для модели

Если в классическом SEO Schema.org нужен в основном для красивых сниппетов в Google, то генеративные движки используют структурированные данные для идентификации сущностей и извлечения атомарных фактов. Приоритетные типы:

  • Organization / Corporation — паспорт бренда. Юридическое имя, основатели, логотип и, самое важное, массив sameAs, связывающий домен с профилями в соцсетях, Википедией и Wikidata. Это сшивает разрозненные упоминания бренда в единый узел графа знаний.

  • FAQPage — один из сильнейших триггеров извлечения. Модели проще достать ответ из формализованной структуры "вопрос–ответ", чем из пространных рассуждений. По данным Ahrefs, 71% цитируемых ChatGPT страниц содержат структурированные данные.

  • SoftwareApplication / Product — мгновенная категоризация предложения: стоимость, совместимость, рейтинг. Критично для коммерческих сравнительных запросов.

llms.txt — это не "robots.txt для ИИ"

Тут я хочу разойтись с распространённой подачей. В большинстве гайдов llms.txt подают либо как "новый SEO-трюк для цитирования", либо отмахиваются: "необязательно, не заменяет robots.txt". Оба тезиса мимо.

llms.txt — это B2A-инфраструктура (business-to-agent): навигационный Markdown-дайджест в корне сайта для ИИ-агентов и кодинг-ассистентов (Cursor, GitHub Copilot и т. п.), чтобы они получали чистый контекст без необходимости продираться через вёрстку, рекламу и CSS, экономя бюджет токенов. У него нет блокирующей силы и нет (на сегодня) подтверждённого влияния на ранжирование в ChatGPT Search — и подавать его как "способ попасть в цитирование" некорректно. Его ценность в другом: точность ответов агентов, работающих с вашей документацией. Для SaaS и техдокументации это реально полезно; для типового корпоративного блога — приоритет невысокий. Честная рамка тут важнее хайпа, особенно на Habr.

Два варианта реализации:

llms.txt

llms-full.txt

Содержимое

Структурированный индекс: H1, описание, ссылки на ключевые страницы с аннотациями

Полная конкатенация контента в один Markdown-документ

Расход токенов

Низкий (до ~5 000)

Высокий (5 000–50 000+)

Кому

Крупные порталы, многостраничные блоги

API-документация, небольшие SaaS, базы знаний

Авторитет сущности: почему без внешнего следа сайт не вытащить

Переход от графа гиперссылок к графу сущностей — главная смена парадигмы. Видимость в LLM начинается с того, что модель вообще "знает" о существовании бренда. Если бренда нет в обучающем корпусе и нет подтверждённых связей в открытых базах знаний — никакая внутренняя оптимизация сайта не поможет, модель избегает рекомендовать неизвестные ей объекты из-за риска галлюцинаций.

Тренировочные данные. Около 60% весового обучающего корпуса ранних моделей OpenAI составляли отфильтрованные данные Common Crawl. Доминирующий по доверию источник — Википедия: наличие статьи работает как бинарный шлюз, после которого бренд цитируется почти безупречно. Но порог значимости Википедии (множество независимых публикаций в авторитетных СМИ) недостижим для большинства компаний.

Wikidata как реалистичная альтернатива. В отличие от Википедии, это база данных для машин. Профиль не требует энциклопедической статьи — нужна жёсткая структуризация: P-коды (дата основания, штаб-квартира, отрасль, официальный URL), каждый факт подтверждён ссылкой на внешний реестр (госбазы, Crunchbase). Этот машиночитаемый след усваивается графами знаний и даёт базовый уровень распознавания сущности.

Сторонняя валидация. ChatGPT недоверчив к заявлениям от первого лица: "мы лучшие на рынке" воспринимается как маркетинг, а не факт. Для рекомендации модель ищет независимый консенсус. Отраслевые оценки показывают, что значительная доля ссылок в ИИ-ответах ведёт на управляемые брендом источники за пределами его сайта — директории, обзоры, агрегаторы. Куда направлять усилия:

  • UGC-платформы. Лицензионное соглашение OpenAI с Reddit (май 2024) сделало Reddit одним из часто цитируемых источников. Плотность органических упоминаний бренда в контексте решения конкретной задачи формирует у модели ассоциацию "проблема → бренд".

  • B2B-обзоры и агрегаторы (G2, Capterra, Trustpilot, Clutch). В запросах вида "альтернативы X" ChatGPT критически зависит от них. Важна консистентность данных с Wikidata и развёрнутые отзывы, где описаны бизнес-задачи, а не просто звёзды.

  • YouTube-транскрипты. Модели извлекают контекст из автосубтитров — драйвер видимости для обучающих и технических продуктов.

В этой парадигме классический Digital PR меняет цель: не получение ссылки ради веса домена, а увеличение частоты семантического упоминания бренда в правильном тематическом контексте. Когда независимые источники последовательно связывают бренд с нишей, модель с высокой вероятностью включает его в генерацию.

На чём реально основан ChatGPT: разбор 1000 источников

Большинство гайдов по GEO рассуждают об источниках абстрактно: "ИИ любит UGC", "публикуйтесь на трастовых площадках". Я хочу заменить абстракцию данными. Ниже — срез реальной встречаемости доменов в источниках ChatGPT по русскоязычной выдаче (выгрузка от 18.06.2026, 1000 доменов, на которые суммарно приходится 77,2% всех зафиксированных цитирований).

Сразу о методологии, чтобы цифры читались корректно: это частота, с которой домен встречается среди источников, на которые ChatGPT опирался при формировании ответов в анализируемом пуле запросов. Пул запросов — коммерческий и сервисный (стоматология, переезды, недвижимость, общепит и подобные ниши), поэтому профиль смещён в сторону локального бизнеса. На другой тематике распределение будет иным. Это не "абсолютный рейтинг площадок интернета", а снимок по конкретному классу запросов — и читать его нужно именно так.

Разбор 1000 источников

Разбор 1000 источников

Топ доменов

Домен

Тип

Встречаемость

vc.ru

Медиа-платформа (UGC)

2,89%

yandex.ru

Сервис

1,35%

dtf.ru

Медиа-платформа (UGC)

1,13%

yandex.com

Сервис

1,07%

markakachestva.ru

Рейтинг

0,95%

spb.napopravku.ru

Агрегатор

0,92%

prodoctorov.ru

Отзовик

0,87%

2gis.ru

Справочник

0,66%

tripadvisor.com

Отзовик

0,56%

ru.wikipedia.org

Контентный проект

0,51%

Суммарная доля по типам источников

Тип источника

Суммарная доля

Доменов

Сайты услуг (коммерческие)

28,75%

471

Агрегаторы

9,22%

106

Интернет-магазины

7,91%

113

Сервисы

7,63%

80

Медиа-платформы (UGC)

4,64%

9

Контентные проекты (вкл. Wikipedia)

4,41%

70

СМИ

4,21%

55

Отзовики

3,47%

21

Рейтинги

3,08%

25

Справочники

2,59%

29

Из этих данных я делаю три вывода, которые стоит держать в голове, планируя GEO-стратегию.

Вывод 1. Собственный сайт компании — это база, а не довесок к публикациям. Самая большая суммарная доля приходится не на UGC-площадки, а на коммерческие сайты услуг — 28,75% при 471 домене. Да, отдельные UGC-площадки очень сильны (vc.ru в одиночку даёт 2,89% — это абсолютный лидер списка), но как сегмент UGC-медиаплатформы дают 4,64%. Расхожий тезис "публикуйся на внешних площадках — и попадёшь в ChatGPT" не то чтобы неверен, он неполон: без собственного сайта, структурно готового к извлечению, внешние публикации работают вполсилы. Сайт остаётся фундаментом, на котором retrieval достраивает остальное.

Вывод 2. Среди UGC по этой тематике лидируют vc.ru и dtf.ru, а вес остальных площадок сильно различается. Из девяти UGC-платформ в выборке vc.ru и dtf.ru дают 4,02% из 4,64%. Здесь нужна честная оговорка, тем более что я публикую этот материал на Habr: по ChatGPT-цитированию в этом коммерческом срезе Habr представлен слабо (0,06%). Но это не значит, что Habr бесполезен — у него другая роль в конвейере. Его сила в быстрой индексации, трастовости для retrieval в целом и весе в Алисе AI и Яндексе, а не в прямом цитировании ChatGPT по локально-коммерческим запросам. Площадку нужно выбирать под движок и тип запроса, а не по общему ощущению "трастовости". Для технической B2B-аудитории Habr остаётся сильным каналом; для попадания в ChatGPT по запросу "где починить X в городе N" — нет.

Вывод 3. Решает "длинный хвост", а не пара площадок-кнопок. Топ-10 доменов — это около 11% всех цитирований; остальные ~66% размазаны по сотням нишевых отраслевых сайтов, агрегаторов и справочников. Единой "волшебной площадки" не существует. ChatGPT тянет ответ из широкого пула источников, релевантных конкретной нише, поэтому стратегия "зайти на три топовые площадки" проигрывает стратегии "построить плотное присутствие в своей вертикали" — на агрегаторах, отзовиках и справочниках именно вашей тематики.

Самая опасная иллюзия — считать генеративные движки монолитом. По анализу сотен миллионов цитирований, пересечение цитируемых доменов между ChatGPT и Perplexity составляет всего около 11%. Бренд, доминирующий в Google AI Overviews, может быть невидим в ChatGPT.

ChatGPT Search · Perplexity · Google AI — три движка, три стратегии попадания в ответ

ChatGPT Search · Perplexity · Google AI — три движка, три стратегии попадания в ответ

Параметр

ChatGPT Search

Perplexity

Google AI Overviews

Основной индекс

Bing + краулеры OpenAI + параметрическая память

Несколько search-API в реальном времени

Индекс Google

Цитат на ответ

Умеренно (4–8)

Много (двузначные числа, глубокая проработка)

Мало (1–3 карточки)

Главный фактор

Плотность фактов + позиция в Bing + извлекаемость

Авторитет домена + академическая глубина

Традиционный граф ранжирования Google

Свежесть

Допускает более старые данные из базового датасета

Экстремальный recency bias

Зависит от циклов Googlebot

ChatGPT балансирует между параметрической памятью и живым поиском: коммерческие интенты инициируют веб-поиск заметно чаще информационных. При живом поиске сильно зависит от позиций Bing. Система сносок при этом выравнивает шансы — по сноске [5] кликают почти так же, как по [1], что снижает ценность абсолютной первой позиции.

Perplexity — "сначала источник, потом ответ". Это транслятор, читающий конкретные документы, поэтому он отдаёт приоритет доменам с высоким авторитетом и материалам исключительной глубины. Типичный срок до первого цитирования при чистой реструктуризации — 30–60 дней, заметно быстрее ChatGPT и Google AI (отраслевой бенчмарк Nico Digital).

Вывод для стратегии: нужны гибридные форматы — глубокий экспертный лонгрид (под Perplexity), жёстко разбитый на самодостаточные модули с резюме в начале каждого раздела и JSON-LD-разметкой (под извлекаемость ChatGPT).

7-этапный аудит ChatGPT-видимости

Практический протокол, по которому можно продиагностировать любой проект:

  1. Доступ краулеров. Проверить robots.txt: явно разрешить OAI-SearchBot и ChatGPT-User (GPTBot — по политике компании). Одно это часто возвращает видимость.

  2. Интеграция с Bing. Bing Webmaster Tools, актуальные sitemap, устранение ошибок сканирования. Для e-commerce — корректность фида в Bing Merchant Center (цены и наличие ChatGPT берёт оттуда).

  3. Валидация Schema. Прогнать целевые страницы через Rich Results Test. Убедиться, что JSON-LD (Organization, FAQPage, Product) соответствует видимому контенту и не спрятан в JS.

  4. Плотность структуры. Скоринг приоритетных страниц: есть ли 40–80-словный прямой ответ в первом экране, иерархия H2/H3, таблицы, списки, замыкающий FAQ.

  5. Свежесть. Проверить даты модификации топ-30 трафиковых страниц. Материалы старше 12 месяцев — на фактологическую актуализацию.

  6. Живое тестирование. Прогнать 10 типичных коммерческих промптов аудитории. Зафиксировать, какие конкуренты попадают в выдачу и какие сторонние источники ChatGPT цитирует.

  7. Gap-анализ. Синтез: что именно ломает видимость — техническая блокировка, индекс Bing, слабая структура, отсутствие на сторонних площадках или устаревший контент.

Про индустриальные кейсы — отдельно и честно. По гайдам ходят красивые цифры: "+447% упоминаний за полгода", "+140% трафика и +62% упоминаний (Farringdons)". Это реальные кейсы из отчётов GEO-агентств, но это их замеры по их методологии, без независимого аудита. Я привожу их как иллюстрацию направления, а не как обещание результата — и вам советую относиться к любым процентам из агентских кейсов (включая мои) с этой поправкой. Воспроизводимый ориентир здесь даёт только академия (Принстон, AgentGEO), а не маркетинговые отчёты.

Кейс: Coffee Way в ChatGPT — что показывают реальные данные

Чтобы не ограничиваться чужими цифрами, покажу замер из нашей практики — с оговорками, которые обычно из кейсов вырезают.

Coffee Way в ChatGPT

Coffee Way в ChatGPT

Бренд — Coffee Way (кофейная франшиза). Замер в ГЕОРанк по ChatGPT, период 11.03–28.05.2026. Общая видимость бренда выросла с ~3% до 25,37% — то есть +22,24 п.п. за два с половиной месяца. На графике видно характерный провал почти в ноль около 24.03 (момент, когда старые упоминания просели, а новый контент ещё не набрал вес в retrieval), после чего — рост до плато ~22% и далее до 25,37%. Тональность упоминаний — положительная.

Теперь то, что я считаю обязательным показать, а не спрятать, — конкурентов в той же выдаче:

Бренд

Видимость в ChatGPT

Δ за период

Тональность

Coffee Way (наш)

25,37%

+22,24

Положительная

One Price Coffee

56,72%

+28,59

Нейтральная

Бодрый день

53,73%

+50,6

Нейтральная

Coffee Like

53,73%

+25,6

Нейтральная

Surf Coffee

35,82%

+32,69

Положительная

Rimmelton Coffee

32,84%

+17,21

Нейтральная

Честная интерпретация, без которой эта таблица была бы рекламой:

Во-первых, по абсолютной видимости Coffee Way пока в нижней половине — выше только Rimmelton. Если бы я хотел "продать" кейс, я бы показал график роста и спрятал эту таблицу. Но абсолютная позиция на старте работ была околонулевой, и +22 п.п. за 2,5 месяца — это реальная динамика, а не финишная точка. Кейс продолжается.

Во-вторых, растут все — у конкурентов стрелки тоже вверх (Бодрый день вообще +50 п.п.). Это значит, что прогревается вся ниша, ChatGPT в принципе стал чаще отвечать про кофейные франшизы, и часть роста Coffee Way — это попутный ветер категории, а не только наша работа. Отделить "эффект агентства" от "эффекта рынка" по одному движку за один период корректно нельзя, и я не буду делать вид, что можно.

В-третьих, положительная тональность при средней видимости — это сигнал, что качество упоминаний выше количества: там, где бренд появляется, он появляется в выгодном контексте. Для франшизы, которую выбирают вдумчиво, это иногда ценнее голого процента.

Что это иллюстрирует методологически: одна цифра видимости в отрыве от конкурентов и динамики ничего не значит. Поэтому в замерах я всегда смотрю связку "дельта + позиция относительно рынка + тональность", а не один красивый процент в баннер.

Старые KPI (позиция, трафик, CTR) слепнут, когда пользователь получает ответ прямо в чате. Новые ориентиры:

  • Share of Voice в ответах ИИ. Процент случаев, когда бренд упомянут в ответах на кластер приоритетных запросов. Берём, например, 100 промптов, считаем долю присутствия. Если бренд в 20 ответах из 100 — SoV 20%. Это аналог "позиций" в новой модели.

  • Частота цитирования (AI Citation Frequency). Абсолютное число прямых сносок на домен. Цитирование, в отличие от упоминания, означает, что модель признала ресурс первоисточником.

  • Точность и тональность упоминания. Модели галлюцинируют — приписывают несуществующие функции, тянут устаревшие тарифы. Мониторинг точности позволяет вовремя править профили на G2 и данные в Wikidata.

  • Referral-трафик и брендовый спрос. Кликов из ChatGPT меньше, но их intent выше — человек пришёл уже прогретым. Косвенный, но показательный сигнал — рост брендовых запросов в классическом поиске после того, как ИИ начал рекомендовать компанию. Любопытно, что по одному из бенчмарков объём брендового поиска коррелирует с цитированием сильнее (0,334), чем число ссылающихся доменов (Perkins Growth Systems, май 2026).

Для сбора нужны специализированные платформы мониторинга LLM-ответов, умеющие учитывать температурные колебания генерации и геолокацию запроса. Из западных — Profound, Peec AI и аналоги; для русскоязычной выдачи (Поиск с Алисой AI, YandexGPT, GigaChat и т. д.) — ГЕОРанк.

Что со всем этим делать завтра

Если убрать хайп, рабочий минимум для входа в ChatGPT выглядит так — в порядке приоритета:

  1. Откройте retrieval-плумбинг. OAI-SearchBot и ChatGPT-User разрешены в robots.txt, сайт верифицирован в Bing Webmaster Tools, приоритетные лендинги отдаются на SSR/SSG, а не CSR.

  2. Перестройте топовые коммерческие страницы под извлекаемость: вопросные H2, 40–80-словные капсулы-ответы под каждым, факты с датами и ссылками, FAQPage-разметка, Organization с sameAs.

  3. Стройте внешний след. Профили на отзовиках и B2B-агрегаторах, консистентные с Wikidata; органические упоминания в нишевых обсуждениях; экспертный контент на трастовых площадках. Это то, что модель реально взвешивает.

  4. Поставьте свежесть на календарь. Квартальный апдейт фактуры на ключевых страницах, чтобы "свежесть" работала на вас, а не на конкурента.

И главное, ради чего всё это сейчас, а не через год: окно, в котором небольшой бренд с честным, структурно чистым и фактологически плотным контентом может обойти в рекомендациях ИИ корпорацию с раздутым, но рыхлым сайтом, — реально существует. Принстонский "эффект выравнивания" (+115% для слабых доменов на одной тактике) — это не маркетинговое обещание, а воспроизводимый академический результат. Долго такая ситуация не продержится.

Если в материале вы нашли цифру без указания источника — напишите, проверю и поправлю. По моему опыту, в GEO именно дисциплина "откуда цифра" отличает рабочую стратегию от красивой презентации.

Максим Фомин, сооснователь Vverh.Digital, организатор GEOMI Awards.