Проверка robots.txt для AI-краулеров

Вставьте адрес сайта — и сразу увидите, кто из AI-краулеров туда заходит, а кто заблокирован. Проверяем 8 ботов: GPTBot, ClaudeBot, PerplexityBot, Applebot-Extended, Bytespider, CCBot, ChatGPT-User, Google-Extended.

Загружаем robots.txt и проверяем правила…

Зачем проверять robots.txt для AI-краулеров?

AI-краулеры — отдельный класс ботов с другими правилами

Классические директивы в robots.txt были спроектированы под поисковые боты: Googlebot, Yandex и другие. AI-компании выпустили собственных краулеров с отдельными идентификаторами — GPTBot, ClaudeBot, PerplexityBot, Google-Extended и ещё несколько. Если в вашем robots.txt нет правил для этих агентов, они по умолчанию получают доступ ко всему сайту — включая контент, который вы, возможно, не хотите использовать в обучении языковых моделей.

Какие AI-краулеры проверяет инструмент

Инструмент проверяет актуальный набор из восьми ботов: GPTBot (обучение OpenAI), OAI-SearchBot (поиск в ChatGPT), ChatGPT-User (загрузка по запросу пользователя), ClaudeBot (Anthropic), Google-Extended (Gemini/Vertex без влияния на обычный поиск), Applebot-Extended (Apple Intelligence), PerplexityBot и Bytespider (ByteDance). Для каждого показывается статус: Allow, Disallow или не упомянут — то есть неявно разрешён.

Разделяйте обучение и ретривал

Ключевое отличие AI-краулеров: одни используют контент для обучения моделей (GPTBot, CCBot), другие — для ответов пользователям в реальном времени (OAI-SearchBot, PerplexityBot). Это принципиально разные сценарии. Вы можете заблокировать обучающие боты, сохранив видимость в AI-поиске: Disallow: / для GPTBot и Allow: / для OAI-SearchBot. Такая тонкая настройка невозможна через общий User-agent: *.

Типичные ошибки при работе с AI-краулерами

Самая распространённая ошибка — блокировать только GPTBot, не упоминая OAI-SearchBot и ChatGPT-User: три разных агента OpenAI с разными целями. Другая ошибка — использовать устаревшие списки ботов из 2023 года: у нескольких вендоров сменились идентификаторы. Важно также понимать, что robots.txt — не барьер безопасности: если контент уже вошёл в обучающие датасеты, блокировка его оттуда не уберёт. Файл управляет только новыми обходами.

Как использовать результаты проверки

Инструмент показывает правила для каждого из восьми ботов с явным статусом Allow/Disallow/Не указан. «Не указан» означает разрешение по умолчанию — часто нежелательный вариант. Идеальный результат зависит от вашей стратегии: если вы хотите присутствовать в AI-поиске, но не участвовать в обучении, явно укажите Allow для поисковых ботов и Disallow для обучающих. Дополнительно в robots.txt можно добавить директиву Content-Signal — она декларирует права AI-систем на использование контента для поиска, ввода и обучения.

Развернуть все

Подробный разбор инструмента в блоге →

Часто задаваемые вопросы

Как заблокировать обучающий краулер OpenAI, не затрагивая их поиск?

Используйте отдельные правила для разных user-agents. Например: Disallow: / для GPTBot (обучение) и Allow: / для OAI-SearchBot (поиск ChatGPT). Это два разных бота — блокировка одного не затрагивает другой.

Что будет, если не указывать правила для AI-краулеров в robots.txt?

По умолчанию они получат полный доступ к сайту — как любой бот, не упомянутый в robots.txt. Правило User-agent: * распространяется на всех неназванных ботов, включая AI-краулеров.

Влияет ли блокировка GPTBot на позиции в поиске Google?

Нет. GPTBot и Googlebot — принципиально разные краулеры с разными user-agents и целями. Блокировка GPTBot никак не влияет на индексацию Googlebot или Google-Extended.

Как часто нужно обновлять список AI-краулеров в robots.txt?

Список расширяется стремительно. Рекомендуем проверять актуальность раз в квартал: крупные AI-компании регулярно запускают новых ботов с новыми user-agent именами.

По этой теме

Проверим не только robots.txt, а весь доступ сайта для AI-краулеров целиком

GEO-аудит: готовность сайта к ИИ-поиску