AI-краулеры — отдельный класс ботов с другими правилами
Классические директивы в robots.txt были спроектированы под поисковые боты: Googlebot, Yandex и другие. AI-компании выпустили собственных краулеров с отдельными идентификаторами — GPTBot, ClaudeBot, PerplexityBot, Google-Extended и ещё несколько. Если в вашем robots.txt нет правил для этих агентов, они по умолчанию получают доступ ко всему сайту — включая контент, который вы, возможно, не хотите использовать в обучении языковых моделей.
Какие AI-краулеры проверяет инструмент
Инструмент проверяет актуальный набор из восьми ботов: GPTBot (обучение OpenAI), OAI-SearchBot (поиск в ChatGPT), ChatGPT-User (загрузка по запросу пользователя), ClaudeBot (Anthropic), Google-Extended (Gemini/Vertex без влияния на обычный поиск), Applebot-Extended (Apple Intelligence), PerplexityBot и Bytespider (ByteDance). Для каждого показывается статус: Allow, Disallow или не упомянут — то есть неявно разрешён.
Разделяйте обучение и ретривал
Ключевое отличие AI-краулеров: одни используют контент для обучения моделей (GPTBot, CCBot), другие — для ответов пользователям в реальном времени (OAI-SearchBot, PerplexityBot). Это принципиально разные сценарии. Вы можете заблокировать обучающие боты, сохранив видимость в AI-поиске: Disallow: / для GPTBot и Allow: / для OAI-SearchBot. Такая тонкая настройка невозможна через общий User-agent: *.
Типичные ошибки при работе с AI-краулерами
Самая распространённая ошибка — блокировать только GPTBot, не упоминая OAI-SearchBot и ChatGPT-User: три разных агента OpenAI с разными целями. Другая ошибка — использовать устаревшие списки ботов из 2023 года: у нескольких вендоров сменились идентификаторы. Важно также понимать, что robots.txt — не барьер безопасности: если контент уже вошёл в обучающие датасеты, блокировка его оттуда не уберёт. Файл управляет только новыми обходами.
Как использовать результаты проверки
Инструмент показывает правила для каждого из восьми ботов с явным статусом Allow/Disallow/Не указан. «Не указан» означает разрешение по умолчанию — часто нежелательный вариант. Идеальный результат зависит от вашей стратегии: если вы хотите присутствовать в AI-поиске, но не участвовать в обучении, явно укажите Allow для поисковых ботов и Disallow для обучающих. Дополнительно в robots.txt можно добавить директиву Content-Signal — она декларирует права AI-систем на использование контента для поиска, ввода и обучения.