В статье содержится:
Основы robots.txt и стратегия для AI-ботов
С 2025 года AI-боты обходят сайты активнее, чем традиционные поисковики. Согласно исследованию Alli AI (апрель 2026), краулер ChatGPT-User делает в 3.6 раза больше запросов, чем Googlebot. При этом не все боты одинаковы:
- Поисковые боты (ChatGPT-User, PerplexityBot, ClaudeBot) — показывают ваш сайт в ответах AI, приводят трафик
- Обучающие боты (GPTBot, CCBot, Google-Extended) — скачивают контент для тренировки моделей
💡 Ключевая идея: Вы можете разрешить AI цитировать ваш сайт (GEO-видимость), но запретить обучаться на вашем контенте. Это даёт трафик без потери интеллектуальной собственности.
Зачем настраивать robots.txt для AI:
- Контроль над контентом — решаете, кто может использовать ваши материалы для обучения моделей
- GEO-оптимизация — попадаете в ответы ChatGPT, Perplexity, Claude (новый канал трафика)
- Защита от перегрузки — блокируете агрессивные краулеры, экономите ресурсы сервера
- Юридическая защита — соблюдаете авторские права и лицензии на контент
Список AI-ботов 2026 с официальными источниками
Ниже приведён актуальный список AI-краулеров с подтверждёнными user-agent строками из официальных источников.
Поисковые боты (для GEO-видимости)
| User-agent | Компания | Назначение | Источник |
|---|---|---|---|
ChatGPT-User |
OpenAI | Получает страницы в реальном времени для ответов ChatGPT | OpenAI Docs |
OAI-SearchBot |
OpenAI | Индексирует контент для ChatGPT Search | OpenAI Docs |
PerplexityBot |
Perplexity AI | Поисковый индексатор для Perplexity | Perplexity Docs |
ClaudeBot |
Anthropic | Получает контент для ответов Claude | Anthropic Support |
GoogleOther |
AI-поиск (Gemini, AI Overview) | Google Developers |
Обучающие боты (для тренировки моделей)
| User-agent | Компания | Назначение | Источник |
|---|---|---|---|
GPTBot |
OpenAI | Сбор данных для обучения GPT-4, GPT-5 | OpenAI Docs |
Google-Extended |
Обучение Gemini и Bard | Google Developers | |
CCBot |
Common Crawl | Открытый датасет для обучения AI (используется всеми) | Common Crawl FAQ |
Meta-ExternalAgent |
Meta | Обучение Meta AI и Llama | Meta Developers |
Bytespider |
ByteDance | Обучение моделей TikTok AI | ByteDance Webmaster |
Amazonbot |
Amazon | Обучение Alexa и AWS AI | Amazon Developer |
📚 ИСТОЧНИКИ ДАННЫХ:
- Cloudflare Research (2025-2026): Анализ 226 AI-краулеров (Cloudflare Blog)
- HTTP Archive (июль 2025): Данные по 12 млн сайтов (Paul Calvano)
- Alli AI Research (апрель 2026): 24 млн запросов (Search Engine Journal)
- Known Agents: База 600+ AI-агентов (KnownAgents.com)
Статистика использования AI-ботов (2025-2026)
📊 Ключевые данные:
- ChatGPT-User: рост запросов на 2,825% YoY (год к году)
- GPTBot: рост на 305% с мая 2024 по май 2025
- CCBot: самый блокируемый бот (21% топ-1000 сайтов)
- ClaudeBot: падение активности на 46%
Что такое robots.txt и базовый синтаксис
Robots.txt — это текстовый файл в корне вашего сайта (https://site.ru/robots.txt), который содержит инструкции для поисковых роботов и краулеров. Он говорит ботам, какие страницы можно сканировать, а какие — нет.
Базовый синтаксис robots.txt:
# Комментарий (строка начинается с #)
User-agent: [имя бота]
Disallow: /запрещённая-папка/
Allow: /разрешённая-папка/
Sitemap: https://site.ru/sitemap.xml
Основные директивы robots.txt
| Директива | Описание | Пример |
|---|---|---|
User-agent: |
Указывает, к какому боту применяется правило | User-agent: GPTBot |
Disallow: |
Запрещает доступ к URL или папке | Disallow: /admin/ |
Allow: |
Разрешает доступ (отменяет Disallow) | Allow: /blog/ |
Sitemap: |
Указывает расположение карты сайта | Sitemap: https://site.ru/sitemap.xml |
⚠️ Важно: Robots.txt работает на добровольной основе. Легитимные боты (Google, OpenAI, Anthropic) соблюдают правила, но недобросовестные краулеры могут игнорировать файл.
Стратегия: GEO без обучения (рекомендуется)
Оптимальная стратегия для большинства сайтов в 2026 году:
✅ РАЗРЕШИТЬ: Поисковые боты (ChatGPT-User, OAI-SearchBot, PerplexityBot, ClaudeBot)
❌ ЗАБЛОКИРОВАТЬ: Обучающие боты (GPTBot, CCBot, Google-Extended, anthropic-ai)
Результаты применения стратегии:
| Результат | Описание |
|---|---|
| GEO-видимость | Ваш сайт появляется в ответах ChatGPT, Perplexity, Claude с прямыми ссылками |
| Трафик из AI | Пользователи переходят на сайт из AI-поисковиков (ChatGPT добавляет UTM-метки: utm_source=chatgpt.com) |
| Защита контента | GPT-5, Gemini, Claude не обучаются на вашем контенте |
| Контроль нарратива | AI показывает актуальную информацию с вашего сайта |
Настройка robots.txt: конфигурации, WordPress и практика
Настройка robots.txt для WordPress
Способ 1: Редактирование через FTP/хостинг (рекомендуется)
- Подключитесь к хостингу через FTP (FileZilla, Total Commander) или файловый менеджер хостинга
- Перейдите в корневую директорию сайта (обычно
/public_html/или/www/) - Найдите файл
robots.txt(если его нет — создайте новый) - Скопируйте нужную конфигурацию из раздела ниже
- Сохраните файл
Способ 2: Через плагины WordPress
Плагин Yoast SEO:
- Перейдите в SEO → Инструменты → Редактор файлов
- Нажмите Создать файл robots.txt
- Вставьте конфигурацию
- Сохраните изменения
Плагин Rank Math:
- Rank Math → General Settings → Edit robots.txt
- Вставьте конфигурацию
- Нажмите Save Changes
Обязательные папки для блокировки в WordPress
WordPress имеет специфичную структуру, которую нужно защитить от индексации:
# Системные папки WordPress
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
# Технические файлы
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /trackback/
# Поиск и фильтры
Disallow: /?s=
Disallow: /search
Disallow: /author/
# Параметры URL
Disallow: /*?*
Disallow: /*&
Готовые конфигурации robots.txt
Конфигурация 1: GEO без обучения (Рекомендуется)
Эта конфигурация разрешает AI показывать ваш сайт в ответах, но запрещает использовать контент для обучения моделей.
# ============================================
# ROBOTS.TXT для WordPress + AI-боты (2026)
# Стратегия: GEO-видимость БЕЗ обучения
# ============================================
# ✅ РАЗРЕШИТЬ: Поисковые AI-боты (GEO)
# OpenAI - ChatGPT Search
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Perplexity AI
User-agent: PerplexityBot
Allow: /
# Anthropic Claude
User-agent: ClaudeBot
Allow: /
# Google AI (Gemini)
User-agent: GoogleOther
Allow: /
# Яндекс (для русскоязычных сайтов)
User-agent: YandexBot
Allow: /
# ❌ ЗАБЛОКИРОВАТЬ: Обучающие боты
# OpenAI - обучение GPT
User-agent: GPTBot
Disallow: /
# Anthropic - обучение Claude
User-agent: anthropic-ai
Disallow: /
# Google - обучение Gemini
User-agent: Google-Extended
Disallow: /
# Common Crawl (используется ВСЕМИ)
User-agent: CCBot
Disallow: /
# Meta AI
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: FacebookBot
Disallow: /
# ByteDance/TikTok
User-agent: Bytespider
Disallow: /
# Amazon Alexa
User-agent: Amazonbot
Disallow: /
# Apple
User-agent: Applebot-Extended
Disallow: /
# WordPress: Блокировка технических папок
User-agent: *
# Админка
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Системные файлы
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
# Технические страницы
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /trackback/
# Поиск
Disallow: /?s=
Disallow: /search
Disallow: /author/
# Параметры URL
Disallow: /*?*
Disallow: /*&
# ✅ РАЗРЕШИТЬ: Важный контент
# Блог/статьи
Allow: /blog/
Allow: /category/
Allow: /tag/
# Услуги
Allow: /services/
Allow: /portfolio/
Allow: /cases/
# О компании
Allow: /about/
Allow: /contact/
# Медиафайлы
Allow: /wp-content/uploads/
# Sitemap
Sitemap: https://ваш-сайт.ru/sitemap.xml
Sitemap: https://ваш-сайт.ru/sitemap_index.xml
Конфигурация 2: Полный доступ для AI
Используйте, если хотите максимальной видимости в AI (медиа, образовательные проекты).
# ПОЛНЫЙ ДОСТУП для AI-ботов
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: GPTBot
User-agent: PerplexityBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: CCBot
Allow: /
# WordPress: блокировка технических папок
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-login.php
Sitemap: https://ваш-сайт.ru/sitemap.xml
Конфигурация 3: Полная блокировка AI
Для платного контента, закрытых сообществ, корпоративных сайтов.
# БЛОКИРОВКА ВСЕХ AI-ботов
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: GPTBot
User-agent: PerplexityBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: CCBot
User-agent: Amazonbot
User-agent: Bytespider
User-agent: Meta-ExternalAgent
Disallow: /
# Разрешить традиционные поисковики
User-agent: Googlebot
User-agent: Bingbot
User-agent: YandexBot
Allow: /
# WordPress
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Sitemap: https://ваш-сайт.ru/sitemap.xml
Проверка и тестирование robots.txt
Шаг 1: Проверка синтаксиса
Используйте онлайн-инструменты для проверки корректности robots.txt:
- Google Search Console: Search Console
- Technical SEO Tools: Robots.txt Tester
- Ryte: Robots.txt Validator
Шаг 2: Прямая проверка
Откройте в браузере:
https://ваш-сайт.ru/robots.txt
Файл должен отображаться как обычный текст. Если видите ошибку 404 — файл не создан или находится не в корневой директории.
Шаг 3: Мониторинг активности ботов
- Known Agents: Agent Analytics — показывает, какие боты заходят на сайт
- Cloudflare Analytics: Вкладка «Security» → «Bots»
- Google Analytics 4: Отчёты → Источники трафика → фильтр
utm_source = chatgpt.com
Частые вопросы о robots.txt и AI-ботах
❓ Влияет ли блокировка AI-ботов на SEO в Google?
Нет. Блокировка обучающих ботов (GPTBot, CCBot, Google-Extended) не влияет на ранжирование в Google. Googlebot и Google-Extended — это разные боты.
Источник: John Mueller (Google Search Advocate) подтвердил (декабрь 2025), что блокировка Google-Extended не влияет на SEO.
❓ Могу ли я полностью заблокировать ChatGPT?
Частично. Вы можете заблокировать GPTBot (обучение) и OAI-SearchBot (индексация), но ChatGPT-User не соблюдает robots.txt. Для полной блокировки используйте файрвол (блокировка по IP или User-Agent на уровне сервера).
❓ Как часто нужно обновлять robots.txt?
Рекомендуется проверять каждые 3-6 месяцев. AI-компании регулярно запускают новые боты:
- GPTBot появился в августе 2023
- ClaudeBot — декабрь 2023
- PerplexityBot — январь 2024
- Applebot-Extended — май 2024
❓ Можно ли разрешить AI индексировать только определённые разделы?
Да. Используйте директивы Allow и Disallow:
# Разрешить AI только блог
User-agent: GPTBot
Disallow: /
Allow: /blog/
Allow: /articles/
❓ Нужно ли указывать каждый бот отдельно в robots.txt?
Да. Нельзя использовать групповые директивы. Каждый User-agent требует отдельного блока:
# ❌ НЕПРАВИЛЬНО
User-agent: GPTBot, ClaudeBot, CCBot
Disallow: /
# ✅ ПРАВИЛЬНО
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
Заключение: robots.txt как инструмент GEO-стратегии
Настройка robots.txt для AI-ботов в 2026 году — это стратегическое решение, которое влияет на видимость вашего сайта в новом канале трафика. Правильная конфигурация позволяет:
- ✅ Получать трафик из ChatGPT, Perplexity, Claude
- ✅ Контролировать использование вашего контента
- ✅ Защищать интеллектуальную собственность
- ✅ Оптимизировать нагрузку на сервер
Рекомендуемая стратегия: Разрешите поисковые боты (GEO-видимость), заблокируйте обучающие боты. Это даст вам видимость без потери контроля над контентом.
💼 Нужна помощь с настройкой robots.txt или GEO-оптимизацией?
Агентство OVS специализируется на продвижении сайтов в AI-поисковиках и классическом SEO. Свяжитесь с нами для консультации.





























