Robots.txt для AI-ботов : Полное руководство

Время чтения: 1 минуты
Сохранить статью

Сохранить ссылку

Отправить себе на почту

Если нет времени читать

В статье содержится:

Основы robots.txt и стратегия для AI-ботов

С 2025 года AI-боты обходят сайты активнее, чем традиционные поисковики. Согласно исследованию Alli AI (апрель 2026), краулер ChatGPT-User делает в 3.6 раза больше запросов, чем Googlebot. При этом не все боты одинаковы:

  • Поисковые боты (ChatGPT-User, PerplexityBot, ClaudeBot) — показывают ваш сайт в ответах AI, приводят трафик
  • Обучающие боты (GPTBot, CCBot, Google-Extended) — скачивают контент для тренировки моделей

💡 Ключевая идея: Вы можете разрешить AI цитировать ваш сайт (GEO-видимость), но запретить обучаться на вашем контенте. Это даёт трафик без потери интеллектуальной собственности.

Зачем настраивать robots.txt для AI:

  1. Контроль над контентом — решаете, кто может использовать ваши материалы для обучения моделей
  2. GEO-оптимизация — попадаете в ответы ChatGPT, Perplexity, Claude (новый канал трафика)
  3. Защита от перегрузки — блокируете агрессивные краулеры, экономите ресурсы сервера
  4. Юридическая защита — соблюдаете авторские права и лицензии на контент

Список AI-ботов 2026 с официальными источниками

Ниже приведён актуальный список AI-краулеров с подтверждёнными user-agent строками из официальных источников.

Поисковые боты (для GEO-видимости)

User-agent Компания Назначение Источник
ChatGPT-User OpenAI Получает страницы в реальном времени для ответов ChatGPT OpenAI Docs
OAI-SearchBot OpenAI Индексирует контент для ChatGPT Search OpenAI Docs
PerplexityBot Perplexity AI Поисковый индексатор для Perplexity Perplexity Docs
ClaudeBot Anthropic Получает контент для ответов Claude Anthropic Support
GoogleOther Google AI-поиск (Gemini, AI Overview) Google Developers

Обучающие боты (для тренировки моделей)

User-agent Компания Назначение Источник
GPTBot OpenAI Сбор данных для обучения GPT-4, GPT-5 OpenAI Docs
Google-Extended Google Обучение Gemini и Bard Google Developers
CCBot Common Crawl Открытый датасет для обучения AI (используется всеми) Common Crawl FAQ
Meta-ExternalAgent Meta Обучение Meta AI и Llama Meta Developers
Bytespider ByteDance Обучение моделей TikTok AI ByteDance Webmaster
Amazonbot Amazon Обучение Alexa и AWS AI Amazon Developer

📚 ИСТОЧНИКИ ДАННЫХ:

  • Cloudflare Research (2025-2026): Анализ 226 AI-краулеров (Cloudflare Blog)
  • HTTP Archive (июль 2025): Данные по 12 млн сайтов (Paul Calvano)
  • Alli AI Research (апрель 2026): 24 млн запросов (Search Engine Journal)
  • Known Agents: База 600+ AI-агентов (KnownAgents.com)

Статистика использования AI-ботов (2025-2026)

📊 Ключевые данные:

  • ChatGPT-User: рост запросов на 2,825% YoY (год к году)
  • GPTBot: рост на 305% с мая 2024 по май 2025
  • CCBot: самый блокируемый бот (21% топ-1000 сайтов)
  • ClaudeBot: падение активности на 46%

Что такое robots.txt и базовый синтаксис

Robots.txt — это текстовый файл в корне вашего сайта (https://site.ru/robots.txt), который содержит инструкции для поисковых роботов и краулеров. Он говорит ботам, какие страницы можно сканировать, а какие — нет.

Базовый синтаксис robots.txt:

# Комментарий (строка начинается с #)
 
User-agent: [имя бота]
Disallow: /запрещённая-папка/
Allow: /разрешённая-папка/
 
Sitemap: https://site.ru/sitemap.xml

Основные директивы robots.txt

Директива Описание Пример
User-agent: Указывает, к какому боту применяется правило User-agent: GPTBot
Disallow: Запрещает доступ к URL или папке Disallow: /admin/
Allow: Разрешает доступ (отменяет Disallow) Allow: /blog/
Sitemap: Указывает расположение карты сайта Sitemap: https://site.ru/sitemap.xml

⚠️ Важно: Robots.txt работает на добровольной основе. Легитимные боты (Google, OpenAI, Anthropic) соблюдают правила, но недобросовестные краулеры могут игнорировать файл.

Стратегия: GEO без обучения (рекомендуется)

Оптимальная стратегия для большинства сайтов в 2026 году:

✅ РАЗРЕШИТЬ: Поисковые боты (ChatGPT-User, OAI-SearchBot, PerplexityBot, ClaudeBot)
❌ ЗАБЛОКИРОВАТЬ: Обучающие боты (GPTBot, CCBot, Google-Extended, anthropic-ai)

Результаты применения стратегии:

Результат Описание
GEO-видимость Ваш сайт появляется в ответах ChatGPT, Perplexity, Claude с прямыми ссылками
Трафик из AI Пользователи переходят на сайт из AI-поисковиков (ChatGPT добавляет UTM-метки: utm_source=chatgpt.com)
Защита контента GPT-5, Gemini, Claude не обучаются на вашем контенте
Контроль нарратива AI показывает актуальную информацию с вашего сайта

Настройка robots.txt: конфигурации, WordPress и практика

Настройка robots.txt для WordPress

Способ 1: Редактирование через FTP/хостинг (рекомендуется)

  1. Подключитесь к хостингу через FTP (FileZilla, Total Commander) или файловый менеджер хостинга
  2. Перейдите в корневую директорию сайта (обычно /public_html/ или /www/)
  3. Найдите файл robots.txt (если его нет — создайте новый)
  4. Скопируйте нужную конфигурацию из раздела ниже
  5. Сохраните файл

Способ 2: Через плагины WordPress

Плагин Yoast SEO:

  1. Перейдите в SEO → Инструменты → Редактор файлов
  2. Нажмите Создать файл robots.txt
  3. Вставьте конфигурацию
  4. Сохраните изменения

Плагин Rank Math:

  1. Rank Math → General Settings → Edit robots.txt
  2. Вставьте конфигурацию
  3. Нажмите Save Changes

Обязательные папки для блокировки в WordPress

WordPress имеет специфичную структуру, которую нужно защитить от индексации:

# Системные папки WordPress
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
 
# Технические файлы
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /trackback/
 
# Поиск и фильтры
Disallow: /?s=
Disallow: /search
Disallow: /author/
 
# Параметры URL
Disallow: /*?*
Disallow: /*&

Готовые конфигурации robots.txt

Конфигурация 1: GEO без обучения (Рекомендуется)

Эта конфигурация разрешает AI показывать ваш сайт в ответах, но запрещает использовать контент для обучения моделей.

# ============================================
# ROBOTS.TXT для WordPress + AI-боты (2026)
# Стратегия: GEO-видимость БЕЗ обучения
# ============================================
 
# ✅ РАЗРЕШИТЬ: Поисковые AI-боты (GEO)
 
# OpenAI - ChatGPT Search
User-agent: ChatGPT-User
Allow: /
 
User-agent: OAI-SearchBot
Allow: /
 
# Perplexity AI
User-agent: PerplexityBot
Allow: /
 
# Anthropic Claude
User-agent: ClaudeBot
Allow: /
 
# Google AI (Gemini)
User-agent: GoogleOther
Allow: /
 
# Яндекс (для русскоязычных сайтов)
User-agent: YandexBot
Allow: /
 
# ❌ ЗАБЛОКИРОВАТЬ: Обучающие боты
 
# OpenAI - обучение GPT
User-agent: GPTBot
Disallow: /
 
# Anthropic - обучение Claude
User-agent: anthropic-ai
Disallow: /
 
# Google - обучение Gemini
User-agent: Google-Extended
Disallow: /
 
# Common Crawl (используется ВСЕМИ)
User-agent: CCBot
Disallow: /
 
# Meta AI
User-agent: Meta-ExternalAgent
Disallow: /
 
User-agent: FacebookBot
Disallow: /
 
# ByteDance/TikTok
User-agent: Bytespider
Disallow: /
 
# Amazon Alexa
User-agent: Amazonbot
Disallow: /
 
# Apple
User-agent: Applebot-Extended
Disallow: /
 
# WordPress: Блокировка технических папок
 
User-agent: *
 
# Админка
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
 
# Системные файлы
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
 
# Технические страницы
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /trackback/
 
# Поиск
Disallow: /?s=
Disallow: /search
Disallow: /author/
 
# Параметры URL
Disallow: /*?*
Disallow: /*&
 
# ✅ РАЗРЕШИТЬ: Важный контент
 
# Блог/статьи
Allow: /blog/
Allow: /category/
Allow: /tag/
 
# Услуги
Allow: /services/
Allow: /portfolio/
Allow: /cases/
 
# О компании
Allow: /about/
Allow: /contact/
 
# Медиафайлы
Allow: /wp-content/uploads/
 
# Sitemap
Sitemap: https://ваш-сайт.ru/sitemap.xml
Sitemap: https://ваш-сайт.ru/sitemap_index.xml

Конфигурация 2: Полный доступ для AI

Используйте, если хотите максимальной видимости в AI (медиа, образовательные проекты).

# ПОЛНЫЙ ДОСТУП для AI-ботов
 
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: GPTBot
User-agent: PerplexityBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: CCBot
Allow: /
 
# WordPress: блокировка технических папок
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-login.php
 
Sitemap: https://ваш-сайт.ru/sitemap.xml

Конфигурация 3: Полная блокировка AI

Для платного контента, закрытых сообществ, корпоративных сайтов.

# БЛОКИРОВКА ВСЕХ AI-ботов
 
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: GPTBot
User-agent: PerplexityBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: CCBot
User-agent: Amazonbot
User-agent: Bytespider
User-agent: Meta-ExternalAgent
Disallow: /
 
# Разрешить традиционные поисковики
User-agent: Googlebot
User-agent: Bingbot
User-agent: YandexBot
Allow: /
 
# WordPress
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
 
Sitemap: https://ваш-сайт.ru/sitemap.xml

Проверка и тестирование robots.txt

Шаг 1: Проверка синтаксиса

Используйте онлайн-инструменты для проверки корректности robots.txt:

Шаг 2: Прямая проверка

Откройте в браузере:

https://ваш-сайт.ru/robots.txt

Файл должен отображаться как обычный текст. Если видите ошибку 404 — файл не создан или находится не в корневой директории.

Шаг 3: Мониторинг активности ботов

  • Known Agents: Agent Analytics — показывает, какие боты заходят на сайт
  • Cloudflare Analytics: Вкладка «Security» → «Bots»
  • Google Analytics 4: Отчёты → Источники трафика → фильтр utm_source = chatgpt.com

Частые вопросы о robots.txt и AI-ботах

❓ Влияет ли блокировка AI-ботов на SEO в Google?

Нет. Блокировка обучающих ботов (GPTBot, CCBot, Google-Extended) не влияет на ранжирование в Google. Googlebot и Google-Extended — это разные боты.

Источник: John Mueller (Google Search Advocate) подтвердил (декабрь 2025), что блокировка Google-Extended не влияет на SEO.

❓ Могу ли я полностью заблокировать ChatGPT?

Частично. Вы можете заблокировать GPTBot (обучение) и OAI-SearchBot (индексация), но ChatGPT-User не соблюдает robots.txt. Для полной блокировки используйте файрвол (блокировка по IP или User-Agent на уровне сервера).

❓ Как часто нужно обновлять robots.txt?

Рекомендуется проверять каждые 3-6 месяцев. AI-компании регулярно запускают новые боты:

  • GPTBot появился в августе 2023
  • ClaudeBot — декабрь 2023
  • PerplexityBot — январь 2024
  • Applebot-Extended — май 2024

❓ Можно ли разрешить AI индексировать только определённые разделы?

Да. Используйте директивы Allow и Disallow:

# Разрешить AI только блог
User-agent: GPTBot
Disallow: /
Allow: /blog/
Allow: /articles/

❓ Нужно ли указывать каждый бот отдельно в robots.txt?

Да. Нельзя использовать групповые директивы. Каждый User-agent требует отдельного блока:

# ❌ НЕПРАВИЛЬНО
User-agent: GPTBot, ClaudeBot, CCBot
Disallow: /
 
# ✅ ПРАВИЛЬНО
User-agent: GPTBot
Disallow: /
 
User-agent: ClaudeBot
Disallow: /
 
User-agent: CCBot
Disallow: /

Заключение: robots.txt как инструмент GEO-стратегии

Настройка robots.txt для AI-ботов в 2026 году — это стратегическое решение, которое влияет на видимость вашего сайта в новом канале трафика. Правильная конфигурация позволяет:

  • ✅ Получать трафик из ChatGPT, Perplexity, Claude
  • ✅ Контролировать использование вашего контента
  • ✅ Защищать интеллектуальную собственность
  • ✅ Оптимизировать нагрузку на сервер

Рекомендуемая стратегия: Разрешите поисковые боты (GEO-видимость), заблокируйте обучающие боты. Это даст вам видимость без потери контроля над контентом.

💼 Нужна помощь с настройкой robots.txt или GEO-оптимизацией?
Агентство OVS специализируется на продвижении сайтов в AI-поисковиках и классическом SEO. Свяжитесь с нами для консультации.

Скопировать ссылку

Скопируйте ссылку на статью

Интересные статьи по теме

Digital Маркетолог

Овсянников Алексей

Пишите в мессенджерах
Консультация
по заказу услуг

Расскажу чем могу помочь, и сколько это будет стоить

Подписчикам каналов скидка 5-10%
YouTube

@ovs-agency

RuTube

@ovs-agency