Docs > robots.txt

robots.txt

Robots.txt - файл, расположенный в корневой директории сайта, который содержит инструкции для поисковых роботов относительно того, какие части сайта разрешено или запрещено сканировать (инструкции носят рекомендательный характер).

Назначение robots.txt

  • Основная цель robots.txt — контролировать сканирование поисковыми роботами различных разделов и страниц сайта.
  • Содержит инструкции каким роботам и какие страницы допускается сканировать, а какие нет.
  • Позволяет исключить из сканирования технические, дублирующиеся, пустые или нежелательные страницы (например, админ-панели, корзины, личные кабинеты), которые не должны попадать в поисковый индекс.
  • Если у сайта нет robots.txt, поисковые роботы считают все страницы ресурса открытыми для индексирования.

Расположение и Доступ

  • Файл robots.txt обязательно должен находиться в корневой директории сайта (например, public\_html).
  • Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt»

Основные Директивы и Синтаксис

User-agent

  • Файл состоит из блоков инструкций, каждый из которых начинается с директивы User-agent.
  • User-agent: Указывает, к какому поисковому роботу применяется блок правил - Googlebot, Yandex, Googlebot-Image, YandexBot и так далее.
  • User-agent: \* применяется ко всем поисковым роботам.

Disallow

  • Disallow: Запрещает сканирование указанного пути (страницы, папки или всего сайта).
  • Disallow: / - запрещает сканирование всего сайта.
  • Disallow: /category1/ - запрещает сканирование папки /category1/ и всех вложенных страниц.
  • Disallow: /category2/$ - запрещает сканирование только страницы /category2/ (с точным соответствием).

Allow

  • Разрешает сканирование указанного пути. Используется для создания исключений в закрытых разделах.
  • Allow: /feed/turbo/ - разрешает сканирование страницы /feed/turbo/ даже если папка /feed/ закрыта.

Sitemap

  • Указывает полный URL-адрес XML-карты сайта. Помогает роботам обнаружить и проиндексировать важные страницы.
  • Необязательная директива, может повторяться несколько раз или не использоваться совсем.

\#

  • Используется для комментариев в файле. Игнорируется поисковыми роботами.

\*

  • Используется как wildcard (шаблон), указывая на любую последовательность символов.
  • Disallow: /example/\* - запрещает все страницы внутри /example/.
  • Disallow: \*/shop - запрещает все пути, заканчивающиеся на /shop.

$

  • Используется для указания точного соответствия концу строки. Отменяет действие \* в конце строки.
  • Disallow: /example$ - запрещает только страницу /example, но не /example.html или /example1

Clean-param для Яндекса

  • Указывает параметры URL, которые следует игнорировать для предотвращения дублирования контента.
  • Сообщает роботу Яндекса, что не нужно сканировать дублированную информацию, возникающую из-за использования URL с различными параметрами.

Crawl-delay

  • Не поддерживается Google с сентября 2019 г., поддерживается другими роботами, например, Яндексом) Устанавливает минимальный интервал в секундах между обращениями робота к сайту для снижения нагрузки на сервер.

Host

  • Директива Host — инструкция для робота Яндекса, которая указывает главное зеркало сайта.

Требования к Файлу Robots.txt

  • Имя файла должно быть строго robots.txt (ни Robots.txt, ни ROBOTS.TXT).
  • Должен находиться в корневой директории.
  • Кодировка файла должна быть UTF-8.
  • Каждая директива начинается с новой строки.
  • Одна директива в строке, без пробелов в начале строки.
  • Без кавычек в директивах.
  • Не нужно закрывать директивы точкой или точкой с запятой.
  • Размер файла не должен превышать 500 КБ.
  • Файл должен быть написан на английском языке.
  • Если файл не соответствует одному из требований, весь сайт считается открытым для индексирования.

Проверка Работы Robots.txt

  • Можно проверить доступность файла, перейдя по адресу http://yoursiteadress.com/robots.txt.
  • Использовать инструменты анализа robots.txt в Google Search Console и Яндекс.Вебмастер.

Валидаторы Robots.txt

Была ли эта статья полезной?