robots.txt

Robots.txt - файл, расположенный в корневой директории сайта, который содержит инструкции для поисковых роботов относительно того, какие части сайта разрешено или запрещено сканировать (инструкции носят рекомендательный характер).

Назначение robots.txt

Основная цель robots.txt — контролировать сканирование поисковыми роботами различных разделов и страниц сайта.
Содержит инструкции каким роботам и какие страницы допускается сканировать, а какие нет.
Позволяет исключить из сканирования технические, дублирующиеся, пустые или нежелательные страницы (например, админ-панели, корзины, личные кабинеты), которые не должны попадать в поисковый индекс.
Если у сайта нет robots.txt, поисковые роботы считают все страницы ресурса открытыми для индексирования.

Расположение и Доступ

Файл robots.txt обязательно должен находиться в корневой директории сайта (например, public\_html).
Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt»

Основные Директивы и Синтаксис

User-agent

Файл состоит из блоков инструкций, каждый из которых начинается с директивы User-agent.
User-agent: Указывает, к какому поисковому роботу применяется блок правил - Googlebot, Yandex, Googlebot-Image, YandexBot и так далее.
User-agent: \* применяется ко всем поисковым роботам.

Disallow

Disallow: Запрещает сканирование указанного пути (страницы, папки или всего сайта).
Disallow: / - запрещает сканирование всего сайта.
Disallow: /category1/ - запрещает сканирование папки /category1/ и всех вложенных страниц.
Disallow: /category2/$ - запрещает сканирование только страницы /category2/ (с точным соответствием).

Allow

Разрешает сканирование указанного пути. Используется для создания исключений в закрытых разделах.
Allow: /feed/turbo/ - разрешает сканирование страницы /feed/turbo/ даже если папка /feed/ закрыта.

Sitemap

Указывает полный URL-адрес XML-карты сайта. Помогает роботам обнаружить и проиндексировать важные страницы.
Необязательная директива, может повторяться несколько раз или не использоваться совсем.

\#

Используется для комментариев в файле. Игнорируется поисковыми роботами.

\*

Используется как wildcard (шаблон), указывая на любую последовательность символов.
Disallow: /example/\* - запрещает все страницы внутри /example/.
Disallow: \*/shop - запрещает все пути, заканчивающиеся на /shop.

$

Используется для указания точного соответствия концу строки. Отменяет действие \* в конце строки.
Disallow: /example$ - запрещает только страницу /example, но не /example.html или /example1

Clean-param для Яндекса

Указывает параметры URL, которые следует игнорировать для предотвращения дублирования контента.
Сообщает роботу Яндекса, что не нужно сканировать дублированную информацию, возникающую из-за использования URL с различными параметрами.

Crawl-delay

Не поддерживается Google с сентября 2019 г., поддерживается другими роботами, например, Яндексом) Устанавливает минимальный интервал в секундах между обращениями робота к сайту для снижения нагрузки на сервер.

Host

Директива Host — инструкция для робота Яндекса, которая указывает главное зеркало сайта.

Требования к Файлу Robots.txt

Имя файла должно быть строго robots.txt (ни Robots.txt, ни ROBOTS.TXT).
Должен находиться в корневой директории.
Кодировка файла должна быть UTF-8.
Каждая директива начинается с новой строки.
Одна директива в строке, без пробелов в начале строки.
Без кавычек в директивах.
Не нужно закрывать директивы точкой или точкой с запятой.
Размер файла не должен превышать 500 КБ.
Файл должен быть написан на английском языке.
Если файл не соответствует одному из требований, весь сайт считается открытым для индексирования.

Проверка Работы Robots.txt

Можно проверить доступность файла, перейдя по адресу http://yoursiteadress.com/robots.txt.
Использовать инструменты анализа robots.txt в Google Search Console и Яндекс.Вебмастер.

Валидаторы Robots.txt

HTTPS и SSL-сертификаты Адаптивный дизайн (Responsive Design)