robots.txt
Robots.txt - файл, расположенный в корневой директории сайта, который содержит инструкции для поисковых роботов относительно того, какие части сайта разрешено или запрещено сканировать (инструкции носят рекомендательный характер).
Назначение robots.txt
- Основная цель robots.txt — контролировать сканирование поисковыми роботами различных разделов и страниц сайта.
- Содержит инструкции каким роботам и какие страницы допускается сканировать, а какие нет.
- Позволяет исключить из сканирования технические, дублирующиеся, пустые или нежелательные страницы (например, админ-панели, корзины, личные кабинеты), которые не должны попадать в поисковый индекс.
- Если у сайта нет robots.txt, поисковые роботы считают все страницы ресурса открытыми для индексирования.
Расположение и Доступ
- Файл robots.txt обязательно должен находиться в корневой директории сайта (например, public\_html).
- Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt»
Основные Директивы и Синтаксис
User-agent
- Файл состоит из блоков инструкций, каждый из которых начинается с директивы User-agent.
- User-agent: Указывает, к какому поисковому роботу применяется блок правил - Googlebot, Yandex, Googlebot-Image, YandexBot и так далее.
- User-agent: \* применяется ко всем поисковым роботам.
Disallow
- Disallow: Запрещает сканирование указанного пути (страницы, папки или всего сайта).
- Disallow: / - запрещает сканирование всего сайта.
- Disallow: /category1/ - запрещает сканирование папки /category1/ и всех вложенных страниц.
- Disallow: /category2/$ - запрещает сканирование только страницы /category2/ (с точным соответствием).
Allow
- Разрешает сканирование указанного пути. Используется для создания исключений в закрытых разделах.
- Allow: /feed/turbo/ - разрешает сканирование страницы /feed/turbo/ даже если папка /feed/ закрыта.
Sitemap
- Указывает полный URL-адрес XML-карты сайта. Помогает роботам обнаружить и проиндексировать важные страницы.
- Необязательная директива, может повторяться несколько раз или не использоваться совсем.
\#
- Используется для комментариев в файле. Игнорируется поисковыми роботами.
\*
- Используется как wildcard (шаблон), указывая на любую последовательность символов.
- Disallow: /example/\* - запрещает все страницы внутри /example/.
- Disallow: \*/shop - запрещает все пути, заканчивающиеся на /shop.
$
- Используется для указания точного соответствия концу строки. Отменяет действие \* в конце строки.
- Disallow: /example$ - запрещает только страницу /example, но не /example.html или /example1
Clean-param для Яндекса
- Указывает параметры URL, которые следует игнорировать для предотвращения дублирования контента.
- Сообщает роботу Яндекса, что не нужно сканировать дублированную информацию, возникающую из-за использования URL с различными параметрами.
Crawl-delay
- Не поддерживается Google с сентября 2019 г., поддерживается другими роботами, например, Яндексом) Устанавливает минимальный интервал в секундах между обращениями робота к сайту для снижения нагрузки на сервер.
Host
- Директива Host — инструкция для робота Яндекса, которая указывает главное зеркало сайта.
Требования к Файлу Robots.txt
- Имя файла должно быть строго robots.txt (ни Robots.txt, ни ROBOTS.TXT).
- Должен находиться в корневой директории.
- Кодировка файла должна быть UTF-8.
- Каждая директива начинается с новой строки.
- Одна директива в строке, без пробелов в начале строки.
- Без кавычек в директивах.
- Не нужно закрывать директивы точкой или точкой с запятой.
- Размер файла не должен превышать 500 КБ.
- Файл должен быть написан на английском языке.
- Если файл не соответствует одному из требований, весь сайт считается открытым для индексирования.
Проверка Работы Robots.txt
- Можно проверить доступность файла, перейдя по адресу http://yoursiteadress.com/robots.txt.
- Использовать инструменты анализа robots.txt в Google Search Console и Яндекс.Вебмастер.