MaryProject
Верейская улица, 17 121357 Москва,
+74950155855, info@maryproject.ru
SEO продвижение
сайтов

Проверка файла robots.txt

Марина Лыкова
Опубликовано 11.06.26
Обновлено 11.06.26
Опубликовано 11.06.26
Обновлено 11.06.26

В статье рассказываем, зачем нужен файл robots.txt, как его создать, какие директивы в нем прописать и как проверить файл на наличие ошибок.

Кому будет полезна статья?

  • Веб-разработчикам.
  • Техническим специалистам.
  • SEO-специалистам и оптимизаторам.
  • Администраторам и владельцам сайтов.

Поисковые роботы, или веб-краулеры, регулярно сканируют сайты, анализируют страницы, собирают информацию и передают ее в базы данных поисковых систем. Один из первых файлов, к которому обращается робот при посещении сайта, - robots.txt.

Именно в robots.txt содержатся инструкции для поисковых систем: какие разделы можно сканировать, какие страницы лучше не обходить, где находится карта сайта и какие правила применяются к разным роботам.

Для SEO-продвижения корректная настройка robots.txt имеет большое значение. Ошибка в этом файле может привести к тому, что важные страницы не попадут в индекс, а служебные или технические разделы, наоборот, станут доступны для сканирования. Поэтому robots.txt нужно не просто создать, а правильно настроить и регулярно проверять.

В этой статье разберем, зачем нужен robots.txt, какие директивы в нем используются, как создать файл и проверить его с помощью доступных инструментов Яндекс и Google.

Зачем нужен robots.txt?

Файл robots.txt - это служебный текстовый файл, который сообщает поисковым роботам, какие страницы, разделы и файлы сайта можно сканировать, а какие посещать не следует.

Этот файл не является обязательным для работы сайта, но для SEO он очень важен. С его помощью можно управлять сканированием ресурса, экономить краулинговый бюджет, снижать нагрузку на сервер и помогать поисковым системам быстрее находить важные страницы.

С помощью robots.txt можно:

  • открыть сайт для сканирования всеми поисковыми роботами;
  • закрыть отдельные служебные разделы;
  • запретить обход технических URL, фильтров, параметров и дублей;
  • закрыть от сканирования административные папки;
  • указать путь к sitemap.xml;
  • ограничить доступ нежелательных роботов;
  • помочь поисковикам сосредоточиться на важных страницах сайта.

Важно понимать, что robots.txt управляет именно сканированием, а не гарантированным удалением страниц из индекса. Если страница уже проиндексирована или на нее ведут внешние ссылки, она может оставаться в поиске даже при запрете в robots.txt. Для полного запрета индексации лучше использовать метатег noindex, HTTP-заголовок X-Robots-Tag или закрывать страницу другими техническими способами.

Правильная настройка robots.txt помогает ускорить индексацию нужных страниц, уменьшить количество дублей, снизить нагрузку на сервер и улучшить техническое состояние сайта. Все это косвенно влияет на эффективность SEO-продвижения и видимость ресурса в поисковой выдаче.

Основные директивы файла robots.txt

Чтобы поисковые роботы могли корректно прочитать robots.txt, файл должен быть составлен по определенным правилам. В нем используются специальные директивы, то есть команды, которые указывают роботам, как сканировать сайт.

К основным директивам относятся User-agent, Disallow, Allow и Sitemap.

User-agent

Директива User-agent определяет, для какого поискового робота действуют правила, указанные ниже. С ее помощью можно задать инструкции для всех роботов сразу или отдельно для конкретных краулеров.

Если правила должны применяться ко всем роботам, используется символ «*».

 

Пример:

User-agent: *

Disallow:

В этом примере сайт открыт для сканирования всеми поисковыми роботами.

 

Если нужно прописать правила только для Яндекса, указывается Yandex:

User-agent: Yandex

Disallow:

 

Если правила предназначены для Google, используется Googlebot:

User-agent: Googlebot

Disallow:

 

На практике в robots.txt часто создают отдельные группы директив для разных поисковых систем. Это удобно, если для Яндекса и Google нужно задать разные правила сканирования.

Disallow

Директива Disallow указывает, какие страницы, папки или файлы запрещены для сканирования поисковыми роботами.

Чаще всего с помощью Disallow закрывают служебные разделы, административные папки, результаты внутреннего поиска, страницы фильтров, корзину, личный кабинет, технические URL и другие элементы, которые не должны участвовать в SEO-продвижении.

 

Пример:

User-agent: *

Disallow: /wp-admin/

В этом примере папка /wp-admin/ закрыта для сканирования всеми роботами.

 

Если после Disallow не указано значение, это означает, что запретов нет:

User-agent: *

Disallow:

В этом случае весь сайт открыт для сканирования.

 

Если нужно полностью закрыть сайт от сканирования, используется слеш:

User-agent: *

Disallow: /

 

Такую настройку применяют для тестовых сайтов, технических копий, закрытых проектов или ресурсов, которые еще не готовы к индексации. На рабочем сайте использовать ее нужно крайне осторожно, потому что ошибка может привести к выпадению страниц из поиска.

Allow

Директива Allow указывает, какие страницы или разделы разрешены для сканирования. Обычно ее используют как исключение из запрета Disallow.

Например, если сайт закрыт полностью, но один раздел нужно оставить доступным, можно прописать:

User-agent: *

Disallow: /

Allow: /catalog/

В этом примере весь сайт закрыт для сканирования, но раздел /catalog/ разрешен.

 

Еще один пример:

User-agent: *

Disallow: /filter/

Allow: /filter/popular/

В этом случае раздел /filter/ закрыт, но вложенная папка /filter/popular/ доступна для сканирования.

 

Указывать через Allow все открытые страницы сайта не нужно. Все, что не запрещено директивой Disallow, по умолчанию считается разрешенным для сканирования.

Sitemap

Директива Sitemap указывает поисковым роботам путь к XML-карте сайта. Sitemap помогает поисковым системам быстрее находить нужные страницы, понимать структуру сайта и отслеживать обновления.

Пример:

Sitemap: https://site.ru/sitemap.xml

 

В robots.txt можно указать одну или несколько карт сайта:

Sitemap: https://site.ru/sitemap.xml

Sitemap: https://site.ru/sitemap-catalog.xml

Sitemap: https://site.ru/sitemap-blog.xml

 

Для крупных сайтов, интернет-магазинов и порталов это особенно полезно. Можно разделить sitemap по типам страниц: категории, товары, статьи, услуги, изображения и другие разделы.

Как создать robots.txt?

Файл robots.txt можно создать в любом текстовом редакторе: Notepad++, Sublime Text, Visual Studio Code или другой программе для работы с текстовыми файлами.

Файл должен называться строго robots.txt. Название нужно писать строчными буквами. Это важно, потому что некоторые системы и серверы чувствительны к регистру.

Для кодировки лучше использовать UTF-8. Внутри файла рекомендуется прописывать пути латиницей. Если в URL используются русские символы, их можно преобразовать с помощью Punycode или корректно закодировать в URL-формате.

Чтобы robots.txt корректно воспринимался поисковыми роботами, при создании файла следует соблюдать несколько правил:

  • Объединяйте директивы в группы

Правила для каждого поискового робота лучше объединять в отдельные блоки. Каждый блок начинается с директивы User-agent, после которой идут Disallow, Allow и другие инструкции.

Пример:

User-agent: *

Disallow: /admin/

Disallow: /cart/

Disallow: /search/

 

User-agent: Googlebot

Disallow: /test/

Блоки лучше разделять пустой строкой. Так файл проще читать и проверять, а риск ошибок становится ниже.

 

  • Учитывайте регистр

Имя файла должно быть robots.txt. Не стоит называть его Robots.txt, ROBOTS.TXT или robots.TXT.

Также нужно учитывать регистр в путях. Для сервера URL /Catalog/ и /catalog/ могут быть разными страницами. Поэтому в robots.txt нужно указывать пути точно так, как они используются на сайте.

 

  • Не указывайте несколько папок в одной директиве

Не стоит объединять несколько адресов в одну строку Disallow. Для каждого раздела, папки или файла нужно создавать отдельную директиву.

Неправильно:

Disallow: /admin/ /cart/ /search/

 

Правильно:

Disallow: /admin/

Disallow: /cart/

Disallow: /search/

Такой формат корректнее воспринимается поисковыми роботами и проще проверяется в инструментах вебмастеров.

 

  • Работайте с разными уровнями

В robots.txt можно задавать правила на разных уровнях:

*для всего сайта;

*для отдельной папки;

*для конкретного файла;

*для страниц с параметрами;

*для отдельных типов роботов.

Например, можно закрыть административный раздел, но оставить открытыми публичные страницы. Или закрыть фильтры интернет-магазина, но разрешить индексацию важных SEO-посадочных страниц.

 

  • Удаляйте неактуальные директивы

Некоторые директивы robots.txt устарели или больше не используются большинством поисковых систем. Поэтому не стоит перегружать файл лишними командами.

Например, директива Host раньше использовалась для указания главного зеркала сайта, но сейчас для этой задачи применяются другие методы: настройки в вебмастерских панелях, редиректы, canonical и корректная склейка доменов.

Директива Crawl-delay также поддерживается не всеми поисковыми системами и не всегда работает ожидаемо. Если сайт испытывает проблемы с нагрузкой, лучше решать их на уровне сервера, кеширования, оптимизации кода и настроек краулинга в инструментах вебмастера.

Чем проще и понятнее robots.txt, тем ниже риск технических ошибок.

 

  • Проверьте соответствие sitemap.xml и robots.txt

Файлы sitemap.xml и robots.txt должны дополнять друг друга, а не противоречить. Если страница указана в sitemap.xml, но закрыта в robots.txt, поисковые системы получают противоречивый сигнал: карта сайта рекомендует страницу для обхода, а robots.txt запрещает ее сканирование. Такие ситуации нужно исправлять.

Перед загрузкой robots.txt проверьте:

*указан ли правильный путь к sitemap.xml;

*нет ли в sitemap закрытых страниц;

*не запрещены ли важные разделы сайта;

*не открыты ли служебные страницы, которые не нужны в поиске;

*совпадают ли правила robots.txt с SEO-стратегией сайта.

Размер файла robots.txt не должен быть слишком большим. Для Яндекса важно, чтобы файл не превышал допустимый лимит, иначе часть правил может быть проигнорирована. На практике robots.txt лучше делать компактным, понятным и без лишних директив.

После создания файл нужно разместить в корневой директории сайта. Он должен открываться по адресу:

https://site.ru/robots.txt

Если сайт работает на CMS, файл можно загрузить через административную панель, файловый менеджер хостинга или FTP. Главное - это убедиться, что он доступен по правильному адресу и отдает код ответа 200.

Как проверить файл?

После создания robots.txt нужно обязательно проверить. Даже одна лишняя строка может закрыть от сканирования важный раздел сайта или, наоборот, открыть технические страницы.

Проверку стоит выполнять в инструментах Яндекс и Google, потому что поисковые системы могут по-разному интерпретировать некоторые правила.

Проверка robots.txt в Яндекс.Вебмастер

Для проверки файла в Яндекс.Вебмастере нужно добавить сайт в сервис и подтвердить права на него. После этого станут доступны инструменты для технической диагностики.

Чтобы проверить robots.txt, перейдите в раздел инструментов и найдите анализ robots.txt. Сервис покажет содержимое файла, проверит директивы и сообщит об ошибках, если они есть.

С помощью Яндекс.Вебмастера можно проверить:

  • доступность файла robots.txt;
  • корректность синтаксиса;
  • наличие ошибок в директивах;
  • доступность конкретных URL для робота Яндекса;
  • правильность запретов и разрешений;
  • путь к sitemap.xml.

Если сервис обнаружит ошибку, он покажет проблемную строку и подскажет, что нужно исправить. После внесения изменений файл нужно обновить на сайте и повторить проверку.

Проверка robots.txt в Google Robots Testing Tool

Для проверки robots.txt в Google используется Google Search Console и инструменты проверки URL. С их помощью можно понять, доступна ли конкретная страница для сканирования, видит ли Google файл robots.txt и не блокирует ли он важные URL.

При проверке важно учитывать, что изменения в robots.txt не всегда применяются мгновенно. Поисковому роботу может потребоваться время, чтобы повторно обратиться к файлу и обновить данные.

Если Google показывает старую версию robots.txt, нужно убедиться, что файл обновлен на сервере, не кэшируется неправильно и открывается по адресу:

https://site.ru/robots.txt

Если в файле обнаружены ошибки, исправления нужно вносить не только в инструменте проверки, но и непосредственно на сайте: через хостинг, FTP, CMS или систему управления проектом. Иначе изменения не сохранятся и поисковые роботы продолжат видеть старую версию файла.

Выводы

  1. Файл robots.txt - это служебный документ, который помогает управлять сканированием сайта поисковыми роботами. Он не является обязательным, но для SEO-продвижения играет важную роль: помогает закрывать технические разделы, указывать карту сайта, снижать нагрузку на сервер и направлять роботов к важным страницам.
  2. Robots.txt можно создать в Notepad++ или любом другом текстовом редакторе. Файл должен называться robots.txt, иметь корректную кодировку и размещаться в корневой директории сайта.
  3. Основные директивы robots.txt : User-agent, Disallow, Allow и Sitemap. С их помощью можно задавать правила для всех роботов или отдельных поисковых систем, запрещать и разрешать сканирование страниц, папок и файлов, а также указывать путь к XML-карте сайта.
  4. Директивы нужно объединять в логичные группы и отделять блоки пустой строкой. Для каждого файла или раздела лучше использовать отдельную строку Disallow или Allow. Это снижает риск ошибок и делает файл понятнее для проверки.
  5. Размер robots.txt не должен быть чрезмерным. Файл должен быть доступен по адресу https://site.ru/robots.txt и отдавать корректный ответ сервера.
  6. Перед публикацией и после любых изменений robots.txt нужно проверять в Яндекс.Вебмастере и Google Search Console. Это поможет убедиться, что важные страницы открыты для сканирования, технические разделы закрыты, а sitemap.xml указан корректно.

 

Правильно настроенный robots.txt - важная часть технической SEO-оптимизации. Он помогает поисковым системам быстрее и точнее сканировать сайт, а владельцу ресурса - избежать ошибок, которые могут негативно повлиять на индексацию и продвижение.

Узнайте стоимость продвижения
SEO, PPC, CRO, SERM!

Другие статьи автора

Закажите продвижение
Мы с Вами обязательно свяжемся!

Оставить заявку

Наш менеджер свяжется с вами в ближайшее время

Откликнуться на вакансию

Наш менеджер свяжется с вами в ближайшее время

Заказать звонок

Наш менеджер свяжется с вами в ближайшее время

Мы используем cookie для корректной работы нашего сайта и сервиса.

Продолжая использовать наши сайт и сервис, вы соглашаетесь на использование файлов cookie.