Robots.txt

Файл «robots.txt» является важным инструментом для управления поведением поисковых роботов (таких как Googlebot, Bingbot и другие) на вашем веб-сайте. Этот текстовый файл размещается в корневой директории вашего сайта и предоставляет инструкции по тому, какие страницы или разделы сайта следует индексировать поисковыми системами, а какие нет.

Основная цель «robots.txt» состоит в том, чтобы предостеречь поисковые роботы от индексации конфиденциальных, временных или несущественных страниц, которые могут быть на вашем сайте. Это помогает сэкономить ресурсы поисковых роботов и управлять тем, какие страницы будут отображаться в поисковых результатах.

Файл «robots.txt» состоит из набора правил и инструкций для конкретных поисковых роботов. Например, вы можете указать, что определенная папка или страница не должна индексироваться, используя следующий синтаксис:

User-agent: Googlebot
Disallow: /закрытая-папка/
Disallow: /закрытая-страница.html

В этом примере, «User-agent» указывает на конкретного поискового робота (в данном случае, Googlebot), а «Disallow» сообщает ему не индексировать указанные URL-адреса. Если вы хотите разрешить индексацию всего сайта, вы можете использовать следующее правило:

User-agent: *
Disallow:

Правильно настроенный файл «robots.txt» может помочь улучшить SEO вашего сайта, предотвратить индексацию дубликатов контента и обеспечить более эффективное взаимодействие с поисковыми системами. Однако важно быть осторожным при его настройке, чтобы не исключить из индексации важные страницы, которые вы хотели бы видеть в результатах поиска.

Все директивы robots.txt

Файл «robots.txt» может содержать несколько директив, которые управляют индексацией поисковыми роботами на вашем сайте. Вот наиболее часто используемые директивы:

User-agent: Эта директива определяет конкретного поискового робота или группу роботов, к которым будут применяться следующие инструкции. Например:

User-agent: Googlebot

Disallow: Эта директива указывает поисковому роботу, какие URL-адреса или директории следует исключить из индексации. Например:

Disallow: /закрытая-папка/
Disallow: /закрытая-страница.html

Allow: Иногда нужно разрешить индексацию определенных страниц или папок, даже если у вас есть общее правило «Disallow». Директива «Allow» позволяет это сделать. Например:

User-agent: Googlebot
Disallow: /закрытая-папка/
Allow: /закрытая-папка/разрешенная-страница.html

Crawl-delay: Эта директива указывает задержку (в секундах) между запросами, отправляемыми поисковым роботом на ваш сайт. Например:

User-agent: *
Crawl-delay: 10

Sitemap: С помощью этой директивы можно указать путь к файлу XML-карты сайта (sitemap), который содержит информацию о структуре вашего сайта и его страницах. Это помогает поисковым роботам лучше понять, какие страницы следует индексировать. Например:

Sitemap: https://www.example.com/sitemap.xml

Это основные директивы, которые чаще всего используются в файле «robots.txt». Важно помнить, что неправильная конфигурация этого файла может повлиять на индексацию вашего сайта поисковыми системами, поэтому следует быть внимательным при его настройке и регулярно проверять его корректность.

Примеры robots.txt для популярных CMS

Различные популярные системы управления контентом (CMS), такие как WordPress, Joomla и Drupal, могут иметь разные требования к файлу «robots.txt». Ниже приведены примеры файлов «robots.txt» для некоторых популярных CMS:

WordPress

Для WordPress обычно нет необходимости внесения больших изменений в файл «robots.txt». В большинстве случаев стандартный файл «robots.txt» будет работать хорошо. Вот пример:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Этот пример запрещает индексацию административной части сайта и разрешает доступ к файлу «admin-ajax.php», который может использоваться для асинхронных запросов на сайте.

Joomla

В Joomla файл «robots.txt» может быть аналогичен стандартному варианту. Вот пример:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Этот пример запрещает индексацию различных системных папок Joomla, что обеспечивает безопасность сайта.

Drupal

Для Drupal также можно использовать стандартные правила, а также добавить к ним собственные, если необходимо. Вот пример:

User-agent: *
Disallow: /admin/
Disallow: /includes/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
Disallow: /update.php
Disallow: /xmlrpc.php
Allow: /sites/default/files/

Этот пример запрещает индексацию административной части сайта и некоторых системных папок, но разрешает индексацию папки «sites/default/files/», где обычно хранятся медиафайлы.

Обратите внимание, что конфигурация файла «robots.txt» может различаться в зависимости от конкретных требований вашего сайта и его структуры. Рекомендуется внимательно проверить и настроить файл «robots.txt» в соответствии с потребностями вашего сайта и его CMS.

Универсальные директивы "robots.txt" для всех CMS которые закроют от индексации "мусорные" страницы

Чтобы закрыть от индексации «мусорные» страницы на вашем сайте независимо от используемой CMS, вы можете использовать универсальные директивы в файле «robots.txt». Вот пример таких директив:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /category/
Disallow: /archives/
Disallow: /calendar/
Disallow: /?*
Disallow: /search/
Disallow: /404/
Disallow: /private/
Disallow: /temp/
Disallow: /tmp/
Disallow: /uploads/

Эти директивы запрещают индексацию различных «мусорных» страниц и папок, которые часто не требуются в поисковых результатах. Важно отметить, что эти правила являются общепринятыми и могут быть использованы на большинстве сайтов, независимо от CMS.

Однако, прежде чем внести такие изменения в файл «robots.txt», обязательно проведите тщательный анализ и убедитесь, что не закрываете от индексации важные страницы вашего сайта. Каждый сайт уникален, и некоторые страницы, которые для одного сайта могут считаться «мусорными», для другого могут быть важными для SEO и пользователей.

Robots.txt

Все директивы robots.txt

Примеры robots.txt для популярных CMS

Универсальные директивы "robots.txt" для всех CMS которые закроют от индексации "мусорные" страницы

Вывод сайта из под фильтров Яндекс

Проверка сайта конкурентов в Яндекс

Словарь SEO-терминов