На сайте не обнаружен файл robots.txt

Файл robots.txt — это файл, в котором содержится информация о том, какие страницы/файлы и сайты-зеркала не должны индексироваться поисковыми роботами, “задавать” им рекомендуемый интервал между скачиванием документов с сервера и пр.

Веб-ресурс с файлом robots.txt и без него воспринимается поисковыми системами абсолютно по-разному:

В первом случае некоторые части сайта закрыты от индексирования — это прописано в robots.txt, во втором же сайт полностью открыт для роботов, а значит они будут собирать данные о служебных страницах, клиентских и скрытых директориях.

Как создать и где разместить robots.txt?

По сути, robots.txt — это обычный текстовый документ, созданный в блокноте, с расширением .txt в кодировке UTF-8 — символы не в UTF-8 могут не поддерживаться поисковиками. Что касается правил его размещения, то они четко прописаны в “Стандарте исключений для роботов”, принятом более 20 лет назад. Файл должен загружаться в корневой каталог сайта и быть доступным по адресу домен.com/robots.txt.

Если файл будет добавлен в любую другую директорию, он не будет работать, ведь роботы ищут его в конкретной папке. К слову, по той же причине не стоит делать несколько файлов — достаточно одного. Также очень важно, чтобы в названии файла использовались только строчные буквы — robots.txt и никак иначе.

Что прописывать в файле robots.txt?

В файле прописывается инструкция User-agent — каким поисковым роботам открыт доступ к robots.txt, Disallow — какие директории и файлы закрыты/открыты для индексации, Host — зеркало сайта (для Яндекса), которое нужно учитывать при индексации, Sitemap — ссылка на карту сайта:

User-agent: *
Disallow:
Host:
Sitemap:

Правила User-agent и Disallow прописываются индивидуально для каждого сайта, в зависимости от целей и задач. Рассмотрим несколько ключевых примеров.

Разрешить индексировать сайт всем поисковым роботам

User-agent: *
Disallow:

Запретить индексировать сайт всем поисковым роботам

User-agent: *
Disallow: /

Разрешить индексировать сайт конкретным поисковым роботам

Google:
User-agent: Googlebot
Disallow:

Яндекс:

User-agent: YandexBot
Disallow:

Запретить индексировать сайт конкретному поисковому роботу

User-agent: YandexBot
Disallow: /

Разрешить индексировать сайт одному роботу и запретить остальным

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Запретить индексацию нескольких каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /doc/
Disallow: /private/

Запретить индексацию изображений, размещенных на сайте, но не остальной контент

User-agent: *
Disallow:
User-agent: Googlebot-image

Disallow: /images/

Запретить индексацию конкретного URL

User-agent: *
Disallow: /info.html

Запретить индексацию конкретного файла

User-agent: *
Disallow: /images/images-1.png

Запретить индексацию конкретного расширения

User-agent: *
Disallow: /*png$

Host — не менее важное правило для robots.txt, чем User-agent и Disallow, если речь идет о поисковике Яндекс. В поле Host нужно указать адрес сайта, на котором размещается копия или почти точная копия веб-ресурса. При этом стоит учитывать, что если зеркало работает на https://, это указывается в файле, если же на http:// — нужно указать только домен.

Sitemap — говорит поисковым роботам, что страницы и документы, доступные для индексации, размещаются по адресу (например, https://site.com/sitemap.xml).

Файл robots.txt должен быть на каждом сайте. При этом от того, правильно ли он составлен, зависит, будет ли он работать. Файл robots.txt — это файл, в котором содержится информация о том, какие страницы/файлы и сайты-зеркала не должны индексироваться поисковыми роботами, “задавать” им рекомендуемый интервал между скачиванием документов с сервера и пр.

  • facebook share icon
  • twitter share icon
  • google plus share icon
Оцените статью:
Оставаться на связи
Подпишитесь и получайте первым все новые материалы
Выберите reCAPTCHA

Читайте также

Как исправить ошибку 404 Not Found
Система Revalin
Влияние на показатели сайта ошибки 404 Not Found
Система Revalin
Как исправить ошибку 401 Unauthorized
Система Revalin
Ошибка 400 Bad Request
Система Revalin
Как исправить ошибку 504 Gateway Timeout
Система Revalin
Ошибки 503 и 504 на сайте: как решить проблему
Система Revalin
Как удалить вирус на сайте?
Система Revalin
Как продлить домен
Система Revalin
Срок домена истек — влияние на показатели сайта
Система Revalin
Как влияет на показатели вирус на сайте
Система Revalin

Похожие записи

Мониторинг веб-сайтов: простое решение сложных проблем
Кейсы