На сайте не обнаружен файл robots.txt
Файл robots.txt — это файл, в котором содержится информация о том, какие страницы/файлы и сайты-зеркала не должны индексироваться поисковыми роботами, “задавать” им рекомендуемый интервал между скачиванием документов с сервера и пр.
Веб-ресурс с файлом robots.txt и без него воспринимается поисковыми системами абсолютно по-разному:
В первом случае некоторые части сайта закрыты от индексирования — это прописано в robots.txt, во втором же сайт полностью открыт для роботов, а значит они будут собирать данные о служебных страницах, клиентских и скрытых директориях.
Как создать и где разместить robots.txt?
По сути, robots.txt — это обычный текстовый документ, созданный в блокноте, с расширением .txt в кодировке UTF-8 — символы не в UTF-8 могут не поддерживаться поисковиками. Что касается правил его размещения, то они четко прописаны в “Стандарте исключений для роботов”, принятом более 20 лет назад. Файл должен загружаться в корневой каталог сайта и быть доступным по адресу домен.com/robots.txt.
Если файл будет добавлен в любую другую директорию, он не будет работать, ведь роботы ищут его в конкретной папке. К слову, по той же причине не стоит делать несколько файлов — достаточно одного. Также очень важно, чтобы в названии файла использовались только строчные буквы — robots.txt и никак иначе.
Что прописывать в файле robots.txt?
В файле прописывается инструкция User-agent — каким поисковым роботам открыт доступ к robots.txt, Disallow — какие директории и файлы закрыты/открыты для индексации, Host — зеркало сайта (для Яндекса), которое нужно учитывать при индексации, Sitemap — ссылка на карту сайта:
User-agent: *
Disallow:
Host:
Sitemap:
Правила User-agent и Disallow прописываются индивидуально для каждого сайта, в зависимости от целей и задач. Рассмотрим несколько ключевых примеров.
Разрешить индексировать сайт всем поисковым роботам
User-agent: *
Disallow:
Запретить индексировать сайт всем поисковым роботам
User-agent: *
Disallow: /
Разрешить индексировать сайт конкретным поисковым роботам
Google:
User-agent: Googlebot
Disallow:
Яндекс:
User-agent: YandexBot
Disallow:
Запретить индексировать сайт конкретному поисковому роботу
User-agent: YandexBot
Disallow: /
Разрешить индексировать сайт одному роботу и запретить остальным
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Запретить индексацию нескольких каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /doc/
Disallow: /private/
Запретить индексацию изображений, размещенных на сайте, но не остальной контент
User-agent: *
Disallow:
User-agent: Googlebot-image
Disallow: /images/
Запретить индексацию конкретного URL
User-agent: *
Disallow: /info.html
Запретить индексацию конкретного файла
User-agent: *
Disallow: /images/images-1.png
Запретить индексацию конкретного расширения
User-agent: *
Disallow: /*png$
Host — не менее важное правило для robots.txt, чем User-agent и Disallow, если речь идет о поисковике Яндекс. В поле Host нужно указать адрес сайта, на котором размещается копия или почти точная копия веб-ресурса. При этом стоит учитывать, что если зеркало работает на https://, это указывается в файле, если же на http:// — нужно указать только домен.
Sitemap — говорит поисковым роботам, что страницы и документы, доступные для индексации, размещаются по адресу (например, https://site.com/sitemap.xml).
Файл robots.txt должен быть на каждом сайте. При этом от того, правильно ли он составлен, зависит, будет ли он работать. Файл robots.txt — это файл, в котором содержится информация о том, какие страницы/файлы и сайты-зеркала не должны индексироваться поисковыми роботами, “задавать” им рекомендуемый интервал между скачиванием документов с сервера и пр.
Читайте также
Похожие записи