Для чего необходим файл Robots.txt и как его прописывать

Расширенный поиск
Стоимость(USD)

Для чего необходим файл Robots.txt и как его прописывать




Robots Exclusion Protocol (файл Robots.txt - протокол исключения) необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Существует много причин, по которым вы можете захотеть это сделать. Например, если страница содержит какие-то графики или рисунки, но почти не имеет текстового содержимого. Или вы не хотите, чтобы в результате поиска выдавались закрытые разделы вашего сайта (например, раздел для друзей).

В общем, когда вы задумаетесь о том, как бы сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда вы и вспомните о файле Robots.txt.

Как это работает

Поисковый робот заходит на ваш сайт и проверяет, существует ли файл Robots.txt. Причем делает это он по адресу: http://имя_вашего_сайта/robots.txt.

Как быстро проиндексировать свои сайты в поисковых системах

То есть, вы должны создать текстовый файл, сохранить его с именем robots и поместить в корневую директорию сайта. Если робот находит такой файл, то начинает анализировать его инструкции, после чего решает следовать вашим указаниям или нет (чаще всего он им следует).

Синтаксис файла Robots.txt

Итак, вы создали файл, осталось узнать, что именно сюда писать.

User-agent: *

Это первая строчка указывает, кому адресован файл, т.е. каких роботов касаются последующие инструкции. Например: * означает "все роботы", а User-agent: Yandex означает "только для робота Yandex".

Следующая строчка Disallow указывает, что именно вы не хотите индексировать:

User-agent: *
Disallow: /

В данном случае мы запретили всем роботам индексировать весь сайт.

Но стоит не поставить слеш, как инструкция поменяет смысл:

User-agent: *
Disallow:

Такая инструкция разрешает всем сайтам индексировать весь сайт.

Если мы хотим запретить индексировать какой-либо каталог (например, папку images), то написать надо так:

User-agent: *
Disallow: /images/

Обратите внимание, название каталога обрамлено слешами с обеих сторон.

Если же мы хотим запретить индексировать отдельный файл (например, exz.html), то написать надо так:

User-agent: *
Disallow: /exz.html

В этом случае слеша в конце быть не должно.

Если вы хотите запретить несколько каталогов или несколько файлов, то для каждого придется написать свою инструкцию. Никаких перечислений в одной строке быть не может. Т.е. если запрещаем три каталога (images, cgi-bin, example), то придется написать три строчки:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /example/

Если вы захотите запретить все файлы, кроме одного из какого-либо каталога, то возникнет проблема, т.к. такой инструкции нет. Вам придется вынести этот файл из этого каталога, а потом запретить каталог к индексации.

Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent

Строка User-agent содержит название робота. Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

Поле Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin/

Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пробелы и комментарии

Любая строка в robots.txt, начинающаяся с #, считается комментарием. Стандарт разрешает использовать комментарии в конце строк с директивами, но это считается плохим стилем:

Disallow: bob #comment

Некоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Мораль такова, что комментарии должны быть на отдельной строке.

Пробел в начале строки разрешается, но не рекомендуется.

Disallow: bob #comment

Примеры

Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

User-agent: *
Disallow:

Эта директива запрещает всем роботам это делать:

User-agent: *
Disallow: /

Данная директива запрещает всем роботам заходить в каталоги "cgi-bin" и "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Данная директива запрещает роботу Roverdog индексировать все файлы сервера:

User-agent: Roverdog
Disallow: /

Данная директива запрещает роботу googlebot индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

Если вас интересуют более сложные примеры, попытайтесь вытянуть файл robots.txt с какого-нибудь крупного сайта, например CNN или Looksmart.

Дополнения к стандартам

Несмотря на то, что были предложения по расширению стандарта и введению директивы Allow или учета версии робота, эти предложения формально так и не были утверждены

Непосредственно ошибки
Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:


User-agent: /
Disallow: Yandex


Правильно писать вот так:


User-agent: Yandex
Disallow: /

Указание нескольких каталогов в одной инструкции Disallow


Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.


Disallow: /css/ /cgi-bin/ /images/


Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.


Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:


Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла содержит заглавные буквы


Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt


Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent


Так неправильно:
User-agent:
Disallow:


Так правильно:
User-agent: *
Disallow:

Url в директиве Host


Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /


Неправильно:


User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.ironscorpio.my1.ru/


Правильно:


User-agent: Yandex
Disallow: /cgi-bin
Host: www.ironscorpio.my1.ru



Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки


Иногда хочется написать что-то вроде:


User-agent: *
Disallow: file*.html


для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями


По стандарту, такая запись вполне возможна:


Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin



В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:


Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль


USER-AGENT: GOOGLEBOT
DISALLOW:


Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.


User-agent: googlebot
Disallow:

Перечисление всех файлов


Еще одной ошибкой является перечисление каждого файла в директории:


User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html


Вместо этого можно просто закрыть от индексации директорию целиком:


User-agent: *
Disallow: /AL/
Disallow: /Az/

Инструкции Allow не существует!


Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow


Так неправильно:


User-agent: Yandex
Disallow: /john/
Allow: /jane/


А вот так – правильно:


User-agent: Yandex
Disallow: /john/
Disallow:

Использование дополнительных директив в секции *


Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».


Так неправильно:


User-agent: *
Disallow: /css/
Host: www.ironscorpio.my1.ru


А вот так – правильно:


User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.ironscorpio.my1.ru

Отсутствие инструкции Disallow


Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».


Так неправильно:


User-agent: Yandex
Host: www.ironscorpio.my1.ru


Так правильно:


User-agent: Yandex
Disallow:
Host: www.ironscorpio.my1.ru



Обсуждение этого вопроса на Searchengines.ru
Отсутствие слешей при указании директории


Как в этом случае поступит робот?


User-agent: Yandex
Disallow: john


По стандарту, он не будет индексировать файл с именем "john” и директорию с именем "john”. Для указания только директории надо писать так:


User-agent: Yandex
Disallow: /john/

Неправильный http-заголовок


Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

Недвижимость Дмитрова

Недвижимость Дмитрова от собственников, загородные дома и участки в Дмитрове и Дмитровском районе

добавить на Яндекс

Разделы

Информация

Фото-объявления

Входные двери - разумные цены,  высокое качество!глина белая кусковая пакет 2 кгКтпн и др. .  Это то,  что Вам нужно!Молдавский коньяк Кишинэу - 10 летЛиния для производства труб капельного орошения со встроенными пластинкамиОбработка дачных участков от клещей комаров и кротов в Коломне

Всего 11094 объявления
Сегодня добавили 61 объявление
Вчера - 21


Vip объявления


8 495 776 05 15 СЭС ПРОФИ-ДЕЗ Уничтожение клопов, тараканов, клещей, крыс, мышей в Коломне 8 967 23 444 34

8 495 776 05 15  СЭС ПРОФИ-ДЕЗ Уничтожение клопов,  тараканов,  клещей,  крыс,  мышей в Коломне   8 967 23 444 34

Уничтожение тараканов, клопов, блох в Коломенском районе. Санитарная служба "ПРОФИ-Д...
 

Уничтожение клопов, тараканов, блох в Клину, Солнечногорске 8 495 776 05 15

Уничтожение клопов,   тараканов,   блох в Клину,   Солнечногорске    8 495 776 05 15

Компания "ПРОФИ-ДЕЗ" предоставляет организациям и населению следующие услуги: Дезинс...
 

Электромонтажные работы от столба до розетки в Дмитровском районе.

Электромонтажные работы от столба до розетки в Дмитровском районе.

ЭЛЕКТРОМОНТАЖНЫЕ РАБОТЫ. Kачественно и оперативно выполним весь спектр работ по электрике. Элек...
 

Клопы? Тараканы? Нужно срочно избавиться от клопов? 8-800-350-24-04 СЭС БИОТРИКС

Клопы?  Тараканы?  Нужно срочно избавиться от клопов?  8-800-350-24-04 СЭС БИОТРИКС

Санитарная Служба Биотрикс 8-800-350-24-04 горячая линия СЭС Москва и Московская область! ! ! Ун...
 

ПИРОГИ ОСЕТИНСКИЕ в ДМИТРОВЕ с ДОСТАВКОЙ! !

ПИРОГИ ОСЕТИНСКИЕ в ДМИТРОВЕ с ДОСТАВКОЙ!   !

ПИРОГИ ОСЕТИНСКИЕ в ДМИТРОВЕ с ДОСТАВКОЙ! ! ПИРОГИ с МЯСОМ, пироги картошкой, пироги с...
 

Монтаж сайдинга. Короед. Низкие цены. Договор. Гарантия. Оплата поэтапная, работаем без предоплаты.

Монтаж сайдинга.  Короед.  Низкие цены.  Договор.  Гарантия.  Оплата поэтапная,  работаем без предоплаты.

• утепление фасада • штукатурка короедом • монтаж сайдинга. • устройство стропильной системы люб...
 

Монтаж сайдинга Дмитров. Установка сайдинга Дмитров. Утепление фасада Дмитров. Сайдинг. Отливы

Монтаж сайдинга Дмитров.   Установка сайдинга Дмитров.   Утепление фасада Дмитров.   Сайдинг.   Отливы

Монтаж сайдинга Дмитров. Установка сайдинга Дмитров. Утепление фасада Дмитров. Сайдинг. О...
 

Подключение электричества, выполнение ТУ от МОЭСК

Подключение  электричества,  выполнение ТУ от МОЭСК

Подключение электричества в Дмитровском районе под ключ. Подключение к электрическим сетям - дом...
 

Продажа окон пвх Rehau в Дмитрове

Продажа окон пвх Rehau в Дмитрове

Наша компания «Окна Пвх в Дмитрове», является одним из лучших производителей пластиковых окон...
 

Обработка участка от клещей комаров СЭС в Дмитрове

Обработка участка от клещей комаров СЭС в Дмитрове

Уничтожение насекомых и грызунов- далеко не простая задача, она под силу только профессионалам. ...
 
квартир клининг коттеджей уборка сотрудников волгоград тендерах помощь подготовка услуги журналы планы эвакуации плакаты стенды знаки крем мыло шампунь какаомасло