Наверняка большинство из читающих мою заметку людей уже знают о существовании
этого в общем-то незатейливого файла. Факт в том, что его незатейливость и
простота может довольно корректно указать поисковой системе, что же всё-таки
индексировать на вашем сайте, а что следует оставить "в тени".
Парадокс весь в том, что эта некоторая простота синтаксиса файла Robots.txt
скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его
правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье
я расскажу вам, как использовать подобный файл с умом и избежать возможных
проблем.
Начнём, пожалуй, с истории рождения стандарта robots.txt . Как гласит
история, стандарт robots.txt был принят консенсусом 30 января 1994 года и
опубликован, с тех пор используется большинством известных поисковых машин.
Позже этот стандарт начинали всячески модифицировать различные поисковые
компании, которые внедряли новую функциональность в ранее созданный стандарт.
Как например, компания Yahoo , которая ввела для своего поискового бота
YahooSlurp , дополнительную возможность запрета индексации типов файлов по их
расширению, добавив возможность использования символов * и $ в полях Disallow .
Позже эта возможность была одобрена Google .
"Яндекс" же добавил возможность использования дополнительного поля Host для
определения основного зеркала сайта.
Недавно была добавлена возможность
использования ещё одного поля.
Sitemap: http://www.primer.ru/sitemap.xml
Поле Sitemap позволяет поисковой системе указать, где находится специальным
образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность
веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой
системе и позволить поисковой системе самой загружать Sitemap с сайта.
Возможность использования директивы в настоящий момент поддерживается в Google,
Yahoo, Ask и MSN .
Что такое Robots.txt?
Robots.txt - это специальным образом оформленный текстовый файл, в котором
содержатся директивы, следуя которым поисковая система может понять стратегию
индексирования информации на вашем сайте.
Структура Robots.txt:
Файл состоит из полей. Структура полей такова: сначала идёт информация о том,
какой поисковик должен следовать указаниям в директиве (строка содержит
User-Agent поискового бота или * , как рекомендация для всех поисковых систем),
далее идёт поле Disallow , в котором указывается название объекта или объектов ,
которые необходимо скрыть от индексирования.
Раздел рекомендаций между инструкциями для одной поисковой системы
распознаётся от раздела рекомендаций для другой поисковой системы пустой
строкой, а раздел, в свою очередь, формируется полем User-Agent . В одном
разделе может быть сразу несколько полей User-Agent , начинающихся с новой
строки.
Стандарт Robots.txt поддерживает комментарии . Всё, что начинается от символа
# до конца строки, является комментарием.
Есть и дополнительные поля, расширяющие функциональность файла robots.txt .
Например, поле Host - для определения склейки зеркал сайта.
Следует заметить любопытный факт, что файл robots.txt создавался и создаётся
с основной целью - запрета индексации , следовательно, и все поля, в нём
прописанные, явно указывают на запрет индексации частей сайта. Были предложения
также ввести поле Allow , но пока официально оно не признано.
Приведу пример одного из составленных файлов Robots.txt:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /text/
Это важно знать:
1) Файл robots.txt должен находиться только в корневой директории сайта,
только тогда он будет учитываться поисковыми системами.
2) Называть файл необходимо robots.txt , Robots.txt будет уже ошибкой.
3) На каждой строке должно быть поле Disallow , запрещающее индексацию только
одной директории. Если нужно запретить несколько директорий или файлов, то для
этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы
одно поле Disallow . Также не забудьте про поле User-Agent - оно не должно быть
пустым.
4) Запомните простые комбинации:
Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name - запрет
на индексацию любых файлов и папок, которые называются или имеют в своём
названии name.
Disallow: /name/ - запрет на индексацию папки name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение
.gif.
Disallow: /name.php - запрет на индексацию файла name.php.
Disallow: /name.php?action=print - запрет индексации переменной, например,
страниц для печати.
5) Поле Host используется "Яндексом" для определения основного зеркала сайта.
Например, так: Host: www.primer.ru . Это поле говорит поисковой системе "Яндекс"
, что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с
www).
6) Поле Sitemap используется для указания поисковой системе, где находится
сгенерированная для поисковых систем карта сайта.(Sitemap:
http://www.primer.ru/sitemap.xml ). Применяется в Google, Ask, Yahoo и MSN .
Ошибки в файле robots.txt:
1) Неверный порядок расположения полей:
Неправильно:
Disallow: /
User-agent: *
Правильно:
User-agent: *
Disallow: /
2) Совершаются синтаксические ошибки:
Нет пустой строки:
Неправильно:
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
Правильно:
User-agent: Googlebot
Disallow: / User-agent: *
Disallow:
Ошибки в синтаксисе Disallow:
Disallow: * (приводит к запрету на индексацию всего сайта).
Disallow:
/text/ /text2/ (нельзя использовать одно поле для разных директорий).
Правильно:
Disallow: /text/
Disallow: /text2/
Поле User-Agent:
User-agent: (поле не должно быть пустым)
Поле Host:
Неправильно:
Host: http://www.primer.ru/ (нельзя использовать протокол)
Правильно:
Host: www.primer.ru/
Желательно делать так:
Не писать все поля с больших букв , комментарии переносить на новую строку .
Не пишите поле Allow - его не существует. Также не используйте дополнительные
директивы для всех поисковых систем, это может вызвать недопонимание тех систем,
которые не используют эти поля, а также не забывайте, что поле Disallow должно
быть всегда, хотя даже если некоторые поисковые системы игнорируют данное
правило.
А каково ваше мнение об этой статье? Было бы интересно его высказать и
поделиться со всеми, не правда ли? Вы это можете сделать воспользовавшись коментированием.
Рассылка