Поиск по сайту :
news2.ru moemesto.ru bobrdobr.ru memori.ru Google Добавить на Newsland.ru Добавить на СМИ2 Добавить на Ваау! rucity.com rumarkz.ru
Главная
Контент
Интересно
Трафик
Сайт
Google
Yandex
Ремблер
Все о Google AdSense
Акссесуары для телефона
Обмен валют
Заработок в сети
«    Декабрь 2007    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 

Логин:
Пароль:
 
Регистрация на сайте!
Забыли пароль?
Обзор ссылочных бирж
Картинки, обои на Отвале
MEGA New Art
Каталог партнеров
Полезный Soft
Заработок и AdSense
Обналичка чеков Adsense
,
MapLoc.net - My visitors map Seo money blogs in Blog.Sarion.Info

ISQ Связь - 92529999
E-mail: mailblog.sarion.info
Май 2008 (1)
Апрель 2008 (23)
Март 2008 (43)
Февраль 2008 (9)
Январь 2008 (5)
Декабрь 2007 (9)
Ноябрь 2007 (8)
Октябрь 2007 (3)
Сентябрь 2007 (4)
Август 2007 (6)
Июль 2007 (27)
Июнь 2007 (23)
Май 2007 (31)
Апрель 2007 (30)
Март 2007 (32)
Февраль 2007 (25)
Январь 2007 (31)
Декабрь 2006 (9)
Ноябрь 2006 (2)
Октябрь 2006 (25)
Сентябрь 2006 (26)
Август 2006 (27)
Июль 2006 (28)
Июнь 2006 (44)
Май 2006 (37)
Апрель 2006 (30)
Март 2006 (21)
Февраль 2006 (1)
Онлайн дневники на Blog.Sarion.Info » Главная » Robots.txt или управление индексацией на сайте
Робот обмен валюты :: Мелодии для телефона :: Сервис знакомств :: Магазин CD и DVD дисков
Robots.txt или управление индексацией на сайте
 

Наверняка большинство из читающих мою заметку людей уже знают о существовании этого в общем-то незатейливого файла. Факт в том, что его незатейливость и простота может довольно корректно указать поисковой системе, что же всё-таки индексировать на вашем сайте, а что следует оставить "в тени".

Парадокс весь в том, что эта некоторая простота синтаксиса файла Robots.txt скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье я расскажу вам, как использовать подобный файл с умом и избежать возможных проблем.

Начнём, пожалуй, с истории рождения стандарта robots.txt . Как гласит история, стандарт robots.txt был принят консенсусом 30 января 1994 года и опубликован, с тех пор используется большинством известных поисковых машин.

Позже этот стандарт начинали всячески модифицировать различные поисковые компании, которые внедряли новую функциональность в ранее созданный стандарт.

Как например, компания Yahoo , которая ввела для своего поискового бота YahooSlurp , дополнительную возможность запрета индексации типов файлов по их расширению, добавив возможность использования символов * и $ в полях Disallow . Позже эта возможность была одобрена Google .

"Яндекс" же добавил возможность использования дополнительного поля Host для определения основного зеркала сайта.
Недавно была добавлена возможность использования ещё одного поля.
Sitemap: http://www.primer.ru/sitemap.xml

Поле Sitemap позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask и MSN .

Что такое Robots.txt?

Robots.txt - это специальным образом оформленный текстовый файл, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.

Структура Robots.txt:

Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или * , как рекомендация для всех поисковых систем), далее идёт поле Disallow , в котором указывается название объекта или объектов , которые необходимо скрыть от индексирования.

Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent . В одном разделе может быть сразу несколько полей User-Agent , начинающихся с новой строки.

Стандарт Robots.txt поддерживает комментарии . Всё, что начинается от символа # до конца строки, является комментарием.

Есть и дополнительные поля, расширяющие функциональность файла robots.txt . Например, поле Host - для определения склейки зеркал сайта.

Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью - запрета индексации , следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Были предложения также ввести поле Allow , но пока официально оно не признано.

Приведу пример одного из составленных файлов Robots.txt:


User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: /text/

Это важно знать:

1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.

2) Называть файл необходимо robots.txt , Robots.txt будет уже ошибкой.

3) На каждой строке должно быть поле Disallow , запрещающее индексацию только одной директории. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow . Также не забудьте про поле User-Agent - оно не должно быть пустым.

4) Запомните простые комбинации:


Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name - запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию папки name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php - запрет на индексацию файла name.php.
Disallow: /name.php?action=print - запрет индексации переменной, например, страниц для печати.

5) Поле Host используется "Яндексом" для определения основного зеркала сайта. Например, так: Host: www.primer.ru . Это поле говорит поисковой системе "Яндекс" , что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с www).

6) Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.primer.ru/sitemap.xml ). Применяется в Google, Ask, Yahoo и MSN .

Ошибки в файле robots.txt:

1) Неверный порядок расположения полей:

Неправильно:

Disallow: /
User-agent: *

Правильно:

User-agent: *
Disallow: /

2) Совершаются синтаксические ошибки:
Нет пустой строки:

Неправильно:

User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:

Правильно:

User-agent: Googlebot
Disallow: / User-agent: *
Disallow:

Ошибки в синтаксисе Disallow:

Disallow: * (приводит к запрету на индексацию всего сайта).
Disallow: /text/ /text2/ (нельзя использовать одно поле для разных директорий).

Правильно:

Disallow: /text/
Disallow: /text2/

Поле User-Agent:

User-agent: (поле не должно быть пустым)

Поле Host:

Неправильно:

Host: http://www.primer.ru/ (нельзя использовать протокол)

Правильно:

Host: www.primer.ru/

Желательно делать так:

Не писать все поля с больших букв , комментарии переносить на новую строку . Не пишите поле Allow - его не существует. Также не используйте дополнительные директивы для всех поисковых систем, это может вызвать недопонимание тех систем, которые не используют эти поля, а также не забывайте, что поле Disallow должно быть всегда, хотя даже если некоторые поисковые системы игнорируют данное правило.

А каково ваше мнение об этой статье? Было бы интересно его высказать и поделиться со всеми, не правда ли? Вы это можете сделать воспользовавшись коментированием.


Рассылка



 (голосов: 0)
 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Другие новости по теме:

  • Дублирование контента. Вопросы и ответы Google
  • Создайте Google Sitemap для своего сайта и избавьтесь от ряда проблем!
  • Google палит темы
  • Карта для сайта : google sitemap
  • Создание динамических поддоменов через Windows / IIS




  • Информация
     
    Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.

    Главная страница  |  Регистрация  |  Последние новости  |  Новое на сайте  |  Статистика  |  Поддержка
    Copyright © 2008. Sarion Network Group All Rights Reserved Каталог статей