Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.
Выглядит примерно так:
- HTTP-статус: Ресурс временно перемещён (302)
- Неверный формат документа
Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка «Неверный формат документа» возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки «HTTP-статус: Ресурс временно перемещён (302)» на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.
Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.
В результате у меня получился вот такой файл:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.
Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.
У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.
Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.
Ссылки по теме:
Блоговодство:
- Монетизация блога с помощью электронной книги
- Как выиграть конкурс по раскрутке блогов
- Димок дал интервью для социального сервиса Toodoo.Ru
- Алтайский блоггер — как придумать что-то интересное
- Всем кто еще не нашел кнопку для RSS ходить на уникальный блог, Уникального человека.
Картинка с сайта http://www.gigablast.com/spider.html



15 Ноябрь 2007 at 12:40 пп
Спасибо, Дима! Очень по делу и полезно. Уже опробовала — все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots — теперь есть)))
15 Ноябрь 2007 at 2:17 пп
> Disallow: */trackback
> Disallow: */feed
> Disallow: */comments
это не совсем красиво...
robotstxt.org.ru/RobotstxtErrors#h83-9
www.google.ru/support/web...7&topic=8846
19 Ноябрь 2007 at 8:18 дп
А на стандарты мы плевать хотели? Что за «*», что за «Allow»? Да и директиву «Host» (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.
19 Ноябрь 2007 at 8:49 дп
Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.
Критиковать всегда проще, а вы взяли бы и написали как правильно.
19 Ноябрь 2007 at 6:15 пп
Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)
19 Ноябрь 2007 at 6:27 пп
Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.
25 Ноябрь 2008 at 11:32 пп
А без файлика робот тикст яндекс будет индексировать сайт? а то мой уже месяца полтора никак не проиндексирует(
25 Ноябрь 2008 at 11:43 пп
Яндекс сейчас вообще себя странно ведет, но по идее индексировать должен. Google то его проиндексировал, значит и Яндекс со временем образумится.
10 Январь 2009 at 11:06 пп
самое странное, что фидбернер говорит, что яндекс-блог подписан на мою ленту. видимо речь идет о том, что применены специальные меры. наверное.
2 Февраль 2009 at 1:57 дп
Спасибо, статья оказалась очень полезной!
1 Март 2009 at 5:23 дп
Дмитрий, вы уверены, что данный robots.txt рабочий? Я пользовался им месяц, и ошибок в yandex'e действительно было немного. Но была другая бага.
Совершенно непонятным образом в Google Webmaster Tools количество external links целый месяц словно зависло на одном числе ссылок, которые, как я заметил, были проиндксированы ДО МОМЕНТА, когда я изменил свой robots.txt на тот, что предложен у вас.
Затем, имея подозрения на robots.txt, я оставил его пустым и уже через 2 дня получил в Google Webmaster Tools вместо 7 — 700 внешних ссылок, что приблизительно равно внешним ссылкам по мнению Yandexa, который показывал их все время правильно. Сам до конца не понимаю, какая зависимость может быть у Гугла между кол-вом внешних ссылок на меня и внутренним robots.txt... Может кто-нибудь может подсказать?
Вы со своим блогом не наблюдали случайно таких странностей? В принципе я согласен, что надо запрещать служебный папки, чтобы Яша ошибки не показывал, но такая цена меня не устраивает... Сейчас пользуюсь голым robots.txt и не парюсь, а ошибки Яши не критичны абсолютно... Главное за правами на файлы и папки глаз да глаз ).
26 Апрель 2009 at 11:52 пп
Перспективный блоггер, данный файл влияет ТОЛЬКО на индексацию внутренних страниц сайта и никоим образом — на бэклинки.
Насчёт пустого robots.txt — о неблагоприятных последствиях такого решения почитайте в статье www.devnotes.ru/robots_txt.htm.
P.S. Кстати, Дмитрий, про отсутствие разрешающего тега Allow — вас немного «развели». Но, если мне не верите — может авторитет Гугла вас убедит: www.google.com/support/we...&ctx=sibling
23 Июнь 2009 at 12:51 пп
Конечно пост старый, но вернее будет не так:
Disallow: */trackback
Disallow: */feed
А так:
Disallow: /*trackback
Disallow: /*feed
25 Ноябрь 2009 at 2:15 пп
Спасибо за статью, буду пробовать.