Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.
Выглядит примерно так:
- HTTP-статус: Ресурс временно перемещён (302)
- Неверный формат документа
Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка «Неверный формат документа» возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки «HTTP-статус: Ресурс временно перемещён (302)» на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.
Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.
В результате у меня получился вот такой файл:
(содержание обновлено 21.07.2010 в соответствии с рекомендациями WordPress.Org)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.
Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.
У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.
Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.
Ссылки по теме:
15.11.2007 - 12:40 пп
Спасибо, Дима! Очень по делу и полезно. Уже опробовала — все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots — теперь есть)))
15.11.2007 - 2:17 пп
> Disallow: */trackback
> Disallow: */feed
> Disallow: */comments
это не совсем красиво…
http://robotstxt.org.ru/RobotstxtErrors#h83-9
http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846
19.11.2007 - 8:18 дп
А на стандарты мы плевать хотели? Что за «*», что за «Allow»? Да и директиву «Host» (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.
19.11.2007 - 8:49 дп
Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.
Критиковать всегда проще, а вы взяли бы и написали как правильно.
19.11.2007 - 6:15 пп
Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)
19.11.2007 - 6:27 пп
Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.
25.11.2008 - 11:32 пп
А без файлика робот тикст яндекс будет индексировать сайт? а то мой уже месяца полтора никак не проиндексирует(
25.11.2008 - 11:43 пп
Яндекс сейчас вообще себя странно ведет, но по идее индексировать должен. Google то его проиндексировал, значит и Яндекс со временем образумится.
10.01.2009 - 11:06 пп
самое странное, что фидбернер говорит, что яндекс-блог подписан на мою ленту. видимо речь идет о том, что применены специальные меры. наверное.
02.02.2009 - 1:57 дп
Спасибо, статья оказалась очень полезной!
01.03.2009 - 5:23 дп
Дмитрий, вы уверены, что данный robots.txt рабочий? Я пользовался им месяц, и ошибок в yandex’e действительно было немного. Но была другая бага.
Совершенно непонятным образом в Google Webmaster Tools количество external links целый месяц словно зависло на одном числе ссылок, которые, как я заметил, были проиндксированы ДО МОМЕНТА, когда я изменил свой robots.txt на тот, что предложен у вас.
Затем, имея подозрения на robots.txt, я оставил его пустым и уже через 2 дня получил в Google Webmaster Tools вместо 7 — 700 внешних ссылок, что приблизительно равно внешним ссылкам по мнению Yandexa, который показывал их все время правильно. Сам до конца не понимаю, какая зависимость может быть у Гугла между кол-вом внешних ссылок на меня и внутренним robots.txt… Может кто-нибудь может подсказать?
Вы со своим блогом не наблюдали случайно таких странностей? В принципе я согласен, что надо запрещать служебный папки, чтобы Яша ошибки не показывал, но такая цена меня не устраивает… Сейчас пользуюсь голым robots.txt и не парюсь, а ошибки Яши не критичны абсолютно… Главное за правами на файлы и папки глаз да глаз ).
26.04.2009 - 11:52 пп
Перспективный блоггер, данный файл влияет ТОЛЬКО на индексацию внутренних страниц сайта и никоим образом — на бэклинки.
Насчёт пустого robots.txt — о неблагоприятных последствиях такого решения почитайте в статье http://www.devnotes.ru/robots_txt.htm.
P.S. Кстати, Дмитрий, про отсутствие разрешающего тега Allow — вас немного «развели». Но, если мне не верите — может авторитет Гугла вас убедит: http://www.google.com/support/webmasters/bin/answer.py?answer=40364&ctx=sibling ;)
23.06.2009 - 12:51 пп
Конечно пост старый, но вернее будет не так:
Disallow: */trackback
Disallow: */feed
А так:
Disallow: /*trackback
Disallow: /*feed
25.11.2009 - 2:15 пп
Спасибо за статью, буду пробовать.
22.03.2010 - 10:30 пп
Спасибо, полезная статейка. Будет время, посижу над своим robots.txt
08.04.2010 - 8:27 дп
Здравствуйте! Может, здесь мне, наконец, помогут…
Все вокруг пишут о том, что должно быть написано в robots.txt. Но новичкам сначала требуется объяснить, как найти этот файл в админ. панели WordPress, если файл уже был создан во время создания карты сайта, но его содержание необходимо подкорректировать.
08.04.2010 - 12:09 пп
Нет, не подскажут. Потому что в админ панели блога его нет. Подключитесь через ФТП подключение и в корне вашего сайта найдите файл robots.txt
23.04.2010 - 10:03 дп
Спасибо за разъяснение темы!
23.04.2010 - 10:03 дп
Спасибо за разъяснение темы!