Robots.txt для вашего Wordpress блога
Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.
Выглядит примерно так:
- HTTP-статус: Ресурс временно перемещён (302)
- Неверный формат документа
Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка “Неверный формат документа” возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки “HTTP-статус: Ресурс временно перемещён (302)” на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.
Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.
В результате у меня получился вот такой файл:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.
Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.
У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.
Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.
Ссылки по теме:
Блоговодство:
- Монетизация блога с помощью электронной книги
- Как выиграть конкурс по раскрутке блогов
- Димок дал интервью для социального сервиса Toodoo.Ru
- Алтайский блоггер – как придумать что-то интересное
- Всем кто еще не нашел кнопку для RSS ходить на уникальный блог, Уникального человека.
Картинка с сайта http://www.gigablast.com/spider.html
Если вам понравился этот блог, вы можете подписаться на обновления блога через RSS ленту, или по E-Mail. Спасибо за визит!
Сходим на сайт украшение цветами! Цветы москва доставка букетов цветы, букет невесты в москве!
Четверг, Ноябрь 15th 2007 в 12:40 пп |
Спасибо, Дима! Очень по делу и полезно. Уже опробовала – все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots – теперь есть)))
Четверг, Ноябрь 15th 2007 в 2:17 пп |
> Disallow: */trackback
> Disallow: */feed
> Disallow: */comments
это не совсем красиво…
Понедельник, Ноябрь 19th 2007 в 8:18 дп |
А на стандарты мы плевать хотели? Что за “*”, что за “Allow”? Да и директиву “Host” (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.
Понедельник, Ноябрь 19th 2007 в 8:49 дп |
Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.
Критиковать всегда проще, а вы взяли бы и написали как правильно.
Понедельник, Ноябрь 19th 2007 в 6:15 пп |
Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)
Понедельник, Ноябрь 19th 2007 в 6:27 пп |
Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.
Вторник, Ноябрь 25th 2008 в 11:32 пп |
А без файлика робот тикст яндекс будет индексировать сайт? а то мой уже месяца полтора никак не проиндексирует(
Вторник, Ноябрь 25th 2008 в 11:43 пп |
Яндекс сейчас вообще себя странно ведет, но по идее индексировать должен. Google то его проиндексировал, значит и Яндекс со временем образумится.
Суббота, Январь 10th 2009 в 11:06 пп |
самое странное, что фидбернер говорит, что яндекс-блог подписан на мою ленту. видимо речь идет о том, что применены специальные меры. наверное.
Понедельник, Февраль 2nd 2009 в 1:57 дп |
Спасибо, статья оказалась очень полезной!
Воскресенье, Март 1st 2009 в 5:23 дп |
Дмитрий, вы уверены, что данный robots.txt рабочий? Я пользовался им месяц, и ошибок в yandex’e действительно было немного. Но была другая бага.
Совершенно непонятным образом в Google Webmaster Tools количество external links целый месяц словно зависло на одном числе ссылок, которые, как я заметил, были проиндксированы ДО МОМЕНТА, когда я изменил свой robots.txt на тот, что предложен у вас.
Затем, имея подозрения на robots.txt, я оставил его пустым и уже через 2 дня получил в Google Webmaster Tools вместо 7 – 700 внешних ссылок, что приблизительно равно внешним ссылкам по мнению Yandexa, который показывал их все время правильно. Сам до конца не понимаю, какая зависимость может быть у Гугла между кол-вом внешних ссылок на меня и внутренним robots.txt… Может кто-нибудь может подсказать?
Вы со своим блогом не наблюдали случайно таких странностей? В принципе я согласен, что надо запрещать служебный папки, чтобы Яша ошибки не показывал, но такая цена меня не устраивает… Сейчас пользуюсь голым robots.txt и не парюсь, а ошибки Яши не критичны абсолютно… Главное за правами на файлы и папки глаз да глаз ).
Воскресенье, Апрель 26th 2009 в 11:52 пп |
Перспективный блоггер, данный файл влияет ТОЛЬКО на индексацию внутренних страниц сайта и никоим образом – на бэклинки.
Насчёт пустого robots.txt – о неблагоприятных последствиях такого решения почитайте в статье .
P.S. Кстати, Дмитрий, про отсутствие разрешающего тега Allow – вас немного “развели”. Но, если мне не верите – может авторитет Гугла вас убедит:
Вторник, Июнь 23rd 2009 в 12:51 пп |
Конечно пост старый, но вернее будет не так:
Disallow: */trackback
Disallow: */feed
А так:
Disallow: /*trackback
Disallow: /*feed