Robots.txt для вашего Wordpress блога
Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.
Выглядит примерно так:
- HTTP-статус: Ресурс временно перемещён (302)
- Неверный формат документа
Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка “Неверный формат документа” возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки “HTTP-статус: Ресурс временно перемещён (302)” на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.
Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.
В результате у меня получился вот такой файл:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.
Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.
У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.
Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.
Ссылки по теме:
Блоговодство:
- Монетизация блога с помощью электронной книги
- Как выиграть конкурс по раскрутке блогов
- Димок дал интервью для социального сервиса Toodoo.Ru
- Алтайский блоггер - как придумать что-то интересное
- Всем кто еще не нашел кнопку для RSS ходить на уникальный блог, Уникального человека.
Картинка с сайта http://www.gigablast.com/spider.html
Если вам понравился этот блог, вы можете подписаться на обновления блога через RSS ленту, или по E-Mail. Спасибо за визит!
Теги: Robots.txt, Блоги для начинающих, Поисковые сервера, Раскрутка блога

Ноябрь 15th, 2007 at 12:40 пп
Спасибо, Дима! Очень по делу и полезно. Уже опробовала - все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots - теперь есть)))
Ноябрь 15th, 2007 at 2:17 пп
> Disallow: */trackback
> Disallow: */feed
> Disallow: */comments
это не совсем красиво…
http://robotstxt.org.ru/RobotstxtErrors#h83-9
http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846
Ноябрь 19th, 2007 at 8:18 дп
А на стандарты мы плевать хотели? Что за “*”, что за “Allow”? Да и директиву “Host” (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.
Ноябрь 19th, 2007 at 8:49 дп
Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.
Критиковать всегда проще, а вы взяли бы и написали как правильно.
Ноябрь 19th, 2007 at 6:15 пп
Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)
Ноябрь 19th, 2007 at 6:27 пп
Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.
Январь 25th, 2008 at 1:31 пп
[...] http://blogproblog.com/2007/11/15/wordpress_robots_txt/ [...]