Robots.txt для вашего WordPress блога

Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.

Выглядит примерно так:

  • HTTP-статус: Ресурс временно перемещён (302)
  • Неверный формат документа

Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка «Неверный формат документа» возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки «HTTP-статус: Ресурс временно перемещён (302)» на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.

Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.

В результате у меня получился вот такой файл:
(содержание обновлено 21.07.2010 в соответствии с рекомендациями WordPress.Org)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.

Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.

У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.

Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.

Ссылки по теме:

Почитать еще

  1. Доменное имя вашего блога
  2. Ссылки для регистрации блога
  3. Упаковка идей, по раскрутке вашего блога
  4. 33 гарантированных способа для увеличения RSS подписчиков блога
  5. Источники трафика для блога

Комментарии: 19Напишите свой комментарий!

  1. Nadina Написал(а):

    Спасибо, Дима! Очень по делу и полезно. Уже опробовала — все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots — теперь есть)))

  2. Pashka R. Написал(а):

    > Disallow: */trackback

    > Disallow: */feed

    > Disallow: */comments

    это не совсем красиво...

    robotstxt.org.ru/RobotstxtErrors#h83-9

    www.google.ru/support/web...7&topic=8846

  3. WebMaster Написал(а):

    А на стандарты мы плевать хотели? Что за «*», что за «Allow»? Да и директиву «Host» (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.

  4. Dmitriy Donchenko Написал(а):

    Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.

    Критиковать всегда проще, а вы взяли бы и написали как правильно.

  5. Lexa Написал(а):

    Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)

  6. Dmitriy Donchenko Написал(а):

    Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.

  7. Serge Написал(а):

    А без файлика робот тикст яндекс будет индексировать сайт? а то мой уже месяца полтора никак не проиндексирует(

  8. Dmitriy Donchenko Написал(а):

    Яндекс сейчас вообще себя странно ведет, но по идее индексировать должен. Google то его проиндексировал, значит и Яндекс со временем образумится.

  9. seomyseo Написал(а):

    самое странное, что фидбернер говорит, что яндекс-блог подписан на мою ленту. видимо речь идет о том, что применены специальные меры. наверное.

  10. Александра Написал(а):

    Спасибо, статья оказалась очень полезной!

  11. Перспективный блоггер Написал(а):

    Дмитрий, вы уверены, что данный robots.txt рабочий? Я пользовался им месяц, и ошибок в yandex'e действительно было немного. Но была другая бага.

    Совершенно непонятным образом в Google Webmaster Tools количество external links целый месяц словно зависло на одном числе ссылок, которые, как я заметил, были проиндксированы ДО МОМЕНТА, когда я изменил свой robots.txt на тот, что предложен у вас.

    Затем, имея подозрения на robots.txt, я оставил его пустым и уже через 2 дня получил в Google Webmaster Tools вместо 7 — 700 внешних ссылок, что приблизительно равно внешним ссылкам по мнению Yandexa, который показывал их все время правильно. Сам до конца не понимаю, какая зависимость может быть у Гугла между кол-вом внешних ссылок на меня и внутренним robots.txt... Может кто-нибудь может подсказать?

    Вы со своим блогом не наблюдали случайно таких странностей? В принципе я согласен, что надо запрещать служебный папки, чтобы Яша ошибки не показывал, но такая цена меня не устраивает... Сейчас пользуюсь голым robots.txt и не парюсь, а ошибки Яши не критичны абсолютно... Главное за правами на файлы и папки глаз да глаз ).

  12. Yeugeny Написал(а):

    Перспективный блоггер, данный файл влияет ТОЛЬКО на индексацию внутренних страниц сайта и никоим образом — на бэклинки.

    Насчёт пустого robots.txt — о неблагоприятных последствиях такого решения почитайте в статье www.devnotes.ru/robots_txt.htm.

    P.S. Кстати, Дмитрий, про отсутствие разрешающего тега Allow — вас немного «развели». Но, если мне не верите — может авторитет Гугла вас убедит: www.google.com/support/we...&ctx=sibling ;)

  13. Out Написал(а):

    Конечно пост старый, но вернее будет не так:

    Disallow: */trackback

    Disallow: */feed

    А так:

    Disallow: /*trackback

    Disallow: /*feed

  14. Алексей Написал(а):

    Спасибо за статью, буду пробовать.

  15. Бедный Студент Написал(а):

    Спасибо, полезная статейка. Будет время, посижу над своим robots.txt

  16. Наталия Написал(а):

    Здравствуйте! Может, здесь мне, наконец, помогут...

    Все вокруг пишут о том, что должно быть написано в robots.txt. Но новичкам сначала требуется объяснить, как найти этот файл в админ. панели WordPress, если файл уже был создан во время создания карты сайта, но его содержание необходимо подкорректировать.

  17. Donchenko Написал(а):

    Нет, не подскажут. Потому что в админ панели блога его нет. Подключитесь через ФТП подключение и в корне вашего сайта найдите файл robots.txt

  18. Дмитрий Написал(а):

    Спасибо за разъяснение темы!

  19. Дмитрий Написал(а):

    Спасибо за разъяснение темы!

2 Ссылки на эту запись

  1. Персональная страница Алексея Сусекова » Архив блога » robots.txt Написал(а):

    [...] blogproblog.com/2007/11/1...ress_robots_txt/ [...]

  2. SEO копирайтинг. Заработок и вакансии для копирайтеров и журналистов в интернете » Blog Archive » Блог выкинули из “Яндекс-блога”. Как и Написал(а):

    [...] Искала в интернете решение связанное с robots.txt.  Нашла вроде бы здесь. [...]