Robots.txt для вашего WordPress блога

Сегодня захожу в Яндекс.Вебмастер, и вижу что проиндексировав мой блог, Яндекс нашел ошибки.

Выглядит примерно так:

  • HTTP-статус: Ресурс временно перемещён (302)
  • Неверный формат документа

Согласитесь не очень приятно, когда Яндекс ругается на ваш сайт. Начал разбираться что к чему и почему, выяснилось вот что ошибка «Неверный формат документа» возникает по всем ссылкам у которых в конце стоит /feed/ а ошибки «HTTP-статус: Ресурс временно перемещён (302)» на всех ссылках в которых в конце стоит /trackback/ в принципе Яндекс прав, все что выдается по этим ссылкам не для поисковых машин и действительно является ошибками. Будем это исправлять.

Немного покопался в Интернете и решил закрыть все лишние для поисковиков ссылки с помощью файла robots.txt, для тех кто не знает что это за файл, читаем здесь.

В результате у меня получился вот такой файл:
(содержание обновлено 21.07.2010 в соответствии с рекомендациями WordPress.Org)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
User-agent: Yandex
Host: blogproblog.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Этим файлом запрещается индексация служебных разделов вашего блога, для всех поисковых серверов, что позволит избежать различных неприятных недоразумений с поисковиками, таких как дубликация содержимого сайта и тп и тд.

Исправлено: Благодаря подробным комментариям, формат файла немного исправлен, в частности, тег Allow не существует. Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр.

У нас осталась только проблема со звездочкой, в качестве символа замены, но что-то никто ничего конкретного рассказывать не хочет по этому поводу.

Данная статья написана в категории “Блоги для начинающих“, статьи из этой категории нужно рассматривать как приглашение к обсуждению. Если вам есть что дополнить по этой теме, оставляйте свои комментарии.

Ссылки по теме:

Комментарии: 19Напишите свой комментарий!

  1. Nadina Написал(а):

    Спасибо, Дима! Очень по делу и полезно. Уже опробовала — все отлично получилось, проверила на яндексе. Оказалось, что у меня вообще не было файлика robots — теперь есть)))

  2. Pashka R. Написал(а):

    > Disallow: */trackback
    > Disallow: */feed
    > Disallow: */comments

    это не совсем красиво…

    http://robotstxt.org.ru/RobotstxtErrors#h83-9
    http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846

  3. WebMaster Написал(а):

    А на стандарты мы плевать хотели? Что за «*», что за «Allow»? Да и директиву «Host» (яндексовское изобретение) желательно писать в самом конце чтобы другие поисковики не запинались.

  4. Dmitriy Donchenko Написал(а):

    Господа критикующие, я думаю вы конечно-же заметили приписку в конце поста, о том что статья для начинающих и что если есть что дополнить то дополняйте.

    Критиковать всегда проще, а вы взяли бы и написали как правильно.

  5. Lexa Написал(а):

    Выложите пожалуйста кто-нить правильный вариант для тех кто вообще в этом плохо соображает =)

  6. Dmitriy Donchenko Написал(а):

    Тот вариант который сейчас в посте, он рабочий, просто не совсем правильный с точки зрения синтаксиса, тот же Яндекс допустим его понимает отлично.

  7. Serge Написал(а):

    А без файлика робот тикст яндекс будет индексировать сайт? а то мой уже месяца полтора никак не проиндексирует(

  8. Dmitriy Donchenko Написал(а):

    Яндекс сейчас вообще себя странно ведет, но по идее индексировать должен. Google то его проиндексировал, значит и Яндекс со временем образумится.

  9. seomyseo Написал(а):

    самое странное, что фидбернер говорит, что яндекс-блог подписан на мою ленту. видимо речь идет о том, что применены специальные меры. наверное.

  10. Александра Написал(а):

    Спасибо, статья оказалась очень полезной!

  11. Перспективный блоггер Написал(а):

    Дмитрий, вы уверены, что данный robots.txt рабочий? Я пользовался им месяц, и ошибок в yandex’e действительно было немного. Но была другая бага.

    Совершенно непонятным образом в Google Webmaster Tools количество external links целый месяц словно зависло на одном числе ссылок, которые, как я заметил, были проиндксированы ДО МОМЕНТА, когда я изменил свой robots.txt на тот, что предложен у вас.

    Затем, имея подозрения на robots.txt, я оставил его пустым и уже через 2 дня получил в Google Webmaster Tools вместо 7 — 700 внешних ссылок, что приблизительно равно внешним ссылкам по мнению Yandexa, который показывал их все время правильно. Сам до конца не понимаю, какая зависимость может быть у Гугла между кол-вом внешних ссылок на меня и внутренним robots.txt… Может кто-нибудь может подсказать?

    Вы со своим блогом не наблюдали случайно таких странностей? В принципе я согласен, что надо запрещать служебный папки, чтобы Яша ошибки не показывал, но такая цена меня не устраивает… Сейчас пользуюсь голым robots.txt и не парюсь, а ошибки Яши не критичны абсолютно… Главное за правами на файлы и папки глаз да глаз ).

  12. Yeugeny Написал(а):

    Перспективный блоггер, данный файл влияет ТОЛЬКО на индексацию внутренних страниц сайта и никоим образом — на бэклинки.
    Насчёт пустого robots.txt — о неблагоприятных последствиях такого решения почитайте в статье http://www.devnotes.ru/robots_txt.htm.
    P.S. Кстати, Дмитрий, про отсутствие разрешающего тега Allow — вас немного «развели». Но, если мне не верите — может авторитет Гугла вас убедит: http://www.google.com/support/webmasters/bin/answer.py?answer=40364&ctx=sibling ;)

  13. Out Написал(а):

    Конечно пост старый, но вернее будет не так:
    Disallow: */trackback
    Disallow: */feed

    А так:
    Disallow: /*trackback
    Disallow: /*feed

  14. Алексей Написал(а):

    Спасибо за статью, буду пробовать.

  15. Бедный Студент Написал(а):

    Спасибо, полезная статейка. Будет время, посижу над своим robots.txt

  16. Наталия Написал(а):

    Здравствуйте! Может, здесь мне, наконец, помогут…
    Все вокруг пишут о том, что должно быть написано в robots.txt. Но новичкам сначала требуется объяснить, как найти этот файл в админ. панели WordPress, если файл уже был создан во время создания карты сайта, но его содержание необходимо подкорректировать.

  17. Donchenko Написал(а):

    Нет, не подскажут. Потому что в админ панели блога его нет. Подключитесь через ФТП подключение и в корне вашего сайта найдите файл robots.txt

  18. Дмитрий Написал(а):

    Спасибо за разъяснение темы!

  19. Дмитрий Написал(а):

    Спасибо за разъяснение темы!

2 Ссылки на эту запись

  1. Персональная страница Алексея Сусекова » Архив блога » robots.txt Написал(а):

    […] http://blogproblog.com/2007/11/15/wordpress_robots_txt/ […]

  2. SEO копирайтинг. Заработок и вакансии для копирайтеров и журналистов в интернете » Blog Archive » Блог выкинули из “Яндекс-блога”. Как и Написал(а):

    […] Искала в интернете решение связанное с robots.txt.  Нашла вроде бы здесь. […]

Оставьте комментарий Ваш шанс быть услышанным!