Опять robots.txt, яндекс

яндекс вебмастер, robots.txt

#1 1 марта 2012 в 10:23
Гугля проиндексировала сайт полностью. 100% страниц не под фильтрами.
С яндексом проблема который день. То хостер роботу ошибку вернул, пришлось ждать пока робот опять прийдет.
Теперь новая фишка. В яндекс вебмастере напротив сайта написано "Ваш сайт не был проиндексирован из-за запрета в файле robots.txt". Когда в вебмастере заходишь внутрь сайта, то пишет:
--------------------------------------------
"23.02.2012 наш робот получил полный запрет на индексирование сайта в Вашем файле robots.txt, поэтому сайт в поиске не участвует. Пожалуйста, воспользуйтесь формой проверки. Если сейчас запрет отсутствует, то сайт начнет индексироваться в течение 2 недель, после чего сообщение обновится. Если запрет все еще присутствует, то по вопросу устранения этой проблемы Вам нужно обратиться к администратору Вашего сайта или хостеру.

Внимание! Главная страница сайта исключена из индекса: Документ запрещен в файле robots.txt ."
---------------------------------------------

Сделал проверку robots.txt в яндекс вебмастере. Пишет "Найдено несколько правил вида "User-agent: *""

При этом в аддурилку страницы успешно добавляются.

Файл robots.txt:

User-Agent: Googlebot
Allow: /


User-agent: Yandex
Allow: /

User-Agent: *
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /backups/
Disallow: /backup/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /users/
Disallow: /core/


Sitemap: site.ru/sitemap.xml
Host: site.ru

Домен кириллический. В robots.txt указан в punycode, согласно рекомендаций яндекс вебмастера.
Файл robots.txt делал по сообщениям в темах форума. Что может быть не так?
#2 1 марта 2012 в 10:35
Вы не поверите, но у вас практически пустой роботс (то есть закрывает то, куда робот не заходит, вам бы поиск закрыть с тэгами, комментарии, редирект ну и так далее)… Советую первые две команды вообще удалить, зачем это вообще нужно показывать роботам (отдельности причем) что им разрешается все индексировать? Я сейчас склоняюсь к такому роботсу на своих сайтах:

User-agent: *
Disallow: /users
Disallow: /video/channel
Disallow: /go
Disallow: /registration
Disallow: /rss/
Disallow: /comments
Disallow: /index.php
Disallow: /login
Disallow: /admin
Disallow: /search
Host: www.site.ru

Пользователей можете не закрывать, это скажем на любителя ))) Видео-каналы — если используете компонент видео также лучше закрыть (если не используете, удаляете)
#3 1 марта 2012 в 10:38
Спасибо. Исправил. Отпишусь о результатах.
#4 13 марта 2012 в 23:49
Исправил robots.txt 1-го числа. Сейчас яндекс вебмастер не ругается. Робот последний раз был 11 числа. Сегодня 13. В индексе по прежнему только главная страница :(
#5 14 марта 2012 в 00:03
а sitemap.xml не пустой?
#6 14 марта 2012 в 00:05

Робот последний раз был 11 числа. Сегодня 13.

Che
Это яндекс, не требуйте от него мгновенной реакции. Да и последний апдейт поисковой базы был 11 числа, то есть последние два дня в поиск еще не попали. Подождите неделю, тогда может будет результат.
#7 14 марта 2012 в 00:06

а sitemap.xml не пустой?

eoleg
карта сайта тут не ускорит процесс glasses
Если проблем нет — то Яша проиндексирует сайт за неделю-две. За день-два такие вещи не происходят(касается Яндекса)
#8 14 марта 2012 в 00:13
soxom, а почему видео нужно закрывать роботсом ?

Disallow: /rss/
это закрыл, чтобы не воровали или для чего ?

и какая разница между
Disallow: /rss/
и
Disallow: /rss
#9 14 марта 2012 в 00:17
От яндекса обычно стандартный ответ подождите две недели… Может по социалкам прогнать…
#10 14 марта 2012 в 00:32

User-agent: *
Disallow: /users
Disallow: /video/channel
Disallow: /go
Disallow: /registration
Disallow: /rss/
Disallow: /comments
Disallow: /index.php
Disallow: /login
Disallow: /admin
Disallow: /search
Host: www.site.ru

soxom

Во первых не стоит забывать о правилах файла, по этому стоит серьезно отнестись к этому. Один из важнейших файлов, можно такого наколбасить… Это не упрек, всего знать нельзя.

Disallow: /search # так не будет работать
Disallow: /*search # так будет
Disallow: /index.php # закроет все что с него начинается и не исполнит задачу убрать дубль
Disallow: /index.php$ # так сработает как и задумано.
Далее по списку:
Disallow: /*comments
Disallow: /*login
Disallow: /*admin
Disallow: /*registration
lezginka.ru
Disallow: /rss/# по факту окажется в выдаче выше основных страниц, по этому закрывается, кому надо найдет и тд и тп.

Ну и до кучи
Disallow: /backups/
Disallow: /backup/
Disallow: /board/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /users/
Disallow: /core/
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /tag/
Disallow: /search/

Не помню что еще, давно не смотрел.

Получилось


User-agent: *
Disallow: /backups/
Disallow: /backup/
Disallow: /board/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /users/
Disallow: /core/
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /tag/
Disallow: /search/
Disallow: /rss/
Disallow: /*search
Disallow: /*comments
Disallow: /*login
Disallow: /*admin
Disallow: /*registration
Disallow: /index.php$
Sitemap: домен/sitemaps.xml
Host: главное зеркало

В принципе можно написать куда изощренние правила с кучей параметров. Использовав все доступные правила.
#11 14 марта 2012 в 00:37
Хоть кто нибудь объясните почему надо закрывать доступ боту в админку и папку бекапов? Чую что здесь какой то подвох кроется которого не знаю ;( и надо ли прописывает запрет доступа к каждому конкретному файлу бекапа?
#12 14 марта 2012 в 00:38

Disallow: /backups/
Disallow: /backup/

garry
скорее всего опечатка у меня только Disallow: /backups/
#13 14 марта 2012 в 00:44
На самом деле закрыть стоит все от индексации, что не должно быть в индексе. всякое бывает и можно где то накосячить и потом будет мучительно больно...
Боятся что хакеры узнают что у вас есть директория с архивами и чем то еще бессмысленно. Структуру сайтов и тд знают все. А вот ботам там нечего делать. Для "осторожных" можно запаролить директории. Ну и конечно не показывать файлы в папке при прямом доступе.
#14 14 марта 2012 в 00:46
Ну зачем? Какой смысл закрывать? Disallow: /backups/
Disallow: /backup/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /core/
Disallow: /admin

все ровно ето никто не видит!!! Хм… Или я туплю или Вы…
#15 14 марта 2012 в 00:46
Ну зачем? Какой смысл закрывать? Disallow: /backups/
Disallow: /backup/
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /core/
Disallow: /admin

все ровно ето никто не видит!!! Хм… Или я туплю или Вы…
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.