Robots.txt и индексация (видео)

#1 23 июля 2011 в 16:55
Наткнулся случайно на видео по индексации,(само видео здесьвнизу страницы)ну и призадумался, как решить данную проблемму.
Возможно ли запретить в robots.txt все папки и все пункты меню, оставив только /sitemap ?


AddDefaultCharset windows-1251

RewriteEngine On
RewriteBase /
RewriteRule ^.htaccess$ — [F]

RewriteCond %{REQUEST_URI} !\.(jpg|jpeg|ico|gif|png|css|xml|js|pl|txt)$ [NC]
RewriteCond %{REQUEST_FILENAME} !^/admin
RewriteCond %{REQUEST_FILENAME} !^/migrate
RewriteCond %{REQUEST_FILENAME} !^/install
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d

RewriteRule ^(.*)$ /index.php [L]
RewriteCond %{HTTP_HOST} ^www\.(.+)$ [NC]
RewriteRule ^(.*) %1/$1 [L,R=301]

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ /$1/ [R=301,L]
  1. RewriteCond %{REQUEST_FILENAME} !-f
  2. RewriteCond %{REQUEST_URI} !(.*)/$
  3. RewriteRule ^(.*)$ /$1/ [R=301,L]

Первая строка отвечает за то, чтобы слеш не приписывался к запросам файлов. Вторая строка как раз и занимается определением, со слешем ли адрес или нет. Если адрес не содержит слеш в конце, то в действие вступает заключительная часть кода, делающая 301-й редирект на тот же самый адрес, но со слешем в конце.

  1. RewriteCond %{HTTP_HOST} ^www\.(.+)$ [NC]
  2. RewriteRule ^(.*) http://%1/$1 [L,R=301]

Сливание адресов происходит опять таки посредством 301-го редиректа. В первой строке и происходит тест на наличие в URL www-шного варианта написания адреса.

Непонятно, будут ли эти переадресации создавать дополнительную нагрузку на сервер.
Адреса вида www.site.ru/blogs и т.п. переадресовываются на site.ru/index.php, что тоже не есть хорошо.
Вобщем, кто понимает, помогите плз разобраться.

User-Agent: Googlebot
Allow: /
Sitemap: site.com/sitemap.xml

User-agent: Yandex
Allow: /

User-Agent: *
Allow: /
Disallow: /search/tag/
Disallow: /phpinfo.php/
Disallow: /subdomains/
Disallow: /admin/
Disallow: /backups/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /components/
Disallow: /core/
Disallow: /filters/
Disallow: /highslide/
Disallow: /images/
Disallow: /imgnotes/
Disallow: /includes/
Disallow: /languages/
Disallow: /modules/
Disallow: /plugins/
Disallow: /share42/
Disallow: /templates/
Disallow: /upload/
Disallow: /novosti/
Disallow: /review/
Disallow: /stati/
Disallow: /blogs/
Disallow: /clubs/
Disallow: /catalog/
Disallow: /board/
Disallow: /faq/
Disallow: /users/
Disallow: /photos/
Disallow: /video/
Disallow: /chat/
Disallow: /forum/
Disallow: /arhive/
Disallow: /work/
Disallow: /content/
Disallow: /rss/
Disallow: /

Host: site.com
Хотелось бы услышать мнения по этому поводу.
#2 27 июля 2011 в 02:45
Сам спросил, сам и отвечаю, может кому пригодится.Тему не закрываю, возможно кто-то пожелает что-нить добавить.
Итак, по результатам тестов абсолютно одинаковых сайтов на одном хостинге получили следующее:
нагрузка на сервер значительно возросла, сайт стал грузиться в 4 раза дольше.Следовательно от идеи с .htaccess отказался безоговорочно.
Касаемо robots.txt, понимаю, что,php бот не читает, но оставил закрытыми папки движка, дабы не нагружать лишний раз ботов и сайт))
В теме с www и без вообще не вижу смысла, поскольку при добавлении сайта в гугл мы указываем главный домен и зеркало, в яше наверное автоматом то же происходит.Да и в индексе не встречал страниц с www своих сайтов.
#3 28 июля 2011 в 02:19
Ты уж извини, но на счет блокирования всех пунктов меню в robots.txt — это у тебя паранойя после случившегося с Мегафоном?

Блокируешь админку, и все что рядом касаемо такого плана. Users в принципе можно. А зачем весь сайт почти?
Закрыл — а индексировать материалы и прочее — то кто будет? или ты отчет будешь им в письменном варианте отсылать?
Сайт единоразово теряет смысл. Ты его приватным автоматически делаешь shock

Смысл с сайтмапа, если переход по ссылке запрещен, который находится в сайт мапе? То ли я ошибаюсь сам в себе уже. %)
#4 16 августа 2011 в 15:36


Ты уж извини, но на счет блокирования всех пунктов меню в robots.txt — это у тебя паранойя после случившегося с Мегафоном?

Блокируешь админку, и все что рядом касаемо такого плана. Users в принципе можно. А зачем весь сайт почти?
Закрыл — а индексировать материалы и прочее — то кто будет? или ты отчет будешь им в письменном варианте отсылать?
Сайт единоразово теряет смысл. Ты его приватным автоматически делаешь shock

Смысл с сайтмапа, если переход по ссылке запрещен, который находится в сайт мапе? То ли я ошибаюсь сам в себе уже. %)

Lover
Мне кажется, что надо однозначно закрывать:
  1. Disallow: /admin/
  2. Disallow: /backups/
  3. Disallow: /cache/
  4. Disallow: /core/
  5. Disallow: /templates/
Вообще, хотелось бы мнение админов услышать.
Спасибо!
#5 16 августа 2011 в 19:14

Мне кажется, что надо однозначно закрывать:

Олег Васильевич я
ПС о этих (и других описанных здесь) директориях ничего не знает — вывод: пишите глупость — раз, второе — сами же раскрываете злоумышленникам вашу структуру папок smile
#6 16 августа 2011 в 23:58


Мне кажется, что надо однозначно закрывать:

Олег Васильевич я
ПС о этих (и других описанных здесь) директориях ничего не знает — вывод: пишите глупость — раз, второе — сами же раскрываете злоумышленникам вашу структуру папок smile

Fuze
1. "ПС" — Вы о поисковых роботах?
2. "пишите глупость" — три четверти Ваших сообщений (из тех что мне посчастливилось прочитать) касаются уважительного отношения к форумчанам
3. А страшны ли нам злоумышленники, для которых структура папок InstantCMS нераскрываемый секрет?
Можно ж и просто написать что закрывать от индексации а что нет.
#7 17 августа 2011 в 08:05

1. "ПС" — Вы о поисковых роботах?

Олег Васильевич я
да

2. "пишите глупость" — три четверти Ваших сообщений (из тех что мне посчастливилось прочитать) касаются уважительного отношения к форумчанам

Олег Васильевич я
я вас чем-то оскорбил? или "пишите глупость" — считается неуважительным отношением к форумчанам?

Можно ж и просто написать что закрывать от индексации а что нет.

Олег Васильевич я
я вам просто и написал, но по всей видимости сами вы принять решение не можете.
#8 17 августа 2011 в 11:48
1 — спасибо!
2 — снимаю zst
3 — ничего не закрываем?
Спасибо!
#9 17 августа 2011 в 11:59

3 — ничего не закрываем?

Олег Васильевич я
закрываем только то, что нужно конкретно, например ВОЗМОЖНО ВАМ не нужно /search/tag/ — значит прописываем, кому нужно НЕ прописываем.
системные папки закрывать НЕТ смысла. Ссылок на них НЕТ. Найдите ссылку на /core или /cache или /backups или другие системные папки… Просто нужно немного подумать а не просто копировать друг у друга.
#10 1 сентября 2011 в 00:25
robots.txt нужен любая SEO книга об этом начинается. Гугл и Яндекс советуют их использовать. Злоумышленникам? Кому мы нужны😊Не смешите))))
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.