Снова о robots.txt

ЕСТЬ РЕШЕНИЕ ЗАКРЫТО

Спорные моменты

#16 5 января 2014 в 23:34
По файлу топик стартера...

Может не прав но дерективы:
  1.  
  2. Sitemap: http://сайт.ua/sitemap.xml
  3. Host: http://сайт.ua/
  4.  
Разве не должны быть в конце файла и не обрывают ли тем самым файл?

Насчет системных отношусь логически… Ну, допустим бот проиндексирует папку admin, core ну и что?

Обьясните что он такого оттуда выдаст в поиск, что как то повлияет на ранжирование сайта?.

Этот файл только для ботов ПС и нужен, дабы не лазили туда куда не следует( индекс чистый, залог успеха) и не напрягали лишний раз сервак или хост, иной раз тот же байду на популярном проекте может в 1000 потоков сканить или майл иногда грешит таким. Или популярную тему сканит одновременно куча ботов и начнут по папкам с картинками или еще с чем лазить, нагенерят трафа бесполезного, хостер возрадуется)))

garry

Теоретически понятно, но веть боты понимают и отличают код и контент причем если взять массштаб-соотношение то…
#17 6 января 2014 в 00:14

массштаб-соотношение то...

Rainbow
То..., боты генерят больше 30%+ тафа на проекте, а в целом по инету больше.

Облачным сервисом Incapsula на протяжении трех месяцев собирались данные с 20 тысяч сайтов. Провайдером были изучены около полутора миллиардов просмотров страниц на сайтах, которые находятся в 249 странах мира. Полученная информация позволила сделать вывод, что большинство мирового интернет-трафика (более 60 %) генерируется ботами.

Результаты исследований Incapsula изобразил в виде инфографики. Среди трафика, который генерируется специальными программами и никак не связан с деятельностью людей, доля спама составляет всего 0,5 %, большая часть статистики (31 %) приходится на поисковые системы.

Необходимо отметить, что человеческий фактор с каждым годом уменьшает свое влияние на генерирование контента. В нынешнем году этот показатель на 10,5 % выше, чем показатели прошлого года.

#18 6 января 2014 в 15:20
В общем, спасибо всем за советы, особенно, за дельные)
  1.  
  2.  
  3. User-agent : Googlebot
  4. Disallow: /backups/
  5. Disallow: /backup/
  6. Disallow: /components/
  7. Disallow: /wysiwyg/
  8. Disallow: /includes/
  9. Disallow: /modules/
  10. Disallow: /filters/
  11. Disallow: /languages/
  12. Disallow: /users/
  13. Disallow: /core/
  14. Disallow: /login/
  15. Disallow: /admin/
  16. Disallow: /registration/
  17. Disallow: /tag/
  18. Disallow: /go/
  19. Disallow: /search/
  20. Disallow: /rss/
  21. Disallow: /*search
  22. Disallow: /*comments
  23. Disallow: /*login
  24. Disallow: /*admin
  25. Disallow: /*registration
  26. Disallow: /index.php$
  27. Disallow: /--kornevoi-razdel--
  28.  
  29. User-agent: Slurp
  30. Crawl-delay: 1
  31.  
  32.  
  33.  
  34. User-agent : Yandex
  35. Disallow: /backups/
  36. Disallow: /backup/
  37. Disallow: /components/
  38. Disallow: /wysiwyg/
  39. Disallow: /includes/
  40. Disallow: /modules/
  41. Disallow: /filters/
  42. Disallow: /languages/
  43. Disallow: /users/
  44. Disallow: /core/
  45. Disallow: /login/
  46. Disallow: /admin/
  47. Disallow: /registration/
  48. Disallow: /tag/
  49. Disallow: /go/
  50. Disallow: /search/
  51. Disallow: /rss/
  52. Disallow: /*search
  53. Disallow: /*comments
  54. Disallow: /*login
  55. Disallow: /*admin
  56. Disallow: /*registration
  57. Disallow: /index.php$
  58. Disallow: /--kornevoi-razdel--
  59.  
  60. User-agent: Slurp
  61. Crawl-delay: 1
  62.  
  63.  
  64. User-agent: *
  65. Disallow: /backups/
  66. Disallow: /backup/
  67. Disallow: /components/
  68. Disallow: /wysiwyg/
  69. Disallow: /includes/
  70. Disallow: /modules/
  71. Disallow: /filters/
  72. Disallow: /languages/
  73. Disallow: /users/
  74. Disallow: /core/
  75. Disallow: /login/
  76. Disallow: /admin/
  77. Disallow: /registration/
  78. Disallow: /tag/
  79. Disallow: /go/
  80. Disallow: /search/
  81. Disallow: /rss/
  82. Disallow: /*search
  83. Disallow: /*comments
  84. Disallow: /*login
  85. Disallow: /*admin
  86. Disallow: /*registration
  87. Disallow: /index.php$
  88. Disallow: /--kornevoi-razdel--
  89. Sitemap: http://i.ks.ua/sitemap.xml
  90. Host: i.ks.ua
  91.  
  92. User-agent: Slurp
  93. Crawl-delay: 1
  94.  
#19 6 января 2014 в 15:55

В общем, спасибо всем за советы, особенно, за дельные)

Artem
судя по всему вы так ничего не поняли facepalm
#20 6 января 2014 в 16:33
Artem, Посмотрите эти подборки и комментарии внимательно: smile

Ваш файл не правильный, но в них Вы возможно (если так необходимо) подберете готовое решение, или скорректируете под свой проект.
Но все таки лучше покопаться в панеле вебмастера (например Яши) чтобы не просто брать, а знать что брать. smile

instantcms.ru/blogs/instantdev/optimalnyi-robots-txt.html

instantcms.ru/blogs/instantdev/optimalnyi-robots-txt-chast-2.html

instantcms.ru/forum/thread9866.html
#21 6 января 2014 в 21:14
Rainbow, уже в Яндексе…
#22 6 января 2014 в 21:19

уже в Яндексе...

Artem

Все мы там будем...

Лишь бы не было войны.
#23 6 января 2014 в 22:55
Rainbow, Теперь становиться понятно, что толк от сервисов при составлении robots.txt нулевой. look
#24 7 января 2014 в 11:50
Artem, ну вам же разжевали уже и даже ссылки дали на мануалы яндекса и вики, да даже на мои посты в блоге где я разжевал роботс подробнее некуда… а результат нулевой.

Не нужно разделять секции на каждого бота свою. Зачем? У вас же правила в каждой идентичные. Можно и нужно приводить все к одной секции User-agent: *

Почитайте в блогах мой второй пост про роботс, там разжевано почему надо писать общую секцию, а в конце давать сайтмап, а последней строкой хост. Официально дирректива хост только для яндекса и остальные боты могут воспринять как ошибку и дальше не считывать, поэтому после хоста лучше ничего не ставить.
#25 7 января 2014 в 12:06
Основную секцию лучше конечно не делить, но если туда добавить хост, то ниже большая часть ботов не пойдет. А ниже указываем блоки для ограничение всяких слюрпов, майлов и тд. Плюс обязательно блок отдельный для рекламных ботов того же гугла, с разрешением сканить все что можно, так как рекламу можно развесить и в профили и в дублях, на всяких редиректах… пусть видит и вообще везде где ходят гости и пользователи.
#26 7 января 2014 в 12:32
picaboo, ну так прочитаны "разжевывающие" посты. Уже одна секция. Один хост последней строкой. Почему Вы решили, что результат нулевой?

P.S. раньше не придавал этому большое значение. А вообще, началось все с использования сервиса.
#27 7 января 2014 в 16:30

picaboo, ну так прочитаны "разжевывающие" посты. Уже одна секция. Один хост последней строкой. Почему Вы решили, что результат нулевой?

Artem

к сожалению не телепат ни разу, а в последнем сообщении вижу простыню. решена проблема — есть кнопка закрыть тему.
#28 7 января 2014 в 16:40
picaboo,

Rainbow, уже в Яндексе...

Artem

По совету человека отправился изучать советы Яндекса. Составил, потом проверил в панелях Яндекса и Гугла.
Не закрываю, потому как хотелось бы увидеть по новому файлу выдачу в ПС…
В любом случае огромное спасибо за мнения и критику.
#29 7 января 2014 в 17:16
Финалный роботс обязательно выложу на суд общественности.
#30 10 января 2014 в 01:38
Материал прочитан, может и остались грешки, но, собственно вот:

  1.  
  2. User-agent: *
  3. Disallow: *.php
  4. Disallow: /content
  5. Disallow: /--kornevoi-razdel--
  6. Disallow: /forum/thread*-1.html
  7. Disallow: /search
  8. Disallow: /login
  9. Disallow: /registration
  10. Disallow: /passremind.html
  11. Disallow: /go/
  12. Disallow: /templates
  13. Disallow: /rss
  14. Disallow: */tag/
  15. Disallow: /arhive
  16. Disallow: /comments
  17. Disallow: */page-*
  18. Disallow: */top*
  19. Disallow: */cat*
  20. Disallow: *?iframe*
  21. Sitemap: http://сайт.ua/sitemap.xml
  22. Host: сайт.ua
Прошу критику в студию!

P.S. отдельное спасибо *beez*

Похожие темы

Robots.txt для instantcms 2

SEO & PR Создана 4 года назад 19 сообщений

Компонент Sitemap и robots

Компоненты Создана 4 года назад 3 сообщения

Вопрос по robots.txt

SEO & PR Создана 4 года назад 7 сообщений

Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.