Снова о robots.txt

ЕСТЬ РЕШЕНИЕ ЗАКРЫТО

Спорные моменты

#1 5 января 2014 в 16:21
При помощи одного из онлайн сервисов генерации файла robots.txt
Группе, к которой вы принадлежите, запрещено просматривать этот скрытый текст


получился вот такой файл:
  1.  
  2. User-agent : Googlebot
  3. Disallow: /backups/ # на любителя
  4. Disallow: /backup/ # на любителя
  5. Disallow: /components/
  6. Disallow: /wysiwyg/
  7. Disallow: /includes/
  8. Disallow: /modules/
  9. Disallow: /filters/
  10. Disallow: /languages/
  11. Disallow: /users/
  12. Disallow: /core/
  13. Disallow: /login/
  14. Disallow: /admin/
  15. Disallow: /registration/
  16. Disallow: /tag/
  17. Disallow: /search/
  18. Disallow: /rss/
  19. Disallow: /*search
  20. Disallow: /*comments
  21. Disallow: /*login
  22. Disallow: /*admin
  23. Disallow: /*registration
  24. Disallow: /index.php$
  25. Sitemap: http://сайт.ua/sitemap.xml
  26. Host: http://сайт.ua/
  27.  
  28. User-agent: Slurp # дабы не нагибал сайт
  29. Crawl-delay: 100
  30. # на основе этого, легко подстроить под себя
  31.  
  32.  
  33. User-agent : Yandex
  34. Disallow: /backups/ # на любителя
  35. Disallow: /backup/ # на любителя
  36. Disallow: /components/
  37. Disallow: /wysiwyg/
  38. Disallow: /includes/
  39. Disallow: /modules/
  40. Disallow: /filters/
  41. Disallow: /languages/
  42. Disallow: /users/
  43. Disallow: /core/
  44. Disallow: /login/
  45. Disallow: /admin/
  46. Disallow: /registration/
  47. Disallow: /tag/
  48. Disallow: /search/
  49. Disallow: /rss/
  50. Disallow: /*search
  51. Disallow: /*comments
  52. Disallow: /*login
  53. Disallow: /*admin
  54. Disallow: /*registration
  55. Disallow: /index.php$
  56. Sitemap: http://сайт.ua/sitemap.xml
  57. Host: http://сайт.ua/
  58.  
  59. User-agent: *
  60. Disallow: /backups/ # на любителя
  61. Disallow: /backup/ # на любителя
  62. Disallow: /components/
  63. Disallow: /wysiwyg/
  64. Disallow: /includes/
  65. Disallow: /modules/
  66. Disallow: /filters/
  67. Disallow: /languages/
  68. Disallow: /users/
  69. Disallow: /core/
  70. Disallow: /login/
  71. Disallow: /admin/
  72. Disallow: /registration/
  73. Disallow: /tag/
  74. Disallow: /search/
  75. Disallow: /rss/
  76. Disallow: /*search
  77. Disallow: /*comments
  78. Disallow: /*login
  79. Disallow: /*admin
  80. Disallow: /*registration
  81. Disallow: /index.php$
  82. Sitemap: http://сайт.ua/sitemap.xml
  83. Host: http://сайт.ua/
Так вот, сервис прописал закрытие от ПС доски объявлений (Disallow: /board/) — у себя убрал. И профили пользователей и теги закрыты.
Необходимо ли это для SEO?
Основное зеркало указывать с приставкой "" или без?
#2 5 января 2014 в 17:28
Artem, следует запрещать индексацию всех страниц, которые не соответствуют рекомендациям об обеспечении качества сайта от псов. профили не нужны в индексе, теги тоже. Основное зеркало указывать без ""
#3 5 января 2014 в 17:54
мега роботс hoho
#4 5 января 2014 в 17:56
*beez*, Доску объявлений тоже скрывать?
#5 5 января 2014 в 17:58
Clear, а если по теме?
#6 5 января 2014 в 18:00
Artem, если Вы "допилили" к доске объявлений СЕО, и теперь она не дублирует метатеги от главной страницы, а также все страницы доски объявлений правильно оформлены, информативны, уникальны, планируется их продвижение, то запрещать индексацию нельзя😊 если доска объявлений представляет собой каталог некачественных неинформативных страниц, то безусловно запрещайте ее индексацию, чтобы не снижать качество сайта в целом
#7 5 января 2014 в 18:11
*beez*, допилена чуть-чуть по рекомендации этого поста
#8 5 января 2014 в 20:35
Artem, не много сео😊то есть мало, но уж лучше чем без этого
не глядя на то, что у Вас получается на сайте, однозначный ответ дать не могу
#9 5 января 2014 в 20:55
Вот сколько читаю тем про данный файл и его наполнение, все время диву даюсь. Что только туда не пишут. Это просто ужас.
Друзья, наполняйте этот файл согласно документации и здравому смыслу.
#10 5 января 2014 в 21:54
Я бы порекомендовал не указывать в robots.txt папки в которых находится админка, бекапы, кеши и т.п.
Тем самым вы говорите злобным хацкерам где именно лежат "вкусные плюшки".
#11 5 января 2014 в 21:56
сервисы настолько же бестолковы, насколько… впрочем не важно.

  1.  
  2. User-agent: *
  3. Disallow: /backups/ # на любителя
  4. Disallow: /backup/ # на любителя
  5. Disallow: /components/
  6. Disallow: /wysiwyg/
  7. Disallow: /includes/
  8. Disallow: /modules/
  9. Disallow: /filters/
  10. Disallow: /languages/
  11. Disallow: /users/
  12. Disallow: /core/
  13. Disallow: /login/
  14. Disallow: /admin/
  15. Disallow: /registration/
  16. Disallow: /tag/
  17. Disallow: /search/
  18. Disallow: /rss/
  19. Disallow: /*search
  20. Disallow: /*comments
  21. Disallow: /*login
  22. Disallow: /*admin
  23. Disallow: /*registration
  24. Disallow: /index.php$
  25. Sitemap: http://сайт.ua/sitemap.xml
  26. Host: http://сайт.ua/
  27.  
все можно сократить до этого, а вот раскрытие путей системных файлов — это на любителя.
#12 5 января 2014 в 22:17

сервисы настолько же бестолковы, насколько… впрочем не важно.

Код PHP:


User-agent: *
Disallow: /backups/ # на любителя
Disallow: /backup/ # на любителя
Disallow: /components/
Disallow: /wysiwyg/
Disallow: /includes/
Disallow: /modules/
Disallow: /filters/
Disallow: /languages/
Disallow: /users/
Disallow: /core/
Disallow: /login/
Disallow: /admin/
Disallow: /registration/
Disallow: /tag/
Disallow: /search/
Disallow: /rss/
Disallow: /*search
Disallow: /*comments
Disallow: /*login
Disallow: /*admin
Disallow: /*registration
Disallow: /index.php$
Sitemap: сайт.ua/sitemap.xml
Host: сайт.ua/


все можно сократить до этого, а вот раскрытие путей системных файлов — это на любителя.

picaboo

тоесть можно оставить вот такой роботс для стандартного сайта? Или же есть подвохи? Есть ли полностью расшифрованный тобишь с комментариями готовый роботс тхт для 1.10.3 для стандартного релиза без всяких дополнительных плюшек? Я думаю многим было бы полезно почитать. Заранее спасибо.
#13 5 января 2014 в 22:56

Я бы порекомендовал не указывать в robots.txt папки в которых находится админка, бекапы, кеши и т.п.
Тем самым вы говорите злобным хацкерам где именно лежат "вкусные плюшки".

stealthdebuger

Да зачем хацкеру смотреть в этот файл что бы взломать(если соберется) сайт, в системах все стандартно и где что лежит все знают))
Этот файл только для ботов ПС и нужен, дабы не лазили туда куда не следует( индекс чистый, залог успеха) и не напрягали лишний раз сервак или хост, иной раз тот же байду на популярном проекте может в 1000 потоков сканить или майл иногда грешит таким. Или популярную тему сканит одновременно куча ботов и начнут по папкам с картинками или еще с чем лазить, нагенерят трафа бесполезного, хостер возрадуется)))
Не стоит указывать папки пути до которых вы изменили в целях безопасности или какие то ваши моменты сервисов и тд. в папках, просто юзать в них .htaccess и будет все гут.
#14 5 января 2014 в 23:11
В любом деле необходимо для себя разобраться и понять что к чему. В данном случае необходимо начать с чтения документации, например тут или тут.
А в контексте InstantCMS важно просто понять, какие пути зачастую не нужны ПС, например типа /go/url или /index.php или дубли страниц при пагинации — в любом случае вы САМИ должны решить, что на ВАШЕМ сайте должно быть скрыто от ПС. Нет универсального файла robots.txt.

начнут по папкам с картинками или еще с чем лазить

garry
ну так и нужно запрещать тогда папки с картинками, а не всякие там /admin, /core и т.п. которые бот мало того что не видит в принципе, так и не проиндексирует их никогда, даже если ему о них "рассказать".

Да зачем хацкеру смотреть в этот файл что бы взломать

garry
ознакомиться со структурой, обычно пользователи сами все папки туда пишут — все как на ладони (экономят время хакерам, заботятся), жалко пароли там не пишут)
#15 5 января 2014 в 23:25

ознакомиться со структурой, обычно пользователи сами все папки туда пишут — все как на ладони (экономят время хакерам, заботятся), жалко пароли там не пишут)

Fuze

Так как довольно много работаю с сайтами, могу сказать, такого понапишут, не проверив в панелях!!, что в индексе все включая бекапы, версии, файлы с доступами и тд. Забывая что этот файл всего лишь указание, а не запрет на индексирование или переход. smile

Допустим в яндексе как то еще борятся и выкидывают из индекса или затрудняют поиск всякого такого открытого. Но гуглу то по фиг и он имеет два индекса сайта, то что насканит бот и то что допускают в основной индекс...

ну так и нужно запрещать тогда папки с картинками, а не всякие там /admin, /core и т.п. которые бот мало того что не видит в принципе, так и не проиндексирует их никогда, даже если ему о них "рассказать".

Fuze

И да, в принципе согласен, но не критично с учетом что опять же все папки у всех стандартно и нет смысла лазить в файл что бы узнать где что лежит, а для измененных путей даже полезно, закрыто одно в файле, а по факту другое на хосте, даже полезно, пусть долбятся туда где ничего нет.!, надо будет переделать в конструкторе, на тот момент когда там файл писался, это было актуально насколько помню, хотя было давно)))
Главное руки что бы дошли))

Похожие темы

Robots.txt для instantcms 2

SEO & PR Создана 4 года назад 19 сообщений

Компонент Sitemap и robots

Компоненты Создана 4 года назад 3 сообщения

Вопрос по robots.txt

SEO & PR Создана 4 года назад 7 сообщений

Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.