Файл robots.txt для InstantCMS

InstantCMS 2.X

Правильный ли файл у меня?

#1 2 октября 2018 в 12:41
Здравствуйте. Вот я создал файл robots.txt



Теперь мне нужно его загрузить в корень моего сайта?
#2 2 октября 2018 в 12:49
Это robots.txt НЕ для InstantCMS второй ветки.

  1. User-agent: *
  2. Disallow: /auth
  3. Disallow: /redirect
  4.  
  5. Host: https://site.by
  6. Sitemap: https://site.by/sitemap.xml
Disallow: /раздел — запрет на индексацию раздела сайта. В Вашем примере нет разделов, которые есть в инстанте.

Теперь мне нужно его загрузить в корень моего сайта?

@Aliaksandr
Да.
#3 2 октября 2018 в 13:20
Нормальный robots.txt
  1.  
  2. User-Agent: *
  3. Disallow: /auth/
  4. Disallow: /admin/
  5. Disallow: /registration/
  6. Disallow: /rss/
  7. Disallow: /redirect*
  8. Disallow: /*?ordering=*
  9. Disallow: /*?hash*
  10. Disallow: /*&type=*&date=*
  11. Host: name-site.ru
  12. Sitemap: http://name-site.ru/sitemap.xml
#5 2 октября 2018 в 13:40

Нет. Это не нормальный robots.txt.

Fuze
Ну это ваше мнение, так или иначе использую именно так на нескольких сайтов и проблем с дубликатами нет.
#6 2 октября 2018 в 13:44

Нормальный robots.txt

ХурумБурум
Не нормальный.

1. Регистрация в двойке по адресу /auth/register, а не /registration/
2. Символ звездочки в конце правила дописывается по-умолчанию. Чтобы отменить звездочку, пишется $.
3. Поисковики индексируют только то, что видят. Таким образом, нет смысла прописывать в robots.txt Disallow: /admin.
4. 8-10 строки — это откуда вообще?
5. Начинать надо было с этого:

support.google.com/webmasters/answer/6062608?hl=ru
yandex.ru/support/webmaster/controlling-robot/robots-txt.html

Fuze
#7 2 октября 2018 в 14:03

Символ звездочки в конце правила дописывается по-умолчанию

шэльдэ бердэ бельдэ
По какому умолчанию? $ не все поисковики понимают этот знак, лучше использовать традиционно звездочку.

8-10 строки — это откуда вообще?
Так или иначе это дубликаты.
Сортировка фотографий в фотоальбоме и поиск по сайту.
Вот так будет лучше.
  1. User-Agent: *
  2. Disallow: /auth/
  3. Disallow: /rss/
  4. Disallow: /redirect*
  5. Disallow: /*?ordering=*
  6. Disallow: /*?hash*
  7. Disallow: /*&type=*
  8. Host: name-site.ru
  9. Sitemap: http://name-site.ru/sitemap.xml
#8 2 октября 2018 в 15:45
facepalm
Поиском по этому сайту на robots 100500 тем…

Вот сейчас напишу первый попавшийся, все начнут тупо ставить на сайт и удивляться почему НА ИХ САЙТАХ дубли...

  1.  
  2. User-agent: *
  3. Disallow: /auth*
  4. Disallow: /tags/*
  5. Disallow: /posts-*
  6. Disallow: /groups/index/*
  7. Disallow: /comments*
  8. Disallow: /rss/*
  9. Disallow: /activity*
  10. Disallow: /users/*
  11. Disallow: /*?page=*
  12. Disallow: /complain/*
  13. Disallow: /redirect?url=
  14.  
  15. sitemap: https://site.ru/sitemap.xml
  16. Host: https://site.ru
  17.  
Не идеал конечно, но хотябы что то реальное,
Остальное дополнять или редактировать под свой сайт...

Или может кто еще что добавит или поправит, кто лучше 2-ку знает.
Хотя… надо знать не 2-ку, а конкретный сайт, какие компоненты, типы контента и т.д...

Ну это ваше мнение, так или иначе использую именно так на нескольких сайтов и проблем с дубликатами нет.

ХурумБурум

Но это точно не из-за Вашего роботса…
#9 2 октября 2018 в 22:19

Я так понимаю, прочитать, что такое robots.txt и как, а главное зачем его делают, нет желания.

support.google.com/webmasters/answer/6062608?hl=ru
yandex.ru/support/webmaster/controlling-robot/robots-txt.html

Fuze

Я прочитал что такое роботсх в документации здесь, несколько раз. Я понял для чего он нужен. Но в документации не написанно как его прописать правильно именно для второй ветки движка, на примерах. А в интернете этих роботксов тысячи и каждый говорит и пишет по разному, вот и хочу что бы было более менее хорошо а не файл который поисковик даже не увидит…
#10 2 октября 2018 в 22:28

Остальное дополнять или редактировать под свой сайт...

Rainbow
сайт про горд, городской портал, более новостная инфа — астобусы поезда справочники каталоги + новости по региону и области
#11 2 октября 2018 в 22:48

Я понял для чего он нужен. Но в документации не написанно как его прописать правильно именно для второй ветки движка, на примерах.

@Aliaksandr

сайт про горд, городской портал, более новостная инфа — астобусы поезда справочники каталоги + новости по региону и области

@Aliaksandr

Даже не знаю что сказать...
При чем здесь про что сайт? Важно то как устроены УРЛ страницы на сайте.

За один присест роботс не сделать.

1. Надо на своем сайте определить, какие страницы и разделы робот не должен индексировать.
И прописать их в роботсе с помощью правил (по документации ссылки на которые в Яндексе, дал Fuze).

2. Надо смотреть какие страницы в панели вебмастера (яндекса например) поисковики считают дублем и добавлять
их по маске (правилам, по документации ссылки на которые в Яндексе, дал Fuze)

Сделал маску, написал в роботс, сидишь ждешь, (2-3 недели) наблюдаешь появляются или нет дубли подобные прописанному правилу.
Если нет, значит все нормально,

И т.д.
Это как составить свой ПРАВИЛЬНЫЙ роботс.

Но есть другой вариант.

Можно наобум собрать разные правила и надеяться, что методом тыка, закроешь большинство дублей.
Что и пытаются делать те кто просит "рабочий" файл роботс на 2-ку.

Но правильный вариант первый...
Больше не знаю как объяснить.

ЗЫ: Если не хочется ни в чем разбираться возьмите напишите в роботс то что я написал выше


  1.  
  2. User-agent: *
  3. Disallow: /auth*
  4. Disallow: /tags/*
  5. Disallow: /posts-*
  6. Disallow: /groups/index/*
  7. Disallow: /comments*
  8. Disallow: /rss/*
  9. Disallow: /activity*
  10. Disallow: /users/*
  11. Disallow: /*?page=*
  12. Disallow: /complain/*
  13. Disallow: /redirect?url=
  14.  
  15. sitemap: https://site.ru/sitemap.xml
  16. Host: https://site.ru
  17.  
И всё. Дальше будете исправлять по мере того, как до Вас будет доходить осознание того, что нужно именно Вашему сайту.
Вреда от этого не будет, а поправить потом никогда не поздно…
#12 3 октября 2018 в 00:01
Rainbow, Благодарю.
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.