Robots.txt для instantcms 2

InstantCMS 2.X
#16 18 июля 2019 в 16:57
Fuze, Timmy, Вы зачем "рыбные места" выдаете? glasses

Вы что не знаете что "настоящие мужики" вначале 2 часа сами думают как что то собрать, а потом прочитав наконец инструкцию собирают это за 5 минут?))
#17 13 июня 2021 в 22:04
Компонент не дает вставить такой длинный robots.txt внизу поля ввода текста пишет красным максимальное значение 4096.
Подскажите пожалуйста где можно увеличить это значение для компонента генератор карты сайта и robots.txt.
И еще такой вопрос — если мы определили правила основные, для яндекс, для гугл… Может тогда вместо длинного списка ботов с запретами для них записать такое:
User-agent: *
Disallow: /
Разные бинги, яху, рамблеры и прочие недопоисковики предлагаю не брать в расчет.
То, что в начале ведь будет работать, а остальным будет запрет. Или так нельзя сделать?
Помогите пожалуйста разобраться.
#18 13 июня 2021 в 22:33


Разные бинги, яху, рамблеры и прочие недопоисковики предлагаю не брать в расчет.

Юран

А какой в этом смысл? Допустим Вы запретите 100500 ботам отдельно прописав для них правила в роботсе...

НО найдется 100501-й который вы не знаете и он то как раз всё вам и будет "портить" (в кавычках потому что еще не известно, а будет ли в этом вред и какой)


Может тогда вместо длинного списка ботов с запретами для них записать такое:
User-agent: *
Disallow: /

Юран

Если бот такой злонамеренный (допустим для спама), что мешает его разработчикам, сделать игнор некоторых (или всех) правил роботса?

Юран, сделайте общий роботс для Яши и Гоши...
Делать отдельные есть смысл только если хотите, что бы Яша и Гоша индексировали по разному какие то разделы или страницы...

Например, что бы в Яше какие то страницы были, а в Гоше нет...

У меня сейчас вот такой… примерно… отдельные эксклюзивные страницы убрал…
Возможно в нём, что то лишнее, но со своей задачей для моего сайта он справляется...


  1.  
  2. User-agent: *
  3. Disallow: /?*
  4. Disallow: /auth*
  5. Disallow: /tags/*
  6. Disallow: /posts-*
  7. Disallow: /groups/index/*
  8. Disallow: /comments*
  9. Disallow: /rss/*
  10. Disallow: /activity*
  11. Disallow: /users/*/comments
  12. Disallow: /users/*
  13. Disallow: /*?page=*
  14. Disallow: /board?page=*
  15. Disallow: /board-expensive/*
  16. Disallow: /board-cheap/*
  17. Disallow: /board-vip/*
  18. Disallow: /complain/*
  19. Disallow: /board-cheap?page=2
  20. Disallow: /board-expensive?page=2
  21. Disallow: /faq
  22. Disallow: /board/complain/*
  23. Disallow: /board-cheap
  24. Disallow: /redirect?url=
  25.  
НО под свой сайт сами посмотрите, что там исправлять надо…
Много раз уже говорил, роботсов общих для всех сайтов не может быть..
#19 13 июня 2021 в 23:32
Хм. Жуть. crazyПроще надо. Меньше сделаешь, меньше ошибешься.

И начать, думаю, необходимо с этого:

  1. User-agent: *
  2. Disallow: /posts-daily*
  3. Disallow: /posts-weekly*
  4. Disallow: /posts-monthly*
  5. Disallow: /tags*
  6. Disallow: /*?*
А далее, расширять это дело под свой сайт. Не рассматривая отдельные секции под разные поисковые системы. Или мы знаем разницу? Поведайте. Особенно внимание на теги и ?, настоятельно (в 100 раз) рекомендую закрыть для индексации дубли. Если этого не сделать, смысла делать далее нет ничего. Вообще. Совсем.

Файл robots мы правим в связке с использованием, например, Screaming Frog SEO (или любой другой прогой). Советуют использовать Вебмастер иногда, не надо. Это поздно уже. Не надо смотреть по факту, заранее желательно.

Дубликаты в *Screaming Frog SEO* находятся достаточно просто.

1. Добавляем адрес сайта.
2. Делаем его сканирование.
3. Идем во вкладку *Meta Description* (или в другие *Title*, например)
4. И выбираем *Duplicate*



Видим полученный результат, который включает адрес страницы и др.

Понимая, что такое: полные дубли и частичные, мы дальше принимаем решения. Собственно удобно ориентироваться по дублям, т.к. сверяя дубли и URL мы видим сразу множество страницу с ?, например.

P.S. на фото не знаю чей сайт, и вообще на InstantCMS он или нет, и сколько лет назад я делал, смотрел это. Уже и не помню. Не важно. Это только пример. Вот уже видно дубли, правда URL разные. Я бы сразу вопрос себе задал, а как так? Страницы разные (URL) а титле одинаковы, например. Да и контент наверное, или нет? А если разные, то как title одинаковы стали? Обращать внимание надо на неканонические (явно) URL. С? (раз уж я пристал к этому знаку).

Попробуем, ставить прогу. Все там есть, все показано. Используем, как фотошоп. 3% хотя бы, и уже плюсов будет огромное количество.

Не… я напишу. crazy
Вот смотрю фото это. Смотрим первые 4 мета- описания. Познавательные и порой....
А урл какие? Что за страницы? Главная, Авторизации, Регистрации… Еще раз. Страница авторизации мета- тег "Познавательные и порой...." и Регистрация "Познавательные и порой....". Да что за бред то. И главная. Просто фото гляжу. Что тут в роботе запрещать надо?
Или, мета- надо менять, или закрывать все совсем. Познавательные и порой — страница авторизации.

Там форма авторизации. Контента нет. Или есть? Так там взяли и титле главной перенесли туда.
Очень есть простой способ. "Докапывайтесь" до своего сайта.
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

Похожие темы

Вопрос по robots.txt

SEO & PR Создана 4 года назад 7 сообщений

robots.txt

SEO & PR Создана 4 года назад 7 сообщений

[ЗАКРЫТО] Не создаётся sitemap.xml

Компоненты Создана 2 года назад 1 сообщение

Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.