Файл robots.txt для InstantCMS

InstantCMS 2.X

Правильный ли файл у меня?

#1 2 октября 2018 в 12:41

Здравствуйте. Вот я создал файл robots.txt

Теперь мне нужно его загрузить в корень моего сайта?

#2 2 октября 2018 в 12:49

Это robots.txt НЕ для InstantCMS второй ветки.

примерный robots.txt для двойки

User-agent: *
Disallow: /auth
Disallow: /redirect
 
Host: https://site.by
Sitemap: https://site.by/sitemap.xml

Disallow: /раздел — запрет на индексацию раздела сайта. В Вашем примере нет разделов, которые есть в инстанте.

Теперь мне нужно его загрузить в корень моего сайта?
@Aliaksandr

Да.

t.me/googleindexingapi

#3 2 октября 2018 в 13:20

Нормальный robots.txt

Спойлер

 
User-Agent: *
Disallow: /auth/
Disallow: /admin/
Disallow: /registration/
Disallow: /rss/
Disallow: /redirect*
Disallow: /*?ordering=*
Disallow: /*?hash*
Disallow: /*&type=*&date=*
Host: name-site.ru
Sitemap: http://name-site.ru/sitemap.xml

Сегодня в 20:20

#4 2 октября 2018 в 13:30

Нормальный robots.txt
ХурумБурум

Нет. Это не нормальный robots.txt.

Я так понимаю, прочитать, что такое robots.txt и как, а главное зачем его делают, нет желания.

support.google.com/webmasters/answer/6062608?hl=ru
yandex.ru/support/webmaster/controlling-robot/robots-txt.html

🛠 docs.instantcms.ru

#5 2 октября 2018 в 13:40

Нет. Это не нормальный robots.txt.
Fuze

Ну это ваше мнение, так или иначе использую именно так на нескольких сайтов и проблем с дубликатами нет.

#6 2 октября 2018 в 13:44

Нормальный robots.txt
ХурумБурум

Не нормальный.

1. Регистрация в двойке по адресу /auth/register, а не /registration/
2. Символ звездочки в конце правила дописывается по-умолчанию. Чтобы отменить звездочку, пишется $.
3. Поисковики индексируют только то, что видят. Таким образом, нет смысла прописывать в robots.txt Disallow: /admin.
4. 8-10 строки — это откуда вообще?
5. Начинать надо было с этого:

support.google.com/webmasters/answer/6062608?hl=ru
yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Fuze

t.me/googleindexingapi

#7 2 октября 2018 в 14:03

Символ звездочки в конце правила дописывается по-умолчанию
шэльдэ бердэ бельдэ

По какому умолчанию? $ не все поисковики понимают этот знак, лучше использовать традиционно звездочку.

8-10 строки — это откуда вообще?
Так или иначе это дубликаты.
Сортировка фотографий в фотоальбоме и поиск по сайту.

Спойлер

demo.instantcms.ru/albums/16-krasota-okruzhayuschei-prirody.html?ordering=date_pub&orderto=asc

demo.instantcms.ru/search?q=web&type=words&date=all&submit=%D0%9D%D0%B0%D0%B9%D1%82%D0%B8

Вот так будет лучше.

Спойлер

User-Agent: *
Disallow: /auth/
Disallow: /rss/
Disallow: /redirect*
Disallow: /*?ordering=*
Disallow: /*?hash* 
Disallow: /*&type=*
Host: name-site.ru
Sitemap: http://name-site.ru/sitemap.xml

#8 2 октября 2018 в 15:45

Поиском по этому сайту на robots 100500 тем…

Вот сейчас напишу первый попавшийся, все начнут тупо ставить на сайт и удивляться почему НА ИХ САЙТАХ дубли...

 
User-agent: *
Disallow: /auth*
Disallow: /tags/*
Disallow: /posts-*
Disallow: /groups/index/*
Disallow: /comments*
Disallow: /rss/*
Disallow: /activity*
Disallow: /users/*
Disallow: /*?page=*
Disallow: /complain/*
Disallow: /redirect?url=
 
sitemap: https://site.ru/sitemap.xml
Host: https://site.ru

Не идеал конечно, но хотябы что то реальное,
Остальное дополнять или редактировать под свой сайт...

Или может кто еще что добавит или поправит, кто лучше 2-ку знает.
Хотя… надо знать не 2-ку, а конкретный сайт, какие компоненты, типы контента и т.д...

Ну это ваше мнение, так или иначе использую именно так на нескольких сайтов и проблем с дубликатами нет.
ХурумБурум

Но это точно не из-за Вашего роботса…

#9 2 октября 2018 в 22:19

Я так понимаю, прочитать, что такое robots.txt и как, а главное зачем его делают, нет желания.

support.google.com/webmasters/answer/6062608?hl=ru
yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Fuze

Я прочитал что такое роботсх в документации здесь, несколько раз. Я понял для чего он нужен. Но в документации не написанно как его прописать правильно именно для второй ветки движка, на примерах. А в интернете этих роботксов тысячи и каждый говорит и пишет по разному, вот и хочу что бы было более менее хорошо а не файл который поисковик даже не увидит…

#10 2 октября 2018 в 22:28

Остальное дополнять или редактировать под свой сайт...
Rainbow

сайт про горд, городской портал, более новостная инфа — астобусы поезда справочники каталоги + новости по региону и области

#11 2 октября 2018 в 22:48

Я понял для чего он нужен. Но в документации не написанно как его прописать правильно именно для второй ветки движка, на примерах.
@Aliaksandr

сайт про горд, городской портал, более новостная инфа — астобусы поезда справочники каталоги + новости по региону и области
@Aliaksandr

Даже не знаю что сказать...
При чем здесь про что сайт? Важно то как устроены УРЛ страницы на сайте.

За один присест роботс не сделать.

1. Надо на своем сайте определить, какие страницы и разделы робот не должен индексировать.
И прописать их в роботсе с помощью правил (по документации ссылки на которые в Яндексе, дал Fuze).

2. Надо смотреть какие страницы в панели вебмастера (яндекса например) поисковики считают дублем и добавлять
их по маске (правилам, по документации ссылки на которые в Яндексе, дал Fuze)

Сделал маску, написал в роботс, сидишь ждешь, (2-3 недели) наблюдаешь появляются или нет дубли подобные прописанному правилу.
Если нет, значит все нормально,

И т.д.
Это как составить свой ПРАВИЛЬНЫЙ роботс.

Но есть другой вариант.

Можно наобум собрать разные правила и надеяться, что методом тыка, закроешь большинство дублей.
Что и пытаются делать те кто просит "рабочий" файл роботс на 2-ку.

Но правильный вариант первый...
Больше не знаю как объяснить.

ЗЫ: Если не хочется ни в чем разбираться возьмите напишите в роботс то что я написал выше

Спойлер

 
User-agent: *
Disallow: /auth*
Disallow: /tags/*
Disallow: /posts-*
Disallow: /groups/index/*
Disallow: /comments*
Disallow: /rss/*
Disallow: /activity*
Disallow: /users/*
Disallow: /*?page=*
Disallow: /complain/*
Disallow: /redirect?url=
 
sitemap: https://site.ru/sitemap.xml
Host: https://site.ru

И всё. Дальше будете исправлять по мере того, как до Вас будет доходить осознание того, что нужно именно Вашему сайту.
Вреда от этого не будет, а поправить потом никогда не поздно…

#12 3 октября 2018 в 00:01

Rainbow, Благодарю.

sitemap и robots.

Нулевое значение в поле.

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

Файл robots.txt для InstantCMS

Похожие темы

[ЕСТЬ РЕШЕНИЕ] Seo , файл robots.txt , индексирование поисковиком

robots.txt

Одинаковые "Заголовки и описания" страниц search

Пропал компонент Генератор карты сайта и robots.txt

[ЗАКРЫТО] Не создаётся sitemap.xml

[ЕСТЬ РЕШЕНИЕ] Что указать в robots.txt чтоб...

Индикатор загрузки файла в процентах

Загрузить файл фида - xml-файл. Формат фида ЯндексНедвижимость.

Похожее в блогах

Оптимальный robots.txt

Оптимальный robots.txt - часть 2

Закладки3

Внутренняя оптимизация или 20 шагов до первой 10тки

InstantCMS Team

О проекте

Поддержка

Дополнения