Правильный robots txt

InstantCMS 2.X
#1 9 сентября 2018 в 18:51
как его правильно настроить ?
у меня стоит вот так:
  1.  
  2. User-Agent: *
  3. Disallow: /login/
  4. Disallow: /admin/
  5. Disallow: /registration/
  6. Disallow: /search
  7. Disallow: /search/tag/
  8. Allow: /rss/feed/
То что он ищет так /users/1/content/news это нормально ?

Да и структура сайта, какая то странная
#2 9 сентября 2018 в 18:55
#3 9 сентября 2018 в 19:31
@deadc0de, Что бы долго не объяснять, поиск по сайту посмотрите на robots, 100500 результатов выдаст, выбирайте что подходит.

То что он ищет так /users/1/content/news это нормально ?

@deadc0de

Что значит нормально?
Запрета в роботсе на этот адрес у Вас нет, значит нормально.

Если Вам не надо что бы это индексировалось, закрыть можно так:

Disallow: /users/*/content/news
#4 9 сентября 2018 в 20:25


@deadc0de, Что бы долго не объяснять, поиск по сайту посмотрите на robots, 100500 результатов выдаст, выбирайте что подходит.

То что он ищет так /users/1/content/news это нормально ?

@deadc0de

Что значит нормально?
Запрета в роботсе на этот адрес у Вас нет, значит нормально.

Если Вам не надо что бы это индексировалось, закрыть можно так:

Disallow: /users/*/content/news

Rainbow

То что он индексирует site.ru/news и site.ru/users/*/content/news, получается же типа дубликата, или не ?)
#5 9 сентября 2018 в 20:47

То что он индексирует site.ru/news и site.ru/users/*/content/news, получается же типа дубликата, или не ?)

@deadc0de

Так Вы смотрите что у Вас в панели выдается как дубль...
На скрине плохо видно, но кажется там не

site.ru/users/*/content/news
а
site.ru/users/*/content/posts

Так и закройте маской:
Disallow: /users/*/content/posts/*

У меня вообще стоит запрет на индексацию всего что есть в профилях:

Disallow: /users/*

Но мне и не надо что бы в них индексировалось.

ЗЫ: Вообще это делается так.
Находите здесь в постах типовой роботс (с которым все более менее согласны).

Потом правите его под себя, Добавляете свои адреса которые у Вас показывает как дубль.

Сначала просто адреса выписываете в блокнот группируя по похожести.
Потом для этих групп создаете правила с помощью масок.

Собственно все описано
yandex.ru/support/webmaster/controlling-robot/

и прочитать это надо обязательно, что бы понимать хотя бы приблизительно, как это работает.

Готового решения для ВАШЕГО сайта никто не даст (его просто нет)
#6 11 сентября 2018 в 07:21
Все равно ищет user и т.д и теги, хотя заблокировал, в чем проблем ??)



  1. User-Agent: *
  2. Disallow: /login/
  3. Disallow: /admin/
  4. Disallow: /registration/
  5. Disallow: /search
  6. Disallow: /search/tag/
  7. Disallow: /tags/search
  8. Disallow: /tags/search/
  9. Disallow: /users/*
  10. Disallow: /error404
  11. Disallow: /redirect/*
  12. Disallow: /rss/*
  13. Sitemap: http://stelling/sitemap.xml
  14. Host: stelling.ru
#7 11 сентября 2018 в 09:07

Все равно ищет user и т.д и теги

@deadc0de

Так бот Яши выкладывает индекс минимум через апдейт...
И я бы поправил правила (Вы сами смотрите надо или нет)

Оставил бы так:

  1.  
  2. Disallow: /login/
  3. Disallow: /registration/
  4. Disallow: /search*
  5. Disallow: /search/*
  6. Disallow: /tags/*
  7. Disallow: /users/*
  8. Disallow: /redirect/*
  9. Disallow: /rss/*
  10.  
Дальше надо посмотреть, что будет и дополнять…
#8 11 сентября 2018 в 10:05
Хорошо, спасибо )
#9 11 сентября 2018 в 10:46
@deadc0de, весь процесс можно ускорить.
Раньше была чудесная программа LINKOSCOP:

www.interascope.biz/linkoscop-4/

НО сейчас она перестала работать с https (( однако для первичной настройке сайта вполне может подойти.
Надо поставить сайт на локалку с http и прогонять ей

В настройках программы поставить учитывать роботс.
И смотреть в отчете после сканирования какие дубли есть.

После этого исправлять роботс и опять сканировать.
Пока не перестанет выдавать дубли.

После этого взять полученный роботс и закинуть на сайт...

Основные дубли, особенно на небольшом сайте, можно отловить.
Тестовый полнофункциональный период у программы 10 дней, его вполне хватит настроить сайт.
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

Похожие темы

Вопрос по robots.txt

SEO & PR Создана 4 года назад 7 сообщений

robots.txt

SEO & PR Создана 4 года назад 7 сообщений

[ЗАКРЫТО] Не создаётся sitemap.xml

Компоненты Создана 2 года назад 1 сообщение

Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.