как запретить индексацию тегов в статьях

#1 8 июля 2011 в 18:41
Дорогие форумчани, перерыл весь форум но так и не нашел как избавиться от дублей, уже 4 месяца статьи не попадают в поиск яндекса оптимизаторы говорят что это из-за дублей, то есть нескольких ссылок на одну и туже статью, но дубли я нашел только в тегах, подскажите мне (если есть возможность то поподробней) как с этим бороться? думаю данная тема будет нужна не только мне одному
#2 8 июля 2011 в 19:23
Создать в корне сайта robots.txt в нем написать
Disallow: /search/tag/
Но при этом теги не будут индексироваться по всему сайту
#3 8 июля 2011 в 19:44
— нормальный путь до новости, который и попадает в поисковики
возможные дубли:
— адреса страниц, записанные со слешем ("/") в конце URL и без него
— адрес сайта с www и без него
— путь до новости через категории | подкатегории
— путь до новости через архив, включает дату постинга новости
— комментарии
— модули
— теги
Пути и ссылки к одной странице (демо пример):
ответ на комментарий //*/content/stati/marketing/yelastichnost-sprosa.html#comment_14
последние комментарии //*/stati/marketing/yelastichnost-sprosa.html
все комментарии //*/content/stati/marketing/yelastichnost-sprosa.html#comment_13
rss //*/content/stati/marketing/yelastichnost-sprosa.html#comment_13
архив //*/stati/marketing/yelastichnost-sprosa.html

Оставить выключение не нужных модулей, один путь или //*/content/stati или //*/stati/
В примере если убрать архив и последние комментарии, то останется один путь //*/content/stati/marketing/yelastichnost-sprosa.html
Как найти дублированный контент в пределах одного домена (сайта)? Помогут программы XENU и site-auditor.
Все проблемы можно решить и через редирект-пример статьи westseo.ru/ispolzovanie-mod_rewrite-v-seo
#4 9 июля 2011 в 00:13
действительно грамотные ответы, с robot.txt конечно проще, но хочется что бы все было правильно. Люди, поделитесь редактированными под сео оптимизацию для инстанта файлами .htaccess и robot.txt. Огромнейшее спасибо всем кто помогает с моей проблемой!!!
#5 23 июля 2011 в 17:02
тема действительно актуальна.Сам ломаю голову, как правильно составить эти два файла.или может быть всё закрыть и оставить одну карту сайта?
#6 18 сентября 2011 в 11:53
Вот Роботс на моем сайте, работает прекрасно:

  1.  
  2. User-agent: *
  3. Disallow: /login/
  4. Disallow: /admin/
  5. Disallow: /registration/
  6. Disallow: /backups/
  7. Disallow: /core/
  8. Disallow: /components/
  9. Disallow: /wysiwyg/
  10. Disallow: /includes/
  11. Disallow: /modules/
  12. Disallow: /filters/
  13. Disallow: /languages/
  14. Disallow: /search/
  15. Disallow: /upload/
  16. Disallow: /search/tag/
  17. Host: site.ru
  18.  
Все лишнее закрыто от ПС.
#7 19 сентября 2011 в 10:45
Hедавно вроде как сам Fuze, отвечал на такой вот "роботс" — ответ не дословный но содержание вам будет понятно:

В системе нигде нет ссылок на папки "core", "backups" и другие, написав вот такой файл Вы даете лишний повод для изучения Вашей системы "не хорошим" людям.....

#8 19 сентября 2011 в 11:55

оптимизаторы говорят что это из-за дублей

bsv

оптимизаторы которые это говорят — профнепиргодны.

сделайте им приятное — отправьте вот эту ссылку www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=139394

каконические ссылки поддерживает так же яндекс. поэтому просто скажите поисковику где у вас оригинал статьи лежит, а дубли он уберет сам.
#10 19 сентября 2011 в 23:06

системе нигде нет ссылок на папки "core", "backups" и другие

picaboo

Да ссылок на них нет, и есть index.htmlв каждой папке, я просто как пример себе брал часть файла с этого форума.

Как минимум на вход, регистрацию, админку надо ставить Disallow:, особенно на Теги, ис за тегов очень много сайтов под АГС сидят, это не только к instant относится.

А по поводу изучения, так не вооруженным глазом в 90% видно что за скрипт, даже с супер уникальным шаблоном.

По дублям вопрос неоднозначный, кого фильтруют а кого проносит, так что тут не ясно, у ПС свои правила не известные нам, есть сайт не на instantCMS он весь в дублях, контент 50% рерайт 50% копипаст и хорошо сидит в поиске. тфу.тфу
#11 19 сентября 2011 в 23:25
чето гугл шалит со ссылкой

вообщем www.google.com/support/webmasters/bin/topic.py?topic=28801

выбрать Об атрибуте rel="canonical"

ну или погуглите про него. д

Как минимум на вход, регистрацию, админку надо ставить Disallow:, особенно на Теги, ис за тегов очень много сайтов под АГС сидят, это не только к instant относится.

schved

ну это просто феерический бред. бот логинится не умеет. бот не админ вашего сайта. у бота нет доступа к вашему фтп.

поэтому никогда индексатор ни при каких условиях не узнает про

папки "core", "backups" и другие


ну только если вы сами ему ссылку на них не дадите или ему об этом в роботсе не напишите. типа ты бабка сюда ходи, ты туда не ходи, там админка у меня, а там бекапы лежат.

АГС за теги НЕ БЫВАЕТ. АГС за дубли и неуникальный контент. не пишите в тегах всякой муры и ни каких санкций не будет. два три ключевика раскрывающих смысл поста и все. но нет же, пихают туда половину текста и удивляются, чейто их пофильтровали.
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.