Disallow: /search/tag/
Но при этом теги не будут индексироваться по всему сайту
возможные дубли:
— адреса страниц, записанные со слешем ("/") в конце URL и без него
— адрес сайта с www и без него
— путь до новости через категории | подкатегории
— путь до новости через архив, включает дату постинга новости
— комментарии
— модули
— теги
Пути и ссылки к одной странице (демо пример):
ответ на комментарий //*/content/stati/marketing/yelastichnost-sprosa.html#comment_14
последние комментарии //*/stati/marketing/yelastichnost-sprosa.html
все комментарии //*/content/stati/marketing/yelastichnost-sprosa.html#comment_13
rss //*/content/stati/marketing/yelastichnost-sprosa.html#comment_13
архив //*/stati/marketing/yelastichnost-sprosa.html
Оставить выключение не нужных модулей, один путь или //*/content/stati или //*/stati/
В примере если убрать архив и последние комментарии, то останется один путь //*/content/stati/marketing/yelastichnost-sprosa.html
Как найти дублированный контент в пределах одного домена (сайта)? Помогут программы XENU и site-auditor.
Все проблемы можно решить и через редирект-пример статьи westseo.ru/ispolzovanie-mod_rewrite-v-seo
User-agent: * Disallow: /login/ Disallow: /admin/ Disallow: /registration/ Disallow: /backups/ Disallow: /core/ Disallow: /components/ Disallow: /wysiwyg/ Disallow: /includes/ Disallow: /modules/ Disallow: /filters/ Disallow: /languages/ Disallow: /search/ Disallow: /upload/ Disallow: /search/tag/ Host: site.ru
В системе нигде нет ссылок на папки "core", "backups" и другие, написав вот такой файл Вы даете лишний повод для изучения Вашей системы "не хорошим" людям.....
оптимизаторы говорят что это из-за дублей
оптимизаторы которые это говорят — профнепиргодны.
сделайте им приятное — отправьте вот эту ссылку www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=139394
каконические ссылки поддерживает так же яндекс. поэтому просто скажите поисковику где у вас оригинал статьи лежит, а дубли он уберет сам.
ну и чё им, пустую ссылку отправлять?сделайте им приятное — отправьте вот эту ссылку www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=139394
системе нигде нет ссылок на папки "core", "backups" и другие
Да ссылок на них нет, и есть index.htmlв каждой папке, я просто как пример себе брал часть файла с этого форума.
Как минимум на вход, регистрацию, админку надо ставить Disallow:, особенно на Теги, ис за тегов очень много сайтов под АГС сидят, это не только к instant относится.
А по поводу изучения, так не вооруженным глазом в 90% видно что за скрипт, даже с супер уникальным шаблоном.
По дублям вопрос неоднозначный, кого фильтруют а кого проносит, так что тут не ясно, у ПС свои правила не известные нам, есть сайт не на instantCMS он весь в дублях, контент 50% рерайт 50% копипаст и хорошо сидит в поиске. тфу.тфу
вообщем www.google.com/support/webmasters/bin/topic.py?topic=28801
выбрать Об атрибуте rel="canonical"
ну или погуглите про него. д
Как минимум на вход, регистрацию, админку надо ставить Disallow:, особенно на Теги, ис за тегов очень много сайтов под АГС сидят, это не только к instant относится.
ну это просто феерический бред. бот логинится не умеет. бот не админ вашего сайта. у бота нет доступа к вашему фтп.
поэтому никогда индексатор ни при каких условиях не узнает про
папки "core", "backups" и другие
ну только если вы сами ему ссылку на них не дадите или ему об этом в роботсе не напишите. типа ты бабка сюда ходи, ты туда не ходи, там админка у меня, а там бекапы лежат.
АГС за теги НЕ БЫВАЕТ. АГС за дубли и неуникальный контент. не пишите в тегах всякой муры и ни каких санкций не будет. два три ключевика раскрывающих смысл поста и все. но нет же, пихают туда половину текста и удивляются, чейто их пофильтровали.