Вопрос дня - одинаковые ссылки
сроки будут не быстрые по причине того что надо переписать фактически весь механизм формирования ссылок по движкам, разработать класс роута, который будет обрабатывать входящие ссылки, у меня есть готовое на 30% решение, в частности для блогов, но смысла выкладывать не вижу ибо это использовать можно будет до следующего обновления.
В этом вся и проблема, что нужно начинать с самого начала. Зачем нужны новшества, когда нет стабильности
1 Основной урл — нужный в индексе
2 Дубли — все возможные.
Иначе сейчас в выдаче просто бардак, ПС за дубли накладывает санкции.
опубликуйте пример такого robots, что бы все поняли, как правильно надо его оформлять, преследуя цель исключить индексацию дублирования ссылок
Накидайте в этот топик дубли ссылок. Сделаю правильный robots.txt, либо шаблон.
1 Основной урл — нужный в индексе
2 Дубли — все возможные.
Иначе сейчас в выдаче просто бардак, ПС за дубли накладывает санкции.
Абсолютное заблуждение, исключить и работает для всех ПС. Это одно из рекомендаций ПС по исключению именно в роботс.Роботсом дубли не исключить. Их можно исключить только полным исключением модулей
Через некоторое время после начала использования роботс, вы увидите в панели ПС сколько всякой хрени запрещено в роботс, появится новый пункт автоматически. В гугле и Яндексе аналогичные требования на этот чтёт.
В этот топик прошу выложить по такому шаблону
Блоги (исходя из одного блога)
1 Урл для ПС
2 Дубли
Каталог
1
2
И тд по разделам сайта.
Приду с работы сделаю вменяемый шаблон. К сожалению сейчас нет установленной, а точнее нет проекта на котором бы мог посмотреть у себя. Тем что есть не занимался давно и живет он сам по себе.
Ещё вариант скинуть мне ссылки на страцы с дублями в индексе, по разделам сайта. С указанием нужного урла и дублей.
User-Agent: * Disallow: /blogs/0/* # из присланных примеров, удаляет дубли блогов. Disallow: /admin/ Disallow: /backups/ Disallow: /modules/ Disallow: /core/ Disallow: /templates/ Disallow: /wysiwyg/ Disallow: /view-registration/ Disallow: /view-users/ Disallow: /users/ Disallow: /backups/ Disallow: /upload/ Disallow: /catalog/ # как пример запрещения раздела Disallow: /search/ # Больше теги не приносят пользы, во многих случаях вред. По желанию конечно. Disallow: /go/ # редирект, либо ваш вариант. Иначе боты переходят и смысл теряем. Host: ваше главное зеркало User-agent: Slurp Crawl-delay: 100
Allow: /users/admin* # как пример
Будут ещё данные, можно сделать с условиями и тд.
Плюс в системе хватает страниц абсолютно не нужных в индексе.
Чем больше дадите информации, тем лучше будет результат. Поверьте при использовании правильного роботс индексации в разы улучшается. Даже если это будет частично.
Из любой кмс вы ни когда не удалите все дубли и лишние страницы, что то всегда останется. Для этого и дан ПС инструмент.
если трудно вычислить все параметры, то ни когда не мешает вставить на странички сгенеренные по айди
<meta name="robots" content="noindex" />
<meta name="robots" content="noindex" />
Я просто не ковырялся в коде и пока не знаю где генерит и условие. А я как приду с работы, сделаю вменяемый общий роботс включая форум. При этих двух доработках будет ГУТ.
Проблему сняли бы всем
Так же гугл ввел новый тег
<link rel="canonical" href="основной урл" /> # Нужна инфа, копирну, на смф публиковал.
Кононизирует основной урл, остальные дубли не индексирует( соответственно PR не распыляет). Можно и его использовать активно по всему проекту.
В некоторых кмс и форумах он введён уже по дефолту.
instantcms.ru/blogs/49/144/post616.html
instantcms.ru/blogs/0/144/post616.html
Но эти примеры не совсем показательны, ибо на этом сайте нет развитого меню.
Вот у меня на сайте иерархическое меню. Есть ссылка на раздел и ссылка на подраздел — этого уже достаточно для того чтобы статья стала доступна по двум разным (но как бы правильным адресам). Вот примеры адресов на один и тот же материал:
sverdlovsk.net.ua/content/123/stati/internet-tehnologii/prezentacija-saitov.html
sverdlovsk.net.ua/content/124/stati/internet-tehnologii/prezentacija-saitov.html
Через тэги к статье ссылка сюда такая:
sverdlovsk.net.ua/content/0/read827.html — возможно старый темплейт не стал сейчас разбираться.
Через поиск по сайту такая же ссылка.
Вручную другие ссылки (номера в ссылке) найти не получается, но сканер по сайту находит. Где он их берёт — фиг его знает — не придумывает же. Кроме того, по этим ссылкам действительно переходит на один и тот же материал 😥
Вот и скажите — как можно отсеять такое множество ссылок. Как сказать, что для одного раздела правильно 10, а для другого 10 это уже не правильно — нужно 11? Да никак! Нужно решать на уровне движка. Закрыть можно однозначно с цифрой "0" — но как по мне и здесь нужно не закрывать, а сделать чтобы при поиске формировалась правильная ссылка — вот тогда будет супер! Причем не с большой буквы, а все большие буквы, вот так — СУПЕР!!!
А для этого, как мне кажется, нужно всего ничего — отказаться от циферек, указывающих к какому пункту меню привязка, и ссылки примут вид: sverdlovsk.net.ua/content/stati/internet-tehnologii/prezentacija-saitov.html. Всё становится ясно и прозрачно: content — значит статьи, всё что далее иерархия разделов и в конце-концов, название статьи.
Но это всего-навсего меняет концепцию движка с ног на голову или если хотите, то ставит с головы на ноги.
То есть за основу формирования ссылок берётся расположение контента внутри иерархии разделов, но не меню.
Следовательно, предстоит полная переделка алгоритмов формирования ссылок, меню, что-то придумывать с модулями (привязка модулей к пунктам меню)
В том то и дело, сейчас движок не знает, где правильное место статьи. Как же он расставит тэги. Если в меню сделать пункт прямо на статью, то в ссылке вообще не будет слова content.если трудно вычислить все параметры, то ни когда не мешает вставить на странички сгенеренные по айди
<meta name="robots" content="noindex" />
maxisoft, а нельзя ли взглянуть на это дело?сроки будут не быстрые по причине того что надо переписать фактически весь механизм формирования ссылок по движкам, разработать класс роута, который будет обрабатывать входящие ссылки, у меня есть готовое на 30% решение, в частности для блогов, но смысла выкладывать не вижу ибо это использовать можно будет до следующего обновления.
Это не привязано к слову content, это тег указывающий ботам какую страницу не индексировать и не включать в поиск.
Если его удастся внедрить в движок на страницы сгенеренные по айди, то вопрос будет закрыт.
Пока вот такой файлик(шаблон) закроет общие не нужные странички и урлы комментов.
User-Agent: * Disallow: /blogs/0/* # из присланных примеров, удаляет дубли блогов по комментам. Disallow: /content/0/* Disallow: /admin/ Disallow: /backups/ Disallow: /modules/ Disallow: /core/ Disallow: /templates/ Disallow: /wysiwyg/ Disallow: /view-registration/ Disallow: /view-users/ Disallow: /users/ Disallow: /backups/ Disallow: /upload/ Disallow: /catalog/ # как пример запрещения раздела Disallow: /search/ # Больше теги не приносят пользы, во многих случаях вред. По желанию конечно. Disallow: /go/ # редирект, либо ваш вариант. Иначе боты переходят и смысл теряем. Host: мой сайт.ру # ваше главное зеркало User-agent: Slurp Crawl-delay: 100
Отредактируйте под свой проект, на основе выше написанного, боле менее прокомментированы участки файла.
Добавить разрешение/запрет под свой проект не сложно, выше писал как.
Ребята, надо срочно с этим что-то делать. Практически 100% страниц с уникальным текстом — и в соплементале. Проблема №1
Увы Виктор я с радостью бы поделился бы с вами но мне просто реально отбили интерес к работе на проекте. Могу тока рассказать суть, уверен что Вы в состоянии довести это до логичекого конца ибо я так и не смог до конца придумать как можно отвязаться от ИД_менюmaxisoft, а нельзя ли взглянуть на это дело?
Что значит "страницы сгенеренные по айди"?Если его удастся внедрить в движок на страницы сгенеренные по айди, то вопрос будет закрыт.
Может я не въезжаю в суть предложения, но пока мне кажется, что внедрение мета-тега это тухляк.
В смысле для материалов сайта. Поставить это в страницы с тэгами и на поиск, думаю, можно.
Но это, даже не половина, проблемы. Поиск и тэги можно отсечь и robots.txt без лишнего геморроя с движком.
Сергей, подскажи, а как определить в какой части гугол держит страницы сайта?Практически 100% страниц с уникальным текстом — и в соплементале.
Я про дубли контента сайта, то что генерируется вот так, в посте выше давали ссылки
/content/10/stati/geologija/ostancovyi-lakkolit-osnovnye-momenty.html
/content/40/stati/geologija/ostancovyi-lakkolit-osnovnye-momenty.html
Установить основной урл, а все остальные будут содержать <meta name="robots" content="noindex" />
И боты не будут индексить дубли.
Есть если проще идея на текущий момент, пожалуйста. Но вот реализовать сейчас уход от генерации по айди не выйдет. Слишком большая работа, это я понял из постов на эту тему.
Опять же пишу всё это толком не зная вопроса. Поправьте, но желательно развёрнуто.