Вопрос дня - одинаковые ссылки

ЕСТЬ РЕШЕНИЕ ЗАКРЫТО
#1 9 февраля 2010 в 10:44
Есть какие-нибудь сроки в решении самой главной проблемы instant — повторяющихся ссылок все больше и больше, они плодятся как мухи. Когда уже будет одна ссылка, а то получается к одной и тойже статьй, блогу можно с разых адресов попасть, тяжело с этим!!!
#2 9 февраля 2010 в 11:00


сроки будут не быстрые по причине того что надо переписать фактически весь механизм формирования ссылок по движкам, разработать класс роута, который будет обрабатывать входящие ссылки, у меня есть готовое на 30% решение, в частности для блогов, но смысла выкладывать не вижу ибо это использовать можно будет до следующего обновления.

maxisoft

В этом вся и проблема, что нужно начинать с самого начала. Зачем нужны новшества, когда нет стабильности
#3 9 февраля 2010 в 11:46
Накидайте в этот топик дубли ссылок. Сделаю правильный robots.txt, либо шаблон.

1 Основной урл — нужный в индексе
2 Дубли — все возможные.

Иначе сейчас в выдаче просто бардак, ПС за дубли накладывает санкции.
#4 9 февраля 2010 в 12:09


Накидайте в этот топик дубли ссылок. Сделаю правильный robots.txt, либо шаблон.

1 Основной урл — нужный в индексе
2 Дубли — все возможные.

Иначе сейчас в выдаче просто бардак, ПС за дубли накладывает санкции.

garry
опубликуйте пример такого robots, что бы все поняли, как правильно надо его оформлять, преследуя цель исключить индексацию дублирования ссылок
#5 9 февраля 2010 в 12:21

Роботсом дубли не исключить. Их можно исключить только полным исключением модулей

beekeeper
Абсолютное заблуждение, исключить и работает для всех ПС. Это одно из рекомендаций ПС по исключению именно в роботс.
Через некоторое время после начала использования роботс, вы увидите в панели ПС сколько всякой хрени запрещено в роботс, появится новый пункт автоматически. В гугле и Яндексе аналогичные требования на этот чтёт.

В этот топик прошу выложить по такому шаблону

Блоги (исходя из одного блога)
1 Урл для ПС
2 Дубли
Каталог
1
2
И тд по разделам сайта.

Приду с работы сделаю вменяемый шаблон. К сожалению сейчас нет установленной, а точнее нет проекта на котором бы мог посмотреть у себя. Тем что есть не занимался давно и живет он сам по себе.

Ещё вариант скинуть мне ссылки на страцы с дублями в индексе, по разделам сайта. С указанием нужного урла и дублей.
#6 9 февраля 2010 в 12:58
Вот без дублей, так как пока нет у меня полной картины. К вечеру надеюсь накидаете мне по выше написанной схеме. Сделаю с запретом дублей.
  1. User-Agent: *
  2. Disallow: /blogs/0/* # из присланных примеров, удаляет дубли блогов.
  3. Disallow: /admin/
  4. Disallow: /backups/
  5. Disallow: /modules/
  6. Disallow: /core/
  7. Disallow: /templates/
  8. Disallow: /wysiwyg/
  9. Disallow: /view-registration/
  10. Disallow: /view-users/
  11. Disallow: /users/
  12. Disallow: /backups/
  13. Disallow: /upload/
  14. Disallow: /catalog/ # как пример запрещения раздела
  15. Disallow: /search/ # Больше теги не приносят пользы, во многих случаях вред. По желанию конечно.
  16. Disallow: /go/ # редирект, либо ваш вариант. Иначе боты переходят и смысл теряем.
  17. Host: ваше главное зеркало
  18.  
  19. User-agent: Slurp
  20. Crawl-delay: 100
если хотите разрешить конкретно что то, добавить в верх:
Allow: /users/admin* # как пример
Будут ещё данные, можно сделать с условиями и тд.
#7 9 февраля 2010 в 16:03
beekeeper, Дайте мне примеры сгенерированных дублей и основной урл, тогда можно говорить о чем то.

Плюс в системе хватает страниц абсолютно не нужных в индексе.
Чем больше дадите информации, тем лучше будет результат. Поверьте при использовании правильного роботс индексации в разы улучшается. Даже если это будет частично.

Из любой кмс вы ни когда не удалите все дубли и лишние страницы, что то всегда останется. Для этого и дан ПС инструмент.

если трудно вычислить все параметры, то ни когда не мешает вставить на странички сгенеренные по айди
<meta name="robots" content="noindex" />
#8 9 февраля 2010 в 16:16
maxisoft, Могли бы Вы расставить на этих страничках, у Вас знания большие по этой системе.
<meta name="robots" content="noindex" />
Я просто не ковырялся в коде и пока не знаю где генерит и условие. А я как приду с работы, сделаю вменяемый общий роботс включая форум. При этих двух доработках будет ГУТ.

Проблему сняли бы всем smile

Так же гугл ввел новый тег
<link rel="canonical" href="основной урл" /> # Нужна инфа, копирну, на смф публиковал.


Кононизирует основной урл, остальные дубли не индексирует( соответственно PR не распыляет). Можно и его использовать активно по всему проекту.
В некоторых кмс и форумах он введён уже по дефолту.
#9 9 февраля 2010 в 16:40
maxisoft, garry, будем ждать с нетерпением, я у уж точно :)
#10 9 февраля 2010 в 22:48
Вот примеры с этого сайта:
instantcms.ru/blogs/49/144/post616.html
instantcms.ru/blogs/0/144/post616.html
Но эти примеры не совсем показательны, ибо на этом сайте нет развитого меню.
Вот у меня на сайте иерархическое меню. Есть ссылка на раздел и ссылка на подраздел — этого уже достаточно для того чтобы статья стала доступна по двум разным (но как бы правильным адресам). Вот примеры адресов на один и тот же материал:
sverdlovsk.net.ua/content/123/stati/internet-tehnologii/prezentacija-saitov.html
sverdlovsk.net.ua/content/124/stati/internet-tehnologii/prezentacija-saitov.html
Через тэги к статье ссылка сюда такая:
sverdlovsk.net.ua/content/0/read827.html — возможно старый темплейт не стал сейчас разбираться.
Через поиск по сайту такая же ссылка.
Вручную другие ссылки (номера в ссылке) найти не получается, но сканер по сайту находит. Где он их берёт — фиг его знает — не придумывает же. Кроме того, по этим ссылкам действительно переходит на один и тот же материал 😥
Вот и скажите — как можно отсеять такое множество ссылок. Как сказать, что для одного раздела правильно 10, а для другого 10 это уже не правильно — нужно 11? Да никак! Нужно решать на уровне движка. Закрыть можно однозначно с цифрой "0" — но как по мне и здесь нужно не закрывать, а сделать чтобы при поиске формировалась правильная ссылка — вот тогда будет супер! Причем не с большой буквы, а все большие буквы, вот так — СУПЕР!!!
А для этого, как мне кажется, нужно всего ничего — отказаться от циферек, указывающих к какому пункту меню привязка, и ссылки примут вид: sverdlovsk.net.ua/content/stati/internet-tehnologii/prezentacija-saitov.html. Всё становится ясно и прозрачно: content — значит статьи, всё что далее иерархия разделов и в конце-концов, название статьи.
Но это всего-навсего меняет концепцию движка с ног на голову или если хотите, то ставит с головы на ноги.
То есть за основу формирования ссылок берётся расположение контента внутри иерархии разделов, но не меню.
Следовательно, предстоит полная переделка алгоритмов формирования ссылок, меню, что-то придумывать с модулями (привязка модулей к пунктам меню)

если трудно вычислить все параметры, то ни когда не мешает вставить на странички сгенеренные по айди
<meta name="robots" content="noindex" />

garry
В том то и дело, сейчас движок не знает, где правильное место статьи. Как же он расставит тэги. Если в меню сделать пункт прямо на статью, то в ссылке вообще не будет слова content.

сроки будут не быстрые по причине того что надо переписать фактически весь механизм формирования ссылок по движкам, разработать класс роута, который будет обрабатывать входящие ссылки, у меня есть готовое на 30% решение, в частности для блогов, но смысла выкладывать не вижу ибо это использовать можно будет до следующего обновления.

maxisoft
maxisoft, а нельзя ли взглянуть на это дело?
#11 9 февраля 2010 в 23:09
<meta name="robots" content="noindex" />
Это не привязано к слову content, это тег указывающий ботам какую страницу не индексировать и не включать в поиск.
Если его удастся внедрить в движок на страницы сгенеренные по айди, то вопрос будет закрыт.
Пока вот такой файлик(шаблон) закроет общие не нужные странички и урлы комментов.

  1. User-Agent: *
  2. Disallow: /blogs/0/* # из присланных примеров, удаляет дубли блогов по комментам.
  3. Disallow: /content/0/*
  4. Disallow: /admin/
  5. Disallow: /backups/
  6. Disallow: /modules/
  7. Disallow: /core/
  8. Disallow: /templates/
  9. Disallow: /wysiwyg/
  10. Disallow: /view-registration/
  11. Disallow: /view-users/
  12. Disallow: /users/
  13. Disallow: /backups/
  14. Disallow: /upload/
  15. Disallow: /catalog/ # как пример запрещения раздела
  16. Disallow: /search/ # Больше теги не приносят пользы, во многих случаях вред. По желанию конечно.
  17. Disallow: /go/ # редирект, либо ваш вариант. Иначе боты переходят и смысл теряем.
  18. Host: мой сайт.ру # ваше главное зеркало
  19.  
  20. User-agent: Slurp
  21. Crawl-delay: 100
Я сейчас ограничен в возможностях "исследования движка", если есть что то не охваченное прошу в этот топик.

Отредактируйте под свой проект, на основе выше написанного, боле менее прокомментированы участки файла.
Добавить разрешение/запрет под свой проект не сложно, выше писал как.
#12 9 февраля 2010 в 23:20


maxisoft, а нельзя ли взглянуть на это дело?

Виктор
Увы Виктор я с радостью бы поделился бы с вами но мне просто реально отбили интерес к работе на проекте. Могу тока рассказать суть, уверен что Вы в состоянии довести это до логичекого конца ибо я так и не смог до конца придумать как можно отвязаться от ИД_меню

maxisoft
Ребята, надо срочно с этим что-то делать. Практически 100% страниц с уникальным текстом — и в соплементале. Проблема №1
#13 9 февраля 2010 в 23:41

Если его удастся внедрить в движок на страницы сгенеренные по айди, то вопрос будет закрыт.

garry
Что значит "страницы сгенеренные по айди"?
Может я не въезжаю в суть предложения, но пока мне кажется, что внедрение мета-тега это тухляк.
В смысле для материалов сайта. Поставить это в страницы с тэгами и на поиск, думаю, можно.
Но это, даже не половина, проблемы. Поиск и тэги можно отсечь и robots.txt без лишнего геморроя с движком.
#14 9 февраля 2010 в 23:51

Практически 100% страниц с уникальным текстом — и в соплементале.

СергейР
Сергей, подскажи, а как определить в какой части гугол держит страницы сайта?
#15 9 февраля 2010 в 23:55
Причем тут теги, теги закрыты в том файле что я дал, всмысле вот Disallow: /search/
Я про дубли контента сайта, то что генерируется вот так, в посте выше давали ссылки

/content/10/stati/geologija/ostancovyi-lakkolit-osnovnye-momenty.html
/content/40/stati/geologija/ostancovyi-lakkolit-osnovnye-momenty.html

Установить основной урл, а все остальные будут содержать <meta name="robots" content="noindex" />
И боты не будут индексить дубли.

Есть если проще идея на текущий момент, пожалуйста. Но вот реализовать сейчас уход от генерации по айди не выйдет. Слишком большая работа, это я понял из постов на эту тему.

Опять же пишу всё это толком не зная вопроса. Поправьте, но желательно развёрнуто.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.