Недоработка УК - поисковый спам

#1 10 августа 2012 в 15:24
Отличная новость для тех людей, чьи конкуренты работают на инстанте — теперь убрать конкурентов можно всего за неделю очень простым способом:
Берем любую рубрику каталога, дописываем к адресу тире и ставим любую цифру. Потом это вгоняем в индекс и вуаля — бан за поисковый спам обеспечен.

В общем, если без лирики = как убрать страницы из УК, которых реально нет?
Я о страницах вида:
site/catalog/1042-1
site/catalog/1042-2
site/catalog/1042-3
...
site/catalog/1042-99999

Извините, если изъясняюсь непонятно
#2 10 августа 2012 в 16:27
например редиректом или запретом индексации в роботс…
#3 10 августа 2012 в 16:39


например редиректом или запретом индексации в роботс...

googlebot

На форуме не нашел, к сожалению, поможете конкретно? Это понятно, что закрыть в роботсе, как прописать меняющийся ID рубрики и как, по вашему, в роботсе выбирать количество страниц в рубрике, руками?
#4 10 августа 2012 в 16:43
Инстантовский каталог не использовал, уточните там все страницы с "-" дубли?
тогда для роботса примерно так Disallow: /catalog/*-
#5 10 августа 2012 в 16:46


Инстантовский каталог не использовал, уточните там все страницы с "-" дубли?

googlebot

Давайте я попробую объяснить, как умею — если в каталоге 20 записей, то мы имеем 2 страницы по 10 записей:
site/catalog/1042-1
site/catalog/1042-2

Но, вместе с этим у нас есть дубли:
site/catalog/1042-3 (пустая страница)
site/catalog/1042-4 (пустая страница)
и так далее.

Т.е. с минусом у нас часть страниц реальных, а часть — дубли.
#6 10 августа 2012 в 16:48
Кстати, такая же штука и в статьях, так что тут работы много очень = странно, что никто не кинулся в этой теме помогать закрывать уязвимость. С такой дыркой бан может схватить любой из нас.

… не, может я конечно напрасно паникую — если что, поправьте!
#7 10 августа 2012 в 16:53
Если так, то просто не получится, тогда надо средствами php проверять есть ли объект с таким ID и если нет редиректить на 404…
#8 10 августа 2012 в 16:57
Паникуете напрасно, я с год назад пробовал так топить гаденышей, укравших наши тексты и торчавших в выдаче выше источника, закупал порядка 1000-1500 ссылок на страницы-дубли криво настроенного друпала и держал больше месяца, ничего в выдаче не изменилось…
#9 10 августа 2012 в 17:01


Паникуете напрасно, я с год назад пробовал так топить гаденышей, укравших наши тексты и торчавших в выдаче выше источника, закупал порядка 1000-1500 ссылок на страницы-дубли криво настроенного друпала и держал больше месяца, ничего в выдаче не изменилось...

googlebot

Так Вы неправильно делали )) Берете в эффекторе покупаете ссылки и через день их ставите на паузу — от мигания у них весь вес рассыпался бы
#10 10 августа 2012 в 17:23
Евгений Фоменко,
Не поступай с другими так, как не хотел бы чтобы поступили с тобой.
#11 10 августа 2012 в 17:32


Евгений Фоменко,

Не поступай с другими так, как не хотел бы чтобы поступили с тобой.

Madmax

Ну человек же написал, что у него тексты воровали! Я сам стараюсь быть выше этого ))
У меня ВСЯ моя важная работа на инстанте — мне очень хотелось бы решить описанную выше проблему, есть кто-то, кто подтолкнет?
#12 10 августа 2012 в 17:46
А где вы в статьях такое увидели, я как ни пытался получить дубль- стабильно получаю 404 страницу…
#13 10 августа 2012 в 17:54


А где вы в статьях такое увидели, я как ни пытался получить дубль- стабильно получаю 404 страницу...

googlebot

А давайте Вы мне свой напишете в ЛС и я Вам ответом скину дубли, если найду, ок?
#14 10 августа 2012 в 18:04
создавал подобную тему — instantcms.ru/forum/thread11558.html#96462
#15 10 августа 2012 в 18:12
FreeLancer, там предложено дубли закрыть в robots.txt, по сути, не проблема — но это не решение по 2 причинам:
1. тот синтаксис с * и? на серче очень давно ругают
2. он скроет всю разбивку по страницам, начиная с первой — лично у меня это уникальные страницы и их много. Закрыть их значит потерять часть веса. Не хочу…
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.