Боты с ip6 (17000 уникальных ip адресов)

InstantCMS 1.X
#1 9 февраля 2023 в 22:13

Собственная посещаемость у этого сайта около 100 хостов в день.

С некоторых пор какой то умник принялся выгуливать на нём своих ботов, ничего такого не делают, просто гуляют, туда смотрят, сюда смотрят. Прямые заходы без реферра.

Насколько я предполагаю, нагуливают профиль «пользователя» для дальнейшего использования в различных схемах по накрутке поведенческих на сайтах заказчиков, кто заказывает накрутку такого, ну и, возможно,  для других непонятных мне схем. Ибо на парсинг это не похоже, на попытку завалить СЕО моего сайта тоже, персональный блог без особого трафика и конкурентных ниш.

Пока это были сотни особого внимания не уделял.  Пронализировав нашёл по каким критериям банить, но это привело к случайной блокировке реальных пользователей в определённых случаях, поэтому пока оставил как есть, пусть гуляет. На всякий случай позвонил Яше, чтобы не сложилось впечатление, что это Я пытаюсь крутить себе ПФ.

Но оно меры не знает, теперь счёт хостов в день пошёл на тысячи. Я открыл закрытые ранее для него разделы сайта и начал писать статистику в базу данных в расчете собрать список ip адресов и потом отправить их в бан, типа: "- ну сколько их там может быть, ну сотня, ну две, ну пятьсот".

Так вот за неполную неделю их 17 000 ip6. Я чего то офигел. Такое бывает? Ну и вообще какие есть идеи, если есть?

#2 9 февраля 2023 в 22:16

Это паранойя  — следствие запоя. (шутка 😁)

#3 9 февраля 2023 в 22:34

Ну и вообще какие есть идеи, если есть?

Нил™

Есть для 2-й ветки.

#4 9 февраля 2023 в 22:46

 IamB, да полезный компонент для двойки. Но в описываемом случае, все общие точки из user agent клиента — также могут быть присущи реальным людям.

Оставалась надежда собрать список его ip адресов, скажем, которые повторяются в логах больше 20-50 раз — считать подозрительными.

Но при выводе 17300 строк с группировкой по ip6 получилось 17 тыс уникальных строк. Оно почти не повторяется в этом параметре, возможно вообще не повторяется и как раз 300 — реальные люди).

#5 9 февраля 2023 в 23:16

Если запросы без UA, я бы отдавал 403.

А как вы определяете, что запрос от реального человека? Если запросы от реального человека идут с частотой 1 запрос/сек, то не стоит ли его послать лесом? 

Логи при этом объеме читать и анализировать вручную утомительно. Можно, конечно и анализатор логов написать. Соберите свою статистику так, как считаете нужным.  И потом уж безжалостно рубите.

#6 10 февраля 2023 в 00:03

Если запросы без UA, я бы отдавал 403.

IamB

С ним.

1. Mozilla/5.0 (Linux; arm_64; Android 10; Redmi Note 8) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.1655.104 Mobile Safari/537.36
2. Mozilla/5.0 (Linux; arm_64; Android 12; Redmi Note 7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5555.115 Mobile Safari/537.36
3. Mozilla/5.0 (Linux; arm_64; Android 12; M2102K1G) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.2235.106 Mobile Safari/537.36

Всегда или 99,9% = Android + ip6 + без реферра, остальное прыгает.

Вот по этим трем точкам я и поставил блок, а реальный человек попробовал открыть пост по ссылке из канала в телеграм и у него всё совпало, он получил от меня 404, ибо МТС любит присваивать своим пользователям ip6 + при переходе по ссылке из телеграм, оказалось, нет реферра.

А как вы определяете, что запрос от реального человека? Если запросы от реального человека идут с частотой 1 запрос/сек, то не стоит ли его послать лесом? 

IamB

сайт без регистрации, пользовательской активности нет, трафик не более 100 в день 90% из поиска знаю по каким запросам и иногда из социальных сетей, так что разглядеть бота не трудно. Обычных ботов всякие краулеры и т.п. я не рассматриваю, они не так хамят.

Если запросы от реального человека идут с частотой 1 запрос/сек, то не стоит ли его послать лесом? 

IamB

С учётом вышесказанного, например, как понять, что запросы 1/Сек это один и тот же и кого слать лесом?

Пытался найти дополнительные опорные точки по таким параметрам

Изображение

ничего за что можно надежно зацепиться

#7 10 февраля 2023 в 00:15

Нил™, на уровне php подобное решать такая себе история. Посмотрите адреса ipv6, может они из одной подсети. Заблокируйте подсеть средствами файрвола или на крайний случай вебсервера и всё.

Но вообще я не очень понимаю зачем их блокировать. Ходят и пусть ходят, если это не превращает в мини ддос.

#8 10 февраля 2023 в 00:29

Нил™, на уровне php подобное решать такая себе история. Посмотрите адреса ipv6, может они из одной подсети. Заблокируйте подсеть средствами файрвола или на крайний случай вебсервера и всё.

Fuze

посмотрю подробнее на это

Но вообще я не очень понимаю зачем их блокировать. Ходят и пусть ходят, если это не превращает в мини ддос.

Fuze

вообще было опасение что роботность 90% не есть хорошо для РСЯ, это я кстати отключил для него, на серче читал что именно наличие РСЯ является необходимым условием для них.

Плюс немного мешало анализировать статистику, я сначала читал логи в телеграм по мере поступления, так он меня и достал. Потом, неизвестно — где у него предел. Начиналось с сотни хостов в день, перевалило за тысячу.

Ну и тут уже пошло на интерес.

#9 10 февраля 2023 в 23:48

на серче читал что именно наличие РСЯ является необходимым условием для них.

Нил™

Для них — это для этих специфических ботов? Я правильно понимаю?

#10 11 февраля 2023 в 01:23

 IamB, да, если это тот случай. Смотря для каких случаев потом эти боты с «историей просмотров, интересов, типа я реальный человек, а не бот» используются.

Как я понял, кому то важно наличие на сайте Метрики, потому что формируют история «профиля» для Яши и потом используют такого бота с профилем, чтобы  крутить ПФ, типа реальные посетители, клму то нужно наличие на сайте кода  РСЯ по схожим причинам.

Как то так. 

#11 11 февраля 2023 в 14:10

 Нил™, версия насчет цели прихода этих роботов — не очень. А вот идея как их притормозить есть: можно для роботов ввести задержку sleep(1). Для людей такая задержка не критична. А робот, если ожидает ответа и лишь потом делает следующий запрос, сильно призадумается.

#12 11 февраля 2023 в 16:55

 IamB, ну не знаю, из того что я могу себе вообразить по поводу целей в данном случае, эта версия видится более менее похожей на правду, других вариантов пока не виже, если интересно здесь посмотрите searchengines.guru/ru/forum/1029854/page731 это с чего я взял подобное объяснение)

По поводу задержки, боюсь нормальным ботам перекрыть доступ, но наверно можно подумать как не перерыть, если они нормальные боты всегда подписаны как положены, но думаю не всегда

#13 11 февраля 2023 в 18:16

боюсь нормальным ботам перекрыть доступ, но наверно можно подумать как не перерыть, если они нормальные боты всегда подписаны как положены, но думаю не всегда

Нил™

А смысл нормальным ботам лазать не подписанными? У меня есть список ботов, может, конечно он не полный, но и он, если быть строгим, избыточен для посетителей сайта. 

Вы, кстати, пытались в Вебвизоре смотреть, что подозрительные боты делают на вашем сайте? 

#14 11 февраля 2023 в 19:47

А смысл нормальным ботам лазать не подписанными?

IamB

Не знаю, просто предполагаю, что если есть умные, которые умеют показывать поисковым ботам или ботам рекламных сетей — один контент, а людям — другой, то и есть умные, которые умеют заходить на сайты без подписи, чтобы пресекать такие вещи. Один из вариантов.

Вы, кстати, пытались в Вебвизоре смотреть, что подозрительные боты делают на вашем сайте? 

IamB

Нет, вебвизор не использую. Читают. Одну заметку по 50 раз (с разных ip) и фотографии в галерее смотрят. 

#15 14 февраля 2023 в 23:44

В общем пока потестирую такой вариант

При совпадении ряда условий типичных для ботов, вместо прежней 404 страницы отправляю их на страницу проверки. Там поставил невидимую рекапчу от гугл, то есть если гуглу пользователь не кажется подозрительным, ему — пользователю ничего и делать не надо, только подождать секунду, если проходят капчу — редиректом возвращаются на запрашиваемую страницу, если нет — остаются  где то там. Ну и наверно после проверки проставлю куку, что бы проверенных не гонять на капчу каждый раз.

За советы спасибо, буду иметь ввиду.

Добавлено спустя 4 часа

Неожиданно, финт с рекапчой — не удался. Или я не правильно настроил, или они  успешно проходят фильтр.

Изображение

Остался вариант с капчой «введите цифры, которые видите на картинке». Попробуем его.

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.