
Лирика
Проблема посещения сайта ботами была замечена давно. Но где-то я услышал или прочитал, что сейчас это нормально — боты от различных сервисов гуляют по интернету, собирают разные данные, регистрируются, постят и тд. Короче выполняют дурную рутинную работу за человека. Бороться с ними не обязательно — дескать Яндекс и Гугл не дураки, сами поймут и отсеют.
Вернулся я к этому вопросу спустя где-то пол года. Не отсеют. Дураки. Посещаемость на сайте отличная — за месяц под 19к набегало. Только красоты в этом нет, потому, что 18 999 — это боты, а 1 — это я — дурак. Сайт вылетел из поиска, даже топовые ранее страницы потерялись где-то на задворках топ 100, куда не то что не доходят люди, нормальные боты не суются. Показатель отказов просто прекрасен — 93%.
К делу.
Я решил изменить эту ситуацию. Спрашивал тут на форуме, по совету Zau4man написал в техподдержку хостинга (у меня TimeWeb). Поддержка отработала вяло и неохотно, но все таки помогла решить (частично).
Я попробовал подключить CloudFlare. В моем случае это не дало никаких результатов. Возможно боты не те, возможно научились обманывать хороша. Я разбираюсь в этом на бытовом уровне, поэтому не могу объяснить детали. Факт остается фактом — не сработало. Как еще один минус — грузится стал дольше.
Сработала блокировка через .htaccess.
Если у вас тоже хостинг TimeWeb включите Статистику AWStats (Инструменты->Логи, дергаем переключатель Apache Доступ (access_log)). В нем вас интересует отчет Хосты. Подозрительные заходы с ip могут быть заблокированы соответствующими директивами в .htaccess. Чтобы не промахнуться и не заблокировать самого себя уточняйте что это за ip.
Второе, что нужно сделать — заказать логи заходов, обращений к серверу. В них вы сможете найти некоторых ботов, они прямо будут написаны. Через поиск ищем подозрительные названия (Yandexbot и Googlebot, соответственно пропускаем) и выписываем на листочек. Затем в .htaccess прописываем директировку блокировки по User agent. Именно этот вариант позволил мне существенно сократить количество ботов.
Если кому будет интересно, через месяц выложу вторую часть, где покажу скрины как все изменилось.
Я прикрепил файл, в котором перечислены боты, которых я нашёл у себя и на просторах интернета. Вам нужно просто скопировать содержимое файла в свой .htaccess. На всякий случай предупрежу, что это для версиb Apache 2.4. Если у вас на хостинге стоит 2.2, нужно уточнить правильность написания.
Надеюсь было полезно.
придут другие, это нерешаемая проблема. Тем более если она вам не принципиальна
Согласен. Но как тогда продвигаться? 93% отказов, для яндекса такой точно шлак.
А еще статистика. Как при таком раскладе понять, что происходит с сайтом?
Может хостинг поменять ?
Да. Такой вариант в интернете тоже предлагался. Но я это отнес к радикальным методам, пока посмотрю что будет по описанной мной схеме. А потом, у меня есть сайты на том же хостинге, которым уже несколько лет и у них нет такой проблемы, они чистые.
Не поможет, они на домен идут
Интересовался темой ботов некоторое время назад, результат здесь.
Благодарю за совет 👍
Кстати. Первые цифры уже есть. После описанных манипулицяй посещаемость сайта упала на 75%. Считаю это маленькой победой.
Все равно установил компонент Мониторинг загрузки системы от IamB, постараюсь максимально вычистить.
А процент отказов упал на 10 до 83%. Это за сутки! А вы говорите бесполезно бороться.
Тоже залетные боты есть, но хотелось бы уточнения...
У Яндекса есть же вроде самостоятельное отделение статистики ботов (сейчас они как я понял называются «убрать стат. недостоверные данные»). Думаю Яндекс понимает когда там заходят боты. Страницы вроде индексируются на сайте и вылетают на выдачу быстро.
Зачем от них пытаться избавится?
Хороший вы человек. 👍
Позже попробую тоже. Годик назад у меня борьба с ботами через .htaccess ни к чему не привела. Для себя просто вместо яндекс метрики поставил счётчик liveinternet.
Боты как таковые не вредят SEO, но вредоносные или чрезмерные — могут опосредованно ухудшить технические и поведенческие метрики.

Контроль и фильтрация — обязательны для стабильного продвижения.