Делаю на заказ сайты, одна из самых дорогих тематик Adsense

InstantCMS 2.X
#16 3 ноября 2017 в 10:50

А каким образом Вы их доставали? Есть вариант один, возможно получится больше))

DолбаK
Во первых там есть карта сайта, но выведено туда не все
Далее пропарсил все категории ~1600кк (вместе с пагинацией), ну и в итоге получил ~800к карточек адвокатов.

донор/attorneys/id.html, где id — это число

DолбаK
Это не правильный подход по моему, объекты и удаляются из бд тоже ведь, соответственно из первого десятка к примеру есть живых всего пару id
И в итоге тебе придется проходиться по 5кк страницам чтоб получить только те что "живые"
#17 3 ноября 2017 в 12:30

придется проходиться по 5кк страницам чтоб получить только те что "живые"

Александр
Я просто предложил вариант)) Тем более, с Вашей скоростью парсинга за пару дней можно все страницы обойти))) А у меня вообще подход другой.
#18 3 ноября 2017 в 16:56

Тем более, с Вашей скоростью парсинга за пару дней можно все страницы обойти)))

DолбаK
я и обошел все, но листинги, более 1'600'000 страниц прошел чтоб собрать все 800'000 карточек которые есть на сайте :)
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.