Во первых там есть карта сайта, но выведено туда не всеА каким образом Вы их доставали? Есть вариант один, возможно получится больше))
Далее пропарсил все категории ~1600кк (вместе с пагинацией), ну и в итоге получил ~800к карточек адвокатов.
Это не правильный подход по моему, объекты и удаляются из бд тоже ведь, соответственно из первого десятка к примеру есть живых всего пару idдонор/attorneys/id.html, где id — это число
И в итоге тебе придется проходиться по 5кк страницам чтоб получить только те что "живые"