Здравствуйте граждане, у нас в городе есть газета муниципальная, которая каждый выпуск выкладывает на свой сайт в виде PDF файла.
Администрация когда-то еще лет 8 назад давала добро на размещение их новостей, но заставить сотрудников размещать новости на моём сайте не удастся, посему нужен парсер их новостей.
Программеры посмотрите пожалуйста этот файл, реально ли его отпарсить вообще? www.мо-петергоф.рф/upload/iblock/152/%D0%9C%D0%9F%20%E2%84%968_1.pdf
Статья свёрстана видимо в пейджмейкере каком-то и простым копипастом её не разместить, каждая строка с переносом строки получается… Еще и фото. Кто разбирается посмотрите пожалуйста и оцените возможность.
Я могу засечь когда выкладывается файл надо чтобы автоматом парсер его скушал.
#1
20 июня 2016 в 00:47
#2
20 июня 2016 в 09:14
Думаю, вы слишком многого хотите от жизни)
Не получится у вас это автоматом.
Не получится у вас это автоматом.
#3
20 июня 2016 в 11:20
Попробуйте, вот парсер и демо там есть и документация...http://www.pdfparser.org/