Чем парсите? Нужен совет

#1 27 июля 2014 в 13:00
Сижу пишу парсер под свои нужды. Надоело ручками копировать — вставлять.
Пока остановил свой выбор на phpQuery. Удобно искать нужную строчку, сразу править ее.

Но подумалось. Может есть еще более удобные библиотеки?
#2 27 июля 2014 в 13:25
Глядя что. По сути давно уже понятно, что каждый сайт требует своего парсинга индивиндуально, плюс с учетом того, как максимально это разбавить грамотно.
#3 27 июля 2014 в 15:36
Евгений, что парсите? html? Цель получить данные? Попробуйте поюзать нативный класс DOMDocument.
phpQuery написан и схож с логикой jQuery.

По сути давно уже понятно, что каждый сайт требует своего парсинга индивиндуально, плюс с учетом того, как максимально это разбавить грамотно.

letsgo
Ты мне напомнил нашего президента, который подобно отвечает на вопрос, ответа которого он не знает😊Но ему то по долгу службы надо изворачиваться, тебе вроде бы не надо) Примерно так же я отвечал в институте на экзамене, на вопросы, ответы на которые я практически не знал, но важно было что-то говорить.
#4 27 июля 2014 в 15:44

куку

Fuze

Ты мне напомнил нашего президента, который подобно отвечает на вопрос, ответа которого он не знает Но ему то по долгу службы надо изворачиваться, тебе вроде бы не надо) Примерно так же я отвечал в институте на экзамене, на вопросы, ответы на которые я практически не знал, но важно было что-то говорить.

Fuze

Тут скорее играет роль взгляд на процесс. Для тебя это сразу решение программное, для меня другие параметры важны, вот и сработало, теперь вижу, разговор вроде только о процессе)
#5 27 июля 2014 в 16:55

плюс с учетом того, как максимально это разбавить грамотно.

letsgo
ну тут проверено на уже работающем портале, что скопированные новости с измененным заголовком залетают в индекс без разбавления😊Для разбавления есть блоги + форум. И комментарии конечно, которых на сайтах-донорах просто нет.

что парсите? html? Цель получить данные?

Fuze
да, html. Цель — получить данные. Цель поисков библиотеки — удобные инструменты для выборки тегов (например, все картинки из нужного слоя выдернуть). Ну а в базу буду писать через pdo mysql. Я не делаю компонент, скорее просто, для своих нужд.
#6 27 июля 2014 в 17:03

нативный класс DOMDocument.

Fuze
интересненько. Пойду поищу живые примеры. Спасибо.
#7 17 августа 2014 в 18:35
Продолжаю парсить с помощью phpQuery. Ооооочень удобно искать вхождения нужных тегов. Только на одном сайте столкнулся с проблемкой, которая хорошо описана тут phpforum.su/index.php?showtopic=68810

НА Хабре чел говорил, что это вроде не трабла с кодировкой, а трабла с битностью.


Попробовал регулярные выражения. Оказывается, не все так сложно :)
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.