"iGraber" - грабер контента. Складчина от maxisoft

iGraber - Универсальный грабер

#31 21 мая 2014 в 10:33

а кто складчину делает и по какой сумме?

kirkr
Читай первый пост этой темы.
#32 22 мая 2014 в 09:56
Участвую в складчине 😊
#33 23 мая 2014 в 02:00
maxisoft, скажите пожалуйста, будет ли как-то определяться что спарсеный контент уже имеется в базе и как это будет определяться?
Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.
**
Сверка идентичности по содержимому компонента и/или по категории куда добавляется контент.
На будущее (если и другие компоненты будут). Создание поля куда парсим конкретные данные (номер телефона к примеру) и привязка к БД
И из того же поля сделать проверку на идентичность....

Как-то так…
#34 23 мая 2014 в 09:05

Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.

PolarOne

Предложение не совсем удобное, изначально хотели сделать проверку только по титлу, но отказались, так как есть вероятность использовать синонимайзер, для псевдо уникальности контента, то такая проверка не даст результата, поэтому скорее всего мы будем делать небольшую избыточность базы а точнее будет таблица типа лога где будет информация, источник + названия первоисточника (может быть еще какой то уникальный id для контента), таблица будет очищаться по крону чтобы не захламлять сильно систему. Примерно так.
#35 23 мая 2014 в 11:45
maxisoft, а по url? Парсилось по такой ссылке или нет… Полную ссылку можно было бы использовать как индификатор уникальный.
За остальных не говорю, но синонимайзером пользоваться не буду так как шлак получается почти всегда и придется тогда в ручную модерировать.
Конечно же к клепанию ГС это не относится. (Рассматриваю парсер как инструмент для автоматизации некоторых работ, регулярного обновления и тп.)
Поэтому не хотелось бы видеть дубли статей.

Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.
#36 23 мая 2014 в 13:59

Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.

PolarOne
не совсем понял вопрос.
#37 23 мая 2014 в 14:29
maxisoft, к примеру хотим спарсить раздел статей доступный по site.ru/stati/
сами статьи (к примеру) расположены под своим номером, для упрощения
site.ru/stati/1.html
site.ru/stati/2.html
site.ru/stati/3.html
Как грабер будет определять ссылки статей (1-3.html) в разделе? А еще переход по страницам.
По 10 статей на 10 страницах у источника.
Или этого не намечается и будет парсить только по прямой ссылке.
Извините, просто для себя хочу малость прояснить планы на будущее связанные с грабером. Но если вы скажете "заткнись и подожди коммюнике" — перестану вас отвлекать от дел)
#38 23 мая 2014 в 15:44

"заткнись и подожди коммюнике" — перестану вас отвлекать от дел)

PolarOne
Так я точно не скажу :)

если в двух словах, каждый провайдер будет иметь некоторые специфичные настройки, например перечень разделов из которых можно будет парсить, второй момент это (регулярка) ссылок на статьи, (регулярка) пагинации. исходя из это парсер получает массив ссылок на статьи, и получает массив ссылок на страницы раздела. дальше все парсится.

Регулярка в скобках по причине того что это не та регулярка которая есть в понимании страшных кракозябр и прочих замудренных символов. Для наглядность приведу пример таких регулярок для news.liga.net/all/politics/

регулярка для получения ссылок на статьи: .last_news_list .title > a
регулярка для получения страниц пагинации: .navigation a

Думаю не сложно?

ну и для полного понимая регулярка для парсинга новости: news.liga.net/news/politics/1849732-v_artemovske_separatisty_dnr_zakhvatili_gorodskoy_sovet.htm

заголовок: .news_detail > h1
дата: .news_detail > .date.left
анонс: .news_detail > .annotation
фото: .news_detail > .img img
новость: .news_detail > .text _ga1_on_
автор: .news_detail > .author

Вот так будет все выглядеть.
#39 23 мая 2014 в 16:25
Хорошо конечно когда многие тут говорят чтобы было много возможностей. Но не мало важно, чтобы было просто в управлении. Как говорится на автомате, а не механика была. Ведь главной задачей будет автоматизация процесса.
#40 23 мая 2014 в 17:23
maxisoft, спасибо, все понял!)

Только вот бывает что ни ID ни классов не бывает в блоке. И было бы не плохо брать (указывать), скажем третий div в блоке контента, или там 10… )
Но это так, на ваше усмотрение конечно же, таких сайтов то практически и нет, пережитки (дожитки?) начала века.
#41 23 мая 2014 в 17:43

Только вот бывает что ни ID ни классов не бывает в блоке.

PolarOne
Покажите пример сайта, который вы считаете сложным и который попадает под определение данное вами. Просто чтобы сразу учесть такой момент.
Приведенный мной пример носит только информативный характер, все возможности описания селекторов будет в документации. Если что не будет получаться будем думать как это реализовать.
#42 23 мая 2014 в 18:57
Когда будет известна информация о выходе и т.д. клиентам? :)
Когда будет отдельный форум ?

Надеюсь будет поддерживать 1.10.1?
#43 23 мая 2014 в 19:09


Когда будет отдельный форум ?

BastaBastilio

Над этой частью уже ведется работа, думаю скоро все будет.

Надеюсь будет поддерживать 1.10.1 ?

BastaBastilio
Увы нет данный компонент будет доступен только для 1.10.3 и выше, 2-ка не учитывается так как совершенно другая система.
#44 26 мая 2014 в 12:19
Очередное предложение на рассмотрение. laugh
Группе, к которой вы принадлежите, запрещено просматривать этот скрытый текст
#45 26 мая 2014 в 12:37
maxisoft, А сроки выхода компонента пока не известны?
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.