"iGraber" - грабер контента. Складчина от maxisoft

iGraber - Универсальный грабер

Предыдущая
1
2
3
4
...
10
Следующая
Показаны 31-45 из 150

#31 21 мая 2014 в 10:33

а кто складчину делает и по какой сумме?
kirkr

Читай первый пост этой темы.

#32 22 мая 2014 в 09:56

Участвую в складчине 😊

#33 23 мая 2014 в 02:00

maxisoft, скажите пожалуйста, будет ли как-то определяться что спарсеный контент уже имеется в базе и как это будет определяться?
Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.
**
Сверка идентичности по содержимому компонента и/или по категории куда добавляется контент.
На будущее (если и другие компоненты будут). Создание поля куда парсим конкретные данные (номер телефона к примеру) и привязка к БД
И из того же поля сделать проверку на идентичность....

Как-то так…

Просто так...

Сегодня в 14:49

#34 23 мая 2014 в 09:05

Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.
PolarOne

Предложение не совсем удобное, изначально хотели сделать проверку только по титлу, но отказались, так как есть вероятность использовать синонимайзер, для псевдо уникальности контента, то такая проверка не даст результата, поэтому скорее всего мы будем делать небольшую избыточность базы а точнее будет таблица типа лога где будет информация, источник + названия первоисточника (может быть еще какой то уникальный id для контента), таблица будет очищаться по крону чтобы не захламлять сильно систему. Примерно так.

Осуществляю все виды работ по разработке сайтов и веб приложении. Компоненты любой сложности и конфигурации. Телеграмм @instantcms_dev

#35 23 мая 2014 в 11:45

maxisoft, а по url? Парсилось по такой ссылке или нет… Полную ссылку можно было бы использовать как индификатор уникальный.
За остальных не говорю, но синонимайзером пользоваться не буду так как шлак получается почти всегда и придется тогда в ручную модерировать.
Конечно же к клепанию ГС это не относится. (Рассматриваю парсер как инструмент для автоматизации некоторых работ, регулярного обновления и тп.)
Поэтому не хотелось бы видеть дубли статей.

Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.

Просто так...

#36 23 мая 2014 в 13:59

Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.
PolarOne

не совсем понял вопрос.

#37 23 мая 2014 в 14:29

maxisoft, к примеру хотим спарсить раздел статей доступный по site.ru/stati/
сами статьи (к примеру) расположены под своим номером, для упрощения
site.ru/stati/1.html
site.ru/stati/2.html
site.ru/stati/3.html
Как грабер будет определять ссылки статей (1-3.html) в разделе? А еще переход по страницам.
По 10 статей на 10 страницах у источника.
Или этого не намечается и будет парсить только по прямой ссылке.
Извините, просто для себя хочу малость прояснить планы на будущее связанные с грабером. Но если вы скажете "заткнись и подожди коммюнике" — перестану вас отвлекать от дел)

Просто так...

#38 23 мая 2014 в 15:44

"заткнись и подожди коммюнике" — перестану вас отвлекать от дел)
PolarOne

Так я точно не скажу :)

если в двух словах, каждый провайдер будет иметь некоторые специфичные настройки, например перечень разделов из которых можно будет парсить, второй момент это (регулярка) ссылок на статьи, (регулярка) пагинации. исходя из это парсер получает массив ссылок на статьи, и получает массив ссылок на страницы раздела. дальше все парсится.

Регулярка в скобках по причине того что это не та регулярка которая есть в понимании страшных кракозябр и прочих замудренных символов. Для наглядность приведу пример таких регулярок для news.liga.net/all/politics/

регулярка для получения ссылок на статьи: .last_news_list .title > a
регулярка для получения страниц пагинации: .navigation a

Думаю не сложно?

ну и для полного понимая регулярка для парсинга новости: news.liga.net/news/politics/1849732-v_artemovske_separatisty_dnr_zakhvatili_gorodskoy_sovet.htm

заголовок: .news_detail > h1
дата: .news_detail > .date.left
анонс: .news_detail > .annotation
фото: .news_detail > .img img
новость: .news_detail > .text _ga1_on_
автор: .news_detail > .author

Вот так будет все выглядеть.

#39 23 мая 2014 в 16:25

Хорошо конечно когда многие тут говорят чтобы было много возможностей. Но не мало важно, чтобы было просто в управлении. Как говорится на автомате, а не механика была. Ведь главной задачей будет автоматизация процесса.

#40 23 мая 2014 в 17:23

maxisoft, спасибо, все понял!)

Спойлер

Только вот бывает что ни ID ни классов не бывает в блоке. И было бы не плохо брать (указывать), скажем третий div в блоке контента, или там 10… )
Но это так, на ваше усмотрение конечно же, таких сайтов то практически и нет, пережитки (дожитки?) начала века.

Просто так...

#41 23 мая 2014 в 17:43

Только вот бывает что ни ID ни классов не бывает в блоке.
PolarOne

Покажите пример сайта, который вы считаете сложным и который попадает под определение данное вами. Просто чтобы сразу учесть такой момент.
Приведенный мной пример носит только информативный характер, все возможности описания селекторов будет в документации. Если что не будет получаться будем думать как это реализовать.

#42 23 мая 2014 в 18:57

Когда будет известна информация о выходе и т.д. клиентам? :)
Когда будет отдельный форум ?

Надеюсь будет поддерживать 1.10.1?

#43 23 мая 2014 в 19:09

Когда будет отдельный форум ?

BastaBastilio

Над этой частью уже ведется работа, думаю скоро все будет.

Надеюсь будет поддерживать 1.10.1 ?
BastaBastilio

Увы нет данный компонент будет доступен только для 1.10.3 и выше, 2-ка не учитывается так как совершенно другая система.

#44 26 мая 2014 в 12:19

Очередное предложение на рассмотрение. laugh

Группе, к которой вы принадлежите, запрещено просматривать этот скрытый текст

Просто так...

#45 26 мая 2014 в 12:37

maxisoft, А сроки выхода компонента пока не известны?

Предыдущая
1
2
3
4
...
10
Следующая
Показаны 31-45 из 150

Продам аккаунты(ya.

продам сайт

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

"iGraber" - грабер контента. Складчина от maxisoft

Похожие темы

[ЕСТЬ РЕШЕНИЕ] Кто знает что случилось с maxisoft ?

Компонент для вывода виджета контента случайным образом

Складчина на Виджет для блога (списка контента)

[ЕСТЬ РЕШЕНИЕ] Складчина-2: полноценная турбо, pulse.mail и AMP версия сайта

Складчина с уточнением ТЗ на обновление/переписывание Биллинга

Складчина. Привязка тем или разделов форума к группам

Складчина на доработку компонента "Подписки"

Складчина ICMS & XenForo

Похожее в блогах

Напишем компонент для отслеживания и управления актуальностью записей типов контента

Адаптивный шаблон для InstantCMS2 - OneNews

Сайдбар в двойке

Плавная смена страниц(Исправление недочетов)

InstantCMS Team

О проекте

Поддержка

Дополнения