Читай первый пост этой темы.а кто складчину делает и по какой сумме?
iGraber - Универсальный грабер
Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.
**
Сверка идентичности по содержимому компонента и/или по категории куда добавляется контент.
На будущее (если и другие компоненты будут). Создание поля куда парсим конкретные данные (номер телефона к примеру) и привязка к БД
И из того же поля сделать проверку на идентичность....
Как-то так…
Предложение.
Сверка идентичности по названию.
Сверка идентичности по содержанию.
Предложение не совсем удобное, изначально хотели сделать проверку только по титлу, но отказались, так как есть вероятность использовать синонимайзер, для псевдо уникальности контента, то такая проверка не даст результата, поэтому скорее всего мы будем делать небольшую избыточность базы а точнее будет таблица типа лога где будет информация, источник + названия первоисточника (может быть еще какой то уникальный id для контента), таблица будет очищаться по крону чтобы не захламлять сильно систему. Примерно так.
За остальных не говорю, но синонимайзером пользоваться не буду так как шлак получается почти всегда и придется тогда в ручную модерировать.
Конечно же к клепанию ГС это не относится. (Рассматриваю парсер как инструмент для автоматизации некоторых работ, регулярного обновления и тп.)
Поэтому не хотелось бы видеть дубли статей.
Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.
не совсем понял вопрос.Еще вопросик (хотябы намекните) как будут ссылки конечных страниц-статей и раздела определяться? Для меня это вечная проблема с парсингом ссылок.
сами статьи (к примеру) расположены под своим номером, для упрощения
site.ru/stati/1.html
site.ru/stati/2.html
site.ru/stati/3.html
Как грабер будет определять ссылки статей (1-3.html) в разделе? А еще переход по страницам.
По 10 статей на 10 страницах у источника.
Или этого не намечается и будет парсить только по прямой ссылке.
Извините, просто для себя хочу малость прояснить планы на будущее связанные с грабером. Но если вы скажете "заткнись и подожди коммюнике" — перестану вас отвлекать от дел)
Так я точно не скажу :)"заткнись и подожди коммюнике" — перестану вас отвлекать от дел)
если в двух словах, каждый провайдер будет иметь некоторые специфичные настройки, например перечень разделов из которых можно будет парсить, второй момент это (регулярка) ссылок на статьи, (регулярка) пагинации. исходя из это парсер получает массив ссылок на статьи, и получает массив ссылок на страницы раздела. дальше все парсится.
Регулярка в скобках по причине того что это не та регулярка которая есть в понимании страшных кракозябр и прочих замудренных символов. Для наглядность приведу пример таких регулярок для news.liga.net/all/politics/
регулярка для получения ссылок на статьи: .last_news_list .title > a
регулярка для получения страниц пагинации: .navigation a
Думаю не сложно?
ну и для полного понимая регулярка для парсинга новости: news.liga.net/news/politics/1849732-v_artemovske_separatisty_dnr_zakhvatili_gorodskoy_sovet.htm
заголовок: .news_detail > h1
дата: .news_detail > .date.left
анонс: .news_detail > .annotation
фото: .news_detail > .img img
новость: .news_detail > .text _ga1_on_
автор: .news_detail > .author
Вот так будет все выглядеть.
Но это так, на ваше усмотрение конечно же, таких сайтов то практически и нет, пережитки (дожитки?) начала века.
Покажите пример сайта, который вы считаете сложным и который попадает под определение данное вами. Просто чтобы сразу учесть такой момент.Только вот бывает что ни ID ни классов не бывает в блоке.
Приведенный мной пример носит только информативный характер, все возможности описания селекторов будет в документации. Если что не будет получаться будем думать как это реализовать.
Когда будет отдельный форум ?
Надеюсь будет поддерживать 1.10.1?
Когда будет отдельный форум ?
Над этой частью уже ведется работа, думаю скоро все будет.
Увы нет данный компонент будет доступен только для 1.10.3 и выше, 2-ка не учитывается так как совершенно другая система.Надеюсь будет поддерживать 1.10.1 ?