Бесплатный парсер новостей 2.X

3444
Бесплатный парсер новостей
С помощью компонента Парсер новостей, вы можете парсить новости с различных источников (на данный момент с Вести и РИА) и добавлять их на свой сайт. Есть несколько способов добавления, автоматический, ручной и по крону (Планировщик).

Автоматический - это когда при нажатии автоматом добавляются новости на сайт.

Ручной - это когда загружается форма добавления новости с уже заполненными полями и вы можете отредактировать её и нажать Сохранить.

Добавление по крону - это когда из созданных фильтров, планировщик парсера добавляет контент на ваш сайт, без вашего участия.

Парсер получает заголовок, текст и одну фотографию. Фотография загружается на ваш сайт со всеми пресетами, которые есть на вашем сайте. Из тела новости, получаем только текст, все фотографии или видео удаляются.
Бесплатный парсер новостей

Фильтры

Вы можете создать фильтры, что бы фильтровать спарсенные новости. Например создаете фильтр с текстом "Москва" тогда добавляются новости связанные с Москвой или же как сейчас актуально, создаёте фильтр с текстом "Олимпиада" или "РИО" и получите новости олимпиады.
Бесплатный парсер новостей

Категории

При парсинге с внешнего сайта мы получаем категории новостей, в компоненте есть удобный настройщик категорий, где вы можете указать какие новости должны попадать в какие категории.
Бесплатный парсер новостей

Кэш

Что бы не грузить сервер, при парсинге, данные сохраняются в кэш, следующие загрузки происходят из кэша. Это обеспечивает быструю работу компонента.

При нажатии на кнопку Очистить кэш - данные из кэша удаляются и компонент парсит новые данные.

Интеграция с FlowCrawler

С помощью парсера можете импортировать данные, которые спарсили с помощью программы FlowCrawler в json формате (см. видео).

Почему только два источника?

Бесплатных источников два, Вести и РИА новости, если вам этого не достаточно, можете заказать дополнительные источники.

Цена одного источника 400 руб

Перед заказом источника, напишите мне сайт, который хотите парсить, я скажу получиться ли парсить (иногда для некоторых сайтов не будет доступен фильтр или настройка категории).

Если на сайте источника будут мелкие изменения и парсер начнет не правильно работать, исправление бесплатно, но если сайт полностью меняет дизайн, исправление 100 руб

Используется библиотека DiDOM

Если хотите поддержать развитие парсера, закажите источники.

ВАЖНО: Перед парсингом Вести и РИА новости прочтите правила использования материалов этих сайтов.

Видеоуроки: Изучаем структуру шаблонов InstantCMS 2 | Обновление бесплатных дополнении
Комментарии (43)
Dorimen 20 сентября 2017 в 12:05 0
no avatar
Жаль, что не сделали просто парсинг rss (((
Evanescence 20 сентября 2017 в 12:38 0
small user social cms
Вроде уже есть парсер rss
Dorimen 20 сентября 2017 в 12:38 0
no avatar
Не встречал )
Evanescence 20 сентября 2017 в 12:48 0
small user social cms
Вроде автор Sitestroi был, не помню, но данный парсер поддерживает rss
Dorimen 20 сентября 2017 в 12:50 0
no avatar
Ваш поддерживает? Я бы купил. Можете сделать инструкцию как подключить в него любой rss?
Dorimen 20 сентября 2017 в 12:52 0
no avatar
Если бы у него еще была интеграцией с Вашим же компонентом "Лента событий", чтобы туда новости добавлялись но не от имени одного пользователя, а как бы системно и видными для всех пользователей.
Evanescence 20 сентября 2017 в 12:58 0
small user social cms
Сами не можете добавить, для этого надо заказать источник.

Не помню по вашей просьбе или кто то другой просил, но в этом направлении работаю, в Ленте событий будет свой парсер
Dorimen 20 сентября 2017 в 13:00 0
no avatar
Я и просил )
Loadырь 20 сентября 2017 в 12:53 0
small user social cms
В каталоге дополнений
Dorimen 20 сентября 2017 в 13:00 0
no avatar
Спасибо
Олег Васильевич я 20 сентября 2017 в 12:18 +1
small user social cms
Сейчас нет возможности потестить. Потому прошу уточнить: система от 2.6.1 ?
Спасибо!
Evanescence 20 сентября 2017 в 12:38 +1
small user social cms
Да, начиная от 2.6.1
DeeMon 20 сентября 2017 в 19:25 +1
small user social cms
Вести и РИА новости- перед их парсингом стоит почитать правила использования материалов этих сайтов.
Вести (жёсткие правила):
Любое использование текстовых, фото, аудио и видеоматериалов возможно только с согласия правообладателя (ВГТРК)
А с РИА тоже стоит парсить аккуратно:
Использование аналитических и авторских материалов (сопровожденных знаком © и словами МИА «Россия сегодня») возможно только после получения письменного согласия МИА «Россия сегодня».
Т.е. без письменного согласия только для некоммерческого использования(а это понятие растяжимое) можно только информационных текстовых и информационно-графических материалов, правообладателем которых является МИА «Россия сегодня»
Evanescence 20 сентября 2017 в 20:01 0
small user social cms
Спасибо, указал в посте.
yury 20 сентября 2017 в 21:22 0
no avatar
отличное решение. не совсем понял как с краулером подружить.

еще было бы отлично, если дата и время будет выводиться в админке, чтобы понимать что в списке актуальное, а что нет
Evanescence 21 сентября 2017 в 10:21 0
small user social cms
Посмотрите видео, там есть работа с краулером.
Mari 20 сентября 2017 в 22:47 -2
no profile
На инстанте 2.8.1 после создания фильтра, его невозможно не изменить, не удалить. Выдает ошибку
Object not found!

The requested URL was not found on this server. The link on the referring page seems to be wrong or outdated. Please inform the author of that page about the error.

If you think this is a server error, please contact the webmaster.

Error 404
Mari 20 сентября 2017 в 23:03 -2
no profile
Не удаляет кириличские названия фильтров
Mari 20 сентября 2017 в 23:05 -2
no profile
Не видит выбора категорий, всё пихает в категорию В мире. Даже если задаёшь другую категорию если новость не найдена.
Evanescence 21 сентября 2017 в 10:20 0
small user social cms
Проверил, всё работает.
Может у кого то еще такие проблемы? Как называется фильтр?
У меня в openserver не удаляются и не редактируются фильтр начинающий с "Х", но в денвере всё норм, не знаю из за чего так
@SmartControl 21 сентября 2017 в 11:10 0
small user social cms
Может у кого то еще такие проблемы? Как называется фильтр?
Потыкал у себя.

Проблема при удалении - фильтр удаляется, но не чистится кэш и он отображается в списке. Соответственно и удалить его нельзя (его уже не существует), ни изменить по той же причине. Решение - добавить очистку кэша при после удаления.

С кириллическими проблем не вижу, вроде все работает. Создал, поменял, удалил.. все так же, как и с числовым фильтром.
@SmartControl 21 сентября 2017 в 11:12 0
small user social cms
при создании фильтров они тоже не всегда появляются, причина опять в кэше. Ручная чистка кэша помогает
Evanescence 21 сентября 2017 в 11:47 0
small user social cms
Имеете в виду кэш самой системы?
Да, стоить использовать useCache() и cmsCache::getInstance()->clean()
Про фильтр начинающий с Х я имел в виду страницу удаление, при нажатии удалить получаю ошибку 404, думаю проблема в URL так как удаление происходить по название фильтра а не по ID (не помню почему так сделал)
URL получается так: site.ru/admin/controllers/edit/parsing/filter/38/химки/delete
Evanescence 21 сентября 2017 в 11:52 0
small user social cms
Посмотрел, оказывается реализовал использование системного кэша, только добавление и удаление фильтров не перенесена в модель, скоро будет обновление. (тогда не знал что, кто то использует системный кэш)
MegaRostov 26 сентября 2017 в 17:31 0
small user social cms
Может у кого то еще такие проблемы? Как называется фильтр?

У меня проблемы с фильтром!

Эта версия закодированная?
Если ее поставить уже на установленную надеюсь ошибка пропадет? Я Вам про нее писал или лучше удалить старый компанент и установить текущий.
Вот только что делать с установленными источниками они тоже затрутся и их нужно будет по новой устанавливать, а где они я и не помню. Беда..
Подскажите что можно в моем случае придумать?
Evanescence 26 сентября 2017 в 18:30 0
small user social cms
Удалить старый не надо, просто загрузите файлы из папки package с заменой
Петрмаг 20 сентября 2017 в 23:33 0
small user social cms
Молодцы! за бесплатность+,как у всех двигателей будет в комплекте,кому лень описывать страницы.Но только с практической точки зрения,все парсеры бесполезны.
А так конечно нужное дело,кому-то куда-то да пригодится!
@SmartControl 21 сентября 2017 в 04:27 +3
small user social cms
Петрмаг:
все парсеры бесполезны. А так конечно нужное дело
Не поспоришь, прям в точку)

Парсеры нужно использовать с умом и все будет отлично. Не обязательно же публиковать как есть - можно все статьи прогонять через редактора. который будет превращать их в уникальный контент. В этом случае парсер очень сильно упростит работу редактора (или контент-менеджера, кому как больше нравится).
IceBreaker 21 сентября 2017 в 17:24 0
small user social cms
О каком редакторе идёт речь? О человеке или машинном?
Если машинном то есть ли мысли или сервисы, есть подсказки?
@SmartControl 21 сентября 2017 в 17:30 0
small user social cms
Я про человека. Машинного редактора с такими навыками еще не изобрели. Нужен же не синонимайз, а человеческий рерайт хорошего качества.
Dorimen 21 сентября 2017 в 17:32 0
no avatar
Вроде уже есть технологии, основанные на нейролингвистике, которые пишут SEO-тексты )
letsgo 21 сентября 2017 в 19:03 +1
small user social cms
Бесплатности не бывает. В данной разработке 10 источников обойдутся в 4000 рублей. Бесплатно?

А насчёт полезности или нет, глядя как работать с информацией. Если парсить новости, то бесполезно на что то рассчитывать, если суммировать и складывать правильно информацию для ниши - то результат будет.
Evanescence 21 сентября 2017 в 20:20 0
small user social cms
Парсер только для новостей, есть два бесплатных источника (тематика новости).
Многим этого достаточно, что бы в начальном этапе заполнить свой сайт или заняться рерайтом.
Кому мало этих источников, могут заказать еще, но вряд ли найдется человек, который закажет 10 источников + 2 бесплатных = 12
Dimas 27 сентября 2017 в 08:29 0
small user social cms
А есть возможность самому написать обработчик для источников?)
Evanescence 27 сентября 2017 в 11:00 0
small user social cms
Нет, компонент развивается за счет источников.
Principal 27 сентября 2017 в 10:54 0
small user social cms
Что то у меня не парсит, все время пишет "Кэш-файл устарел или не найден, попробуйте очистить кэш", нажимаю очистить не помогает. Нужно устанавливать на сервер библиотеку DiDOM? А так штука очень нужно, я б дозаказал бы источники.
Evanescence 27 сентября 2017 в 11:07 +1
small user social cms
У двух пользователей возникли такие проблемы, я думаю проблема в правах на папку /system/controllers/parsing/cache
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777

Но один из пользователей говорить, что если на сервере сменить режим Apache на режим Fact CGI (Apache) проблема пропадает
Principal 27 сентября 2017 в 11:33 0
small user social cms
Спасибо огромное, все заработало низкий поклон!
@SmartControl 1 октября 2017 в 01:56 +1
small user social cms
У двух пользователей возникли такие проблемы, я думаю проблема в правах на папку /system/controllers/parsing/cache
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777

Так лучше эту папку вынести туда, где у всех изначально стоят права 777. /upload/parsing/cache - например.
Evanescence 1 октября 2017 в 14:08 0
small user social cms
Да так и сделаю, либо в /cache либо в /upload
Александр 30 сентября 2017 в 21:48 0
small user social cms
Установил на чистую 2.8.1 выдает
503 Service Unavailable
Please, enable debug mode in the site settings
Evanescence 30 сентября 2017 в 23:12 0
small user social cms
На какой странице выдает?
Включите отладку и напишите что за ошибка там
@ivanpolyakov 25 декабря 2017 в 13:52 0
no avatar
Это не парсер, это какая-то ерунда

своих RSS Добавить нельзя