Бесплатный парсер новостей

+31
9.58K
Иллюстрация
С помощью компонента Парсер новостей, вы можете парсить новости с различных источников (на данный момент с Вести и РИА) и добавлять их на свой сайт. Есть несколько способов добавления, автоматический, ручной и по крону (Планировщик).

Итак, прасер новостей, что это?

Автоматический — это когда при нажатии автоматом добавляются новости на сайт.

Ручной — это когда загружается форма добавления новости с уже заполненными полями и вы можете отредактировать её и нажать Сохранить.

Добавление по крону — это когда из созданных фильтров, планировщик парсера добавляет контент на ваш сайт, без вашего участия.

Парсер получает заголовок, текст и одну фотографию. Фотография загружается на ваш сайт со всеми пресетами, которые есть на вашем сайте. Из тела новости, получаем только текст, все фотографии или видео удаляются.
Иллюстрация

Фильтры

Вы можете создать фильтры, что бы фильтровать спарсенные новости. Например создаете фильтр с текстом "Москва" тогда добавляются новости связанные с Москвой или же как сейчас актуально, создаёте фильтр с текстом "Олимпиада" или "РИО" и получите новости олимпиады.
Иллюстрация

Категории

При парсинге с внешнего сайта мы получаем категории новостей, в компоненте есть удобный настройщик категорий, где вы можете указать какие новости должны попадать в какие категории.
Иллюстрация

Кэш

Что бы не грузить сервер, при парсинге, данные сохраняются в кэш, следующие загрузки происходят из кэша. Это обеспечивает быструю работу компонента.

При нажатии на кнопку Очистить кэш — данные из кэша удаляются и компонент парсит новые данные.

Интеграция с FlowCrawler

С помощью парсера можете импортировать данные, которые спарсили с помощью программы FlowCrawler в json формате (см. видео).

Почему только два источника?

Бесплатных источников два, Вести и РИА новости, если вам этого не достаточно, можете заказать дополнительные источники.

Цена одного источника 400 руб

Перед заказом источника, напишите мне сайт, который хотите парсить, я скажу получиться ли парсить (иногда для некоторых сайтов не будет доступен фильтр или настройка категории).

Если на сайте источника будут мелкие изменения и парсер начнет не правильно работать, исправление бесплатно, но если сайт полностью меняет дизайн, исправление 100 руб

Используется библиотека DiDOM

Если хотите поддержать развитие парсера, закажите источники.

Парсер новостей
Компонент

Парсер новостей

Скачать 7 611 загрузок

ВАЖНО: Перед парсингом Вести и РИА новости прочтите правила использования материалов этих сайтов.

0
Dorimen Dorimen 7 лет назад #
Жаль, что не сделали просто парсинг rss (((
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Вроде уже есть парсер rss
0
Dorimen Dorimen 7 лет назад #
Не встречал )
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Вроде автор Sitestroi был, не помню, но данный парсер поддерживает rss
0
Dorimen Dorimen 7 лет назад #
Ваш поддерживает? Я бы купил. Можете сделать инструкцию как подключить в него любой rss?
0
Dorimen Dorimen 7 лет назад #
Если бы у него еще была интеграцией с Вашим же компонентом "Лента событий", чтобы туда новости добавлялись но не от имени одного пользователя, а как бы системно и видными для всех пользователей.
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Сами не можете добавить, для этого надо заказать источник.

Не помню по вашей просьбе или кто то другой просил, но в этом направлении работаю, в Ленте событий будет свой парсер
0
Dorimen Dorimen 7 лет назад #
Я и просил )
0
Loadырь Loadырь 7 лет назад #
В каталоге дополнений
0
Dorimen Dorimen 7 лет назад #
Спасибо
Олег Васильевич я Олег Васильевич я 7 лет назад #
Комментарий удален
+1
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Да, начиная от 2.6.1
+1
DeeMon DeeMon 7 лет назад #
Вести и РИА новости- перед их парсингом стоит почитать правила использования материалов этих сайтов.
Вести (жёсткие правила):
Любое использование текстовых, фото, аудио и видеоматериалов возможно только с согласия правообладателя (ВГТРК)
А с РИА тоже стоит парсить аккуратно:
Использование аналитических и авторских материалов (сопровожденных знаком © и словами МИА «Россия сегодня») возможно только после получения письменного согласия МИА «Россия сегодня».
Т.е. без письменного согласия только для некоммерческого использования(а это понятие растяжимое) можно только информационных текстовых и информационно-графических материалов, правообладателем которых является МИА «Россия сегодня»
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Спасибо, указал в посте.
0
Def Def 7 лет назад #
отличное решение. не совсем понял как с краулером подружить.

еще было бы отлично, если дата и время будет выводиться в админке, чтобы понимать что в списке актуальное, а что нет
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Посмотрите видео, там есть работа с краулером.
-2
Mari Mari 7 лет назад #
На инстанте 2.8.1 после создания фильтра, его невозможно не изменить, не удалить. Выдает ошибку
Object not found!

The requested URL was not found on this server. The link on the referring page seems to be wrong or outdated. Please inform the author of that page about the error.

If you think this is a server error, please contact the webmaster.

Error 404
-2
Mari Mari 7 лет назад #
Не удаляет кириличские названия фильтров
-2
Mari Mari 7 лет назад #
Не видит выбора категорий, всё пихает в категорию В мире. Даже если задаёшь другую категорию если новость не найдена.
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Проверил, всё работает.
Может у кого то еще такие проблемы? Как называется фильтр?
У меня в openserver не удаляются и не редактируются фильтр начинающий с "Х", но в денвере всё норм, не знаю из за чего так
0
SmartControl SmartControl 7 лет назад #
Может у кого то еще такие проблемы? Как называется фильтр?
Потыкал у себя.

Проблема при удалении - фильтр удаляется, но не чистится кэш и он отображается в списке. Соответственно и удалить его нельзя (его уже не существует), ни изменить по той же причине. Решение - добавить очистку кэша при после удаления.

С кириллическими проблем не вижу, вроде все работает. Создал, поменял, удалил.. все так же, как и с числовым фильтром.
0
SmartControl SmartControl 7 лет назад #
при создании фильтров они тоже не всегда появляются, причина опять в кэше. Ручная чистка кэша помогает
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Имеете в виду кэш самой системы?
Да, стоить использовать useCache() и cmsCache::getInstance()->clean()
Про фильтр начинающий с Х я имел в виду страницу удаление, при нажатии удалить получаю ошибку 404, думаю проблема в URL так как удаление происходить по название фильтра а не по ID (не помню почему так сделал)
URL получается так: site.ru/admin/controllers/edit/parsing/filter/38/химки/delete
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Посмотрел, оказывается реализовал использование системного кэша, только добавление и удаление фильтров не перенесена в модель, скоро будет обновление. (тогда не знал что, кто то использует системный кэш)
0
R161Net R161Net 7 лет назад #
Может у кого то еще такие проблемы? Как называется фильтр?

У меня проблемы с фильтром!

Эта версия закодированная?
Если ее поставить уже на установленную надеюсь ошибка пропадет? Я Вам про нее писал или лучше удалить старый компанент и установить текущий.
Вот только что делать с установленными источниками они тоже затрутся и их нужно будет по новой устанавливать, а где они я и не помню. Беда..
Подскажите что можно в моем случае придумать?
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Удалить старый не надо, просто загрузите файлы из папки package с заменой
0
Петрмаг Петрмаг 7 лет назад #
Молодцы! за бесплатность+,как у всех двигателей будет в комплекте,кому лень описывать страницы.Но только с практической точки зрения,все парсеры бесполезны.
А так конечно нужное дело,кому-то куда-то да пригодится!
+3
SmartControl SmartControl 7 лет назад #
Петрмаг:
все парсеры бесполезны. А так конечно нужное дело
Не поспоришь, прям в точку)

Парсеры нужно использовать с умом и все будет отлично. Не обязательно же публиковать как есть - можно все статьи прогонять через редактора. который будет превращать их в уникальный контент. В этом случае парсер очень сильно упростит работу редактора (или контент-менеджера, кому как больше нравится).
0
IceBreaker IceBreaker 7 лет назад #
О каком редакторе идёт речь? О человеке или машинном?
Если машинном то есть ли мысли или сервисы, есть подсказки?
0
SmartControl SmartControl 7 лет назад #
Я про человека. Машинного редактора с такими навыками еще не изобрели. Нужен же не синонимайз, а человеческий рерайт хорошего качества.
0
Dorimen Dorimen 7 лет назад #
Вроде уже есть технологии, основанные на нейролингвистике, которые пишут SEO-тексты )
+1
letsgo letsgo 7 лет назад #
Бесплатности не бывает. В данной разработке 10 источников обойдутся в 4000 рублей. Бесплатно?

А насчёт полезности или нет, глядя как работать с информацией. Если парсить новости, то бесполезно на что то рассчитывать, если суммировать и складывать правильно информацию для ниши - то результат будет.
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Парсер только для новостей, есть два бесплатных источника (тематика новости).
Многим этого достаточно, что бы в начальном этапе заполнить свой сайт или заняться рерайтом.
Кому мало этих источников, могут заказать еще, но вряд ли найдется человек, который закажет 10 источников + 2 бесплатных = 12
0
Dimas Dimas 7 лет назад #
А есть возможность самому написать обработчик для источников?)
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Нет, компонент развивается за счет источников.
0
Principal Principal 7 лет назад #
Что то у меня не парсит, все время пишет "Кэш-файл устарел или не найден, попробуйте очистить кэш", нажимаю очистить не помогает. Нужно устанавливать на сервер библиотеку DiDOM? А так штука очень нужно, я б дозаказал бы источники.
+1
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
У двух пользователей возникли такие проблемы, я думаю проблема в правах на папку /system/controllers/parsing/cache
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777

Но один из пользователей говорить, что если на сервере сменить режим Apache на режим Fact CGI (Apache) проблема пропадает
0
Principal Principal 7 лет назад #
Спасибо огромное, все заработало низкий поклон!
+1
SmartControl SmartControl 7 лет назад #
У двух пользователей возникли такие проблемы, я думаю проблема в правах на папку /system/controllers/parsing/cache
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777

Так лучше эту папку вынести туда, где у всех изначально стоят права 777. /upload/parsing/cache - например.
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
Да так и сделаю, либо в /cache либо в /upload
0
Александр Александр 7 лет назад #
Установил на чистую 2.8.1 выдает
503 Service Unavailable
Please, enable debug mode in the site settings
0
My-InstantCMS.Ru My-InstantCMS.Ru 7 лет назад #
На какой странице выдает?
Включите отладку и напишите что за ошибка там
0
ivanpolyakov ivanpolyakov 6 лет назад #
Это не парсер, это какая-то ерунда

своих RSS Добавить нельзя
0
Nikolay Nikolay 4 года назад #
Хороший парсер! Ждем обновление на 2.13, с новой админкой парсер не хочет дружить.

Еще от автора

Компонент Находки и потеряшки
С помощью данного компонента можете организовать на сайте Бюро находок, где пользователи пишут о своих находках или потерянных вещах.
Разработка компонента Справочник
Анонс разработки компонента Справочник для InstantCMS2
Разработка компонента Викторина
Обсуждение разработки нового компонента Викторина или Тесты
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.