Бесплатный парсер новостей Для InstantCMS 2.X.

С помощью компонента Парсер новостей, вы можете парсить новости с различных источников (на данный момент с Вести и РИА) и добавлять их на свой сайт. Есть несколько способов добавления, автоматический, ручной и по крону (Планировщик).

Итак, прасер новостей, что это?

Автоматический — это когда при нажатии автоматом добавляются новости на сайт.

Ручной — это когда загружается форма добавления новости с уже заполненными полями и вы можете отредактировать её и нажать Сохранить.

Добавление по крону — это когда из созданных фильтров, планировщик парсера добавляет контент на ваш сайт, без вашего участия.

Парсер получает заголовок, текст и одну фотографию. Фотография загружается на ваш сайт со всеми пресетами, которые есть на вашем сайте. Из тела новости, получаем только текст, все фотографии или видео удаляются.
Иллюстрация

Фильтры

Вы можете создать фильтры, что бы фильтровать спарсенные новости. Например создаете фильтр с текстом "Москва" тогда добавляются новости связанные с Москвой или же как сейчас актуально, создаёте фильтр с текстом "Олимпиада" или "РИО" и получите новости олимпиады.
Иллюстрация

Категории

При парсинге с внешнего сайта мы получаем категории новостей, в компоненте есть удобный настройщик категорий, где вы можете указать какие новости должны попадать в какие категории.
Иллюстрация

Кэш

Что бы не грузить сервер, при парсинге, данные сохраняются в кэш, следующие загрузки происходят из кэша. Это обеспечивает быструю работу компонента.

При нажатии на кнопку Очистить кэш — данные из кэша удаляются и компонент парсит новые данные.

Интеграция с FlowCrawler

С помощью парсера можете импортировать данные, которые спарсили с помощью программы FlowCrawler в json формате (см. видео).

Почему только два источника?

Бесплатных источников два, Вести и РИА новости, если вам этого не достаточно, можете заказать дополнительные источники.

Цена одного источника 400 руб

Перед заказом источника, напишите мне сайт, который хотите парсить, я скажу получиться ли парсить (иногда для некоторых сайтов не будет доступен фильтр или настройка категории).

Если на сайте источника будут мелкие изменения и парсер начнет не правильно работать, исправление бесплатно, но если сайт полностью меняет дизайн, исправление 100 руб

Используется библиотека DiDOM

Если хотите поддержать развитие парсера, закажите источники.

Компонент

Парсер новостей

от My-InstantCMS.Ru

Скачать 7 936 загрузок

ВАЖНО: Перед парсингом Вести и РИА новости прочтите правила использования материалов этих сайтов.

Обновление бесплатных дополнении

Видеоуроки: Изучаем структуру шаблонов InstantCMS 2

новости парсер

44 комментария

Реклама #

Dorimen 7 лет назад #

Жаль, что не сделали просто парсинг rss (((

My-InstantCMS.Ru 7 лет назад #

Вроде уже есть парсер rss

Dorimen 7 лет назад #

Не встречал )

My-InstantCMS.Ru 7 лет назад #

Вроде автор Sitestroi был, не помню, но данный парсер поддерживает rss

Dorimen 7 лет назад #

Ваш поддерживает? Я бы купил. Можете сделать инструкцию как подключить в него любой rss?

Dorimen 7 лет назад #

Если бы у него еще была интеграцией с Вашим же компонентом "Лента событий", чтобы туда новости добавлялись но не от имени одного пользователя, а как бы системно и видными для всех пользователей.

My-InstantCMS.Ru 7 лет назад #

Сами не можете добавить, для этого надо заказать источник.

Не помню по вашей просьбе или кто то другой просил, но в этом направлении работаю, в Ленте событий будет свой парсер

Dorimen 7 лет назад #

Я и просил )

Loadырь 7 лет назад #

В каталоге дополнений

Dorimen 7 лет назад #

Спасибо

Гость 7 лет назад #

Сейчас нет возможности потестить. Потому прошу уточнить: система от 2.6.1 ?
Спасибо!

My-InstantCMS.Ru 7 лет назад #

Да, начиная от 2.6.1

DeeMon 7 лет назад #

Вести и РИА новости- перед их парсингом стоит почитать правила использования материалов этих сайтов.
Вести (жёсткие правила):

Любое использование текстовых, фото, аудио и видеоматериалов возможно только с согласия правообладателя (ВГТРК)

А с РИА тоже стоит парсить аккуратно:

Использование аналитических и авторских материалов (сопровожденных знаком © и словами МИА «Россия сегодня») возможно только после получения письменного согласия МИА «Россия сегодня».

Т.е. без письменного согласия только для некоммерческого использования(а это понятие растяжимое) можно только информационных текстовых и информационно-графических материалов, правообладателем которых является МИА «Россия сегодня»

My-InstantCMS.Ru 7 лет назад #

Спасибо, указал в посте.

Def 7 лет назад #

отличное решение. не совсем понял как с краулером подружить.

еще было бы отлично, если дата и время будет выводиться в админке, чтобы понимать что в списке актуальное, а что нет

My-InstantCMS.Ru 7 лет назад #

Посмотрите видео, там есть работа с краулером.

-2

Гость 7 лет назад #

На инстанте 2.8.1 после создания фильтра, его невозможно не изменить, не удалить. Выдает ошибку
Object not found!

The requested URL was not found on this server. The link on the referring page seems to be wrong or outdated. Please inform the author of that page about the error.

If you think this is a server error, please contact the webmaster.

Error 404

-2

Гость 7 лет назад #

Не удаляет кириличские названия фильтров

-2

Гость 7 лет назад #

Не видит выбора категорий, всё пихает в категорию В мире. Даже если задаёшь другую категорию если новость не найдена.

My-InstantCMS.Ru 7 лет назад #

Проверил, всё работает.
Может у кого то еще такие проблемы? Как называется фильтр?
У меня в openserver не удаляются и не редактируются фильтр начинающий с "Х", но в денвере всё норм, не знаю из за чего так

SmartControl 7 лет назад #

Может у кого то еще такие проблемы? Как называется фильтр?

Потыкал у себя.

Проблема при удалении - фильтр удаляется, но не чистится кэш и он отображается в списке. Соответственно и удалить его нельзя (его уже не существует), ни изменить по той же причине. Решение - добавить очистку кэша при после удаления.

С кириллическими проблем не вижу, вроде все работает. Создал, поменял, удалил.. все так же, как и с числовым фильтром.

SmartControl 7 лет назад #

при создании фильтров они тоже не всегда появляются, причина опять в кэше. Ручная чистка кэша помогает

My-InstantCMS.Ru 7 лет назад #

Имеете в виду кэш самой системы?
Да, стоить использовать useCache() и cmsCache::getInstance()->clean()
Про фильтр начинающий с Х я имел в виду страницу удаление, при нажатии удалить получаю ошибку 404, думаю проблема в URL так как удаление происходить по название фильтра а не по ID (не помню почему так сделал)
URL получается так: site.ru/admin/controllers/edit/parsing/filter/38/химки/delete

My-InstantCMS.Ru 7 лет назад #

Посмотрел, оказывается реализовал использование системного кэша, только добавление и удаление фильтров не перенесена в модель, скоро будет обновление. (тогда не знал что, кто то использует системный кэш)

R161Net 7 лет назад #

Может у кого то еще такие проблемы? Как называется фильтр?

У меня проблемы с фильтром!

Эта версия закодированная?
Если ее поставить уже на установленную надеюсь ошибка пропадет? Я Вам про нее писал или лучше удалить старый компанент и установить текущий.
Вот только что делать с установленными источниками они тоже затрутся и их нужно будет по новой устанавливать, а где они я и не помню. Беда..
Подскажите что можно в моем случае придумать?

My-InstantCMS.Ru 7 лет назад #

Удалить старый не надо, просто загрузите файлы из папки package с заменой

Петрмаг 7 лет назад #

Молодцы! за бесплатность+,как у всех двигателей будет в комплекте,кому лень описывать страницы.Но только с практической точки зрения,все парсеры бесполезны.
А так конечно нужное дело,кому-то куда-то да пригодится!

SmartControl 7 лет назад #

Петрмаг:

все парсеры бесполезны. А так конечно нужное дело

Не поспоришь, прям в точку)

Парсеры нужно использовать с умом и все будет отлично. Не обязательно же публиковать как есть - можно все статьи прогонять через редактора. который будет превращать их в уникальный контент. В этом случае парсер очень сильно упростит работу редактора (или контент-менеджера, кому как больше нравится).

IceBreaker 7 лет назад #

О каком редакторе идёт речь? О человеке или машинном?
Если машинном то есть ли мысли или сервисы, есть подсказки?

SmartControl 7 лет назад #

Я про человека. Машинного редактора с такими навыками еще не изобрели. Нужен же не синонимайз, а человеческий рерайт хорошего качества.

Dorimen 7 лет назад #

Вроде уже есть технологии, основанные на нейролингвистике, которые пишут SEO-тексты )

Гость 7 лет назад #

Бесплатности не бывает. В данной разработке 10 источников обойдутся в 4000 рублей. Бесплатно?

А насчёт полезности или нет, глядя как работать с информацией. Если парсить новости, то бесполезно на что то рассчитывать, если суммировать и складывать правильно информацию для ниши - то результат будет.

My-InstantCMS.Ru 7 лет назад #

Парсер только для новостей, есть два бесплатных источника (тематика новости).
Многим этого достаточно, что бы в начальном этапе заполнить свой сайт или заняться рерайтом.
Кому мало этих источников, могут заказать еще, но вряд ли найдется человек, который закажет 10 источников + 2 бесплатных = 12

Dimas 7 лет назад #

А есть возможность самому написать обработчик для источников?)

My-InstantCMS.Ru 7 лет назад #

Нет, компонент развивается за счет источников.

Principal 7 лет назад #

Что то у меня не парсит, все время пишет "Кэш-файл устарел или не найден, попробуйте очистить кэш", нажимаю очистить не помогает. Нужно устанавливать на сервер библиотеку DiDOM? А так штука очень нужно, я б дозаказал бы источники.

My-InstantCMS.Ru 7 лет назад #

У двух пользователей возникли такие проблемы, я думаю проблема в правах на папку /system/controllers/parsing/cache
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777

Но один из пользователей говорить, что если на сервере сменить режим Apache на режим Fact CGI (Apache) проблема пропадает

Principal 7 лет назад #

Спасибо огромное, все заработало низкий поклон!

SmartControl 7 лет назад #

Так лучше эту папку вынести туда, где у всех изначально стоят права 777. /upload/parsing/cache - например.

My-InstantCMS.Ru 7 лет назад #

Да так и сделаю, либо в /cache либо в /upload

Александр 7 лет назад #

Установил на чистую 2.8.1 выдает
503 Service Unavailable
Please, enable debug mode in the site settings

My-InstantCMS.Ru 7 лет назад #

На какой странице выдает?
Включите отладку и напишите что за ошибка там

Гость 7 лет назад #

Это не парсер, это какая-то ерунда

своих RSS Добавить нельзя

Nikolay 5 лет назад #

Хороший парсер! Ждем обновление на 2.13, с новой админкой парсер не хочет дружить.

Бесплатный парсер новостей

Фильтры

Категории

Кэш

Интеграция с FlowCrawler

Почему только два источника?

Парсер новостей

ВАЖНО: Перед парсингом Вести и РИА новости прочтите правила использования материалов этих сайтов.

Реклама #

Dorimen 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Dorimen 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Dorimen 7 лет назад #

Dorimen 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Dorimen 7 лет назад #

Loadырь 7 лет назад #

Dorimen 7 лет назад #

Гость 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

DeeMon 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Def 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Гость 7 лет назад #

Гость 7 лет назад #

Гость 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

SmartControl 7 лет назад #

SmartControl 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

R161Net 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Петрмаг 7 лет назад #

SmartControl 7 лет назад #

IceBreaker 7 лет назад #

SmartControl 7 лет назад #

Dorimen 7 лет назад #

Гость 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Dimas 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Principal 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Principal 7 лет назад #

SmartControl 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Александр 7 лет назад #

My-InstantCMS.Ru 7 лет назад #

Гость 7 лет назад #

Nikolay 5 лет назад #

Еще от автора

Обновление RSS агрегатора + расширение

Поговорим про мультиязычность инстанта

Боты на нейросети или имитация активности на сайте

InstantCMS Team

О проекте

Поддержка

Дополнения