
С помощью компонента Парсер новостей, вы можете парсить новости с различных источников (на данный момент с Вести и РИА) и добавлять их на свой сайт. Есть несколько способов добавления, автоматический, ручной и по крону (Планировщик).
Итак, прасер новостей, что это?
Автоматический — это когда при нажатии автоматом добавляются новости на сайт.
Ручной — это когда загружается форма добавления новости с уже заполненными полями и вы можете отредактировать её и нажать Сохранить.
Добавление по крону — это когда из созданных фильтров, планировщик парсера добавляет контент на ваш сайт, без вашего участия.
Парсер получает заголовок, текст и одну фотографию. Фотография загружается на ваш сайт со всеми пресетами, которые есть на вашем сайте. Из тела новости, получаем только текст, все фотографии или видео удаляются.

Фильтры
Вы можете создать фильтры, что бы фильтровать спарсенные новости. Например создаете фильтр с текстом "Москва" тогда добавляются новости связанные с Москвой или же как сейчас актуально, создаёте фильтр с текстом "Олимпиада" или "РИО" и получите новости олимпиады.
Категории
При парсинге с внешнего сайта мы получаем категории новостей, в компоненте есть удобный настройщик категорий, где вы можете указать какие новости должны попадать в какие категории.
Кэш
Что бы не грузить сервер, при парсинге, данные сохраняются в кэш, следующие загрузки происходят из кэша. Это обеспечивает быструю работу компонента.При нажатии на кнопку Очистить кэш — данные из кэша удаляются и компонент парсит новые данные.
Интеграция с FlowCrawler
С помощью парсера можете импортировать данные, которые спарсили с помощью программы FlowCrawler в json формате (см. видео).Почему только два источника?
Бесплатных источников два, Вести и РИА новости, если вам этого не достаточно, можете заказать дополнительные источники.Цена одного источника 400 руб
Перед заказом источника, напишите мне сайт, который хотите парсить, я скажу получиться ли парсить (иногда для некоторых сайтов не будет доступен фильтр или настройка категории).
Если на сайте источника будут мелкие изменения и парсер начнет не правильно работать, исправление бесплатно, но если сайт полностью меняет дизайн, исправление 100 руб
Используется библиотека DiDOM
Если хотите поддержать развитие парсера, закажите источники.
Не помню по вашей просьбе или кто то другой просил, но в этом направлении работаю, в Ленте событий будет свой парсер
Спасибо!
Вести (жёсткие правила):
еще было бы отлично, если дата и время будет выводиться в админке, чтобы понимать что в списке актуальное, а что нет
Object not found!
The requested URL was not found on this server. The link on the referring page seems to be wrong or outdated. Please inform the author of that page about the error.
If you think this is a server error, please contact the webmaster.
Error 404
Может у кого то еще такие проблемы? Как называется фильтр?
У меня в openserver не удаляются и не редактируются фильтр начинающий с "Х", но в денвере всё норм, не знаю из за чего так
Проблема при удалении - фильтр удаляется, но не чистится кэш и он отображается в списке. Соответственно и удалить его нельзя (его уже не существует), ни изменить по той же причине. Решение - добавить очистку кэша при после удаления.
С кириллическими проблем не вижу, вроде все работает. Создал, поменял, удалил.. все так же, как и с числовым фильтром.
Да, стоить использовать useCache() и cmsCache::getInstance()->clean()
Про фильтр начинающий с Х я имел в виду страницу удаление, при нажатии удалить получаю ошибку 404, думаю проблема в URL так как удаление происходить по название фильтра а не по ID (не помню почему так сделал)
URL получается так: site.ru/admin/controllers/edit/parsing/filter/38/химки/delete
У меня проблемы с фильтром!
Эта версия закодированная?
Если ее поставить уже на установленную надеюсь ошибка пропадет? Я Вам про нее писал или лучше удалить старый компанент и установить текущий.
Вот только что делать с установленными источниками они тоже затрутся и их нужно будет по новой устанавливать, а где они я и не помню. Беда..
Подскажите что можно в моем случае придумать?
А так конечно нужное дело,кому-то куда-то да пригодится!
Парсеры нужно использовать с умом и все будет отлично. Не обязательно же публиковать как есть - можно все статьи прогонять через редактора. который будет превращать их в уникальный контент. В этом случае парсер очень сильно упростит работу редактора (или контент-менеджера, кому как больше нравится).
Если машинном то есть ли мысли или сервисы, есть подсказки?
А насчёт полезности или нет, глядя как работать с информацией. Если парсить новости, то бесполезно на что то рассчитывать, если суммировать и складывать правильно информацию для ниши - то результат будет.
Многим этого достаточно, что бы в начальном этапе заполнить свой сайт или заняться рерайтом.
Кому мало этих источников, могут заказать еще, но вряд ли найдется человек, который закажет 10 источников + 2 бесплатных = 12
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777
Но один из пользователей говорить, что если на сервере сменить режим Apache на режим Fact CGI (Apache) проблема пропадает
Посмотрите есть ли файлы в этой папке, если нет, значить система не может создать файлы кэша в этой папке, надо установить права 777
Так лучше эту папку вынести туда, где у всех изначально стоят права 777. /upload/parsing/cache - например.
503 Service Unavailable
Please, enable debug mode in the site settings
Включите отладку и напишите что за ошибка там
своих RSS Добавить нельзя