Парсер контента — это полноценный компонент для ручной и автоматической публикации на сайте контента, полученного с различных источников.
Компонент «Парсер контента» предназначен для получения контента с любого рода интернет-ресурсов, его обработки и публикации на сайте. В отличии от RSS-парсеров вы не ограничены списками RSS-лент, а можете получать контент с любых ресурсов. Например, вы хотите на своем сайте публиковать новости из новостной ленты другого сайта или публиковать статьи из определенной колонки какого-то сайта. Вы создаете задание, указываете все необходимые параметры и парсер делает это вместо вас. Причем парсинг может работать в двух режимах — ручном и автоматическом(если у вас настроен CRON).
На практике это выглядит так — вы можете самостоятельно запускать созданное вами задание из панели управления, или доверить его запуск cron-у, указав интервал времени, через которое данное задание необходимо выполнить. Результатом работы будет получение указанного вами в задании числа публикаций. Причем эти публикации могут быть опубликованы на сайте или отложены на модерацию и решение о публикации каждого конкретного материала вы можете принять самостоятельно.
Перед публикацией материала на сайте в ручном режиме вы можете просматривать и редактировать полученный контент, менять категорию для публикации и выполнять ряд стандартных действий. Этим пожалуй никого не удивишь. Однако есть ряд функций, которые парсер сделает за вас в автоматическом режиме. Вот некотрые из основных возможностей автоматической обработки текста:
Автоматическое создание превью
Парсер автоматически загрузит обложку статьи и создаст нужные превью изображений к статье. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.
Загрузка изображений из тела статьи
Если контент сайта-источника предполагает наличие картинок в теле статьи, вы можете приказать парсеру загружать картинки на ваш сервер. Для загрузки изображений используются стандартные средства системы, автоматически создаются указанные вами пресеты(micro, small, normal, big и т.д.). Таким образом вы можете выбрать только нужные вам пресеты изображений. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.
Замена тегов
Автоматическая замена тегов в тексте статьи. Заменяйте теги на нужные вам, применение этой опции весьма обширно. Предположим, что структура контента на вашем сайте построена с использование тегов <p>...</p>, а контент, размещенный на сайте-источнике имеет верстку, основанную на тегах <div>...</div>. Парсер может автоматически заменять теги div на тег p, тем самым адаптируя контент источника под ваш сайт. Также вы можете заменять любые другие теги.
Замена аттрибутов
В ходе парсинга вам хотелось бы изменить внешний вид элементов или добавить интерактивности? Нет ничего проще — просто укажите, какие аттрибуты вы бы хотели добавить/заменить и это будет сделано автоматически в ходе получения статьи. Данная опция позволяет менять классы, ID, стили элементов на нужные вам. Например заменить курсив жирным текстом или добавить к картинкам на странице аттрибуты для Lightbox.
Удаление мусора
Если в тексте получаемой статьи присутствуют инородные вкрапления — рекламные вставки, теги разметки или ненужный вам текст вы можете указать это в настройках парсера и он удалит эти элементы сделав текст статьи чистым.
Результат
Результат работы компонента «Парсер контента» вы можете посмотреть на сайте ic-press.ru. Сайт наполняется контентом полностью в автоматическом режиме. За неполный месяц тестирования компонентом было опубликовано на сайте более 12000 публикаций.
Вы можете ознакомиться с подробным руководством пользователя. В нем вы найдете подробную информацию о технических требованиях компонента, способе покупки, принципах настройки и использования компонента.
Также, для тех кому стандартных возможностей компонента показалось мало доступен пакет расширения, добавляющий компоненту целый ряд возможностей — создание неограниченного числа полей, парсинг объектов в InstantMaps по их адресу, парсинг наборов изображений и т.д.
Реклама #
Hold my beer 3 месяца назад #
Работает ли парсер если сайт защищен Cloudflare? (пробовал парсить стандартным софтом для парсинга но блокирует скачивание по TLS fingerprint и отдает 403 при попытке скачать картинки например)
482 3 месяца назад #
Наверное это зависит от настроек каждого сайта в CloudFlare.
Некоторые сайты перестали париться, другие нет. А некоторые парятся, но через раз. Бывали случаи, когда сайт месяцами не парсился, а задание не отключено и вдруг, неделю работает без проблем...