
Парсер контента — это полноценный компонент для ручной и автоматической публикации на сайте контента, полученного с различных источников.
Компонент «Парсер контента» предназначен для получения контента с любого рода интернет-ресурсов, его обработки и публикации на сайте. В отличии от RSS-парсеров вы не ограничены списками RSS-лент, а можете получать контент с любых ресурсов. Например, вы хотите на своем сайте публиковать новости из новостной ленты другого сайта или публиковать статьи из определенной колонки какого-то сайта. Вы создаете задание, указываете все необходимые параметры и парсер делает это вместо вас. Причем парсинг может работать в двух режимах — ручном и автоматическом(если у вас настроен CRON).
На практике это выглядит так — вы можете самостоятельно запускать созданное вами задание из панели управления, или доверить его запуск cron-у, указав интервал времени, через которое данное задание необходимо выполнить. Результатом работы будет получение указанного вами в задании числа публикаций. Причем эти публикации могут быть опубликованы на сайте или отложены на модерацию и решение о публикации каждого конкретного материала вы можете принять самостоятельно.
Перед публикацией материала на сайте в ручном режиме вы можете просматривать и редактировать полученный контент, менять категорию для публикации и выполнять ряд стандартных действий. Этим пожалуй никого не удивишь. Однако есть ряд функций, которые парсер сделает за вас в автоматическом режиме. Вот некотрые из основных возможностей автоматической обработки текста:
Автоматическое создание превью
Парсер автоматически загрузит обложку статьи и создаст нужные превью изображений к статье. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.Загрузка изображений из тела статьи
Если контент сайта-источника предполагает наличие картинок в теле статьи, вы можете приказать парсеру загружать картинки на ваш сервер. Для загрузки изображений используются стандартные средства системы, автоматически создаются указанные вами пресеты(micro, small, normal, big и т.д.). Таким образом вы можете выбрать только нужные вам пресеты изображений. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.Замена тегов
Автоматическая замена тегов в тексте статьи. Заменяйте теги на нужные вам, применение этой опции весьма обширно. Предположим, что структура контента на вашем сайте построена с использование тегов <p>...</p>, а контент, размещенный на сайте-источнике имеет верстку, основанную на тегах <div>...</div>. Парсер может автоматически заменять теги div на тег p, тем самым адаптируя контент источника под ваш сайт. Также вы можете заменять любые другие теги.Замена аттрибутов
В ходе парсинга вам хотелось бы изменить внешний вид элементов или добавить интерактивности? Нет ничего проще — просто укажите, какие аттрибуты вы бы хотели добавить/заменить и это будет сделано автоматически в ходе получения статьи. Данная опция позволяет менять классы, ID, стили элементов на нужные вам. Например заменить курсив жирным текстом или добавить к картинкам на странице аттрибуты для Lightbox.Удаление мусора
Если в тексте получаемой статьи присутствуют инородные вкрапления — рекламные вставки, теги разметки или ненужный вам текст вы можете указать это в настройках парсера и он удалит эти элементы сделав текст статьи чистым.Результат
Результат работы компонента «Парсер контента» вы можете посмотреть на сайте ic-press.ru. Сайт наполняется контентом полностью в автоматическом режиме. За неполный месяц тестирования компонентом было опубликовано на сайте более 12000 публикаций.Вы можете ознакомиться с подробным руководством пользователя. В нем вы найдете подробную информацию о технических требованиях компонента, способе покупки, принципах настройки и использования компонента.
Спасибо.
1. Можно ли доработать компонент таким образом, чтобы была интеграция с InstantMaps? Есть источник, где кроме картинок и текстов есть адрес, телефон, почта, адрес сайта. Нужно при парсинге заполнить эти поля, а также найти координаты по адресу.
2. Есть ли (или может в планах) автоперевод на другой язык при парсинге? Также интересует двойной перевод)) Понимаю, звучит странно... В общем, суть такая. Парсим англоязычный сайт, сразу переводим его на русский, потом назад на английский и только после этого публикуем на сайте.
И самое главное. Интересуют эти две опции вместе. Т.е., нужно парсить англоязычный сайт, переводить его на русский, назад на английский и сохранять в мапс с поиском координат, установкой маркера в нужное место и заполнением контактной информации.
Спасибо.
2. Автоперевод реализуем путем интеграции с любым компонентом, имеющим функции перевода, например тем же компонентом " Языки". Несколько строк кода решают поставленную вами задачу.
И самое главное. Нельзя интегрировать вилку с чайником, а пылесос с бульдозером. Вещи надо использовать по их прямому назначению. Стремление автоматизировать процесс это замечательно, но всему есть разумный предел. Вы же хотите чтобы парсер был легким в настройке и имел миллион полей, не грузил сервер и переводчиком на пол ставки подрабатывал, а вдобавок оставался универсальным решением для парсинга любых источников. Тут надо, как в анекдоте, определиться - парсер либо умный, либо красивый.)
Спасибо.
хочу это=>заменить этим||хочу это=>заменить тем||троллейбус=>общественный транспорт||метро=>подземка
вопрос - есть ли возможность до пупки по-пробовать ?
Спасибо Вам Александр
Умеет ли этот парсер парсить телефоны с AVITO?
Но есть обходной манёвр, через мобильную версию авито. Там номер телефона идет текстом.
Правда для этого ваш парсер должен уметь "кликать" по ссылкам, либо формировать ajax get запросы с дополнительными параметрами и разбирать json массивы.
Проблема начинается еще на стадии Тестера стратегий, который вместо кириллицы выдаёт "ромбики".
В чем там может быть проблема?
Про поле "кодировка сайта" знаю, но проблема выходит еще на стадии тестера.
Очень порадовало появление поля tags. Его очень не хватало. Спасибо за него.
Ещё бы заработали шаблоны генерации мета-описаний и ключевых слов из "SEO для записей" типов контента было бы вообще великолепно.
Тут надо, возможно, как опцию отменить автозаполнение этих полей парсером.
Просто снимите галочки в настройках типа контента:
- Автоматическая генерация ключевых слов
- Автоматическая генерация META-описаний
Тогда парсер не будет генерировать seo и записывать в БД.
А вот при выводе записи ключи и описания динамически генерироваться будут по вашему шаблону.
Ведь внутри него нет BR и P, и, соответственно, текст сваливается в парсер без переносов.
Мне уже второй такой сайт попадается...
Зачем бороться с тем чего нет? Зачем придумывать то, что уже есть?))
Перевожу на русский - если мы добавляем тег pre в список разрешенных тегов в настройках компонента, то собственно он и не вырезается в результате очистки. И никаких "текст сваливается в парсер без переносов" не возникает. Ну а если не хотим видеть данный тег, то убираем его в настройках и никогда его не встречаем больше. Все это и многое другое детально расписано в
P.S. В моем профиле есть почтовый адрес. Комментарии - неподходящий для получения консультаций формат))
Или убрать или подправить ссылку. Спасибо.