Парсер контента: вопросы

InstantCMS 2.X
#1 6 апреля 2020 в 15:41
В данной теме будут (пока мои) вопросы касаемо компонента "Парсер контента"
Если вы имеете опыт его настройки буду благодарен за оказанную помощь.
Если у вас есть индивидуальные предложения пишите в личку.
#2 6 апреля 2020 в 16:54
Вопрос.
1. Спарсенные картинки в контенте не кликабельны. Как сделать чтобы они "открывались" по клику?
2. В кроне стоит 5 мин. но работает только в ручном режиме. Сам крон работает. Как узнать в чем проблема?
При запуске крона в ручную выдает ошибки

Notice: Undefined index: paths in /var/www////s/system/controllers/parser/frontend.php on line 75

Warning: Invalid argument supplied for foreach() in /var/www/////system/controllers/parser/frontend.php on line 75

Notice: Undefined index: normal in /var/www//////system/controllers/parser/hooks/cron_parser.php on line 74

Warning: Cannot modify header information — headers already sent by (output started at /var/www/////system/controllers/parser/frontend.php:75) in /var/www////////system/core/controller.php on line 1119
Еще ошибка
3. При запуске задания из компонента "белый экран" и пишет

Не удалось получить значение поля Текст статьи

Warning: Cannot modify header information — headers already sent by (output started at /var/www/////system/controllers/parser/backend/actions/execute.php:220) in /var/www/////system/core/controller.php on line 1029

Warning: Cannot modify header information — headers already sent by (output started at /var/www/////system/controllers/parser/backend/actions/execute.php:220) in /var/www/////system/core/controller.php on line 1031
Хотя запись и добавляется.
#3 6 апреля 2020 в 19:54
Автор не отвечает на данные вопросы?
#4 6 апреля 2020 в 20:16

Автор не отвечает на данные вопросы?

Василич
Пока что нет. Я бы тогда и не создавал тему, но к сожалению он видно редко заходит сюда. Хотя у него и сказано, что парсер парсит 99 % сайтов оказывается мои 4 сайта входят в этот 1 процент😊Или у меня кривые руки :)))))
На видео о парсере кстати пример работы разобран не до конца что очень печалит.
Поэтому и обращаюсь к более опытным форумчанам.
#5 6 апреля 2020 в 21:05
4. При парсинге есть дубли ссылок в списке на сайте доноре и соответственно при "поиске ссылок"
Как их убрать? Получается при добавлении по две-три идентичные записи!
#6 6 апреля 2020 в 23:35
Capitan, автор всегда отвечает на сайте где куплен компонент. Куда вы писали?
#7 6 апреля 2020 в 23:56

автор всегда отвечает на сайте где куплен компонент. Куда вы писали?

Алексей Тимофеев
Сейчас написал на сайте где был куплен компонент. Может конечно автор сюда редко заходит, но мне кажется что именно здесь большее число пользователей и возможно будущих покупателей данного компонента.
#8 7 апреля 2020 в 19:25
Capitan, пользуюсь компонентом больше года, настроил без проблем один раз и все до сих пор работает. Изначально попробовал парсить наверное с сайтов примерно 20 ти, только с одного сайта не получилось взять контент. На счет картинок, основная картинка у меня кликабельна, но вот про изображения в самих статьях пока не могу ничего сказать, так как, сайты с которых берется контент редко выкладывают картинки в самих статьях, если найду такую статью, проверю и отпишусь.
Вообще, по началу мне было сложно настроить самостоятельно, было много ошибок, но dwd подготовил хорошую документацию. Попробуйте ее внимательней изучить, лично мне это помогло ))) Документация по парсеру контента
#9 7 апреля 2020 в 20:18

Попробуйте ее внимательней изучить, лично мне это помогло )))

Scythian
Я естественно прочитал описание. Если бы мои вопросы были бы описаны, я бы автора и не беспокоил, но пока он молчит.
#10 7 апреля 2020 в 22:18
Capitan, в "Управлении событиями" включен content_after_delete? Крон на 5 минут, мне кажется это мало, у меня установлено на 60 минут. Но 60 минут я установил потому, что новости у донаров публикуются 1 раз в 2 часа. Попробуйте указать 30 или 15 минут.
#11 7 апреля 2020 в 22:28
Capitan, да, кликабельна только основная картинка, картинки в самой статье не кликабельны.
#12 7 апреля 2020 в 22:40
Может кому поможет: парсю объявления с одного ресурса, словил 503 ошибку:

Ошибка в запросе БД:
MySQL server has gone away
SELECT i.type as type
FROM blln5y_parser_advfields i
WHERE (i.query_id = '3') AND (i.name = 'title')
LIMIT 1
Посмотрел ссылку, оказывается, нет контента. Само объявление есть, но пустое, нет заголовка и прочих нужных полей.
Открыл links_3.txt.html, удалил данную ссылку из списка и всё заработало.
#13 7 апреля 2020 в 23:44
кстати, картинки по ссылкам кто-либо научился парсить?
т.е. есть мелкое изображение на которое кликаешь и открывается большое. большое не в img src а в a href, оно, собственно, и нужно.
#14 7 апреля 2020 в 23:58

Василич:
Автор не отвечает на данные вопросы?
Пока что нет. Я бы тогда и не создавал тему, но к сожалению он видно редко заходит сюда.

Capitan
Не переживайте. Человек занят, обязательно ответит.
#15 8 апреля 2020 в 00:42
В принципе вопросы решены за исключением крона. Ну и ошибок, хотя рекомендуется просто отключить отладку (хотя это и не правильно)
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.