Удаление мусора и новые строки в тексте

InstantCMS 2.X
#1 28 октября 2021 в 15:50

Здравствуйте. Подскажите пожалуйста решение настройки парсера. 

Как удалить текстовый мусор На месте происшествия (фото: МЧС) в тексте новости? 

Это описание к фотографии, с сайта донора. Вот как получается в итоге: 

Изображение

Вот этот текст на сайте доноре: https://belnaviny.by/proishestviya/v-pinskom-rajone-na-chastnom-derevoobrabatyvayushhem-predpriyatii-proizoshel-pozhar.html

Изображение

 

Получается так: парсер берет фотографию и ставить ее мне в Тип поля — Изображение. А к фотографии на доноре, имеется описание к каждому фото, это описание остается в тексте новости у меня как мусор. Как можно удалить именно этот мусор? Конечно идеально было бы сделать, что бы это описание пропало с текста и появилось под фото, примерно как на доноре, но это вообще сложно. В руководстве парсера говорится:

Удаление/замена мусора

Данная опция предназначена для удаления/замены ненужных вкраплений из текста статьи. Также может быть использована для замены каких-либо элементов своими.

Если в тексте статьи присутствуют теги или фрагменты текста, которые должны быть удалены из текста или же вы желаете заменить их своими, то здесь вы можете указать любой код, который вы хотели бы вставить вместо указанных вами ненужных значений. Например строка "<br><br>=><br>|| class=«bb-img»=>null||class=«img-alt»=>class=«myclass»" заменит двойные переводы строки на одинарные, удалит у всех элементов на странице класс bb-img и заменит класс img-alt у всех элементов на myclass.

Например выражение

По материалам=><br/><br/>По материалам

добавляет перенос строки перед фразой «По материалам», а фраза

class=«intro»=>style=«display:none;»

прячет элемент с классом «intro» от глаз пользователя.

 

Так же про перенос строки, никак не могу понять...

Вот здесь, абзацы «слипаются», подскажите пожалуйста, как сделать так что было более читаемо и был между абзоцов отступ?

Изображение

 

 

Вот какие настройки у меня в задании парсера:

Текст статьи:

Начало искомого текста: <div id=«article-body» class=«article__body» itemprop=«articleBody»>
Конец искомого текста: </div>

Удаление мусора: class="«figure-caption.post__image-caption»"=>null

 

Изображение:

Начало искомого текста: <div id=«article-body» class=«article__body» itemprop=«articleBody»>
Конец искомого текста: </div>

 

 

 

 

 

 

 

 

Добавлено спустя 12 часов

Может быть такое, что с сайта невозможно спарсить картинку?

Вот источник: https://vitvesti.by/crime/za-deviat-mesiatcev-nyneshnego-goda-v-otnoshenii-brakonerov-vitebskoi-oblasti-vozbuzhdeno-55-ugolovnykh-del.html

Нашел код самой картинки:

  1. <div class="photohead mb-30">
  2.  
  3. <img src="/images/2021/10/27/4.jpg">
  4.  
  5. <div class="article-headline-info">

Но в Тестере стратегий, она никак не хочет отображаться. Я и так и так, методом тыка конечно...

Если заголовок, текст новости парсится, то должна   картинка? Но картинку по ссылке, нельзя скачать с браузера или на пример открыть в новой вкладке...

Добавлено спустя 6 часов

Хм, что то я делаю не так. Еше одие источник: https://sk.gov.by/ru/news-usk-mogilev-ru/view/pouchastvoval-v-spetsoperatsii-i-lishilsja-krupnoj-summy-deneg-10470/

Беру код 

  1. <img src="https://sk.gov.by/images/storage/news/000100_374951.jpg" title="" alt="">

Изображение

 

От куда брать код с примера, если его там нету нигде… Есть только код, который должен возвращать диопазон парсера.

Изображение

#2 30 октября 2021 в 11:05

Как удалить текстовый мусор На месте происшествия (фото: МЧС) в тексте новости? 

Aliaksandr

Добавьте в своём задании, вкладка ТЕКСТ — УДАЛЕНИЕ МУСОРА следующий код

  1. <figcaption itemprop="caption" class="figure-caption post__image-caption">=><figcaption itemprop="caption" class="figure-caption post__image-caption" style="display: none;">

парсер скачает всё, но именно это отображаться не будет

Изображение

От куда брать код с примера, если его там нету нигде… Есть только код, который должен возвращать диопазон парсера.

необходимо брать диапазон кода, откуда парсер вытащит изображение

в Вашем случае для поля ИЗОБРАЖЕНИЕ

начало искомого текста — </h2>

Конец искомого текста — <div align=«justify»>

Изображение

результат 

Изображение

 

#3 30 октября 2021 в 13:53

необходимо брать диапазон кода, откуда парсер вытащит изображение

Андрей

Тоесть. Как я понял, изображение не обязателньо должно быть чистое? Тоесть если изображение взялось на пример с заголовком и куском текста, парсер добавит только изображение, так как в настройках моего сайта он его добавляет в поле Изображение, где текст никак не может быть. Верно?

 

#4 30 октября 2021 в 14:12

парсер добавит только изображение, так как в настройках моего сайта он его добавляет в поле Изображение, где текст никак не может быть. Верно?

Aliaksandr

точно)

#5 31 октября 2021 в 03:40

точно)

Андрей

А я пол ночи сидел пытался вытянуть одно фото с новости)))

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.