Можно тут совместно научиться делать обработчики
(.*)
(.+?)
||
$2 — любая цифра может быть
||$3||
\&
||\&(.+?);||
||||
$3 — тут почему цифра 3?
Это означает что мы вытаскиваем то что находится между тегами H1 тоесть третий слева набор (.+?)
(.+?) берет аккуратнее
Так что если код нужно отрезать жестко то (.*)
1. для заголовка
2. для текста
3. для рисунка
Получается следующее
Имеем сайт-донор.
Первой строкой настраиваем заголовок
второй строкой
(.*)<div class="fullnews-text"(.+?)>(.+?)<div class="content hyphenate(.*)||<p>$3||<p><br><img><iframe><h1><h2><h3><h4><b><strong><span>
(.*)<div class="fullnews-text"(.+?)> — начало (откуда брать текст)
(.+?) — основной текст
<div class="content hyphenate(.*) — конец для текста. Чтобы знать до какого символа считывать текст
||<p>$3|| — вот это нужно для того, чтобы указать, что (.+?) — основной текст находится третим по счету. (может быть и вторым и четвертым)
<p><br><img><iframe><h1><h2><h3><h4><b><strong><span> — идет список тегов, которые нужно искать в статье и использовать
А вот с третьей строкой так ничего и не понятно
<h1 class="title">Уголовное дело руководства «Казаньавтодора» живёт и разбухает</h1>
Как вырезать текст внутри H1 в этом варианте ?
Уголовное дело руководства «Казаньавтодора» живёт и разбухает
вот так будет в нормальном regex выражении
<h1.*?>([^<>].*?)</h1>
в Unison видимо по другому
<h1(.+?)>([^<>].+?)</h1>
по аналогии но не уверен что здесь так задаются рамки