Как правильно скачать страницу с помощью curl_setopt?

Предыдущая
1
2
Показаны 16-23 из 23

#16 28 января 2013 в 21:43

столкнулся с новой проблемой при написании последнего парсера. Не могу понять в чем дело и надеюсь на вашу помощь.
Не получается вытащить ссылки по шаблону. Имеется код

 
<div class="sh_film_name">
    <h3><a href="/films/5225/">Анна Каренина</a> 2012</h3>
    <p>Драма</p>
    <span class="shel_ico">2 часа 9 минут <span class="gray-button-small" title="Ограничение по возрасту">12+</span></span>
</div>
<div class="sh_film_cimena">
        <ul>
            <li>
                <div class="sh_film_time">
                    <div>
                        <span class="disable" title="На этот сеанс забронировать билеты уже нельзя">
                            17:00                                    
						</span>
                        <small>от 180<em><!-- rub --></em></small>
                    </div>
                </div>
            </li>
        </ul>
</div>

Пытаюсь вытащить из него ссылки следующим образом

 
preg_match_all('#<h3><a href="([^\"]*)">([^<]*)</a>([^<]*)</h3>#', $FilmHtml, $ok);

$FilmHtml = "Первый код"
print_ok выводит пустые массивы.
Почему? Где моя ошибка?

Другой парсер с практически таким же кодом работает.

#17 29 января 2013 в 01:13

кавычки заэкранированы мб?

попробуйте

preg_match_all('#<h3><a href="(.*?)">(.*?)</a>(.*?)</h3>#smi',$FilmHtml,$ok);
die(VAR_DUMP($ok));

#18 29 января 2013 в 16:08

все равно выводит пустые массивы.
Я сделал другим способом, но мне все таки интересно, почему этот не работает?

Сегодня в 09:38

#19 29 января 2013 в 16:36

Я так обычно юзаю:

preg_match_all('|<li> <a href="([^"]*)".*src="([^"]*)".*</li>|Uis',$get,$mds, PREG_SET_ORDER);

Пример рабочий.

Скорее всего в этом месте у вас ошибка: href="([^\"]*)"

Нормальный хостинг, сервера быстрые - пользуюсь сам.

#20 29 января 2013 в 16:37

И ещё перед обработкой убираю переносы строк и лишние пробелы.

Нормальный хостинг, сервера быстрые - пользуюсь сам.

#21 29 января 2013 в 17:02

lokanaft, ваш вариант сработал, спасибо.
Вопросов конечно очень много с этими парсерами появляется))

Вот возник еще такой вопрос. Функцией file_get_contents сохраняю картинки на свой сервер. Картинки сохраняются, но выполнение скрипта не останавливается. То есть страничка не загружается и браузер вечно думает.
Опять же с другими 5 парсерами таких проблем нет.
Сохраняется около 15 картинок, каждая весом около 40-50 кб

#22 30 января 2013 в 15:53

Каждый новый парсер все сложнее и сложнее))
Наверное последний вопрос задам в этой теме.
Как скачать страницу отсюда www.kronverkcinema.ru/cgi-bin/show.pl?option=MoviesList для Рязани?
Спасибо)

#23 30 января 2013 в 16:39

Скажу проще. Я никак не могу поймать POST запрос, который отправляется при выборе "Рязань" из списка

Предыдущая
1
2
Показаны 16-23 из 23

лада гранта, автомат коробка,

Настройка Apache

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

Как правильно скачать страницу с помощью curl_setopt?

Похожие темы

[ЕСТЬ РЕШЕНИЕ] Хотел скачать виджет подключения css и js

Обновление форума Loadырь

Как правильно сделать главная старница по дизайну польностью отличается от основго дизайна?

Форум Лодыря

Скачать список пользователей

Ссылка скачать "изображение"

InstantCMS Team

О проекте

Поддержка

Дополнения