нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть
это программы типа поиска и замены текста но с расширенными функциями
Вы немного не правы, (парсер есть и парсит откуда укажешь)это пишется под определенный сайт с которого парсить нужно!
в первом посте же написано — надо
и не важно — из html или из текстового файла.
если знаете подскажите, а то получается так:
— что я знаю, что я знаю но вам не скажу
тс нужно парсить или это:Вы немного не правы, (парсер есть и парсит откуда укажешь)
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)
тс нужно парсить или это:Вы немного не правы, (парсер есть и парсит откуда укажешь)
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)
а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7
намного проще
тоесть просто прогу которая выдергивала бы строки
я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть
не могу вспомнить какая
В общем я дал ссылку в личку, поставите и дадите ответ, как и что.
Rossoman,
Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось,
Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.
а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile не могу вспомнить какая
У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта.
Потом INSERT (title, content) но у каждой ведь статьи еще есть id — каким образом должен создаваться id статьи?