Парсер текста

нужен парсер текста

 
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 2484
нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть
Раньше РАЙ был везде - РАЙсовет, РАЙком, РАЙсобес...., а сейчас везде АДминистрации!
Не надо давать людям советы. Каждый должен лохануться самостоятельно!
Любишь в продакшн, люби и баги починить!
Посетитель
small user social cms
МедальАвторитет форумаКубок зрительских симпатийПочетный донор проекта
Сообщений: 2928
это пишется под определенный сайт с которого парсить нужно!
Реклама
cms
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 2484
Я думаю что есть такие проги
это программы типа поиска и замены текста но с расширенными функциями
Раньше РАЙ был везде - РАЙсовет, РАЙком, РАЙсобес...., а сейчас везде АДминистрации!
Не надо давать людям советы. Каждый должен лохануться самостоятельно!
Любишь в продакшн, люби и баги починить!
Посетитель
small user social cms
МедальКубок зрительских симпатий
Сообщений: 238
Если Вам нужен "качественный" парсинг-то только под заказ и под определенный сайт!
Уважайте мнение каждого...
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатийПочетный донор проекта
Сообщений: 1982
pivua),
это пишется под определенный сайт с которого парсить нужно!
Вы немного не правы, (парсер есть и парсит откуда укажешь)
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 4305
skaz, и как это чудо называется и где смотреть ?
Посетитель
small user social cms
МедальКубок зрительских симпатийАвторитет форума
Сообщений: 1035
skaz, у сайтов может быть разная структура, я сомневаюсь что есть какой-то универсальный парсер
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 2484
skaz - НАДО!
в первом посте же написано - надо
и не важно - из html или из текстового файла.
если знаете подскажите, а то получается так:
- что я знаю, что я знаю но вам не скажу smile
Раньше РАЙ был везде - РАЙсовет, РАЙком, РАЙсобес...., а сейчас везде АДминистрации!
Не надо давать людям советы. Каждый должен лохануться самостоятельно!
Любишь в продакшн, люби и баги починить!
Посетитель
small user social cms
МедальАвторитет форумаКубок зрительских симпатийПочетный донор проекта
Сообщений: 2928
skaz:
Вы немного не правы, (парсер есть и парсит откуда укажешь)
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 2484
pivua):

skaz:
Вы немного не правы, (парсер есть и парсит откуда укажешь)
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7
намного проще
тоесть просто прогу которая выдергивала бы строки
я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile
не могу вспомнить какая
Раньше РАЙ был везде - РАЙсовет, РАЙком, РАЙсобес...., а сейчас везде АДминистрации!
Не надо давать людям советы. Каждый должен лохануться самостоятельно!
Любишь в продакшн, люби и баги починить!
Посетитель
small user social cms
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатийПочетный донор проекта
Сообщений: 1982
eoleg
В общем я дал ссылку в личку, поставите и дадите ответ, как и что.
Rossoman,
Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось,
Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.
а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile не могу вспомнить какая

У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта.
Редактировалось: 1 раз (Последний: 4 февраля 2012 в 19:37)
Посетитель
no avatar
Медаль
Сообщений: 473
Нету таких парсеров. И быть не может. Должна быть какая то структуру откуда дергать скажем если они все находятся <div id="contact">*</div> все что в диве можно выбрать. А если информация хаотична и не пойми какая то выдрать ничего не получится. можно конечно написать умный парсер которй будет как то выдирать контакты, но во первых будет куча мусора, во вторых выдрать может половину.. даже если брать за точку старта +7|8|495| и ОАО|ЗАО|ЧП| и т.п. то не будет точки конца.. на чем все это дело обрубается. можно оборвать по первому тегу. но на деле он может или чтото перебрать или что-то не добрать.
Solver Web - создание и продвижение сайтов!
Посетитель
small user social cms
Медаль
Сообщений: 779
Есть парсер, текст в xml или csv спарсил, а что потом?
Потом INSERT (title, content) но у каждой ведь статьи еще есть id - каким образом должен создаваться id статьи?
Посетитель
small user social cms
Медаль
Сообщений: 426
skaz:
а мне мона ссылку в личку?
http://mamapapa.kz
http://biathlon.kz
http://bergal.kz
Посетитель
small user social cms
Медаль
Сообщений: 779
и мне отправьте пожалуйста
В начало страницы
Предыдущая темаСледующая тема Перейти на форум:
Быстрый ответ
Чтобы писать на форуме, зарегистрируйтесь или авторизуйтесь.