Парсер текста

нужен парсер текста

#1 30 января 2012 в 01:17
нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть
#2 30 января 2012 в 01:37
это пишется под определенный сайт с которого парсить нужно!
#3 30 января 2012 в 01:57
Я думаю что есть такие проги
это программы типа поиска и замены текста но с расширенными функциями
#4 30 января 2012 в 03:22
Если Вам нужен "качественный" парсинг-то только под заказ и под определенный сайт!
#5 30 января 2012 в 07:01
pivua),

это пишется под определенный сайт с которого парсить нужно!

Вы немного не правы, (парсер есть и парсит откуда укажешь)
#6 30 января 2012 в 10:23
skaz, и как это чудо называется и где смотреть?
#7 30 января 2012 в 10:30
skaz, у сайтов может быть разная структура, я сомневаюсь что есть какой-то универсальный парсер
#8 30 января 2012 в 10:42
skaz — НАДО!
в первом посте же написано — надо
и не важно — из html или из текстового файла.
если знаете подскажите, а то получается так:
— что я знаю, что я знаю но вам не скажу smile
#9 30 января 2012 в 16:39

Вы немного не правы, (парсер есть и парсит откуда укажешь)

skaz
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)
#10 30 января 2012 в 18:44


Вы немного не правы, (парсер есть и парсит откуда укажешь)

skaz
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)

pivua)

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7
намного проще
тоесть просто прогу которая выдергивала бы строки
я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile
не могу вспомнить какая
#11 4 февраля 2012 в 15:12
eoleg
В общем я дал ссылку в личку, поставите и дадите ответ, как и что.
Rossoman,
Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось,
Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile не могу вспомнить какая


У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта.
#12 4 февраля 2012 в 15:20
Нету таких парсеров. И быть не может. Должна быть какая то структуру откуда дергать скажем если они все находятся <div id="contact">*</div> все что в диве можно выбрать. А если информация хаотична и не пойми какая то выдрать ничего не получится. можно конечно написать умный парсер которй будет как то выдирать контакты, но во первых будет куча мусора, во вторых выдрать может половину… даже если брать за точку старта +7|8|495| и ОАО|ЗАО|ЧП| и т.п. то не будет точки конца… на чем все это дело обрубается. можно оборвать по первому тегу. но на деле он может или чтото перебрать или что-то не добрать.
#13 8 июня 2012 в 20:00
Есть парсер, текст в xml или csv спарсил, а что потом?
Потом INSERT (title, content) но у каждой ведь статьи еще есть id — каким образом должен создаваться id статьи?
#14 8 июня 2012 в 22:26
skaz
а мне мона ссылку в личку?
#15 8 июня 2012 в 23:28
и мне отправьте пожалуйста
Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.