Парсер текста

нужен парсер текста

#1 30 января 2012 в 01:17

нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть

Раньше РАЙ был везде - РАЙсовет, РАЙком, РАЙсобес...., а сейчас везде АДминистрации! Не надо давать людям советы. Каждый должен лохануться самостоятельно! Любишь в продакшн, люби и баги починить!

#2 30 января 2012 в 01:37

это пишется под определенный сайт с которого парсить нужно!

#3 30 января 2012 в 01:57

Я думаю что есть такие проги
это программы типа поиска и замены текста но с расширенными функциями

Сегодня в 07:15

#4 30 января 2012 в 03:22

Если Вам нужен "качественный" парсинг-то только под заказ и под определенный сайт!

Уважайте мнение каждого...

#5 30 января 2012 в 07:01

pivua),

это пишется под определенный сайт с которого парсить нужно!

Вы немного не правы, (парсер есть и парсит откуда укажешь)

#6 30 января 2012 в 10:23

skaz, и как это чудо называется и где смотреть?

#7 30 января 2012 в 10:30

skaz, у сайтов может быть разная структура, я сомневаюсь что есть какой-то универсальный парсер

#8 30 января 2012 в 10:42

skaz — НАДО!
в первом посте же написано — надо
и не важно — из html или из текстового файла.
если знаете подскажите, а то получается так:
— что я знаю, что я знаю но вам не скажу smile

#9 30 января 2012 в 16:39

Вы немного не правы, (парсер есть и парсит откуда укажешь)
skaz

тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)

#10 30 января 2012 в 18:44

Вы немного не правы, (парсер есть и парсит откуда укажешь)
skaz
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)

pivua)

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7
намного проще
тоесть просто прогу которая выдергивала бы строки
я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile

не могу вспомнить какая

#11 4 февраля 2012 в 15:12

eoleg
В общем я дал ссылку в личку, поставите и дадите ответ, как и что.
Rossoman,
Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось,
Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile не могу вспомнить какая

У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта.

#12 4 февраля 2012 в 15:20

Нету таких парсеров. И быть не может. Должна быть какая то структуру откуда дергать скажем если они все находятся <div id="contact">*</div> все что в диве можно выбрать. А если информация хаотична и не пойми какая то выдрать ничего не получится. можно конечно написать умный парсер которй будет как то выдирать контакты, но во первых будет куча мусора, во вторых выдрать может половину… даже если брать за точку старта +7|8|495| и ОАО|ЗАО|ЧП| и т.п. то не будет точки конца… на чем все это дело обрубается. можно оборвать по первому тегу. но на деле он может или чтото перебрать или что-то не добрать.

Solver Web - создание и продвижение сайтов!

#13 8 июня 2012 в 20:00

Есть парсер, текст в xml или csv спарсил, а что потом?
Потом INSERT (title, content) но у каждой ведь статьи еще есть id — каким образом должен создаваться id статьи?

#14 8 июня 2012 в 22:26

skaz

а мне мона ссылку в личку?

http://mamapapa.kz http://biathlon.kz http://bergal.kz

#15 8 июня 2012 в 23:28

и мне отправьте пожалуйста

QIP Shot

Метабар

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.

Парсер текста

Похожие темы

Парсер канала телеграм?

Нужен парсер (куплю)

Поле "Статичный текст" - сквозной текст

Начало и конец искомого текста для изображения и текста статьи.

Выделение кода в тексте статьи

Цвет текста меню

Смайлики удаляют текст после них

Нужен парсер постов из телеграм-каналов на инстант

Похожее в блогах

Парсер контента для ICMS 2

Пакет расширения для компонента «Парсер контента»

Фильтр "Скрыть текст от гостей"

Обновление парсера UPDS для InstantCMS 2 v 1.2.0

InstantCMS Team

О проекте

Поддержка

Дополнения