Разработка парсера, пишите свои хотелки

InstantCMS 2.X

Работаю над новым парсером

#1 14 декабря 2022 в 12:04

Всем привет.

Уже месяц в свободное время разрабатываю новый парсер, работа идет медленно, но результат мне нравиться.

Связи с этим хочу спросить будущих клиентов, интересно ли такая разработка? Сколько вы готовы заплатить за парсер и какие возможности там должны быть?

Напишите свои идеи, попробую реализовать.

Может знаете пример каких то парсеров с крутыми возможностями, дайте ссылку если такие есть.

#2 14 декабря 2022 в 13:08

Приветствую! Мне понравился парсер i-c-a.su но изменил бы сам вывод контента. 

#3 14 декабря 2022 в 13:24

 Remi, на первый взгляд кажется, что сайт выводить rss ленты других сайтов — это слишком просто.

Я бы хотел видеть парсеров, который имеет какие то возможности, который нет в текущих парсерах инстанта, например текст как то обрабатывает, удаляет что то, добавляет, подключает синонимайзеров, перевод и т.д.

#4 14 декабря 2022 в 13:26

Я бы не отказался от автоматического парсинга с Яндекскарт в InstantMaps. Был даже такой компонент для 1 версии инстанта вроде.

Добавлено спустя 1 минуту

Я бы хотел видеть парсеров, который имеет какие то возможности, который нет в текущих парсерах инстанта, например текст как то обрабатывает, удаляет что то, добавляет, подключает синонимайзеров, перевод и т.д.

My-InstantCMS.Ru

А вообще, я думаю, можно запустить тестовую версию для тестировщиков, и предложения и пожелания рекой посыпятся в процессе))

#5 14 декабря 2022 в 13:42

перевод

My-InstantCMS.Ru

Наличие автопереводчика, возможно бы меня заинтересовал...

#6 14 декабря 2022 в 14:07

 Remi, на первый взгляд кажется, что сайт выводить rss ленты других сайтов — это слишком просто.

Я бы хотел видеть парсеров, который имеет какие то возможности, который нет в текущих парсерах инстанта, например текст как то обрабатывает, удаляет что то, добавляет, подключает синонимайзеров, перевод и т.д.

My-InstantCMS.Ru

не совсем так, там еще и из социальных сетей выводит контент, каждый пользователь вкл и выкл нужные источники. А из хотелок можно было бы выводить контент в ней список на эту же тему, как в ЯндексДзен

#7 14 декабря 2022 в 14:57

хочу спросить будущих клиентов, интересно ли такая разработка?

My-InstantCMS.Ru

Ваши разработки всегда интересны

#8 14 декабря 2022 в 19:25

Привет.  Мне лично нужен парсер который работает с Телеграм и ВК Фейсбук. Необходимо парсить посты, добавить возможность выбора заголовка из поста для записи на сайт. Очень важно чтобы парсер умел парсить фотографии.

Ну а по цене?  Сделаете, купим! Из вышеописанного функционала больше интересует парсер для ВК.

#9 14 декабря 2022 в 20:16

Мне лично нужен парсер который работает с Телеграм и ВК Фейсбук. Необходимо парсить посты, добавить возможность выбора заголовка из поста для записи на сайт. Очень важно чтобы парсер умел парсить фотографии.

Ну а по цене?  Сделаете, купим!

KoRn

+1 к телеге и фб.

#10 14 декабря 2022 в 21:08

Довольно широкий разброс пожеланий… Наверное есть смысл делать парсер с какими то отдельными модулями или заданиями для парсинга...

#11 14 декабря 2022 в 21:50

Я ничего не паршу совсем давно, каюсь))) 😂

Но зная разработчика, думаю что будет довольно неплохой парсер.

Сказать по хотелкам ничего не могу, но думаю что в будущем возможно пригодится такая вещь)))

#12 15 декабря 2022 в 10:44

запустить тестовую версию для тестировщиков

Melon

Скорей всего таки будет.

Мне лично нужен парсер который работает с Телеграм и ВК Фейсбук.

KoRn

Дайте ссылку на примеры страниц, которых надо парсить, посмотрю что можно сделать.

Наверное есть смысл делать парсер с какими то отдельными модулями

RSN

Наверно, а то придется сделать больше опции, а больше опции обычно пугают новичков

#13 15 декабря 2022 в 11:21

Пока не знаю, что вы там планируете по функционалу), но желательно предусмотреть использование прокси и даже юзер агента.

Так как соц сети (наверное) и некоторые крутые сайты, используют защиту от парсинга, что бы не было возможности отследить адрес сервера с которого идет парс и в случае блокировок по IP можно было легко менять (сменой прокси) IP...

Например у Авипарса (от Локанафта) было сделано так:

 

Изображение

Юзер агент

Изображение

Добавлено спустя 14 минут

а больше опции обычно пугают новичков

My-InstantCMS.Ru

Хороший парсер вряд ли может быть простым… Нужна будет документация...

#14 15 декабря 2022 в 16:40

Дайте ссылку на примеры страниц, которых надо парсить, посмотрю что можно сделать.

My-InstantCMS.Ru

ВК vk.com/megakvartkzn

Телега web.telegram.org/k/#@nedvizkaz

Фб нету так как меня блокнули, может Василич поможет

Далее еще хочу дополнить подробности:

  1. Выбор заголовка из поста — выбираем количество символов для заголовка.
  2. С какой даты начинать парсить — не знаю возможно ли такое.
  3. Смайлы — возможность убрать смайлы из текста
  4. Автор — парсим ник автора и оборачиваем его в ссылку на профиль автора.
  5. Фотографии — конвентирование сразу в webm и размещение на сайт? А вдруг)))
  6. Частота парсера — когда парсим и по какое время, и автоматически по крону.
#15 15 декабря 2022 в 18:08

Я бы прикупил парсер, который сможет парсить участников сообщества в телеге например отсюда web.telegram.org/k/#@gotoviy_business 

А в идеале, чтобы ещё можно было делать задания на отправку сообщений для спарсенной аудитории. 

К сожалению flowcrawler не может зайти на этот сайт, чтобы спарсить пользователей… Или я что то не соображаю) 

Вы не можете отвечать в этой теме.
Войдите или зарегистрируйтесь, чтобы писать на форуме.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.