Skip to content

Веб-приложение на Вашем локальном компьютере/сервере для сбора данных (включая контактные) о действующих юр. лицах из ЕГРЮЛ, Т.Бизнес и Чекко

Notifications You must be signed in to change notification settings

cloverfield11/AgentBase

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AgentBase v1.0

Снимок экрана 2024-10-21 в 11 25 11

Описание

Эта программа предназначена для автоматизированного сбора данных о действующих организациях, включая контактную информацию, из нескольких источников (налоговая служба, Тинькофф.Бизнес, Чекко). Программа выполняет парсинг данных по заданным ОГРН, регионам, видам деятельности, и собирает ключевые реквизиты компании, телефоны, электронные почты и веб-сайты. Итоговые данные можно экспортировать в формате JSON, Excel, а также структурировать, затем разбить excel файл на несколько более мелких и упаковать в ZIP-архив для наиболее удобной выгрузки в ELMA 3 по нажатию на одну кнопку!

Особенности

  • Запросы к внешним ресурсам: программа запрашивает данные компаний через сервисы ЕГРЮЛ (сбор ОГРН действующих организаций), Тинькофф (сбор основных данных организаций) и Чеко (сбор контактных данных).
  • Обработка контактов: программа извлекает телефоны, email и веб-сайты компаний.
  • Экспорт данных: собранные данные могут быть экспортированы в JSON, Excel или ZIP-архив для ELMA для удобства использования в корпоративных системах.
  • Живые логи: во время работы приложения отображается прогресс выполнения и ошибки через сервер отправки логов в реальном времени. Также запись логов ведется в папку logs.
  • Поочередная обработка: сбор информации происходит так, что не вредит серверам ресурсов, с которых производит парсинг, так как скорость сбора данных не превышает 3 организации в секунду с паузами каждые 100 элементов.

Технологии

  • Express — серверная платформа для Node.js.
  • Axios — для выполнения HTTP-запросов к API и веб-страницам.
  • Cheerio — для парсинга HTML-страниц и извлечения данных.
  • XLSX — для генерации Excel-файлов.
  • Archiver — для создания ZIP-архивов.
  • FS и Path — для работы с файлами и логами.

Установка и запуск

  1. Клонируйте репозиторий:
    git clone https://github.com/cloverfield11/inn-ogrn-parcer
    cd inn-ogrn-parcer
  2. Установите зависимости:
    npm install
  3. Запустите сервер:
    node app.js
  4. Приложение будет доступно по адресу http://localhost:3000.

Настройки (необязательно)

Можно сменить заголовки для HTTP-запросов, используемые при обращении к сервисам ЕГРЮЛ, Тинькофф и Чекко. Также можно настроить список ФИО ответственных за контрагента в дальнейшем (присваивается один ко многим)

Логи

Программа ведет логи запросов и событий в папке logs.

Пример использования

  1. Из обязательного необходимо выбрать вид(ы) деятельности и регион(ы), из необязательного можно указать доход организации. Затем приступить к поиску.
Снимок экрана 2024-10-21 в 12 50 26
  1. Сперва программа просчитывает количество элементов по заданным критериям, затем парсит ЕГРЮЛ получая до 100 ОГРН организаций за каждую итерацию, затем пробегается по каждому ОГРН и собирает данные в Тинькофф.Бизнес и Чекко, отображая статусбар, скорость получения элементов, оставшееся время парсинга и текущий элемент.
Снимок экрана 2024-10-21 в 12 56 13
  1. По итогу выполнения ПО предлагает сохранить данные в формате на выбор.
Снимок экрана 2024-10-21 в 12 57 15

Тестирование ПО на получение статистики потерянных/отсутствующих данных

Тест 1: Работа с прокси (Нидерланды)

Выборка: Категория "Образование" (Тюменская область, ЯНАО)

Источник Элементов собрано Процент обработки
ЕГРЮЛ 1335 100%
Тинькофф.Бизнес 1335 100%
Чекко 1333 99.85%

Средняя скорость сбора данных: 2 элемента/сек
Затраченное время на сбор данных: 11 мин. 7 сек
Процент отсутствия контактных данных: Телефон: 6.7%, Почта: 7.8%

Тест 2: Множественный выбор категорий с прокси

Выборка: "Добыча нефти", "Пищевые продукты", и другие (Тюменская область, ХМАО, ЯНАО)

Источник Элементов собрано Процент обработки
ЕГРЮЛ 1048 100%
Тинькофф.Бизнес 1048 100%
Чекко 1048 100%

Средняя скорость сбора данных: 1.7 элемента/сек
Затраченное время на сбор данных: 10 мин. 17 сек
Процент отсутствия контактных данных: Телефон: 12.1%, Почта: 26.8%

Тест 3: Без прокси

Выборка: "Добыча нефти и газа" (Тюменская область, ХМАО, ЯНАО)

Источник Элементов собрано Процент обработки
ЕГРЮЛ 99 100%
Тинькофф.Бизнес 99 100%
Чекко 99 100%

Средняя скорость сбора данных: 3 элемента/сек
Затраченное время на сбор данных: 33.12 сек
Процент отсутствия контактных данных: Телефон: 5.1%, Почта: 17.2%


Лицензия

Этот проект распространяется под лицензией MIT.

About

Веб-приложение на Вашем локальном компьютере/сервере для сбора данных (включая контактные) о действующих юр. лицах из ЕГРЮЛ, Т.Бизнес и Чекко

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published