Эта программа предназначена для автоматизированного сбора данных о действующих организациях, включая контактную информацию, из нескольких источников (налоговая служба, Тинькофф.Бизнес, Чекко). Программа выполняет парсинг данных по заданным ОГРН, регионам, видам деятельности, и собирает ключевые реквизиты компании, телефоны, электронные почты и веб-сайты. Итоговые данные можно экспортировать в формате JSON, Excel, а также структурировать, затем разбить excel файл на несколько более мелких и упаковать в ZIP-архив для наиболее удобной выгрузки в ELMA 3 по нажатию на одну кнопку!
- Запросы к внешним ресурсам: программа запрашивает данные компаний через сервисы ЕГРЮЛ (сбор ОГРН действующих организаций), Тинькофф (сбор основных данных организаций) и Чеко (сбор контактных данных).
- Обработка контактов: программа извлекает телефоны, email и веб-сайты компаний.
- Экспорт данных: собранные данные могут быть экспортированы в JSON, Excel или ZIP-архив для ELMA для удобства использования в корпоративных системах.
- Живые логи: во время работы приложения отображается прогресс выполнения и ошибки через сервер отправки логов в реальном времени. Также запись логов ведется в папку logs.
- Поочередная обработка: сбор информации происходит так, что не вредит серверам ресурсов, с которых производит парсинг, так как скорость сбора данных не превышает 3 организации в секунду с паузами каждые 100 элементов.
- Express — серверная платформа для Node.js.
- Axios — для выполнения HTTP-запросов к API и веб-страницам.
- Cheerio — для парсинга HTML-страниц и извлечения данных.
- XLSX — для генерации Excel-файлов.
- Archiver — для создания ZIP-архивов.
- FS и Path — для работы с файлами и логами.
- Клонируйте репозиторий:
git clone https://github.com/cloverfield11/inn-ogrn-parcer cd inn-ogrn-parcer
- Установите зависимости:
npm install
- Запустите сервер:
node app.js
- Приложение будет доступно по адресу http://localhost:3000.
Можно сменить заголовки для HTTP-запросов, используемые при обращении к сервисам ЕГРЮЛ, Тинькофф и Чекко. Также можно настроить список ФИО ответственных за контрагента в дальнейшем (присваивается один ко многим)
Программа ведет логи запросов и событий в папке logs
.
- Из обязательного необходимо выбрать вид(ы) деятельности и регион(ы), из необязательного можно указать доход организации. Затем приступить к поиску.
- Сперва программа просчитывает количество элементов по заданным критериям, затем парсит ЕГРЮЛ получая до 100 ОГРН организаций за каждую итерацию, затем пробегается по каждому ОГРН и собирает данные в Тинькофф.Бизнес и Чекко, отображая статусбар, скорость получения элементов, оставшееся время парсинга и текущий элемент.
- По итогу выполнения ПО предлагает сохранить данные в формате на выбор.
Выборка: Категория "Образование" (Тюменская область, ЯНАО)
Источник | Элементов собрано | Процент обработки |
---|---|---|
ЕГРЮЛ | 1335 | 100% |
Тинькофф.Бизнес | 1335 | 100% |
Чекко | 1333 | 99.85% |
Средняя скорость сбора данных: 2 элемента/сек
Затраченное время на сбор данных: 11 мин. 7 сек
Процент отсутствия контактных данных: Телефон: 6.7%, Почта: 7.8%
Выборка: "Добыча нефти", "Пищевые продукты", и другие (Тюменская область, ХМАО, ЯНАО)
Источник | Элементов собрано | Процент обработки |
---|---|---|
ЕГРЮЛ | 1048 | 100% |
Тинькофф.Бизнес | 1048 | 100% |
Чекко | 1048 | 100% |
Средняя скорость сбора данных: 1.7 элемента/сек
Затраченное время на сбор данных: 10 мин. 17 сек
Процент отсутствия контактных данных: Телефон: 12.1%, Почта: 26.8%
Выборка: "Добыча нефти и газа" (Тюменская область, ХМАО, ЯНАО)
Источник | Элементов собрано | Процент обработки |
---|---|---|
ЕГРЮЛ | 99 | 100% |
Тинькофф.Бизнес | 99 | 100% |
Чекко | 99 | 100% |
Средняя скорость сбора данных: 3 элемента/сек
Затраченное время на сбор данных: 33.12 сек
Процент отсутствия контактных данных: Телефон: 5.1%, Почта: 17.2%
Этот проект распространяется под лицензией MIT.