[ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)

Продажа на складчике:

Технические особенности шаблона:
Шаблон обрабатывает httphttps адреса с авто-определением кодировки ответа. Понимает «301 редирект», и при его нахождении для определения внутренних страниц использует как старый, так и новый адрес. Есть поддержка Punnycode.
Для умного поиска абсолютных и относительных ссылок на внутренние страницы сайта используется свой алгоритм «паука» на основе C#-библиотеки HtmlAgilityPak.
Шаблон ищет внутренние страницы только в пределах одного клика от той страницы, с которой начался парсинг. Также он не выполняет скрипты на странице, поскольку для достижения максимального быстродействия он работает на чистых запросах без подключения браузера. В итоге получаем максимальное быстродействие, но пропускаем незначительный процент хитрых сайтов, где может стоять защита от парсинга почты: когда почта появляется только при обработке страницы в браузере или при дополнительных условиях (движении мышки, скроллинг страницы, клик пользователя на кнопке «Показать почту» и т.д.).

Алгоритм работы:
Шаблон получает урл из списка и получает Get-запросом HTML-код страницы. Ищет в нем почту. Если найдено почт меньше чем указано в настройке «#1.3», то шаблон ищет нужное количество (указывается в настройке #1.1) внутренних страниц. При это берет не случайные ссылки, а отдает предпочтение сначала ссылкам с признаками «контактной страницы» как в урле, так и в тексте ссылки (анкоре). После формирования списка внутренних страниц идет по очереди парсинг каждой страницы на наличие email. В финале полученный список email чистится от дублей, от мусора и сохраняется в файл результатов. . про Зеннопостер.

Оцените статью