Парсинг и создание ботов - ZennoPoster, Python, PHP

Что такое парсинг и бот-системы/сети?

Парсинг это получение данных в автоматическом режиме с сайта-донора. По сути этим занимаются или отдельные парсеры, или целые бот-системы. К примеру, гугл использует, как и другие поисковики целую свою сеть ботов. Часть из них получает ссылки, часть переходит по ним и анализирует содержимое. Задачи по парсингу встречаются чаще чем хотелось бы.

За долгое время в веб-разработке пришлось мне поучаствовать и в создании крупной бот-системы, имитирующей действия людей в одной из профессиональных социальных сетей, так и создавать парсеры.

Для себя я разделил их на два вида:

Ситуативные - один раз использовали и может периодически запускаем
Постоянно работающие

Ситуативные нужны тогда когда данные с одного сайта нужно скачать единожды и возможно время от времени обновлять. Для таких целей иногда используют Python. Но как по мне это трудоемкий процесс, хоть и дешевле. Куда более мощный инструмент и намного удобнее, это ZennoPoster. В большинстве ситуаций для меня это инструмент парсинга №1. Дальше объясню почему.

ZennoPoster - для ситуативного парсинга

Незаметность/Неотличимость от обычных пользователей

Как вы можете понять по названию, речь об обходе капчи и других систем идентификации автоматики. Строя бот-систему мы изучали много разных вариантов как скрыть пользователя, сделать его уникальным и наоборот, подать как обычного рядового пользователя. Последний вариант наиболее успешен, ведь уникальный пользователь изначально подпадает под подозрения автоматики. В Зенопостере вы можете визуальными средствами задать профиль, а сам инструмент построен на базе обычного браузера, с JavaScript и прочим. Выявить такого пользователя уже сложнее. Подключение прокси штука не сложная, но сами по себе они вас больше раскрывают чем, прячут. Вполне логично что кроме вас купить пакет прокси могут и сотрудники корпорации. В итоге одним или несколькими платежами палится вся сеть прокси. Не можете создать свои прокси, тогда покупные это вариант лишь для самых простых случаев. Но мы отвлеклись.

Гибкость и расширяемость

В нашей системе мы использовали клиент-серверную архитектуру, где раздачей задач и цепочек действий занимался сервер. Бот же выполнял необходимый набор действий. При этом куки можно было сохранить вместе с профилем пользователя и снова его загрузить. Все это прогревало профиль пользователя и на целевой сайт он мог идти уже не с пустым браузером. Расширяемость же в том, что кроме работы со списками, таблицами, базами данных и прочими встроенными инструментами, вам доступно расширение языком C# и подключением внешних библиотек. Так, мы использовали в другом случае OCR(систему распознавания текста на картинках), для распознавания номеров.

Стоимость

Тут скорее минус, так как он платный и стоит немало. Но если работать профессионально оно того стоит. А если попасть на скидки, которые бывают каждые пол года, то можно снизить его стоимость до 50%. С какой версии начинать, зависит от вас. Для разовых случаев хватит и Project Maker-а, который нужен для создания и отладки шаблона. Можно даже не запускать сам ZennoPoster. Когда вам нужно уже многопоточный режим, тогда уже стоит брать более дорогие версии.

Документация и примеры

Есть форум, есть официальная документация и несколько примеров. В целом обучение не очень сложное. А кроме парсинга можно автоматизировать много других задач в сети.

Результат можно спокойно залить csv файлом в целевую систему, создав там нехитрый импорт. ZennoPoster можно купить по ссылке.

Для постоянного парсинга - построение более сложной системы.

Такие системы уже более сложные и хоть можно использовать зенопостер, но в целом предпочтительнее использовать уже другой подход. Использовать Selenium и другие надстройки над движком браузера, прогонять страницы и парсить результаты. Системы защиты от таких парсеров разные, вплоть до динамического изменения классов и названий на странице как в HTML, так и в CSS, и JS. Используются капчи, проверка юзер-агента, айпи адресов и вплоть до косвенных признаков. К примеру маловероятно что используя Google DNS указывающий что вы из Европы, вы будете подозрительно выглядеть с IP адресом из США. При этом использование TOR автоматом делает вас подозрительным для практически всех систем.

Такие парсеры уже делают на Python, PHP, NodeJS с добавлением предназначенных для этого библиотек. Получение элементов происходит по XPath, Query Selector-у и регулярным выражениям для поиска подходящих ключевых слов на странице.

Разработка такого парсера дороже, поддержание сложнее. Нужны системы мониторинга и анализа, на тот случай если данные перестали добавляться в систему, а парсер забуксовал и сыплет ошибками.

Отзывы

Пока нет комментариев

Для того чтобы оставить комментарий, авторизуйтесь.

Понравился материал? Поделись!

Ноя28

CKEditor 4 + Загрузка картинок в Laravel

В прошлом материале, я уже писал о подключении к CKEditor 4 плагина подсветки синтаксиса. Но так же писал что опишу загрузку картинок через визуальный редактор. Все делается достаточно просто. Вступление Оговорюсь сразу, что не использую сторонние библиотеки для большего контроля над самим подключением и редактором, так и для того чтобы...

Дек09

Актуально ли использовать PHP framework Laravel в 2021 и 2022 году?

В прошлом году у меня возник спор с одним любителем Node.js на тему фреймворков. И не смотря на то, что моя позиция - к каждой задаче стоит рассматривать наиболее подходящий инструмент, мой опонент рогом уперся и настаивал что PHP зло и нужно использовать ноду. В этом материале я выскажу свою...

Июл23

Laravel: Nova, Orchid или кастомная/собственная админ панель

Очень часто под очередной проект приходится делать админ панель. Чаще всего в MVP проектах никто не закладывает дизайн админ панели. Берется уже или полу готовая, или делается с нуля, чаще всего на купленной теме. Чтобы сделать свою панель, перекрывающую 80% типовых потребностей многих сайтов потребуется пару дней возни, а в...

Дек18

Лучшие редакторы и среды разработки для разработчиков

Выбор лучшего редактора и IDE Холивары между тем лучшим ли является для разработки Emacs или Vi(m) потихоньку отходят в прошлое. Уже сложно их представить полноценными средами разработки. Ведь несмотря на всю их практичность, соревноваться в удобстве с современными комбайнами они могут только при крайне длительной подготовке. Но чтобы выбрать лучший для себя...

Июл23

Погружение в паттерны проектирования - Александр Швец - Мнение о книге

Эта книга дает дополненное или начинающее понимание паттернов проектирования, будь то веб-язык или системный. Я уже был ознакомлен с частью паттернов из другой литературы, а у самого есть книга "банды четырех", которую еще предстоит прочитать, но я ее часто откладываю. Что такое паттерны проектирования? Это логические схемы, алгоритмы, для работы...

Апр11

Топ самых часто используемых заголовков веб-сервера

Если вы, как разработчик прошли уровень джуниора, то встреча с заголовками, передаваемыми веб-сервером вас, к этому моменту, должна была уже настигать не раз. Заголовок, это не только передаваемая строка/строки текста, но и соответствующая реакция на них как браузера, так и сервера. Их больше чем указано в материале, но это одни...