Используйте ИИ для легкого парсинга практически всех веб-сайтов в 2025 году

17.03.2025 14:35

8 мин чтения

30 окт. 2024 г.

Сегодня я покажу вам простой способ сбора данных с множества веб-сайтов и как создать веб-скрапер, который может работать так же, как человек, использующий браузер.

Этот тип парсера может даже самостоятельно выполнять фриланс-задания по парсингу веб-страниц на таких сайтах, как Upwork.

Раньше крупным компаниям, таким как Amazon или Walmart, приходилось тратить много времени и денег на сбор данных с других веб-сайтов, чтобы поддерживать конкурентоспособные цены.

Они сделали это, скопировав работу браузера: отправив запросы для получения HTML-кода веб-сайта, а затем использовав специальный код для поиска и получения нужной информации.

Это было сложно, потому что каждый веб-сайт отличается, и если веб-сайт менял свой дизайн, парсер переставал работать. Это означало, что компаниям приходилось тратить больше времени на исправление и обновление своих парсеров.

Представьте, что Amazon хочет следить за ценами Walmart на те же продукты. Для этого Amazon понадобится скрапер, созданный специально для сайта Walmart.

Но если Walmart изменит свой сайт, Amazon придется обновить скрапер.

Это требует много времени и затрат.

Скребки нужны не только крупным компаниям.

Если вы посмотрите на сайты фриланса, такие как Upwork, вы увидите множество малых предприятий, ищущих людей для создания парсеров для таких задач, как поиск контактных данных, отслеживание цен, маркетинговые исследования или списки вакансий.

Например, небольшому стартапу может потребоваться отслеживать цены на продукцию на разных сайтах электронной коммерции, чтобы устанавливать собственные цены.

До появления искусственного интеллекта малому бизнесу было сложно и дорого получать такие решения.

Теперь, с помощью больших языковых моделей (LLM) и новых инструментов, создавать веб-скрейперы стало намного проще и дешевле.

То, на создание чего раньше у разработчика уходило несколько недель, теперь можно сделать всего за несколько часов. LLM могут лучше понимать различные структуры веб-сайтов, поэтому вам не нужно постоянно переписывать скраперы для каждого небольшого изменения.

Давайте поговорим о том, как эффективно собирать данные и работать с разными типами веб-сайтов — от простых до действительно сложных.

Я разделю это на три группы:

простые публичные веб-сайты
веб-сайты, которым требуются более сложные рабочие процессы
сложные случаи, требующие умных агентов.

1. Парсинг простых публичных веб-сайтов

Простые общедоступные веб-сайты — это страницы вроде Википедии или веб-сайты компаний, для доступа к которым не требуется регистрация или оплата.

Эти сайты все еще могут быть сложными, поскольку имеют разную компоновку, но с большими языковыми моделями эта работа стала намного проще.

Допустим, вам нужно собрать информацию о различных растениях из Википедии для школьного проекта.

Раньше вам приходилось просматривать HTML-код каждой страницы, находить теги с нужными данными, а затем писать специальный код для получения этих данных.

Проделывать это для каждой страницы было бы очень трудоемко.

Но теперь, с появлением LLM, вы можете просто передать необработанный HTML-код ИИ, и он сможет извлечь данные для вас.

Вы даже можете указать ему, какие именно данные вам нужны, например, «получить название растения, его описание и советы по уходу», и ИИ даст вам четко структурированный ответ.

Это экономит много времени и усилий.

Магистранты также хорошо умеют определять, где находится информация, если вы не знаете, на какой именно странице она находится.

Например, если вы ищете контактную информацию на веб-сайте компании, но не уверены, на какой странице она находится, скрапер на базе ИИ может искать на всех страницах, пока не найдет то, что вам нужно. Это как иметь помощника, который знает, куда нажимать и что читать.

2. Парсинг веб-сайтов со сложными взаимодействиями

Некоторые веб-сайты сложнее взломать, поскольку для этого требуется ваше взаимодействие с ними — например, вход в систему, решение CAPTCHA или нажатие на всплывающие окна.

Подумайте о новостных сайтах, где вам нужно войти в систему, чтобы увидеть статьи. Вот где инструменты, такие как

- Селен

- Кукловод

- Помощь драматургу

Первоначально эти инструменты были созданы для тестирования веб-сайтов, но теперь они используются для имитации того, как реальный человек будет использовать веб-сайт.

Представьте, что вы хотите извлечь статьи с новостного сайта вроде The New York Times. Статьи находятся за платным доступом, поэтому вам сначала нужно войти в систему.

Вы можете использовать такие инструменты, как

Playwright или Selenium, чтобы заставить парсер входить в систему вместо вас, нажимать на всплывающие окна и получать доступ к статьям.

Но даже с этими инструментами все равно может быть сложно заставить скрепер взаимодействовать с каждой кнопкой или полем ввода на странице.

Вот тут-то и пригодится AgentQL.

AgentQL помогает находить нужные элементы на веб-странице, такие как кнопки и формы, и сообщает парсеру, что делать.

Например, если вы хотите собрать списки вакансий с нескольких досок объявлений, AgentQL может помочь вашему парсеру найти форму входа, заполнить ее и перейти к объявлениям о вакансиях.

Это значит, что вы можете собрать множество объявлений о вакансиях всего за несколько минут, не выполняя никакой ручной работы.

Вы даже можете заставить скрапер поместить данные в Google Таблицы или Airtable, чтобы их было легче сортировать и анализировать.

Предположим, вы пытаетесь отслеживать вакансии разработчиков программного обеспечения на таких сайтах, как Indeed, Glassdoor и LinkedIn.

С помощью этих инструментов вы можете заставить парсера входить в систему, искать задания и собирать все данные в одном месте, например в Google Таблице.

Это сэкономит вам часы работы.

3. Расширенные возможности, требующие умного мышления

Последняя группа включает в себя более неопределенные задачи, требующие принятия решений, — например, поиск самого дешевого рейса в пункт назначения в течение следующих двух месяцев или покупка билета на концерт в соответствии с вашим бюджетом .

Эти задачи сложны, потому что требуют планирования и суждения. Хотя они все еще новы, разрабатываются инструменты, которые могут это сделать.

Одной из таких платформ является Multion, которая создает агентов, способных самостоятельно выполнять подобные сложные задачи.

Например, вы можете попросить агента

«найти и забронировать самый дешевый рейс из Нью-Йорка в Мельбурн в июле»,

и он просмотрит различные туристические сайты, сравнит цены и забронирует для вас рейс.

Пока что все не идеально, но впечатляет, насколько эти инструменты близки к действиям реального человека.

Другой пример — покупка билета на концерт. Вы можете спросить агента

«Купите мне билет на концерт Тейлор Свифт менее чем за 100 долларов».

Агент просмотрит несколько сайтов по продаже билетов, найдет билет, соответствующий вашему бюджету, и оформит покупку.

Эта технология все еще развивается, но такие инструменты, как Multion, позволяют автоматизировать даже такие сложные задачи.

Практические инструменты для веб-скрапинга

Вот несколько полезных инструментов, если вы хотите начать веб-скрапинг с использованием LLM и агентов:

Fireship, Gina и SpiderCloud : эти инструменты помогают преобразовать веб-контент в удобный для чтения формат, который модели ИИ могут лучше понимать. Например, Fireship может взять сложный веб-сайт ресторана и превратить его в простую версию, которая включает только важную информацию, такую как пункты меню и цены. Это делает обработку информации моделями ИИ дешевле и быстрее.
AgentQL : Этот инструмент помогает парсеру взаимодействовать с веб-сайтами так же, как это делает человек. Например, если вам нужно парсить доску объявлений с множеством кнопок для нажатия и форм для заполнения, AgentQL поможет убедиться, что ваш парсер может сделать все это гладко.
Интеграция Airtable/Google Sheets : как только ваш скрапер соберет данные, важно сохранить их в удобном виде. Такие инструменты, как Airtable или Google Sheets, могут хранить данные, чтобы вы могли легко проанализировать их позже. Например, если вы отслеживаете цены на дома на сайтах недвижимости, Google Sheets может помочь вам сравнивать и анализировать тенденции с течением времени.
Octoparse и ScrapeHero : эти инструменты действительно хороши для обработки сайтов с большим количеством JavaScript. Octoparse имеет готовые шаблоны, которые упрощают сбор данных с сайтов электронной коммерции, и использует умные методы, чтобы избежать блокировки. ScrapeHero отлично подходит для проектов, которым нужно быстро получить большой объем данных, например, собирать цены из многих магазинов одновременно.
ScraperAPI и Zyte : эти сервисы помогают убедиться, что ваш парсер не блокируется ротацией прокси-серверов. ScraperAPI позволяет вам настраивать такие вещи, как заголовки запросов, что полезно для целевого парсинга. Zyte, ранее называвшийся Scrapy, также очень хорош в обработке больших объемов парсинга и гарантирует, что вы получите необходимые данные без прерываний.
Mozenda и Web Robots : Mozenda помогает автоматизировать более сложные веб-формы, а также позволяет вам планировать задачи по скрапингу. Web Robots отлично подходит, если вам нужно создать собственные программы по скрапингу и извлекать данные напрямую в файлы, такие как CSV или Excel.

Итак, в 2024 и 2025 годах ИИ изменит способ извлечения данных с веб-сайтов.

Благодаря крупным языковым моделям и таким инструментам, как AgentQL и Playwright, даже сложные сайты можно очищать с меньшими затратами ручного труда.

Самое приятное то, что эти системы достаточно гибкие, чтобы справляться с широким спектром задач — будь то сбор бизнес-данных, поиск работы или даже бронирование авиабилетов.

Возможности автоматизации веб-скрапинга стали шире и доступнее, чем когда-либо.

Итак, являетесь ли вы представителем малого бизнеса, которому нужны рыночные данные, фрилансером, помогающим клиенту, или просто человеком, желающим узнать больше, эти инструменты искусственного интеллекта сделают веб-скрапинг мощным и простым решением.

Обязательно попробуйте!!!