ЛЕГКИЙ веб-скрапинг с помощью Google Gemini 2.0

Bark
17.03.2025 14:30
 

Манприт Сингх


7 мин чтения

·

18 декабря 2024 г

Веб-скрапинг никогда не был таким простым, и все благодаря новаторскому мультимодальному API Google в реальном времени


Gemini 2.0.

С помощью этого инструмента вы можете без труда извлекать данные из любой веб-страницы, будь то сложная, неструктурированная или очень специфичная информация.

Сегодня я покажу вам реальные примеры, которые я опробовал сам, шаг за шагом, чтобы вы точно знали, что делать.

Даже если вы новичок, вы очень скоро почувствуете себя профессионалом.

Давайте начнем!

Начало работы: настройка Google AI Studio

Прежде чем перейти к примерам, позвольте мне показать вам, как все настроить:

  1. Перейдите в Google AI Studio: Откройте Google AI Studio и войдите в свою учетную запись Google.
  2. Включите «Поделиться экраном»: эта опция находится в инструментах. Нажмите на нее и убедитесь, что выбрали «Поделиться всем экраном», а не просто вкладкой. Это очень важно, потому что Gemini 2.0 будет обрабатывать то, что находится на всем экране.
  3. Выберите формат вывода: Перед началом установите формат вывода на «Текст». Это гарантирует, что Gemini сможет возвращать результаты в читаемом и структурированном формате.

Как только это будет сделано, вы готовы к работе.

Ниже приведены скриншоты для справки.

Теперь позвольте мне рассказать вам о двух примерах, которые я опробовал сам.

Вот сценарий:

Я хотел собрать отзывы из объявления Airbnb, но отзывы загружаются только при прокрутке.

Так как же беспрепятственно извлечь эту информацию?

Вот как я это сделал шаг за шагом:

Я открыл объявление на Airbnb и нажал на раздел отзывов. Я выбрал один случайный объект просто для проверки и открыл раздел отзывов.

При активном Gemini 2.0 я показал весь свой экран (как было настроено ранее)

Я дал ему эту команду голосом:


«Извлечь все обзоры, видимые на экране, в структурированный формат. Продолжайте извлекать по мере прокрутки».

Пока я прокручивал обзоры, Gemini 2.0 непрерывно извлекал данные в реальном времени. Мне не нужно было останавливаться или перезагружать — он просто продолжал захватывать видимые обзоры.

После того, как я закончил прокручивать, Gemini вернул отзывы в чистом структурированном формате. Вывод включал:

  • Имя рецензента
  • Дата проверки
  • Рейтинг звезд
  • Полный текст обзора

Вот скриншот, как ИИ разбирается и выдает мне результат

Почему это полезно?


Независимо от того, анализируете ли вы отзывы клиентов или составляете обзоры для сравнения, этот метод сэкономит вам часы ручного копирования и вставки.

Пример вывода (JSON):

[
{
"name" : "Sonal" ,
"date" : "3 дня назад" ,
"stars" : "5" ,
"text" : "Место было прекрасным, и мы были поражены, увидев такую ​​ухоженную и спроектированную недвижимость в Бангалоре."
} ,
{
"name" : "Rituraj" ,
"date" : "1 неделя назад" ,
"stars" : "5" ,
"text" : "Недавно я останавливался в этом объекте и получил невероятные впечатления. Объект был точно таким, как описано, и даже превзошел мои ожидания во многих отношениях. Пространство было чистым, ухоженным и тщательно продуманным. Наш хозяин был потрясающим — суперотзывчивым, дружелюбным и услужливым. В целом, я бы настоятельно рекомендовал этот объект всем, кто ищет комфортного и приятного проживания, я уже с нетерпением жду возможности вернуться!"
} ,
{
"name" : "Damodar" ,
"date" : "июнь 2024" ,
"stars" : "5" ,
"text" : "Это был замечательный отдых, хороший чистый бассейн, аккуратные номера, множество развлечений, таких как игры (футбол, карром и т. д.), приличное пианино, на котором можно было играть, в каждой комнате был телевизор, а в гостиной был большой проекционный экран. Смотритель Лакшман был вежлив и услужлив. Достаточно места для сидения по всему отелю и отличные удобные кровати сделали наш сон довольно комфортным. Детям также очень понравились крытые качели. Поверьте мне, это отличное место для отдыха... СУПЕР КОМФОРТНО и приятно. Единственным недостатком был один из поставщиков еды поблизости под названием Chaitra... советую всем, кто туда едет, либо готовить себе еду на отличной кухне, либо заказывать/обедать в близлежащих ресторанах... в радиусе 5 км есть много вариантов. Мы ужинали и завтракали у поставщика еды, однако качество было не на должном уровне. Невегетарианская еда была приготовлена ​​не полностью. Мы заказали барбекю, овощи, не овощи и не овощи, готовились долго, и даже после этого они не были прожарены/приготовлены должным образом.. есть большие сомнения по поводу их сырья"
}
]

Вот и все! Gemini 2.0 сделал этот процесс смехотворно простым.

Пример 2: Извлечение конкретных данных из исследовательской статьи

Для моего второго варианта использования я хотел извлечь только данные таблицы из исследовательской статьи — а не всю страницу. На этот раз я сосредоточился на точности. Вот как я это сделал:

Я нашел статью, содержащую таблицу под названием «Синоптический обзор компонентов поставок и использования, ЕС, 2021 и 2022 гг.».

Как и прежде, я поделился своим полным экраном, чтобы Gemini мог видеть всю статью.

Вместо того, чтобы извлечь все, я сказал Джемини:


«Извлеките из этой статьи только табличные данные и преобразуйте их в формат JSON».

Gemini мгновенно идентифицировал таблицу, извлек данные и вернул их в запрошенном формате JSON.

Вот что мне выдал Gemini:

{
"Таблица" : {
"Заголовок" : "Синоптический обзор компонентов поставок и использования, ЕС, 2021 и 2022 гг." ,
"Единица" : "(млрд евро)" ,
"Строки" : [
{
"Элемент" : "1. Внутреннее производство" ,
"Уравнение" : null,
"2021" : 27848 ,
"2022" : 31674 ,
"Изменение 2021-22" : 3826
} ,
{
"Элемент" : "2. Импорт товаров и услуг" ,
"Уравнение" : null,
"2021" : 2378 ,
"2022" : 3198 ,
"Изменение 2021-22" : 820
} ,
{
"Элемент" : "3. Общее предложение" ,
"Уравнение" : "1+2" ​​,
"2021" : 30226 ,
"2022" : 34779 ,
"Изменение 2021-22" : 4552
} ,
{
"Элемент" : "4. Промежуточное потребление" ,
"Уравнение" : null,
"2021" : 14343 ,
"2022" : 16340 ,
"Изменение 2021-22" : 1997
} ,
{
"Элемент" : "5. Расходы на конечное потребление домохозяйств" ,
"Уравнение" : null,
"2021" : 11554 ,
"2022" : 12541 ,
"Изменение 2021-22" : 986
} ,
{
"Элемент" : "6. Расходы на конечное потребление правительства" ,
"Уравнение" : null,
"2021" : 3188 ,
"2022" : 3375 ,
"Изменение 2021-2022" : 187
} ,
{
"Элемент" : "7. Расходы на конечное потребление NPISH" ,
"Уравнение" : null,
"2021" : 193 ,
"2022" : 209 ,
"Изменение 2021-2022": 15
} ,
{
"Элемент" : "8. Расходы на конечное потребление" ,
"Уравнение" : "= 5+6+7" ,
"2021" : 14936 ,
"2022" : 16125 ,
"Изменение 2021-22" : 1068
} ,
{
"Элемент" : "9. Валовое накопление основного капитала" ,
"Уравнение" : null,
"2021" : 2538 ,
"2022" : 2865 ,
"Изменение 2021-22" : 326
} ,
{
"Элемент" : "10. Изменения в запасах и приобретения за вычетом выбытия ценностей" ,
"Уравнение" : null,
"2021" : 226 ,
"2022" : 323 ,
"Изменение 2021-22" : 98
} ,
{
"Элемент" : "11. Валовое накопление капитала" ,
"Уравнение" : "= 9+10" ,
"2021" : 2764 ,
"2022" : 3188 ,
"Изменение 2021-22" : 424
} ,
{
"Элемент" : "12. Экспорт товаров и услуг" ,
"Уравнение" : null,
"2021" : 2891 ,
"2022" : 3291 ,
"Изменение 2021-22" : 400
} ,
{
"Элемент" : "13. Общее использование" ,
"Уравнение" : "= 4+8+11+12" ,
"2021" : 30228 ,
"2022" : 34779 ,
"Изменение 2021-22" : 4552
} ,
{
"Элемент" : "14. Налоги за вычетом субсидий на продукты" ,
"Уравнение" : null,
"2021" : 459 ,
"2022" : 482 ,
"Изменение 2021-2022" : 24
} ,
{
"Элемент" : "15. Добавленная стоимость" ,
"Уравнение" : "= 1-4 =16+17+18",
"2021" : 13005 ,
"2022" : 14334 ,
"Изменение 2021-22" : 1330
} ,
{
"Элемент" : "16. Оплата труда сотрудников" ,
"Уравнение" : null,
"2021" : 6954 ,
"2022" : 7447 ,
"Изменение 2021-22" : 493
} ,
{
"Элемент" : "17. Валовая операционная прибыль и смешанный доход" ,
"Уравнение" : null,
"2021" : 6013 ,
"2022" : 6608 ,
"Изменение 2021-22" : 595
} ,
{
"Элемент" : "18. Прочие налоги за вычетом субсидии на производство" ,
"Уравнение" : null,
"2021" : 32 ,
"2022" : 158 ,
"Изменение 2021-2022" : 127

Почему это полезно?

Если вы работаете с исследовательскими данными, таблицами или отчетами, вы можете извлечь только нужную информацию без отвлекающих факторов. Затем вы можете проанализировать ее, преобразовать в электронную таблицу или визуализировать ее так, как вам хочется.

Почему Gemini 2.0 делает веб-скрапинг таким простым

С Gemini 2.0 вам не нужно писать ни единой строчки кода.

Просто поговорите с ИИ, опишите, что вам нужно, и он сделает всю сложную работу.

Независимо от того, просматриваете ли вы обзоры или извлекаете точные данные, Gemini легко адаптируется к вашим потребностям.

Попробуйте сами!

Вот несколько идей, с которых можно начать:

  • Извлеките обзоры или данные о продуктах Amazon.
  • Соберите данные о ресторанах или отелях.
  • Извлекайте финансовые таблицы или статистику из статей, как это сделал я.

Настройте Gemini 2.0, предоставьте доступ к своему экрану и просто скажите ему, что вам нужно.

Это невероятно простой способ веб-скрапинга.

0
0
0
Опубликовано:
Комментариев:0
Репостов:0
Просмотров: 0