7 мин чтения
·
18 декабря 2024 г
Веб-скрапинг никогда не был таким простым, и все благодаря новаторскому мультимодальному API Google в реальном времени
Gemini 2.0.
С помощью этого инструмента вы можете без труда извлекать данные из любой веб-страницы, будь то сложная, неструктурированная или очень специфичная информация.
Сегодня я покажу вам реальные примеры, которые я опробовал сам, шаг за шагом, чтобы вы точно знали, что делать.
Даже если вы новичок, вы очень скоро почувствуете себя профессионалом.
Давайте начнем!
Прежде чем перейти к примерам, позвольте мне показать вам, как все настроить:
Как только это будет сделано, вы готовы к работе.
Ниже приведены скриншоты для справки.


Теперь позвольте мне рассказать вам о двух примерах, которые я опробовал сам.
Вот сценарий:
Я хотел собрать отзывы из объявления Airbnb, но отзывы загружаются только при прокрутке.
Так как же беспрепятственно извлечь эту информацию?
Вот как я это сделал шаг за шагом:
Я открыл объявление на Airbnb и нажал на раздел отзывов. Я выбрал один случайный объект просто для проверки и открыл раздел отзывов.


При активном Gemini 2.0 я показал весь свой экран (как было настроено ранее)


Я дал ему эту команду голосом:
«Извлечь все обзоры, видимые на экране, в структурированный формат. Продолжайте извлекать по мере прокрутки».
Пока я прокручивал обзоры, Gemini 2.0 непрерывно извлекал данные в реальном времени. Мне не нужно было останавливаться или перезагружать — он просто продолжал захватывать видимые обзоры.
После того, как я закончил прокручивать, Gemini вернул отзывы в чистом структурированном формате. Вывод включал:
Вот скриншот, как ИИ разбирается и выдает мне результат

Почему это полезно?
Независимо от того, анализируете ли вы отзывы клиентов или составляете обзоры для сравнения, этот метод сэкономит вам часы ручного копирования и вставки.
Пример вывода (JSON):
[
{
"name" : "Sonal" ,
"date" : "3 дня назад" ,
"stars" : "5" ,
"text" : "Место было прекрасным, и мы были поражены, увидев такую ухоженную и спроектированную недвижимость в Бангалоре."
} ,
{
"name" : "Rituraj" ,
"date" : "1 неделя назад" ,
"stars" : "5" ,
"text" : "Недавно я останавливался в этом объекте и получил невероятные впечатления. Объект был точно таким, как описано, и даже превзошел мои ожидания во многих отношениях. Пространство было чистым, ухоженным и тщательно продуманным. Наш хозяин был потрясающим — суперотзывчивым, дружелюбным и услужливым. В целом, я бы настоятельно рекомендовал этот объект всем, кто ищет комфортного и приятного проживания, я уже с нетерпением жду возможности вернуться!"
} ,
{
"name" : "Damodar" ,
"date" : "июнь 2024" ,
"stars" : "5" ,
"text" : "Это был замечательный отдых, хороший чистый бассейн, аккуратные номера, множество развлечений, таких как игры (футбол, карром и т. д.), приличное пианино, на котором можно было играть, в каждой комнате был телевизор, а в гостиной был большой проекционный экран. Смотритель Лакшман был вежлив и услужлив. Достаточно места для сидения по всему отелю и отличные удобные кровати сделали наш сон довольно комфортным. Детям также очень понравились крытые качели. Поверьте мне, это отличное место для отдыха... СУПЕР КОМФОРТНО и приятно. Единственным недостатком был один из поставщиков еды поблизости под названием Chaitra... советую всем, кто туда едет, либо готовить себе еду на отличной кухне, либо заказывать/обедать в близлежащих ресторанах... в радиусе 5 км есть много вариантов. Мы ужинали и завтракали у поставщика еды, однако качество было не на должном уровне. Невегетарианская еда была приготовлена не полностью. Мы заказали барбекю, овощи, не овощи и не овощи, готовились долго, и даже после этого они не были прожарены/приготовлены должным образом.. есть большие сомнения по поводу их сырья"
}
]
Вот и все! Gemini 2.0 сделал этот процесс смехотворно простым.
Для моего второго варианта использования я хотел извлечь только данные таблицы из исследовательской статьи — а не всю страницу. На этот раз я сосредоточился на точности. Вот как я это сделал:
Я нашел статью, содержащую таблицу под названием «Синоптический обзор компонентов поставок и использования, ЕС, 2021 и 2022 гг.».

Как и прежде, я поделился своим полным экраном, чтобы Gemini мог видеть всю статью.
Вместо того, чтобы извлечь все, я сказал Джемини:
«Извлеките из этой статьи только табличные данные и преобразуйте их в формат JSON».
Gemini мгновенно идентифицировал таблицу, извлек данные и вернул их в запрошенном формате JSON.
Вот что мне выдал Gemini:
{
"Таблица" : {
"Заголовок" : "Синоптический обзор компонентов поставок и использования, ЕС, 2021 и 2022 гг." ,
"Единица" : "(млрд евро)" ,
"Строки" : [
{
"Элемент" : "1. Внутреннее производство" ,
"Уравнение" : null,
"2021" : 27848 ,
"2022" : 31674 ,
"Изменение 2021-22" : 3826
} ,
{
"Элемент" : "2. Импорт товаров и услуг" ,
"Уравнение" : null,
"2021" : 2378 ,
"2022" : 3198 ,
"Изменение 2021-22" : 820
} ,
{
"Элемент" : "3. Общее предложение" ,
"Уравнение" : "1+2" ,
"2021" : 30226 ,
"2022" : 34779 ,
"Изменение 2021-22" : 4552
} ,
{
"Элемент" : "4. Промежуточное потребление" ,
"Уравнение" : null,
"2021" : 14343 ,
"2022" : 16340 ,
"Изменение 2021-22" : 1997
} ,
{
"Элемент" : "5. Расходы на конечное потребление домохозяйств" ,
"Уравнение" : null,
"2021" : 11554 ,
"2022" : 12541 ,
"Изменение 2021-22" : 986
} ,
{
"Элемент" : "6. Расходы на конечное потребление правительства" ,
"Уравнение" : null,
"2021" : 3188 ,
"2022" : 3375 ,
"Изменение 2021-2022" : 187
} ,
{
"Элемент" : "7. Расходы на конечное потребление NPISH" ,
"Уравнение" : null,
"2021" : 193 ,
"2022" : 209 ,
"Изменение 2021-2022": 15
} ,
{
"Элемент" : "8. Расходы на конечное потребление" ,
"Уравнение" : "= 5+6+7" ,
"2021" : 14936 ,
"2022" : 16125 ,
"Изменение 2021-22" : 1068
} ,
{
"Элемент" : "9. Валовое накопление основного капитала" ,
"Уравнение" : null,
"2021" : 2538 ,
"2022" : 2865 ,
"Изменение 2021-22" : 326
} ,
{
"Элемент" : "10. Изменения в запасах и приобретения за вычетом выбытия ценностей" ,
"Уравнение" : null,
"2021" : 226 ,
"2022" : 323 ,
"Изменение 2021-22" : 98
} ,
{
"Элемент" : "11. Валовое накопление капитала" ,
"Уравнение" : "= 9+10" ,
"2021" : 2764 ,
"2022" : 3188 ,
"Изменение 2021-22" : 424
} ,
{
"Элемент" : "12. Экспорт товаров и услуг" ,
"Уравнение" : null,
"2021" : 2891 ,
"2022" : 3291 ,
"Изменение 2021-22" : 400
} ,
{
"Элемент" : "13. Общее использование" ,
"Уравнение" : "= 4+8+11+12" ,
"2021" : 30228 ,
"2022" : 34779 ,
"Изменение 2021-22" : 4552
} ,
{
"Элемент" : "14. Налоги за вычетом субсидий на продукты" ,
"Уравнение" : null,
"2021" : 459 ,
"2022" : 482 ,
"Изменение 2021-2022" : 24
} ,
{
"Элемент" : "15. Добавленная стоимость" ,
"Уравнение" : "= 1-4 =16+17+18",
"2021" : 13005 ,
"2022" : 14334 ,
"Изменение 2021-22" : 1330
} ,
{
"Элемент" : "16. Оплата труда сотрудников" ,
"Уравнение" : null,
"2021" : 6954 ,
"2022" : 7447 ,
"Изменение 2021-22" : 493
} ,
{
"Элемент" : "17. Валовая операционная прибыль и смешанный доход" ,
"Уравнение" : null,
"2021" : 6013 ,
"2022" : 6608 ,
"Изменение 2021-22" : 595
} ,
{
"Элемент" : "18. Прочие налоги за вычетом субсидии на производство" ,
"Уравнение" : null,
"2021" : 32 ,
"2022" : 158 ,
"Изменение 2021-2022" : 127
Почему это полезно?
Если вы работаете с исследовательскими данными, таблицами или отчетами, вы можете извлечь только нужную информацию без отвлекающих факторов. Затем вы можете проанализировать ее, преобразовать в электронную таблицу или визуализировать ее так, как вам хочется.
С Gemini 2.0 вам не нужно писать ни единой строчки кода.
Просто поговорите с ИИ, опишите, что вам нужно, и он сделает всю сложную работу.
Независимо от того, просматриваете ли вы обзоры или извлекаете точные данные, Gemini легко адаптируется к вашим потребностям.
Вот несколько идей, с которых можно начать:
Настройте Gemini 2.0, предоставьте доступ к своему экрану и просто скажите ему, что вам нужно.
Это невероятно простой способ веб-скрапинга.