Лекция Яна Лекуна

Bark
25.04.2026 14:33
 

Свежая двухчасовая лекция Яна Лекуна (лауреата премии Тьюринга) научит вас, почему следующая компания по ИИ стоимостью в триллион долларов не будет построена на больших языковых моделях. Он разносит гонку LLM за 100 миллиардов долларов, нападает на Маска и Амадеи, объявляет масштабирование мертвым.

https://x.com/i/status/2047346402435518627

**Основные тезисы лекции Yann LeCun (Lemley Family Leadership Lecture в Brown University, 1 апреля 2026 года)**

Лекция длится около 2 часов (видео начинается примерно с 7-й минуты после вступления). LeCun (Turing Award winner, бывший Chief AI Scientist Meta, сейчас — основатель AMI Labs) жёстко критикует текущий «LLM-хайп» и предлагает свою альтернативу — world models (модели мира) на базе архитектур типа JEPA/V-JEPA. Вот ключевые тезисы:

  • LLM — это тупиковый путь к человеческому уровню интеллекта (human-level AI)
  • LLMs отлично справляются с языковыми задачами (пишут код, сдают экзамены, решают олимпиады), но «полностью беспомощны в физическом мире». У них нет концепции реальности, физики, причинно-следственных связей.
  • Цитата: «AI sucks» (в смысле — текущие системы). Они «intrinsically unsafe», потому что не могут предсказывать последствия своих действий.
  • Слайд в лекции (красным шрифтом, заглавными буквами): «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs».
  • Scaling (масштабирование) LLMs — это «complete BS»
  • Сотни миллиардов долларов вкладываются в гонку за большими моделями в надежде, что они дойдут до AGI. LeCun называет это иллюзией: scaling laws выдохлись, а обучение только на текстах игнорирует огромный объём реальных данных (видео, аудио, сенсорика, научные данные).
  • Это не приведёт к настоящему интеллекту, а только к более продвинутым «попугаям».
  • Будущее — в world models (моделях мира)
  • World model — это предсказательная система: по текущему состоянию мира + воображаемому действию она предсказывает следующее состояние.
  • Обучается self-supervised (без меток) на сенсорных данных — видео, изображениях и т.д. (именно здесь LeCun продвигает свою JEPA / V-JEPA 2).
  • Позволяет multi-step planning (многошаговое планирование) в пространстве представлений, а не в сыром пиксельном или текстовом пространстве.
  • World models + guardrails = безопасный и полезный AGI
  • Модели мира дают возможность предсказывать последствия действий → планировать → достигать целей.
  • Добавляются «guardrail objectives» (ограничения безопасности), чтобы система «по конструкции» не генерировала опасные действия.
  • Иерархическое планирование — «большой секрет» AI, который ещё никто толком не решил, но именно оно нужно для настоящего интеллекта.
  • Human-level AI придёт, но не так быстро и не через LLM
  • Машины превзойдут людей во всех интеллектуальных доменах («there is no question»).
  • Но это будет «much harder than we think» и займёт больше времени, чем ожидают оптимисты.
  • Нужны реальные сенсорные данные, а не только текст. LeCun приводит примеры: «Где мой домашний робот? Где робот, который научится водить за 20 часов?»
  • Следующая триллион-долларовая AI-компания будет построена НЕ на LLM
  • Текущая гонка (включая атаки на Musk и Amodei в лекции) — это трата ресурсов.
  • Победит тот, кто построит надёжные world models + planning + safety-by-design. LeCun продвигает свою AMI Labs (уже подняла >$1 млрд) как пример такого подхода.
  • Логика лекции (структура аргументации)

    LeCun строит речь как классический «тезис — антитезис — синтез»:

  • Диагноз проблемы → LLMs кажутся умными только потому, что мы судим по языку. На деле они не понимают мир, не планируют и не действуют безопасно. Scaling — это просто больше параметров на больше данных, но не смена парадигмы.
  • Почему это тупик → Без внутренней модели мира невозможно предсказывать последствия → невозможно безопасно действовать в реальности → невозможно достичь настоящего интеллекта (способности решать новые задачи без обучения).
  • Альтернатива → World models, обученные на сенсорных данных через self-supervised learning (JEPA-подобные архитектуры). Они позволяют:
  • Представлять мир в абстрактном пространстве.
  • Прогнозировать эффекты действий.
  • Планировать на несколько шагов вперёд.
  • Встраивать safety guardrails.
  • Практический вывод → Инвестируйте не в «ещё больше LLM», а в world models. Это и есть путь к AGI и к реальным приложениям (роботы, наука, экономика).

  • Коротко одним предложением:LeCun утверждает, что LLM-гонка — это дорогостоящая иллюзия, а настоящий прорыв (и триллион-долларовые компании) будет на базе предсказательных world models, которые учатся понимать и планировать в реальном мире, а не просто предсказывать следующие токены.

    В Q&A LeCun подчёркивает важность академии + индустрии, фундаментальных исследований и советует студентам изучать «things that have a long shelf life» (долговечные фундаментальные вещи).

    **Q&A-сессия лекции Yann LeCun в Brown University (1 апреля 2026)**

    Q&A следовала после основной 30–40-минутной презентации (плюс fireside chat с Provost Francis Doyle). Она длилась около 30–40 минут, была живой, ориентированной на студентов, академию и практические последствия идей LeCun. LeCun отвечал прямо, с юмором и характерной жёсткостью.

    Основные темы и ключевые ответы

    1. Образование и ценность университета в эпоху AI (самая обсуждаемая тема)

  • Многие студенты спрашивали: «Зачем учиться в колледже, если AI всё делает?»
  • LeCun: «Это не правда». За последние 10 лет спрос на advanced degrees (особенно PhD) в STEM и computer science только растёт. Индустрия нуждается в людях, которые могут делать научные прорывы.
  • Экономический рост зависит от технологических инноваций → они зависят от фундаментальных исследований → поэтому research становится всё важнее.
  • Совет студентам: «Изучайте вещи с long shelf life — фундаментальные вещи» (математика, физика, основы ML, neuroscience и т.д.). Технологии ускоряются, вы почти наверняка будете менять работу несколько раз за карьеру.
  • 2. Роль академии и коллаборации academia ↔ industry

  • LeCun — «firm believer» в то, что лучшие идеи рождаются на стыке разных подходов, мотиваций и окружений.
  • Академия даёт свободу исследовать без давления продукта, индустрия — ресурсы и данные. Без их взаимодействия прогресс замедлится.
  • Подчеркнул важность Brown и похожих университетов (CMU и др.) в подготовке исследователей.
  • 3. Робототехника и world models в практике

  • PhD-студент Sergio (работает с world models для роботов) спросил про перспективы.
  • LeCun позитивно ответил: V-JEPA и подобные модели — именно то, что нужно для настоящих роботов (домашние, автономные). Сейчас мы в начале, но это решит проблему «где мой домашний робот?».
  • Обсуждали hierarchical planning — «большой секрет AI», который ещё никто толком не решил, но world models + action-conditioned предсказание — путь к нему.
  • 4. Будущее AI, timelines и скептицизм

  • На вопрос о сроках human-level AI: «В лучшем случае через 5 лет мы будем уверены, что идём в правильном направлении, но не достигнем его. Это будет гораздо сложнее, чем мы думаем» (как всегда в истории AI за 70 лет).
  • Повторил критику LLM: они «intrinsically unsafe» для agentic систем. World models с guardrails — безопаснее по конструкции.
  • О текущей гонке: сотни миллиардов тратятся на dead-end, победят те, кто строит world models.
  • 5. Другие возможные вопросы (по контексту лекции и типичным для LeCun)

  • Safety и alignment — через predictive world models + explicit objectives (не пост-фактум RLHF).
  • Open-source и доступность — LeCun традиционно за открытость фундаментальных исследований (как с JEPA/V-JEPA).
  • Конкуренция с OpenAI/Anthropic и т.д. — косвенно через критику scaling laws.
  • Общий тон и атмосфера

  • LeCun был blunt, но вдохновляющим. Студенты (Eduardo Michelsen ’29, William Yu ’26 и др.) отметили: лекция мотивировала продолжать учиться в CS/AI, несмотря на хайп вокруг LLM.
  • Много аплодисментов, смеха (особенно над April Fools’ шуткой в начале и слайдом «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs»).
  • Q&A подчеркнула, что LeCun не просто критикует — он предлагает альтернативу и уже строит её в AMI Labs.
  • Коротко: Q&A сдвинула акцент с «LLM — плохо» на практические советы студентам и оптимизм по поводу world models. LeCun выступил как ментор: «Не бойтесь AI, учитесь фундаментально и участвуйте в следующем витке».

    Полное видео на YouTube (Brown University) — Q&A начинается примерно после 1:10–1:15.

    P.S. Подробнее разберем существенную часть.

    **V-JEPA (Video Joint Embedding Predictive Architecture)**

    — это семейство моделей от Meta AI (под руководством Yann LeCun), предназначенных для построения **world models** (моделей мира) на основе видео. Это ключевая часть видения LeCun по созданию Advanced Machine Intelligence (AMI) — интеллекта, который понимает физический мир, предсказывает последствия действий и планирует, а не просто генерирует текст или пиксели.

    Основная идея JEPA и почему V-JEPA

    JEPA (предложена LeCun в 2022 году) — это Joint Embedding Predictive Architecture. Вместо генеративного подхода (как в диффузионных моделях или GPT, где модель пытается восстановить каждый пиксель/токен), JEPA работает в абстрактном латентном (representation) пространстве:

  • Есть encoder — преобразует вход (изображение/видео) в компактное семантическое представление.
  • Есть predictor — по частичному представлению предсказывает представление другой (маскированной или будущей) части.
  • Модель не пытается предсказывать точные пиксели (это дорого и неэффективно, т.к. много деталей непредсказуемы — шум, освещение, текстуры). Она фокусируется на высокоуровневых, предсказуемых концепциях (объекты, движения, взаимодействия). Это делает обучение эффективнее (в 1.5–6 раз) и представления более robust.

    V-JEPA — это версия JEPA для видео (расширение I-JEPA для изображений).

    Как работает V-JEPA (первая версия, 2024)

  • Берётся короткий клип видео (например, 64 кадра ~2 секунды).
  • Маскируется большая часть в пространстве и времени (не случайные патчи, а целые spatio-temporal регионы) — чтобы задача была сложной.
  • Encoder обрабатывает видимую часть → латентное представление.
  • Predictor предсказывает представления маскированных частей.
  • Обучение полностью self-supervised (без меток) на огромном количестве видео.
  • Результат: модель учится понимать физику, движения, взаимодействия объектов (например, различать «положил ручку», «взял ручку», «сделал вид, что положил»).

    Преимущества:

  • Label-efficient — после пре-трейнинга нужен минимум размеченных данных для downstream-задач.
  • Frozen evaluation — encoder и predictor фиксируются, сверху добавляется лёгкий probe. Модель остаётся универсальной.
  • V-JEPA 2 (2025) — большой шаг к world model для роботов

    Это уже 1.2B-параметровая модель, обученная на >1 млн часов интернет-видео + 1 млн изображений.

    Двухэтапное обучение:

  • Action-free pre-training (на пассивном видео) — учится понимать и предсказывать мир.
  • Action-conditioned fine-tuning (на небольшом количестве робот-трейкторий, <62 часов из DROID) — predictor учится учитывать действия агента.
  • Ключевые возможности:

  • Understanding — SOTA на motion understanding (Something-Something v2), action anticipation (Epic-Kitchens).
  • Prediction — предсказывает, как мир изменится.
  • Planning — zero-shot контроль роботов (Franka arms). Робот планирует последовательность действий через model-predictive control, используя predictor как симулятор. Достигает 65–80% успеха в pick-and-place новых объектов в новых окружениях без данных из целевой среды.
  • V-JEPA 2-AC (action-conditioned) позволяет роботу планировать по визуальным целям (image goals), перепланнируя на каждом шаге.

    Сравнение с другими подходами

    Аспект LLM VLMsV-JEPA JEPA

    Что предсказываетПиксели/токеныСледующий токенАбстрактные представления
    ЭффективностьНизкая (много шума)Высокая на текстеВысокая на видео/физике
    World modelСлабыйОтсутствуетСильный (понимание + планирование)
    ДанныеТребует многоТекст + видеоСамообучение на видео
    РобототехникаОграниченоКосвенноZero-shot planning

    Текущий статус (2026)

  • Есть V-JEPA 2.1 — улучшенная версия с multi-level hierarchy features, лучше для dense задач (segmentation, tracking, action anticipation).
  • Открытый код и модели на GitHub/Hugging Face.
  • LeCun продвигает JEPA как основу для настоящего AGI: hierarchical world models + planning + safety-by-design.
  • В контексте лекции LeCun: V-JEPA — это практическая реализация альтернативы LLM. Вместо scaling «попугаев» на текстах — self-supervised world models на сенсорных данных, которые позволяют машинам думать перед действием, как люди.





    0
    0
    0
    Опубликовано:
    Комментариев:0
    Репостов:0
    Просмотров: 0