Лекция Яна Лекуна

25.04.2026 14:33

Свежая двухчасовая лекция Яна Лекуна (лауреата премии Тьюринга) научит вас, почему следующая компания по ИИ стоимостью в триллион долларов не будет построена на больших языковых моделях. Он разносит гонку LLM за 100 миллиардов долларов, нападает на Маска и Амадеи, объявляет масштабирование мертвым.

https://x.com/i/status/2047346402435518627

**Основные тезисы лекции Yann LeCun (Lemley Family Leadership Lecture в Brown University, 1 апреля 2026 года)**

Лекция длится около 2 часов (видео начинается примерно с 7-й минуты после вступления). LeCun (Turing Award winner, бывший Chief AI Scientist Meta, сейчас — основатель AMI Labs) жёстко критикует текущий «LLM-хайп» и предлагает свою альтернативу — world models (модели мира) на базе архитектур типа JEPA/V-JEPA. Вот ключевые тезисы:

LLM — это тупиковый путь к человеческому уровню интеллекта (human-level AI)

LLMs отлично справляются с языковыми задачами (пишут код, сдают экзамены, решают олимпиады), но «полностью беспомощны в физическом мире». У них нет концепции реальности, физики, причинно-следственных связей.

Цитата: «AI sucks» (в смысле — текущие системы). Они «intrinsically unsafe», потому что не могут предсказывать последствия своих действий.

Слайд в лекции (красным шрифтом, заглавными буквами): «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs».

Scaling (масштабирование) LLMs — это «complete BS»

Сотни миллиардов долларов вкладываются в гонку за большими моделями в надежде, что они дойдут до AGI. LeCun называет это иллюзией: scaling laws выдохлись, а обучение только на текстах игнорирует огромный объём реальных данных (видео, аудио, сенсорика, научные данные).

Это не приведёт к настоящему интеллекту, а только к более продвинутым «попугаям».

Будущее — в world models (моделях мира)

World model — это предсказательная система: по текущему состоянию мира + воображаемому действию она предсказывает следующее состояние.

Обучается self-supervised (без меток) на сенсорных данных — видео, изображениях и т.д. (именно здесь LeCun продвигает свою JEPA / V-JEPA 2).

Позволяет multi-step planning (многошаговое планирование) в пространстве представлений, а не в сыром пиксельном или текстовом пространстве.

World models + guardrails = безопасный и полезный AGI

Модели мира дают возможность предсказывать последствия действий → планировать → достигать целей.

Добавляются «guardrail objectives» (ограничения безопасности), чтобы система «по конструкции» не генерировала опасные действия.

Иерархическое планирование — «большой секрет» AI, который ещё никто толком не решил, но именно оно нужно для настоящего интеллекта.

Human-level AI придёт, но не так быстро и не через LLM

Машины превзойдут людей во всех интеллектуальных доменах («there is no question»).

Но это будет «much harder than we think» и займёт больше времени, чем ожидают оптимисты.

Нужны реальные сенсорные данные, а не только текст. LeCun приводит примеры: «Где мой домашний робот? Где робот, который научится водить за 20 часов?»

Следующая триллион-долларовая AI-компания будет построена НЕ на LLM

Текущая гонка (включая атаки на Musk и Amodei в лекции) — это трата ресурсов.

Победит тот, кто построит надёжные world models + planning + safety-by-design. LeCun продвигает свою AMI Labs (уже подняла >$1 млрд) как пример такого подхода.

Логика лекции (структура аргументации)

LeCun строит речь как классический «тезис — антитезис — синтез»:

Диагноз проблемы → LLMs кажутся умными только потому, что мы судим по языку. На деле они не понимают мир, не планируют и не действуют безопасно. Scaling — это просто больше параметров на больше данных, но не смена парадигмы.

Почему это тупик → Без внутренней модели мира невозможно предсказывать последствия → невозможно безопасно действовать в реальности → невозможно достичь настоящего интеллекта (способности решать новые задачи без обучения).

Альтернатива → World models, обученные на сенсорных данных через self-supervised learning (JEPA-подобные архитектуры). Они позволяют:

Представлять мир в абстрактном пространстве.

Прогнозировать эффекты действий.

Планировать на несколько шагов вперёд.

Встраивать safety guardrails.

Практический вывод → Инвестируйте не в «ещё больше LLM», а в world models. Это и есть путь к AGI и к реальным приложениям (роботы, наука, экономика).

Коротко одним предложением:LeCun утверждает, что LLM-гонка — это дорогостоящая иллюзия, а настоящий прорыв (и триллион-долларовые компании) будет на базе предсказательных world models, которые учатся понимать и планировать в реальном мире, а не просто предсказывать следующие токены.

В Q&A LeCun подчёркивает важность академии + индустрии, фундаментальных исследований и советует студентам изучать «things that have a long shelf life» (долговечные фундаментальные вещи).

**Q&A-сессия лекции Yann LeCun в Brown University (1 апреля 2026)**

Q&A следовала после основной 30–40-минутной презентации (плюс fireside chat с Provost Francis Doyle). Она длилась около 30–40 минут, была живой, ориентированной на студентов, академию и практические последствия идей LeCun. LeCun отвечал прямо, с юмором и характерной жёсткостью.

Основные темы и ключевые ответы

1. Образование и ценность университета в эпоху AI (самая обсуждаемая тема)

Многие студенты спрашивали: «Зачем учиться в колледже, если AI всё делает?»

LeCun: «Это не правда». За последние 10 лет спрос на advanced degrees (особенно PhD) в STEM и computer science только растёт. Индустрия нуждается в людях, которые могут делать научные прорывы.

Экономический рост зависит от технологических инноваций → они зависят от фундаментальных исследований → поэтому research становится всё важнее.

Совет студентам: «Изучайте вещи с long shelf life — фундаментальные вещи» (математика, физика, основы ML, neuroscience и т.д.). Технологии ускоряются, вы почти наверняка будете менять работу несколько раз за карьеру.

2. Роль академии и коллаборации academia ↔ industry

LeCun — «firm believer» в то, что лучшие идеи рождаются на стыке разных подходов, мотиваций и окружений.

Академия даёт свободу исследовать без давления продукта, индустрия — ресурсы и данные. Без их взаимодействия прогресс замедлится.

Подчеркнул важность Brown и похожих университетов (CMU и др.) в подготовке исследователей.

3. Робототехника и world models в практике

PhD-студент Sergio (работает с world models для роботов) спросил про перспективы.

LeCun позитивно ответил: V-JEPA и подобные модели — именно то, что нужно для настоящих роботов (домашние, автономные). Сейчас мы в начале, но это решит проблему «где мой домашний робот?».

Обсуждали hierarchical planning — «большой секрет AI», который ещё никто толком не решил, но world models + action-conditioned предсказание — путь к нему.

4. Будущее AI, timelines и скептицизм

На вопрос о сроках human-level AI: «В лучшем случае через 5 лет мы будем уверены, что идём в правильном направлении, но не достигнем его. Это будет гораздо сложнее, чем мы думаем» (как всегда в истории AI за 70 лет).

Повторил критику LLM: они «intrinsically unsafe» для agentic систем. World models с guardrails — безопаснее по конструкции.

О текущей гонке: сотни миллиардов тратятся на dead-end, победят те, кто строит world models.

5. Другие возможные вопросы (по контексту лекции и типичным для LeCun)

Safety и alignment — через predictive world models + explicit objectives (не пост-фактум RLHF).

Open-source и доступность — LeCun традиционно за открытость фундаментальных исследований (как с JEPA/V-JEPA).

Конкуренция с OpenAI/Anthropic и т.д. — косвенно через критику scaling laws.

Общий тон и атмосфера

LeCun был blunt, но вдохновляющим. Студенты (Eduardo Michelsen ’29, William Yu ’26 и др.) отметили: лекция мотивировала продолжать учиться в CS/AI, несмотря на хайп вокруг LLM.

Много аплодисментов, смеха (особенно над April Fools’ шуткой в начале и слайдом «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs»).

Q&A подчеркнула, что LeCun не просто критикует — он предлагает альтернативу и уже строит её в AMI Labs.

Коротко: Q&A сдвинула акцент с «LLM — плохо» на практические советы студентам и оптимизм по поводу world models. LeCun выступил как ментор: «Не бойтесь AI, учитесь фундаментально и участвуйте в следующем витке».

Полное видео на YouTube (Brown University) — Q&A начинается примерно после 1:10–1:15.

P.S. Подробнее разберем существенную часть.

V-JEPA (Video Joint Embedding Predictive Architecture)

— это семейство моделей от Meta AI (под руководством Yann LeCun), предназначенных для построения **world models** (моделей мира) на основе видео. Это ключевая часть видения LeCun по созданию Advanced Machine Intelligence (AMI) — интеллекта, который понимает физический мир, предсказывает последствия действий и планирует, а не просто генерирует текст или пиксели.

Основная идея JEPA и почему V-JEPA

JEPA (предложена LeCun в 2022 году) — это Joint Embedding Predictive Architecture. Вместо генеративного подхода (как в диффузионных моделях или GPT, где модель пытается восстановить каждый пиксель/токен), JEPA работает в абстрактном латентном (representation) пространстве:

Есть encoder — преобразует вход (изображение/видео) в компактное семантическое представление.

Есть predictor — по частичному представлению предсказывает представление другой (маскированной или будущей) части.

Модель не пытается предсказывать точные пиксели (это дорого и неэффективно, т.к. много деталей непредсказуемы — шум, освещение, текстуры). Она фокусируется на высокоуровневых, предсказуемых концепциях (объекты, движения, взаимодействия). Это делает обучение эффективнее (в 1.5–6 раз) и представления более robust.

V-JEPA — это версия JEPA для видео (расширение I-JEPA для изображений).

Как работает V-JEPA (первая версия, 2024)

Берётся короткий клип видео (например, 64 кадра ~2 секунды).

Маскируется большая часть в пространстве и времени (не случайные патчи, а целые spatio-temporal регионы) — чтобы задача была сложной.

Encoder обрабатывает видимую часть → латентное представление.

Predictor предсказывает представления маскированных частей.

Обучение полностью self-supervised (без меток) на огромном количестве видео.

Результат: модель учится понимать физику, движения, взаимодействия объектов (например, различать «положил ручку», «взял ручку», «сделал вид, что положил»).

Преимущества:

Label-efficient — после пре-трейнинга нужен минимум размеченных данных для downstream-задач.

Frozen evaluation — encoder и predictor фиксируются, сверху добавляется лёгкий probe. Модель остаётся универсальной.

V-JEPA 2 (2025) — большой шаг к world model для роботов

Это уже 1.2B-параметровая модель, обученная на >1 млн часов интернет-видео + 1 млн изображений.

Двухэтапное обучение:

Action-free pre-training (на пассивном видео) — учится понимать и предсказывать мир.

Action-conditioned fine-tuning (на небольшом количестве робот-трейкторий, <62 часов из DROID) — predictor учится учитывать действия агента.

Ключевые возможности:

Understanding — SOTA на motion understanding (Something-Something v2), action anticipation (Epic-Kitchens).

Prediction — предсказывает, как мир изменится.

Planning — zero-shot контроль роботов (Franka arms). Робот планирует последовательность действий через model-predictive control, используя predictor как симулятор. Достигает 65–80% успеха в pick-and-place новых объектов в новых окружениях без данных из целевой среды.

V-JEPA 2-AC (action-conditioned) позволяет роботу планировать по визуальным целям (image goals), перепланнируя на каждом шаге.

Сравнение с другими подходами

Аспект LLM VLMsV-JEPA JEPA

Что предсказывает	Пиксели/токены	Следующий токен	Абстрактные представления
Эффективность	Низкая (много шума)	Высокая на тексте	Высокая на видео/физике
World model	Слабый	Отсутствует	Сильный (понимание + планирование)
Данные	Требует много	Текст + видео	Самообучение на видео
Робототехника	Ограничено	Косвенно	Zero-shot planning

Текущий статус (2026)

Есть V-JEPA 2.1 — улучшенная версия с multi-level hierarchy features, лучше для dense задач (segmentation, tracking, action anticipation).

Открытый код и модели на GitHub/Hugging Face.

LeCun продвигает JEPA как основу для настоящего AGI: hierarchical world models + planning + safety-by-design.

В контексте лекции LeCun: V-JEPA — это практическая реализация альтернативы LLM. Вместо scaling «попугаев» на текстах — self-supervised world models на сенсорных данных, которые позволяют машинам думать перед действием, как люди.