Свежая двухчасовая лекция Яна Лекуна (лауреата премии Тьюринга) научит вас, почему следующая компания по ИИ стоимостью в триллион долларов не будет построена на больших языковых моделях. Он разносит гонку LLM за 100 миллиардов долларов, нападает на Маска и Амадеи, объявляет масштабирование мертвым.
https://x.com/i/status/2047346402435518627
**Основные тезисы лекции Yann LeCun (Lemley Family Leadership Lecture в Brown University, 1 апреля 2026 года)**
Лекция длится около 2 часов (видео начинается примерно с 7-й минуты после вступления). LeCun (Turing Award winner, бывший Chief AI Scientist Meta, сейчас — основатель AMI Labs) жёстко критикует текущий «LLM-хайп» и предлагает свою альтернативу — world models (модели мира) на базе архитектур типа JEPA/V-JEPA. Вот ключевые тезисы:
LLM — это тупиковый путь к человеческому уровню интеллекта (human-level AI)LLMs отлично справляются с языковыми задачами (пишут код, сдают экзамены, решают олимпиады), но «полностью беспомощны в физическом мире». У них нет концепции реальности, физики, причинно-следственных связей.Цитата: «AI sucks» (в смысле — текущие системы). Они «intrinsically unsafe», потому что не могут предсказывать последствия своих действий.Слайд в лекции (красным шрифтом, заглавными буквами): «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs».Scaling (масштабирование) LLMs — это «complete BS»Сотни миллиардов долларов вкладываются в гонку за большими моделями в надежде, что они дойдут до AGI. LeCun называет это иллюзией: scaling laws выдохлись, а обучение только на текстах игнорирует огромный объём реальных данных (видео, аудио, сенсорика, научные данные).Это не приведёт к настоящему интеллекту, а только к более продвинутым «попугаям».Будущее — в world models (моделях мира)World model — это предсказательная система: по текущему состоянию мира + воображаемому действию она предсказывает следующее состояние.Обучается self-supervised (без меток) на сенсорных данных — видео, изображениях и т.д. (именно здесь LeCun продвигает свою JEPA / V-JEPA 2).Позволяет multi-step planning (многошаговое планирование) в пространстве представлений, а не в сыром пиксельном или текстовом пространстве.World models + guardrails = безопасный и полезный AGIМодели мира дают возможность предсказывать последствия действий → планировать → достигать целей.Добавляются «guardrail objectives» (ограничения безопасности), чтобы система «по конструкции» не генерировала опасные действия.Иерархическое планирование — «большой секрет» AI, который ещё никто толком не решил, но именно оно нужно для настоящего интеллекта.Human-level AI придёт, но не так быстро и не через LLMМашины превзойдут людей во всех интеллектуальных доменах («there is no question»).Но это будет «much harder than we think» и займёт больше времени, чем ожидают оптимисты.Нужны реальные сенсорные данные, а не только текст. LeCun приводит примеры: «Где мой домашний робот? Где робот, который научится водить за 20 часов?»Следующая триллион-долларовая AI-компания будет построена НЕ на LLMТекущая гонка (включая атаки на Musk и Amodei в лекции) — это трата ресурсов.Победит тот, кто построит надёжные world models + planning + safety-by-design. LeCun продвигает свою AMI Labs (уже подняла >$1 млрд) как пример такого подхода.Логика лекции (структура аргументации)
LeCun строит речь как классический «тезис — антитезис — синтез»:
Диагноз проблемы → LLMs кажутся умными только потому, что мы судим по языку. На деле они не понимают мир, не планируют и не действуют безопасно. Scaling — это просто больше параметров на больше данных, но не смена парадигмы.Почему это тупик → Без внутренней модели мира невозможно предсказывать последствия → невозможно безопасно действовать в реальности → невозможно достичь настоящего интеллекта (способности решать новые задачи без обучения).Альтернатива → World models, обученные на сенсорных данных через self-supervised learning (JEPA-подобные архитектуры). Они позволяют:Представлять мир в абстрактном пространстве.Прогнозировать эффекты действий.Планировать на несколько шагов вперёд.Встраивать safety guardrails.Практический вывод → Инвестируйте не в «ещё больше LLM», а в world models. Это и есть путь к AGI и к реальным приложениям (роботы, наука, экономика).
Коротко одним предложением:LeCun утверждает, что LLM-гонка — это дорогостоящая иллюзия, а настоящий прорыв (и триллион-долларовые компании) будет на базе предсказательных world models, которые учатся понимать и планировать в реальном мире, а не просто предсказывать следующие токены.
В Q&A LeCun подчёркивает важность академии + индустрии, фундаментальных исследований и советует студентам изучать «things that have a long shelf life» (долговечные фундаментальные вещи).
**Q&A-сессия лекции Yann LeCun в Brown University (1 апреля 2026)**
Q&A следовала после основной 30–40-минутной презентации (плюс fireside chat с Provost Francis Doyle). Она длилась около 30–40 минут, была живой, ориентированной на студентов, академию и практические последствия идей LeCun. LeCun отвечал прямо, с юмором и характерной жёсткостью.
Основные темы и ключевые ответы
1. Образование и ценность университета в эпоху AI (самая обсуждаемая тема)
Многие студенты спрашивали: «Зачем учиться в колледже, если AI всё делает?»LeCun: «Это не правда». За последние 10 лет спрос на advanced degrees (особенно PhD) в STEM и computer science только растёт. Индустрия нуждается в людях, которые могут делать научные прорывы.Экономический рост зависит от технологических инноваций → они зависят от фундаментальных исследований → поэтому research становится всё важнее.Совет студентам: «Изучайте вещи с long shelf life — фундаментальные вещи» (математика, физика, основы ML, neuroscience и т.д.). Технологии ускоряются, вы почти наверняка будете менять работу несколько раз за карьеру.2. Роль академии и коллаборации academia ↔ industry
LeCun — «firm believer» в то, что лучшие идеи рождаются на стыке разных подходов, мотиваций и окружений.Академия даёт свободу исследовать без давления продукта, индустрия — ресурсы и данные. Без их взаимодействия прогресс замедлится.Подчеркнул важность Brown и похожих университетов (CMU и др.) в подготовке исследователей.3. Робототехника и world models в практике
PhD-студент Sergio (работает с world models для роботов) спросил про перспективы.LeCun позитивно ответил: V-JEPA и подобные модели — именно то, что нужно для настоящих роботов (домашние, автономные). Сейчас мы в начале, но это решит проблему «где мой домашний робот?».Обсуждали hierarchical planning — «большой секрет AI», который ещё никто толком не решил, но world models + action-conditioned предсказание — путь к нему.4. Будущее AI, timelines и скептицизм
На вопрос о сроках human-level AI: «В лучшем случае через 5 лет мы будем уверены, что идём в правильном направлении, но не достигнем его. Это будет гораздо сложнее, чем мы думаем» (как всегда в истории AI за 70 лет).Повторил критику LLM: они «intrinsically unsafe» для agentic систем. World models с guardrails — безопаснее по конструкции.О текущей гонке: сотни миллиардов тратятся на dead-end, победят те, кто строит world models.5. Другие возможные вопросы (по контексту лекции и типичным для LeCun)
Safety и alignment — через predictive world models + explicit objectives (не пост-фактум RLHF).Open-source и доступность — LeCun традиционно за открытость фундаментальных исследований (как с JEPA/V-JEPA).Конкуренция с OpenAI/Anthropic и т.д. — косвенно через критику scaling laws.Общий тон и атмосфера
LeCun был blunt, но вдохновляющим. Студенты (Eduardo Michelsen ’29, William Yu ’26 и др.) отметили: лекция мотивировала продолжать учиться в CS/AI, несмотря на хайп вокруг LLM.Много аплодисментов, смеха (особенно над April Fools’ шуткой в начале и слайдом «IF YOU ARE INTERESTED IN HUMAN-LEVEL AI, DON’T WORK ON LLMs»).Q&A подчеркнула, что LeCun не просто критикует — он предлагает альтернативу и уже строит её в AMI Labs.Коротко: Q&A сдвинула акцент с «LLM — плохо» на практические советы студентам и оптимизм по поводу world models. LeCun выступил как ментор: «Не бойтесь AI, учитесь фундаментально и участвуйте в следующем витке».
Полное видео на YouTube (Brown University) — Q&A начинается примерно после 1:10–1:15.
P.S. Подробнее разберем существенную часть.
**V-JEPA (Video Joint Embedding Predictive Architecture)**
— это семейство моделей от Meta AI (под руководством Yann LeCun), предназначенных для построения **world models** (моделей мира) на основе видео. Это ключевая часть видения LeCun по созданию Advanced Machine Intelligence (AMI) — интеллекта, который понимает физический мир, предсказывает последствия действий и планирует, а не просто генерирует текст или пиксели.
Основная идея JEPA и почему V-JEPA
JEPA (предложена LeCun в 2022 году) — это Joint Embedding Predictive Architecture. Вместо генеративного подхода (как в диффузионных моделях или GPT, где модель пытается восстановить каждый пиксель/токен), JEPA работает в абстрактном латентном (representation) пространстве:
Есть encoder — преобразует вход (изображение/видео) в компактное семантическое представление.Есть predictor — по частичному представлению предсказывает представление другой (маскированной или будущей) части.Модель не пытается предсказывать точные пиксели (это дорого и неэффективно, т.к. много деталей непредсказуемы — шум, освещение, текстуры). Она фокусируется на высокоуровневых, предсказуемых концепциях (объекты, движения, взаимодействия). Это делает обучение эффективнее (в 1.5–6 раз) и представления более robust.
V-JEPA — это версия JEPA для видео (расширение I-JEPA для изображений).
Как работает V-JEPA (первая версия, 2024)
Берётся короткий клип видео (например, 64 кадра ~2 секунды).Маскируется большая часть в пространстве и времени (не случайные патчи, а целые spatio-temporal регионы) — чтобы задача была сложной.Encoder обрабатывает видимую часть → латентное представление.Predictor предсказывает представления маскированных частей.Обучение полностью self-supervised (без меток) на огромном количестве видео.Результат: модель учится понимать физику, движения, взаимодействия объектов (например, различать «положил ручку», «взял ручку», «сделал вид, что положил»).
Преимущества:
Label-efficient — после пре-трейнинга нужен минимум размеченных данных для downstream-задач.Frozen evaluation — encoder и predictor фиксируются, сверху добавляется лёгкий probe. Модель остаётся универсальной.V-JEPA 2 (2025) — большой шаг к world model для роботов
Это уже 1.2B-параметровая модель, обученная на >1 млн часов интернет-видео + 1 млн изображений.
Двухэтапное обучение:
Action-free pre-training (на пассивном видео) — учится понимать и предсказывать мир.Action-conditioned fine-tuning (на небольшом количестве робот-трейкторий, <62 часов из DROID) — predictor учится учитывать действия агента.Ключевые возможности:
Understanding — SOTA на motion understanding (Something-Something v2), action anticipation (Epic-Kitchens).Prediction — предсказывает, как мир изменится.Planning — zero-shot контроль роботов (Franka arms). Робот планирует последовательность действий через model-predictive control, используя predictor как симулятор. Достигает 65–80% успеха в pick-and-place новых объектов в новых окружениях без данных из целевой среды.V-JEPA 2-AC (action-conditioned) позволяет роботу планировать по визуальным целям (image goals), перепланнируя на каждом шаге.
Сравнение с другими подходами
Аспект LLM VLMsV-JEPA JEPA
| Что предсказывает | Пиксели/токены | Следующий токен | Абстрактные представления |
| Эффективность | Низкая (много шума) | Высокая на тексте | Высокая на видео/физике |
| World model | Слабый | Отсутствует | Сильный (понимание + планирование) |
| Данные | Требует много | Текст + видео | Самообучение на видео |
| Робототехника | Ограничено | Косвенно | Zero-shot planning |
Текущий статус (2026)
Есть V-JEPA 2.1 — улучшенная версия с multi-level hierarchy features, лучше для dense задач (segmentation, tracking, action anticipation).Открытый код и модели на GitHub/Hugging Face.LeCun продвигает JEPA как основу для настоящего AGI: hierarchical world models + planning + safety-by-design.В контексте лекции LeCun: V-JEPA — это практическая реализация альтернативы LLM. Вместо scaling «попугаев» на текстах — self-supervised world models на сенсорных данных, которые позволяют машинам думать перед действием, как люди.