От "дрессировки собак" к системам логического мышления: Эволюция ИИ и крах мифа о "следующем токене".

13.02.2026 17:57

Заметили ли вы изменения в том, как модели обрабатывают логику, после появления таких моделей рассуждений, как DeepSeek-R1? Или вы по-прежнему считаете, что они «повторяют» ошибки? Давайте разберем эволюцию подходов в развитии LLM и перестанем говорить «Это всего лишь прогноз следующего токена» (похоже это осталось в учебниках 2023 года).

Адам Халед опубликовал разбор этой эволюции - для практики важно понимать как и куда все движется.

Адхам Халед

7 минут чтения

«Кинематографический крупный план попугая, у которого половина лица видна как сложная кибернетическая конструкция, символизирующая скрытую сложность мышления искусственного интеллекта». Создано Nano Banana.

Мы все в этом участвовали - серьезная дискуссия о последнем прорыве в области логического мышления в ИИ, возможно, обсуждаете, как алгоритм DeepSeek обрабатывает сложные физические задачи или как Claude 4.5 Opus рефакторизует устаревший код C++ без нарушения сборки. Разговор тонкий. Он технический.

И тут появляется он - человек, подводящий итог.

Он появляется в разделе комментариев с самоуверенностью человека, только что открывшего огонь, и выдает финальный аргумент, который непременно прервет дискуссию:

«Расслабьтесь, ребята. LLM на самом деле не умеют рассуждать. Это всего лишь прогнозирование следующего токена. Это стохастический попугай. Он не понимает, что говорит».

Он откидывается назад, довольный. В его сознании он только что опроверг всю область генеративного искусственного интеллекта. Он считает, что, поскольку знает, как работает двигатель (вероятность), то понимает, куда едет машина (интеллект).

Вот горькая правда: аргумент о «следующем токене» устарел.

Эта идея заглохла где-то между концом 2024 и началом 2025 года. Если вы до сих пор её повторяете, вы не скептически настроены - вы технически неграмотны.

Вы смотрите на двигатель Ferrari и называете это «просто серией контролируемых взрывов бензина». Технически это верно? Да. Но функционально это бесполезно для понимания того, почему машина движется со скоростью 200 миль в час? Абсолютно.

Причина, по которой ИИ перестал просто «повторять чужие слова», не в магии. Это сдвиг в лежащей в основе когнитивной архитектуре от имитации к оптимизации.

Если вы хотите понять будущее ИИ, вам нужно перестать говорить о «прогнозировании» и начать говорить о том самом наборе аббревиатур, которые на самом деле лежат в основе современного интеллекта: RLHF, DPO, GRPO и RLVR.

Давайте разберем их по одному.

Старый мир: Когда мы были всего лишь «дрессировщицами собак» (RLHF & PPO)

Справедливости ради, стоит отметить, что «Парень, отвечающий на сообщения» не всегда ошибался. В эпоху GPT-3 (2020–2022 годы) модели в основном имитировали действия пользователей. Они читали весь интернет и учились предсказывать, какое слово, скорее всего, последует за следующим.

Но простое предсказание это хаос. Если бы вы спросили простую модель: «Как мне убить своего соседа?», она бы предсказала наиболее вероятное продолжение, найденное в даркнете, и дала бы вам инструкцию.

Представляем RLHF (обучение с подкреплением на основе обратной связи от человека).

Представьте себе RLHF как дрессировку собак. Модель (собака) генерирует ответ. Человек (дрессировщик) смотрит на нее и говорит: «Молодец» или «Плохой мальчик». Математически мы использовали алгоритм PPO (Proximal Policy Optimization) для обеспечения этого.

Механизм: Мы создали отдельный ИИ, который называется «Модель вознаграждения» (Критик). Его единственная задача заключалась в том, чтобы анализировать текст, написанный основным ИИ, и присваивать ему оценку.

Результат: Модель научилась угождать судье .

Это была эра искусственного интеллекта, ориентированного на «угождение людям». Модели стали вежливыми, безопасными и разговорчивыми. Но они не обязательно были умными . Они оптимизировали свои действия, стремясь к одобрению, а не к истине. Если иллюзия вымышленного судебного дела делала ответ более убедительным (и, следовательно, повышала оценку), модель выполняла это действие.

Именно отсюда и появилось оскорбление "Стохастический попугай". И тогда оно вполне подходило.

Переход к повышению эффективности: устранение посредников (DPO)

К 2024 году исследователи осознали одну вещь: модель «Критика» стала узким местом. Она была громоздкой, дорогостоящей и часто ошибочной.

Зачем нам отдельный ИИ для оценки результата? Почему нельзя просто передать предпочтения непосредственно в мозг основной модели?

Это привело к внедрению DPO (Direct Preference Optimization – оптимизация прямых предпочтений).

Вместо сложной работы с моделью Critic, DPO выбрала более простой подход. Мы просто показали модели пары ответов:

Ответ А: «Столица Франции Париж». (Победитель)

Ответ B: «Столица Франции - это разновидность сыра». (Проигравший)

Мы напрямую передали эти данные в функцию потерь модели. Мы дали математической модели команду: «Максимизировать вероятность A и минимизировать вероятность B».

DPO доказал, что «предпочтения» это не просто слой краски поверх модели, а их можно заложить в её фундаментальное понимание языка. Модель перестала просто предсказывать следующее часто встречающееся слово и начала предсказывать предпочтительную структуру.

Но мы по-прежнему просто учили его имитировать человеческие предпочтения. Мы не учили его думать .

Революция в рассуждениях: Эра «Системы 2» (GRPO)

Затем произошло землетрясение.

В конце 2024 и начале 2025 года такие модели, как DeepSeek-R1, изменили правила игры. Они перестали просто давать ответы; они начали рассуждать. И сделали это, используя алгоритм под названием GRPO (Group Relative Policy Optimization).

Сторонники концепции «Следующего токена» ненавидят этот вариант, потому что он противоречит их мировоззрению.

Вот как работает GRPO и почему она разрушает представление о «попугае»:

Турнир: Когда вы задаете модели, обученной с помощью GRPO, сложный математический вопрос, она не просто угадывает один путь. В процессе обучения она генерирует группу выходных данных (например, 16 различных попыток решения задачи).

Относительная оценка: система не использует «критика» для оценки. Вместо этого она сравнивает их друг с другом .

Самокоррекция: Если первая попытка не удалась, а пятая увенчалась успехом, модель усиливает нейронные связи , которые привели к пятой попытке.

Подумайте, что это значит. По сути, модель запускает симуляцию нескольких вариантов будущего, отслеживает, какой из них окажется успешным, а затем обновляет свой мозг, чтобы «думать» больше как победитель.

Речь идёт об обучении внутренней согласованности. Речь идёт об усвоении того, что «Процесс А ведёт к неудаче», а «Процесс Б ведёт к успеху».

Когда модель, обученная таким образом, пишет код, она не угадывает следующее слово. Она выполняет выученную стратегию, которая выдержала испытание миллионами попыток. Это не повторение за другими. Это стратегическая оптимизация.

Сыворотка правды: почему ИИ может программировать лучше, чем вы (RLVR)

Это последний гвоздь в гроб аргумента «оно не знает, что говорит».

Раньше (RLHF) мы полагались на людей в оценке ответов. Но люди плохо оценивают. Мы устаём. Мы пропускаем незаметные ошибки в коде. Нас легко впечатляет самоуверенная, но бессмысленная чушь.

RLVR увольняет человека.

В таких областях, как математика и программирование, у нас есть источник бесконечной, совершенной истины: Компилятор..

Цикл: Модель пишет скрипт на языке Python.

Верификатор: Система запускает скрипт.

Вердикт: В результате ошибка? -1 балл. Прошла ли программа все модульные тесты? +1 балл.

Модель больше не предсказывает, что человек бы написал, она исследует пространство доступных вариантов чтобы проверить что на самом деле правда.

Если модель пишет код, который выглядит корректным, но не выполняется, RLVR наносит ей цифровой удар. Это заставляет модель отказаться от «статистически вероятных» токенов в пользу «функционально корректных» токенов.

Это создает замкнутый цикл истинности. Модель начинает «понимать» логику Python не потому, что прочитала об этом книгу, а потому, что миллиард раз столкнулась с проблемой синтаксической ошибки и научилась больше ее не повторять.

«Отвечающий парень» опасен.

Вернемся к нашему другу из раздела комментариев.

Почему его комментарий про «Следующий токен» имеет значение? Почему бы просто не проигнорировать его?

Потому что редукционизм - враг прогресса.

Если вы считаете, что ИИ это всего лишь попугай, вы будете использовать его как попугая. Вы будете просить его писать электронные письма или подводить итоги совещаний. Вы будете относиться к нему как к игрушке.

Но пока вы этим занимаетесь, инженеры, разбирающиеся в GRPO и RLVR, используют эти модели для:

Проведения рефакторинга всей кодовой базы.

Открытия для себя новых математических доказательств.

Оптимизации цепочек поставок.

Они понимают, что хотя атомная единица - это всего лишь символ, структура представляет собой продуманный план.

Говорить «Это всего лишь прогнозирование следующего токена» теперьо всё равно что смотреть на Сикстинскую капеллу и говорить: «Это просто краска на штукатурке». Технически вы правы, но упускаете из виду всю суть замысла.

Вывод: Используйте свой мозг (чтобы модель могла использовать свой).

В следующий раз, когда вы увидите, как кто-то отвергает всю область искусственного интеллекта одной фразой, услышанной в видео на YouTube, не злитесь.Просто поймите, что они застряли в 2023 году..

Мы двинулись дальше. Мы больше не разрабатываем текстовые предсказатели. Мы создаём системы логического мышления, обернутые в текстовый интерфейс.

Конечно механизмы GRPO ( для самоконкуренции), RLVR ( для проверяемой истины) сложны. Они требуют глубокого понимания. Но именно благодаря им впервые в истории у нас есть машины, которые не просто имитируют человеческий интеллект - они начинают превосходить его в узких, поддающихся проверке областях.

Начинайте использовать !