TUMIX

28.02.2026 20:20

TUMIX — интересная работа Google Вместо того чтобы обучать ещё одну гигантскую модель, команда Google построила систему, где несколько AML работают вместе во время инференса https://arxiv.org/pdf/2510.0127

Обзор подхода

Поскольку Статья "TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture" опубликована 30 сентября 2025 года интересно что мз этого практически уже используется. В статье предлагается фреймворк TUMIX для улучшения рассуждений больших языковых моделей (LLM) на этапе тестирования (test-time scaling). Основная идея - использование ансамбля из нескольких агентов, работающих параллельно, где каждый агент применяет разные стратегии использования инструментов, таких как интерпретатор кода (Code Interpreter) и поиск в веб (Search). Агенты обмениваются промежуточными ответами и итеративно уточняют их на основе исходного вопроса и предыдущих результатов. Это позволяет комбинировать текстовое рассуждение, программирование и поиск информации для решения сложных задач. Ключевые элементы подхода:

Разнообразие агентов: Используется пул из 15 агентов с разными конфигурациями (только текст, только код, только поиск, комбинации). Разнообразие важнее простого масштабирования — оно повышает охват (coverage) и точность.

Итеративное уточнение: Агенты проходят несколько раундов, где каждый видит ответы других и генерирует улучшенную версию. Это похоже на message-passing в графах.

Адаптивное завершение: LLM-оценщик (judge) определяет момент остановки на основе уверенности и консенсуса, что снижает вычислительные затраты на 49% без потери качества.

Автооптимизация: LLM может генерировать новые стратегии агентов, улучшая производительность на 1,2%.

Результаты: TUMIX показывает улучшение точности на 3,55% в среднем по сравнению с базовыми методами (например, Self-MoA, Symbolic-MoE) на бенчмарках вроде HLE, GPQA и AIME, используя модели Gemini-2.5-Pro и Gemini-2.5-Flash. Подход эффективен для задач, требующих рассуждений, где инструменты могут помочь.

Авторы (Yongchao Chen и коллеги из Google, MIT, Harvard) подчеркивают, что фокус на разнообразии и адаптивности делает TUMIX практическим для реальных приложений LLM.

Прогресс в реализации и развитии подхода на февраль 2026 года.

С момента публикации статьи прошло около пяти месяцев, и подход TUMIX привлек внимание в сообществе AI-исследований. Основные продвижения включают теоретические расширения, open-source имплементации и интеграцию в связанные фреймворки. Вот ключевые примеры:

Теоретические расширения и связанные работы:

В январе 2026 года вышла статья "Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning" (arXiv 2601.07641) от Jiawei Lu и коллег. Они вводят парадигму Test-Time Tool Evolution (TTE), где агенты динамически синтезируют, верифицируют и эволюционируют исполняемые инструменты во время inference, чтобы преодолеть ограничения статических библиотек инструментов. TUMIX описывается как multi-agent реализация TTE: в TTE агенты эволюционируют инструменты на лету (например, генерируя Python-код для научных задач), а TUMIX интегрирует это в ансамбль для повышения эффективности. TTE показывает улучшения точности (до 0,62 против 0,56 базлайна) на новом бенчмарке SciEvo (1590 задач в науке, включая химию и физику), с высоким повторным использованием инструментов (TRR@1 ≈ 0,99). Это расширение фокусируется на научных рассуждениях, где TUMIX-подобные смеси инструментов (код + поиск) адаптируются кросс-доменно. Нет упоминаний о дальнейших обновлениях TTE после января 2026.

Другие работы, такие как "Deep Researcher with Test-Time Diffusion" (сентябрь 2025, Google), косвенно связаны, фокусируясь на test-time compute с диффузией для генерации отчетов, но без прямой ссылки на TUMIX.

Обсуждения в сообществе (Reddit, LinkedIn, YouTube) подчеркивают TUMIX как сдвиг от монолитных моделей к координированным ансамблям, где разнообразие агентов важнее масштаба.

Практические имплементации:

Open-source репозиторий zchee/tumix на GitHub реализует TUMIX в языке Go. Он поддерживает множественные модели LLM (например, Gemini-2.5-Flash/Pro), конфигурируемые параметры (температура, топ-k, максимум токенов), параллельную обработку агентов, сессии с сохранением состояния (на диске или в SQLite) и мониторинг (Prometheus метрики, трассировка HTTP). Примеры использования: низкозатратный режим с 2 раундами или батч-обработка запросов. Репозиторий имеет 42 коммита на основной ветке, но без релизов или форков. Это позволяет разработчикам тестировать TUMIX локально для задач вроде объяснения концепций.

Официальный репозиторий для TTE lujiaxuan0520/Test-Time-Tool-Evol на GitHub предоставляет систему на базе LLM для автоматической генерации, валидации и управления Python-инструментами. Это расширяет TUMIX на динамическую эволюцию инструментов, с фокусом на научные домены.

В сообществе появились инструменты вроде cmux/dmux (на основе tmux для параллельного запуска агентов) и agent-orchestrator от Composio, которые вдохновлены TUMIX и позволяют координировать агентов в реальном времени, включая A/B-тестирование (например, Claude vs. Copilot). Эти инструменты решают проблемы конфликтов и маршрутизации в multi-agent системах.

В целом, прогресс сосредоточен на интеграции TUMIX в более широкие парадигмы вроде TTE (Google, MIT и независимые исследователи) и практических инструментах (open-source в Go и Python). Нет радикальных прорывов за последние недели, но подход активно обсуждается и адаптируется для научных и реальных задач, с акцентом на снижение затрат и повышение адаптивности. Дальнейшее развитие может включать мультимодальные расширения (визуальный анализ) и интеграцию с новыми моделями LLM.