https://files.web.money/files/WEm2M4On
Представляю краткий обзор ключевых моментов статьи:
Статья представляет новый подход к улучшению языковых моделей путем внедрения масштабируемых слоев памяти. В отличие от традиционных плотных нейронных сетей, эти слои памяти позволяют эффективно хранить и извлекать информацию без значительного увеличения вычислительных затрат.
Параллельную обработку на нескольких GPU
Разделяемую память между слоями
Оптимизированные CUDA-ядра
Улучшение производительности:
Предлагает путь к более эффективным и точным языковым моделям
Снижает вычислительные и энергетические требования
Особенно эффективен для задач, требующих точного запоминания фактов
Необходимость дальнейшей оптимизации для производственного использования
Потребность в специальной аппаратной оптимизации
Возможности для улучшения методов обучения и уменьшения забывания информации
Авторы убедительно показывают, что слои памяти могут стать важным компонентом будущих архитектур ИИ, предлагая эффективный способ масштабирования моделей без пропорционального увеличения вычислительных затрат.
Винсент-Пьер Бергес, Барлас Огуз, Даниэль Азиза, Вен-Тау Йи, Люк Цеттлемойер, Гарги Гош
Meta FAIR
Основные авторы
Слои памяти используют обучаемый механизм поиска по ключу и значению для добавления дополнительных параметров в модель без увеличения числа операций (FLOPs). Концептуально, редко активируемые слои памяти дополняют ресурсоёмкие плотные слои прямого распространения, обеспечивая выделенную возможность сохранять и извлекать информацию с минимальными затратами. В данной работе показано, что слои памяти выходят за рамки концептуального доказательства, демонстрируя свою полезность в современных масштабах. На прикладных задачах языковые модели, дополненные нашими улучшенными слоями памяти, превосходят плотные модели с более чем вдвое большим вычислительным бюджетом, а также модели с использованием смеси экспертов при совпадении вычислений и параметров. Мы обнаружили, что улучшения особенно заметны в задачах, связанных с фактами. Мы предоставляем полностью параллелизуемую реализацию слоя памяти, демонстрируя законы масштабирования с числом параметров памяти до 128 миллиардов, предварительно обученных на триллионе токенов, сравнивая с базовыми моделями до 8 миллиардов параметров.
Дата: 26 ноября 2024 г.
Контакты: Винсент-Пьер Бергес по адресу vincentpierre@meta.com, Барлас Огуз по адресу barlaso@meta.com
Код: https://github.com/facebookresearch/memory
Блог: https://ai.meta.com/blog/meta-fair-updates-agents-robustness-safety-architecture