Как это на самом деле работает?
Когда дело доходит до производительности, важно понимать компромиссы между локальными моделями и облачными API. Вот что я заметил:
- Скорость : Фактическая скорость генерации сильно варьируется в зависимости от модели вашего Mac, размера LLM и ваших настроек. На моей установке я получаю разумную производительность, которая кажется отзывчивой для интерактивного использования, особенно с меньшими квантованными моделями.
- Использование памяти : Квантованные модели — настоящие герои здесь. 4-битная квантованная модель параметров 7B может использовать около 8 ГБ ОЗУ, а 3-битная модель — еще меньше. Это делает эти модели осуществимыми на компьютерах Mac с 16 ГБ+ памяти.
- Качество : Это наиболее субъективный аспект. Хотя GPT-4 от OpenAI по-прежнему лидирует по общим возможностям, разрыв сокращается. Для многих рутинных задач модели с открытым исходным кодом, такие как Llama 3 и Mistral, работают превосходно.
- Отзывчивость : Отсутствие сетевой задержки имеет огромное значение в ощущениях от использования этих моделей. Первый токен появляется практически мгновенно после отправки подсказки, что создает гораздо более отзывчивый опыт по сравнению с вызовами API.
Преимущество локального развертывания в том, что вы можете свободно экспериментировать, чтобы найти правильный баланс для ваших конкретных потребностей, не увеличивая счета за API