Техники ускорения инференса и деплоя Large Language Models

Доклад на русском языке

Компании, от небольших стартапов до крупных корпораций, хотят использовать возможности современных LLMs и внедрять их в продукты и инфраструктуру компании. Одна из проблем, с которыми они сталкиваются, заключается в огромном потреблении ресурсов при использовании больших моделей (инференса). Ускорение инференса — важная задача для разработчика, т.к. она напрямую связана с уменьшением платы за вычислительные ресурсы и скоростью отклика приложений. Спикер расскажет про разные методы для ускорения скорости генерации текста и уменьшения потребляемой памяти. А также узнаем, как лучше деплоить такие большие модели.