AWS и Cerebras ускоряют ИИ-инференс в Amazon Bedrock на порядок

Amazon Web Services и компания Cerebras объявили о стратегическом партнёрстве для радикального ускорения работы больших языковых моделей. Новое решение, эксклюзивно доступное в Amazon Bedrock, обещает на порядок повысить производительность ИИ-инференса.

Компании создают систему, применяющую технику диссоциированного инференса. Она разделяет процесс обслуживания LLM на два фундаментально разных этапа: префилл для обработки входных данных и декод для генерации ответов.

По данным компании Amazon, эти стадии имеют совершенно разные вычислительные характеристики. Префилл — это параллельный, вычислительно интенсивный процесс, требующий умеренной пропускной способности памяти. Декод, напротив, является последовательным, менее требовательным к вычислениям, но крайне зависимым от пропускной способности памяти.

В компании считают, что именно этап декодирования обычно занимает большую часть времени инференса, так как каждый выходной токен генерируется последовательно.

Решение сочетает специализированное оборудование под конкретные задачи. Для интенсивных вычислений на этапе префилла система использует серверы на базе процессоров AWS Trainium 3.

Задачу декодирования, требующую высокой пропускной способности памяти, эффективно обрабатывают чипы Cerebras CS-3 на основе wafer-scale архитектуры. Компании заявили, что соединят эти системы с помощью сетевой технологии Elastic Fabric Adapter (EFA).

По словам представителей партнёрства, такое разделение рабочей нагрузки позволяет каждой системе делать то, что у неё получается лучше всего. В результате инференс станет на порядок быстрее и производительнее, чем существующие сегодня решения.

AWS станет первым облачным провайдером для диссоциированного инференс-решения Cerebras, которое будет доступно исключительно через Amazon Bedrock. Клиенты смогут использовать его в рамках существующих коммерческих отношений с AWS, получив все операционные, программные и безопасностные преимущества работы в родной среде.

Платформа также предложит открытые LLM и собственные базовые модели Amazon Nova на оборудовании Cerebras. Развёртывание новой технологии в дата-центрах AWS запланировано на ближайшие месяцы; по данным AWS, открытые LLM и модели Amazon Nova будут доступны позднее в этом году.

Wiki