Например, недавно компания AWS представила новую сеть, оптимизированную для рабочих нагрузок генеративного ИИ, — и сделала это за семь месяцев.
«Наша сеть UltraCluster первого поколения, построенная в 2020 году, поддерживала 4000 графических процессоров, или GPU, с задержкой между серверами в восемь микросекунд. Новая сеть, UltraCluster 2.0, поддерживает более 20 000 GPU с сокращением задержки на 25%. Она была построена всего за семь месяцев, и такая скорость была бы невозможна без долгосрочных инвестиций в наши собственные сетевые устройства и программное обеспечение», — написал Кальянараман.
Известная внутри компании как сеть «10p10u», UltraCluster 2.0, представленная в 2023 году, обеспечивает пропускную способность в десятки петабит в секунду со временем на передачу и прием менее 10 микросекунд. «Новая сеть обеспечивает сокращение времени обучения модели как минимум на 15%», — написал Кальянараман.
Тактика охлаждения и дизайн чипов направлены на энергоэффективность
Другим приоритетом инфраструктуры AWS является постоянное повышение энергоэффективности своих центров обработки данных. Обучение и запуск моделей ИИ могут быть чрезвычайно энергозатратными.
«Чипы ИИ выполняют математические вычисления на высокой скорости, что делает их критически важными для моделей МО. Они также генерируют гораздо больше тепла, чем другие типы чипов, поэтому новые серверы ИИ, которым требуется более 1000 Вт мощности на чип, должны будут охлаждаться жидкостью. Однако некоторые сервисы AWS используют сетевую и инфраструктуру хранения, которая не требует жидкостного охлаждения, и поэтому охлаждение этой инфраструктуры жидкостью было бы неэффективным использованием энергии», — написал Кальянараман. «Новейшая конструкция центра обработки данных AWS бесшовно интегрирует оптимизированные решения воздушного охлаждения вместе с возможностями жидкостного охлаждения для самых мощных чипсетов ИИ, таких как NVIDIA Grace Blackwell Superchips. Эта гибкая, мультимодальная конструкция охлаждения позволяет нам извлекать максимальную производительность и эффективность как при выполнении традиционных рабочих нагрузок, так и при выполнении моделей ИИ/МО».
В течение последних нескольких лет AWS разрабатывает собственные чипы, включая AWS Trainium и AWS Inferentia, с целью сделать обучение и запуск генеративных моделей ИИ более энергоэффективными. «AWS Trainium разработан для ускорения и снижения стоимости обучения моделей машинного обучения до 50 процентов по сравнению с другими сопоставимыми оптимизированными для обучения экземплярами Amazon EC2, а AWS Inferentia позволяет моделям генерировать выводы быстрее и с меньшими затратами, с лучшим соотношением цены и производительности до 40 % по сравнению с другими сопоставимыми оптимизированными для вывода экземплярами Amazon EC2», — написал Кальянараман.