Нвидиа А100

Беспрецедентное ускорение для самых высокопроизводительных эластичных центров обработки данных в мире
Графический процессор NVIDIA A100 с тензорными ядрами обеспечивает беспрецедентное ускорение — в любом масштабе — для обеспечения самых производительных в мире эластичных центров обработки данных для приложений искусственного интеллекта, анализа данных и высокопроизводительных вычислений (HPC). Являясь ядром платформы центра обработки данных NVIDIA, A100 обеспечивает до 20 раз более высокую производительность по сравнению с предыдущим поколением NVIDIA Volta. A100 можно эффективно масштабировать или разделить на семь изолированных экземпляров графического процессора, а многоэкземплярный графический процессор (MIG) представляет собой унифицированную платформу, которая позволяет динамическим центрам обработки данных динамически адаптироваться к изменяющимся требованиям рабочей нагрузки.

A100 является частью полного решения NVIDIA для центров обработки данных, которое включает в себя строительные блоки аппаратного обеспечения, сетей, программного обеспечения, библиотек, а также оптимизированные модели ИИ и приложения от NGC. Представляя самую мощную комплексную платформу искусственного интеллекта и высокопроизводительных вычислений для центров обработки данных, она позволяет исследователям получать реальные результаты и внедрять решения в производство в масштабе, позволяя ИТ-специалистам оптимизировать использование каждого доступного графического процессора A100.

Галерея

CUDA Cores

6912

Потоковые мультипроцессоры

108

Тензорные ядра | Ген 3

432

Память графического процессора

40 ГБ HBM2e ECC включено по умолчанию

Интерфейс памяти

5120-бит

Пропускная способность памяти

1555 Гб / с

NVLink

2-сторонний, 2-слотовый, 600 ГБ/с, двунаправленный

Поддержка MIG (многоэкземплярный графический процессор)

Да, до 7 экземпляров GPU

FP64

9.7 TFLOPS

Тензорное ядро ​​FP64

19.5 TFLOPS

FP32

19.5 TFLOPS

Тензорное ядро ​​TF32

156 терафлопс | 312 терафлопс*

Тензорное ядро ​​BFLOAT16

312 терафлопс | 624 терафлопс*

Тензорное ядро ​​FP16

312 терафлопс | 624 терафлопс*

Тензорное ядро ​​INT8

624 ТОП | 1248 ТОП*

Тензорное ядро ​​INT4

1248 ТОП | 2496 ТОП*

Тепловые решения

Пассивный

Поддержка виртуальных графических процессоров

Виртуальный вычислительный сервер NVIDIA (vCS)

Интерфейс системы

PCIE 4.0 x16

Максимальная потребляемая мощность

250 W

Архитектура NVIDIA Ampere

  • A100 ускоряет большие и малые рабочие нагрузки. Будь то использование MIG для разделения графического процессора A100 на более мелкие экземпляры или NVLink для подключения нескольких графических процессоров для ускорения крупномасштабных рабочих нагрузок, A100 легко справляется с потребностями приложений разного размера, от самых маленьких задач до самых больших рабочих нагрузок с несколькими узлами.

Тензорные ядра третьего поколения

  • Технология NVIDIA Tensor Core, впервые представленная в архитектуре NVIDIA Volta, позволила значительно ускорить обучение ИИ и операции логического вывода, сократив время обучения с недель до часов и обеспечив значительное ускорение логического вывода. Архитектура NVIDIA Ampere основана на этих инновациях, обеспечивая до 20 раз больше FLOPS для ИИ. Это достигается за счет повышения производительности существующих и добавления новых значений точности — TF32, INT8 и FP64, которые ускоряют и упрощают внедрение ИИ и расширяют возможности тензорных ядер NVIDIA для высокопроизводительных вычислений.

TF32 для ИИ: 20-кратное повышение производительности, отсутствие изменений кода

  • Поскольку сети и наборы данных ИИ продолжают расширяться в геометрической прогрессии, их вычислительный аппетит также растет. Математика с более низкой точностью привела к значительному увеличению производительности, но исторически требовала внесения некоторых изменений в код. A100 предлагает новую точность, TF32, которая работает так же, как FP32, обеспечивая в 20 раз больше FLOPS для ИИ без необходимости изменения кода. А автоматическая функция смешанной точности от NVIDIA обеспечивает еще 2-кратный прирост производительности всего за одну дополнительную строку кода с точностью FP16. Тензорные ядра A100 также поддерживают точность BFLOAT16, INT8 и INT4, что делает A100 невероятно универсальным ускорителем как для обучения ИИ, так и для логических выводов.

Тензорные ядра двойной точности: крупнейшая веха со времен FP64 для высокопроизводительных вычислений

  • A100 привносит мощь тензорных ядер в высокопроизводительные вычисления, обеспечивая самую важную веху с момента появления вычислений на GPU с двойной точностью для высокопроизводительных вычислений. Третье поколение тензорных ядер в процессоре A100 позволяет выполнять матричные операции с полной точностью, соответствующей стандарту IEEE, и точностью FP64. Благодаря улучшениям в математических библиотеках NVIDIA CUDA-X ряд приложений для высокопроизводительных вычислений, которым требуются математические операции с двойной точностью, теперь могут повысить производительность и эффективность до 2.5 раз по сравнению с предыдущими поколениями графических процессоров.

Многоэкземплярный графический процессор (MIG)

  • Каждое приложение ИИ и высокопроизводительных вычислений может выиграть от ускорения, но не каждому приложению требуется производительность полноценного процессора A100. Благодаря многоэкземплярному графическому процессору (MIG) каждый A100 может быть разделен на семь экземпляров графического процессора, полностью изолированных на аппаратном уровне с собственной памятью с высокой пропускной способностью, кэш-памятью и вычислительными ядрами. Теперь разработчики могут получить доступ к революционному ускорению для всех своих приложений, больших и малых, и получить гарантированное качество обслуживания. А ИТ-администраторы могут предложить подходящее ускорение графического процессора для оптимального использования и расширения доступа для каждого пользователя и приложения.
  • MIG доступен как для «голого железа», так и для виртуализированных сред и поддерживается NVIDIA Container Runtime, которая поддерживает все основные среды выполнения, такие как LXC, Docker, CRI-O, Containerd, Podman и Singularity. Каждый инстанс MIG — это новый тип графического процессора в Kubernetes, который будет доступен во всех дистрибутивах Kubernetes, таких как Red Hat OpenShift, VMware Project Pacific и других, локально и в общедоступных облаках через подключаемый модуль NVIDIA Device Plugin для Kubernetes. Администраторы также могут воспользоваться преимуществами виртуализации на основе гипервизора, включая гипервизоры на основе KVM, такие как Red Hat RHEL/RHV и VMware ESXi, в экземплярах MIG через NVIDIA vComputeServer.

HBM2e

  • Обладая 40 гигабайтами (ГБ) памяти с высокой пропускной способностью (HBM2e), A100 обеспечивает улучшенную чистую пропускную способность 1.6 ТБ/с, а также более высокую эффективность использования динамической памяти с произвольным доступом (DRAM) на уровне 95 процентов. A100 обеспечивает в 1.7 раза более высокую пропускную способность памяти по сравнению с предыдущим поколением.

Структурная разреженность

  • Сети ИИ большие, имеют от миллионов до миллиардов параметров. Не все эти параметры необходимы для точных прогнозов, и некоторые из них можно преобразовать в нули, чтобы сделать модели «разреженными» без ущерба для точности. Тензорные ядра в A100 могут обеспечить до 2 раз более высокую производительность для разреженных моделей. Хотя функция разреженности более полезна для вывода ИИ, она также может повысить производительность обучения модели.

NVLink следующего поколения

  • NVIDIA NVLink в A100 обеспечивает в 2 раза более высокую пропускную способность по сравнению с предыдущим поколением, до 600 ГБ/с, что обеспечивает максимально возможную производительность приложений на одном сервере. Две платы NVIDIA A100 PCIe могут быть соединены мостом через NVLink, а несколько пар подключенных плат NVLink могут находиться на одном сервере (количество зависит от корпуса сервера, тепловых характеристик и мощности блока питания).

Каждая платформа глубокого обучения, более 700 приложений с ускорением на GPU

  • Графический процессор NVIDIA A100 с тензорными ядрами — флагманский продукт платформы центров обработки данных NVIDIA для глубокого обучения, высокопроизводительных вычислений и анализа данных. Он ускоряет работу всех основных сред глубокого обучения и более 700 приложений высокопроизводительных вычислений. Он доступен везде, от настольных компьютеров до серверов и облачных сервисов, обеспечивая как значительный прирост производительности, так и возможности экономии.

Возможности виртуализации

  • Виртуализированные вычислительные рабочие нагрузки, такие как ИИ, глубокое обучение и высокопроизводительные вычисления (HPC) с помощью NVIDIA Virtual Compute Server (vCS). NVIDIA A100 PCIe — идеальный способ обновления существующей инфраструктуры GPU V100/V100S с тензорными ядрами.

Структурная разреженность: в 2 раза выше производительность ИИ

  • Современные сети ИИ большие, имеют миллионы, а в некоторых случаях и миллиарды параметров. Не все эти параметры необходимы для точных прогнозов, и некоторые из них можно преобразовать в нули, чтобы сделать модели «разреженными» без ущерба для точности. Тензорные ядра в A100 могут обеспечить до 2 раз более высокую производительность для разреженных моделей. Хотя функция разреженности более полезна для вывода ИИ, она также может повысить производительность обучения модели.