Графические процессоры NVIDIA серии RTX 3000: вот что нового

Графический процессор RTX 3080
NVIDIA

1 сентября 2020 года NVIDIA представила новую линейку игровых графических процессоров: серию RTX 3000, основанную на архитектуре Ampere. Мы обсудим, что нового, программное обеспечение на базе искусственного интеллекта, которое поставляется с ним, и все детали, которые делают это поколение действительно потрясающим.

Встречайте графические процессоры серии RTX 3000

Модельный ряд графических процессоров RTX 3000
NVIDIA

Основным анонсом NVIDIA стали новые блестящие графические процессоры, построенные по индивидуальному 8-нм техпроцессу и обеспечивающие значительное ускорение как растеризации, так и трассировки лучей.

В нижней части модельного ряда есть RTX 3070, который стоит 499 долларов. Это немного дороже для самой дешевой карты, представленной NVIDIA при первоначальном анонсе, но это абсолютная воровка, если вы узнаете, что она превосходит существующую RTX 2080 Ti, лучшую линейную карту, которая регулярно продавалась по цене более 1400 долларов. Однако после объявления NVIDIA цена сторонних продаж упала, и многие из них панически продаются на eBay по цене менее 600 долларов.

На момент анонса нет никаких надежных тестов, поэтому неясно, подходит ли карта действительно объективно «лучше», чем 2080 Ti, или если NVIDIA немного искажает маркетинг. Тесты проводились в разрешении 4K и, вероятно, имели RTX, что может сделать разрыв больше, чем он будет в чисто растеризованных играх, поскольку серия 3000 на основе Ampere будет работать более чем в два раза лучше при трассировке лучей, чем Turing. Но с учетом того, что трассировка лучей теперь не сильно влияет на производительность и поддерживается в консолях последнего поколения, основным преимуществом является то, что она работает так же быстро, как флагман прошлого поколения, почти за треть цены.

Также неясно, останется ли цена такой. Сторонние разработки регулярно добавляют к цене не менее 50 долларов, и с учетом того, насколько высок будет спрос, неудивительно, что в октябре 2020 года они будут продаваться за 600 долларов.

Чуть выше находится RTX 3080 по цене 699 долларов, что должно быть вдвое быстрее, чем RTX 2080, и примерно на 25-30% быстрее, чем 3080.

Затем, в верхней части, новый флагман — это RTX 3090, что до смешного огромно. NVIDIA хорошо осведомлена об этом и назвала это «BFGPU», что, по словам компании, означает «Big Ferocious GPU».

Графический процессор RTX 3090
NVIDIA

NVIDIA не показала никаких прямых показателей производительности, но компания показала, что она запускает игры 8K со скоростью 60 кадров в секунду, что серьезно впечатляет. Конечно, NVIDIA почти наверняка использует DLSS для достижения этой отметки, но игры 8K — это игры 8K.

Конечно, в конечном итоге будет 3060 и другие варианты более бюджетных карт, но они обычно появляются позже.

Чтобы действительно круто, NVIDIA потребовался обновленный дизайн кулера. 3080 рассчитан на 320 Вт, что довольно много, поэтому NVIDIA выбрала дизайн с двумя вентиляторами, но вместо обоих вентиляторов vwinf, размещенных снизу, NVIDIA разместила вентилятор на верхнем конце, где обычно находится задняя панель. Вентилятор направляет воздух вверх к кулеру процессора и верхней части корпуса.

направленный вверх вентилятор на графическом процессоре улучшает обдув корпуса
NVIDIA

Судя по тому, насколько на производительность может повлиять плохой воздушный поток в корпусе, это имеет смысл. Однако из-за этого на печатной плате очень мало места, что, вероятно, повлияет на розничные цены сторонних производителей.

DLSS: преимущество программного обеспечения

Трассировка лучей — не единственное преимущество этих новых карт. На самом деле, это все что-то вроде взлома — серии RTX 2000 и 3000 не который гораздо лучше справляется с реальной трассировкой лучей по сравнению с картами более старых поколений. Трассировка лучей всей сцены в программном обеспечении 3D, таком как Blender, обычно занимает несколько секунд или даже минут на кадр, поэтому о грубом форсировании менее 10 миллисекунд не может быть и речи.

Конечно, есть специальное оборудование для выполнения вычислений лучей, называемое ядрами RT, но в основном NVIDIA выбрала другой подход. NVIDIA улучшила алгоритмы шумоподавления, которые позволяют графическим процессорам воспроизводить очень дешевый одиночный проход, который выглядит ужасно, и каким-то образом — с помощью магии ИИ — превращать это в то, на что геймер хочет взглянуть. В сочетании с традиционными методами, основанными на растеризации, это дает приятные впечатления, усиленные эффектами трассировки лучей.

шумное изображение сглажено шумоподавителем NVIDIA
NVIDIA

Однако, чтобы сделать это быстро, NVIDIA добавила ядра обработки для ИИ, называемые ядрами Tensor. Они обрабатывают всю математику, необходимую для запуска моделей машинного обучения, и делают это очень быстро. Они всего кардинальное изменение для ИИ в области облачных серверов, так как ИИ широко используется многими компаниями.

Помимо шумоподавления, основное использование ядер Tensor для геймеров называется DLSS или суперсэмплингом глубокого обучения. Он берет кадр низкого качества и масштабирует его до полного исходного качества. По сути, это означает, что вы можете играть с частотой кадров 1080p, глядя на изображение 4K.

Это также немного улучшает производительность трассировки лучей —тесты из PCMag показать RTX 2080 Super работает Контроль с ультра качеством, со всеми настройками трассировки лучей, установленными на максимум. В 4K он борется только с 19 FPS, но с DLSS он получает намного лучше 54 FPS. DLSS — это бесплатная производительность для NVIDIA, которая стала возможной благодаря ядрам Tensor на процессорах Turing и Ampere. Любая игра, которая поддерживает его и ограничена графическим процессором, может получить серьезное ускорение только за счет программного обеспечения.

DLSS не нова и была объявлена ​​как функция, когда серия RTX 2000 была запущена два года назад. В то время он поддерживался очень небольшим количеством игр, так как NVIDIA требовала от NVIDIA обучения и настройки модели машинного обучения для каждой отдельной игры.

Однако за это время NVIDIA полностью его переписала, назвав новую версию DLSS 2.0. Это API общего назначения, что означает, что любой разработчик может его реализовать, и он уже используется в большинстве основных выпусков. Вместо того, чтобы работать с одним кадром, он берет данные вектора движения из предыдущего кадра, аналогично TAA. Результат намного резче, чем DLSS 1.0, и в некоторых случаях действительно выглядит лучше и резче, чем даже родное разрешение, поэтому нет особых причин не включать его.

Есть одна загвоздка — при полном переключении сцен, как в кат-сценах, DLSS 2.0 должен визуализировать самый первый кадр с качеством 50%, ожидая данных вектора движения. Это может привести к небольшому снижению качества на несколько миллисекунд. Но 99% всего, на что вы смотрите, будет обработано правильно, и большинство людей не замечают этого на практике.

СВЯЗАННЫЙ: Что такое NVIDIA DLSS и как это ускорит трассировку лучей?

Архитектура Ampere: создана для ИИ

Ампер быстр. Очень быстро, особенно при расчетах AI. Ядро RT в 1,7 раза быстрее, чем Turing, а новое ядро ​​Tensor в 2,7 раза быстрее, чем Turing. Сочетание этих двух факторов — настоящий скачок в производительности трассировки лучей для поколений.

Улучшения ядра RT и Tensor
NVIDIA

Ранее в мае NVIDIA выпустила графический процессор Ampere A100, графический процессор центра обработки данных, предназначенный для запуска ИИ. В нем они подробно описали многое из того, что делает Ampere намного быстрее. Для рабочих нагрузок центров обработки данных и высокопроизводительных вычислений Ampere в целом примерно в 1,7 раза быстрее, чем Turing. Для обучения ИИ это до 6 раз быстрее.

Улучшения производительности HPC
NVIDIA

В Ampere NVIDIA использует новый числовой формат, предназначенный для замены стандартного формата «32 с плавающей запятой» или FP32 в некоторых рабочих нагрузках. Под капотом каждое число, обрабатываемое вашим компьютером, занимает определенное количество бит в памяти, будь то 8 бит, 16 бит, 32, 64 или даже больше. Числа большего размера труднее обрабатывать, поэтому, если вы можете использовать меньший размер, у вас будет меньше проблем.

FP32 хранит 32-битное десятичное число и использует 8 бит для диапазона числа (насколько большим или маленьким оно может быть) и 23 бита для точности. NVIDIA утверждает, что эти 23 бита точности не совсем необходимы для многих рабочих нагрузок ИИ, и вы можете получить аналогичные результаты и гораздо лучшую производительность всего с 10 из них. Уменьшение размера до 19 бит вместо 32 имеет большое значение для многих вычислений.

Этот новый формат называется Tensor Float 32, а тензорные ядра в A100 оптимизированы для обработки формата странного размера. Это, помимо уменьшения размеров кристаллов и увеличения числа ядер, дает им шестикратное ускорение обучения ИИ.

Новые числовые форматы
NVIDIA

Помимо нового числового формата, Ampere видит значительное увеличение производительности в определенных вычислениях, таких как FP32 и FP64. Это не приводит напрямую к увеличению FPS для непрофессионала, но они являются частью того, что делает его почти в три раза быстрее в Tensor-операциях.

улучшения производительности тензорного ядра
NVIDIA

Затем, чтобы еще больше ускорить вычисления, они ввели концепцию мелкозернистая структурированная разреженность, что очень красивое слово для довольно простой концепции. Нейронные сети работают с большими списками чисел, называемыми весами, которые влияют на конечный результат. Чем больше чисел нужно обработать, тем медленнее будет.

Однако не все эти числа на самом деле полезны. Некоторые из них буквально равны нулю, и их можно просто выбросить, что приводит к значительному ускорению, когда вы можете обрабатывать больше чисел одновременно. Разреженность существенно сжимает числа, что требует меньше усилий для проведения расчетов. Новое «Разреженное тензорное ядро» создано для работы со сжатыми данными.

Несмотря на изменения, NVIDIA заявляет, что это вообще не должно заметно влиять на точность обучаемых моделей.

сжатие разреженных данных
NVIDIA

Для вычислений Sparse INT8, одного из форматов наименьших чисел, пиковая производительность одного графического процессора A100 составляет более 1,25 петафлопс, что является ошеломляюще высоким показателем. Конечно, это только при вычислении одного конкретного числа, но, тем не менее, это впечатляет.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован.