Сравнение gpu: Сравнение видеокарт

Содержание

Цена-качество видеокарт (300$ и выше)

1 AMD Radeon Pro Vega 64X для рабочих станций 100.0054.87 2019366 USD250 W
2 NVIDIA GeForce GTX 1080 SLI (мобильная) для ноутбуков 74.4072.93 2016352 USD
3 AMD Radeon RX 5700 XT 50th Anniversary десктопная 72.7062.57 2019409 USD225 W
4 NVIDIA TITAN Xp десктопная 70.3771.66 2017408 USD250 W
5 NVIDIA GeForce GTX 980 SLI (мобильная) для ноутбуков 62. 2559.21 2015301 USD330 W
6 NVIDIA Quadro P3000 (мобильная) для мобильных рабочих станций 59.9460.13 2017537 USD75 W
7 NVIDIA GeForce GTX 1070 SLI десктопная 48.9771.42 2016539 USD300 W
8 NVIDIA Tesla M40 24 GB для рабочих станций
43.0747.05 2015499 USD250 W
9 AMD Radeon Pro Vega 48 для рабочих станций 41.5642.69 2019671 USD
10 AMD Radeon Pro W6600 для рабочих станций 41. 4151.99 2021812 USD100 W
11 NVIDIA GeForce RTX 2060 Super десктопная 41.3061.66 2019667 USD175 W
12 NVIDIA GeForce GTX 1070 (мобильная) для ноутбуков 36.9439.25 2016379 USD120 W
13 AMD Radeon Pro W5500 для рабочих станций 35.9034.72 2020612 USD125 W
14 AMD Radeon RX 6600 XT десктопная 35.7958.83 2021724 USD160 W
15 NVIDIA GeForce GTX 1060 3 GB десктопная 34. 1735.96 2016363 USD120 W
16 NVIDIA GeForce GTX 1650 (мобильная) для ноутбуков 33.8926.13 2019301 USD50 W
17 NVIDIA GeForce GTX 1070 десктопная 32.2450.33 2016563 USD150 W
18 NVIDIA GeForce GTX 1660 SUPER десктопная 32.1147.60 2019663 USD125 W
19 NVIDIA GeForce GTX 1660 Super десктопная 32.1147.60 2019663 USD125 W
20 NVIDIA GeForce GTX 1070 десктопная 31.
82
50.33 2016563 USD150 W
21 NVIDIA GeForce RTX 2060 десктопная 31.6252.06 2019725 USD160 W
22 AMD Radeon Pro Vega 20 для мобильных рабочих станций 31.4922.29 2018360 USD100 W
23 AMD Radeon Pro W5700 для рабочих станций 31.1056.27 20191143 USD205 W
24 NVIDIA GeForce GTX 1660 десктопная 30.4143.66 2019645 USD120 W
25 NVIDIA Titan X Pascal десктопная 30. 0648.86 2016596 USD250 W
26 AMD Radeon RX 580 (мобильная) для ноутбуков 30.0634.46 2017410 USD100 W
27 NVIDIA GeForce GTX 1080 Ti десктопная 29.8467.80 2017902 USD250 W
28 NVIDIA GeForce GTX 1080 Ti десктопная 29.7467.80 2017902 USD250 W
29 NVIDIA GeForce GTX 980 Ti
десктопная
29.6252.04 2015546 USD250 W
30 NVIDIA GeForce GTX 1060 6 GB десктопная 28. 8438.45 2016475 USD120 W
31 AMD Radeon RX 6600 десктопная 28.0549.68 2021771 USD132 W
32 NVIDIA GeForce RTX 2080 Super десктопная 27.9573.08 20191056 USD250 W
33 NVIDIA Tesla M6 для рабочих станций 27.6128.16 2015350 USD100 W
34 NVIDIA GeForce GTX 1080 десктопная 27.3156.93 2016748 USD180 W
35 AMD Radeon RX 5700 XT
десктопная
27. 1763.19 2019963 USD225 W
36 NVIDIA GeForce GTX 1080 десктопная 27.0956.93 2016748 USD180 W
37 NVIDIA TITAN V десктопная 26.7164.23 2017989 USD250 W
38 AMD Radeon RX 6700 XT
десктопная
26.1270.40 20211081 USD230 W
39 NVIDIA GeForce RTX 2070 Super Max-Q для ноутбуков 25.8254.20 2020812 USD80 W
40 NVIDIA GeForce GTX 1650 SUPER десктопная 25. 4937.39 2019657 USD100 W
41 NVIDIA GeForce RTX 3060 Ti десктопная 25.3174.24 20201153 USD200 W
42 NVIDIA GeForce RTX 2080 Super Max-Q для ноутбуков 24.9752.41 2020812 USD80 W
43 NVIDIA GeForce RTX 3070 десктопная 24.8482.27 20201262 USD220 W
44 AMD Radeon RX 5700 десктопная 24.4855.08 2019938 USD180 W
45 AMD Radeon RX 5700 десктопная 24. 4855.08 2019938 USD180 W
46 AMD Radeon Pro WX 8200 для рабочих станций 23.9151.69 20181346 USD230 W
47 AMD Radeon RX 5600 XT десктопная 23.4251.72 2020924 USD150 W
48 AMD Radeon Pro 5700 для рабочих станций 23.2944.42 20201200 USD130 W
49 AMD Radeon R9 Nano десктопная 22.9931.83 2015379 USD175 W
50 NVIDIA GeForce RTX 3060 десктопная 22. 8962.37 20211090 USD170 W
51 NVIDIA GeForce GTX 1660 Ti (мобильная) для ноутбуков 22.8838.17 2019682 USD
52 AMD Radeon Pro WX 7100 для рабочих станций 22.8129.28 2017582 USD130 W
53 AMD Radeon Vega Frontier Edition десктопная 22.2751.99 2017961 USD300 W
54 NVIDIA GeForce RTX 3070 Ti десктопная 22.1884.95 20211401 USD290 W
55 NVIDIA GeForce GTX 1650 десктопная 22. 0529.07 2019555 USD75 W
56 NVIDIA GeForce GTX 1660 Ti десктопная 21.9144.17 2019858 USD120 W
57 NVIDIA GeForce GTX 980 десктопная 21.7942.22 2014536 USD220 W
58 AMD Radeon RX 5600M для ноутбуков 21.4928.01 2020525 USD150 W
59 AMD Radeon RX 580 десктопная 20.9233.28 2017574 USD185 W
60 NVIDIA GeForce GTX TITAN X десктопная 20. 7449.07 2015711 USD250 W
61 NVIDIA GeForce RTX 2080 десктопная 20.7369.76 20181277 USD215 W
62 NVIDIA GeForce GTX 980M SLI для ноутбуков 20.5638.84 2014499 USD200 W
63 NVIDIA GeForce RTX 2080 Ti десктопная 20.2481.45 20181450 USD250 W
64 NVIDIA Quadro P5000 (мобильная) для мобильных рабочих станций 20.2480.78 20172137 USD100 W
65 NVIDIA GeForce RTX 2070 Super десктопная 20. 2468.11 20191277 USD215 W
66 AMD Radeon RX 6800 десктопная 20.1577.89 20201410 USD250 W
67 NVIDIA Quadro P2000 (мобильная) для мобильных рабочих станций 19.9852.01 20171477 USD50 W
68 NVIDIA Quadro P4000 Max-Q для мобильных рабочих станций 19.6233.06 2017803 USD100 W
69 NVIDIA GeForce GTX 1050 Ti десктопная 19.4723.75 2016340 USD70 W
70 NVIDIA GeForce GTX 1050 Ti десктопная 19. 4723.75 2016340 USD70 W
71 NVIDIA Quadro P1000 для рабочих станций 18.9616.71 2017301 USD47 W
72 NVIDIA GeForce RTX 2070 десктопная 18.8260.32 20181232 USD175 W
73 NVIDIA Quadro M5000M для мобильных рабочих станций 18.3025.93 2015468 USD100 W
74 NVIDIA GeForce GTX 780 Ti десктопная 18.1534.56 2013400 USD250 W
75 AMD Radeon RX 6800 XT десктопная 18. 0686.48 20201630 USD300 W
76 NVIDIA Quadro P4000 (мобильная) для мобильных рабочих станций 17.7836.83 20171053 USD100 W
77 NVIDIA Quadro P4000 для рабочих станций 17.4143.38 20171346 USD105 W
78 NVIDIA Quadro RTX 3000 (мобильная) для мобильных рабочих станций 17.3772.26 20192393 USD80 W
79 NVIDIA Quadro P2000 Max-Q для мобильных рабочих станций 17.2818.94 2017426 USD
80 AMD Radeon RX 5500 десктопная 17. 1732.56 2019816 USD110 W
81 AMD Radeon R9 FURY X десктопная 17.0938.00 2015670 USD275 W
82 AMD Radeon RX 5500 XT десктопная 16.5934.34 2019877 USD130 W
83 AMD Radeon Pro Vega 16 для мобильных рабочих станций 16.1017.56 2018511 USD75 W
84 AMD Radeon RX 6900 XT десктопная 15.4895.06 20201905 USD300 W
85 AMD Radeon RX Vega 64 десктопная 15. 4555.00 20171330 USD295 W
86 NVIDIA Quadro M6000 24 GB для рабочих станций 15.0947.45 20161503 USD250 W
87 AMD Radeon Pro SSG для рабочих станций 14.9339.37 20171499 USD350 W
88 NVIDIA Quadro P4200 для мобильных рабочих станций 14.6737.28 20181526 USD100 W
89 NVIDIA Quadro RTX 5000 Max-Q для мобильных рабочих станций 14.5452.76 20192130 USD80 W
90 AMD Radeon Pro W6800 для рабочих станций 14. 3272.01 20212800 USD250 W
91 NVIDIA GeForce GTX 1050 десктопная 14.1019.23 2016342 USD60 W
92 NVIDIA GeForce GTX 1050 десктопная 14.1019.23 2016342 USD60 W
93 NVIDIA Quadro RTX 8000 для рабочих станций 13.9073.62 20182920 USD260 W
94 AMD Radeon R9 390X десктопная 13.6235.71 2015750 USD275 W
95 NVIDIA Quadro T1000 (мобильная) для мобильных рабочих станций 13. 6042.99 20191890 USD50 W
96 NVIDIA Quadro RTX 4000 для рабочих станций 13.4658.47 20182482 USD160 W
97 NVIDIA GeForce GTX 1080 Max-Q для ноутбуков 13.4338.28 20171008 USD150 W
98 NVIDIA TITAN V CEO Edition десктопная 13.3163.71 20181630 USD250 W
99 NVIDIA GeForce GTX TITAN BLACK десктопная 13.2134.20 2014550 USD250 W
100 AMD Radeon RX Vega 7 для ноутбуков 13. 0515.38 2020387 USD
101 NVIDIA GeForce RTX 3080 десктопная 12.9092.05 20202077 USD320 W
102 NVIDIA GeForce GTX 1060 Max-Q 6 GB для ноутбуков 12.8036.59 20171010 USD80 W
103 AMD Radeon RX Vega 56 десктопная 12.7751.01 20171443 USD210 W
104 NVIDIA GeForce GTX 960 десктопная 12.7522.66 2015331 USD100 W
105 NVIDIA GeForce RTX 2080 Max-Q для ноутбуков 12. 7352.11 20191268 USD80 W
106 NVIDIA Quadro M4000 для рабочих станций 12.6324.98 2015603 USD120 W
107 NVIDIA GeForce RTX 2070 Super Mobile для ноутбуков 12.4964.34 20201443 USD115 W
108 NVIDIA GeForce GTX 1650 Ti Mobile для ноутбуков 12.2429.24 2020892 USD50 W
109 NVIDIA Quadro P5000 для рабочих станций 11.8844.52 20161936 USD180 W
110 AMD Radeon PRO WX 9100 для рабочих станций 11. 6447.64 20172327 USD230 W
111 NVIDIA GeForce RTX 3080 Ti десктопная 11.49100.00 20202310 USD350 W
112 AMD Radeon RX 570 десктопная 11.2926.13 2017733 USD120 W
113 NVIDIA GeForce GTX 1660 Ti Max-Q для ноутбуков 11.1233.06 20191037 USD
114 NVIDIA GeForce GTX 1050 Ti (мобильная) для ноутбуков 11.0222.20 2017545 USD75 W
115 NVIDIA Quadro M5000 для рабочих станций 10. 8335.62 20151300 USD150 W
116 AMD Radeon R9 295X2 десктопная 10.7931.54 2014600 USD500 W
117 AMD Radeon RX 5300 десктопная 10.7927.56 20201037 USD100 W
118 NVIDIA GeForce RTX 2060 (мобильная) для ноутбуков 10.6542.58 20191250 USD115 W
119 NVIDIA Quadro K6000 для рабочих станций 10.6030.48 2013731 USD225 W
120 NVIDIA GeForce RTX 2070 Max-Q для ноутбуков 10. 5145.58 20191311 USD80 W
121 NVIDIA Quadro GP100 для рабочих станций 10.1558.31 20162969 USD235 W
122 NVIDIA Quadro M6000 для рабочих станций 10.1042.27 20151733 USD250 W
123 NVIDIA Quadro RTX 5000 для рабочих станций 9.9461.00 20183283 USD230 W
124 AMD Radeon RX 560X (мобильная) для ноутбуков 9.9220.01 2017520 USD65 W
125 NVIDIA Quadro RTX 5000 (мобильная) для мобильных рабочих станций 9. 8955.63 20193065 USD110 W
126 NVIDIA Quadro M4000M для мобильных рабочих станций 9.7525.10 2015832 USD100 W
127 AMD Radeon RX Vega 9 для ноутбуков 9.4611.63 2017302 USD
128 NVIDIA Quadro P2200 для рабочих станций 9.3935.95 20192230 USD75 W
129 NVIDIA GeForce RTX 2080 Super Mobile для ноутбуков 9.3364.55 20201671 USD150 W
130 AMD Radeon Pro 5300 для рабочих станций 9. 2828.20 20201749 USD85 W
131 NVIDIA Quadro RTX 4000 (мобильная) для мобильных рабочих станций 9.2648.42 20192890 USD110 W
132 NVIDIA GeForce GTX 980M для ноутбуков 9.2027.42 2014583 USD100 W
133 NVIDIA Tesla T4 для рабочих станций 9.1941.60 20182569 USD70 W
134 AMD Radeon RX 5300M для ноутбуков 8.9414.58 2019525 USD85 W
135 AMD Radeon RX Vega 8 (Ryzen 4000) для ноутбуков 8. 8916.77 2020631 USD
136 NVIDIA Quadro P6000 для рабочих станций 8.5058.04 20163527 USD250 W
137 AMD Radeon RX Vega M GH для ноутбуков 8.3425.44 20181031 USD100 W
138 NVIDIA Quadro M2000M для мобильных рабочих станций 8.2413.37 2015363 USD55 W
139 AMD Radeon R9 370 десктопная 7.9017.71 2015380 USD110 W
140 AMD Radeon RX 580 2048SP десктопная 7. 7828.95 20181373 USD150 W
141 NVIDIA GeForce GTX 970M SLI для ноутбуков 7.7738.94 20141326 USD162 W
142 NVIDIA GeForce GTX TITAN десктопная 7.7031.98 2013806 USD250 W
143 AMD Radeon Pro WX Vega M GL для мобильных рабочих станций 7.5922.69 20181359 USD65 W
144 AMD Radeon RX 560 (мобильная) для ноутбуков 7.3415.07 2017468 USD55 W
145 AMD FirePro W7100 для рабочих станций 7. 1921.73 2014660 USD150 W
146 NVIDIA Quadro P3200 для мобильных рабочих станций 7.1431.90 20172122 USD75 W
147 AMD Radeon Pro 5500 XT для рабочих станций 7.1031.09 20202499 USD125 W
148 AMD FirePro W8100 для рабочих станций 7.0127.13 2014987 USD220 W
149 AMD FirePro W4300 для рабочих станций 6.9710.85 2015332 USD50 W
150 NVIDIA Quadro M5500 для мобильных рабочих станций 6. 9229.69 20161700 USD150 W
151 AMD Radeon Pro 5500M для мобильных рабочих станций 6.9024.80 20191950 USD85 W
152 NVIDIA Quadro M2000 для рабочих станций 6.7414.94 2016602 USD75 W
153 NVIDIA GeForce GTX 1070 Max-Q для ноутбуков 6.5626.07 20171244 USD115 W
154 AMD Radeon R7 370 десктопная 6.5016.67 2015418 USD100 W
155 NVIDIA TITAN RTX десктопная 6. 4770.73 20182579 USD280 W
156 NVIDIA Quadro T1000 для рабочих станций 6.4424.32 20192048 USD50 W
157 NVIDIA Quadro K5200 для рабочих станций 6.4422.20 2014753 USD150 W
158 NVIDIA GeForce GTX 1650 Ti Max-Q для ноутбуков 6.4223.42 20201183 USD50 W
159 AMD Radeon PRO WX 2100 для мобильных рабочих станций 6.356.57 2018343 USD35 W
160 NVIDIA Quadro M3000M для мобильных рабочих станций 6. 2921.24 2015981 USD75 W
161 AMD FirePro W7000 для рабочих станций 6.2616.03 2012337 USD150 W
162 AMD Radeon RX Vega 6 (Ryzen 4000) для ноутбуков 6.1613.88 2020717 USD
163 NVIDIA GeForce GTX 1650 Max-Q для ноутбуков 6.0322.09 20191185 USD30 W
164 AMD Radeon Pro VII для рабочих станций 6.0063.21 20204876 USD250 W
165 NVIDIA GeForce RTX 2070 (мобильная) для ноутбуков 5. 9846.33 20191758 USD115 W
166 NVIDIA Quadro P5200 для мобильных рабочих станций 5.9145.39 20173894 USD100 W
167 AMD Radeon R9 270X десктопная 5.8218.42 2013350 USD180 W
168 AMD FirePro W7170M для мобильных рабочих станций 5.6014.44 2015600 USD100 W
169 NVIDIA Quadro P2000 для рабочих станций 5.5927.26 20172108 USD75 W
170 NVIDIA GeForce GTX 1050 Ti Max-Q для ноутбуков 5. 5920.64 20181140 USD75 W
171 NVIDIA Quadro T2000 (мобильная) для мобильных рабочих станций 5.5723.31 20192221 USD60 W
172 AMD Radeon RX 560 десктопная 5.4113.50 2017596 USD75 W
173 AMD Radeon Pro 5300M для мобильных рабочих станций 5.3721.56 20192068 USD85 W
174 AMD Radeon Pro WX 3200 для мобильных рабочих станций 5.309.50 2019740 USD65 W
175 NVIDIA GeForce RTX 3090 десктопная 5. 2997.72 20203163 USD350 W
176 NVIDIA Quadro K1200 для рабочих станций 5.2710.76 2015319 USD45 W
177 NVIDIA GeForce RTX 2080 (мобильная) для ноутбуков 5.2456.66 20192003 USD150 W
178 NVIDIA GeForce RTX 2060 Max-Q для ноутбуков 5.2436.67 20191680 USD65 W
179 AMD FirePro W9000 для рабочих станций 5.2423.02 2012839 USD274 W
180 NVIDIA RTX A2000 десктопная 5. 1153.99 20212539 USD70 W
181 AMD Radeon RX 560X десктопная 5.0915.46 2018907 USD75 W
182 AMD Radeon RX 5500M для ноутбуков 5.0015.19 2019998 USD85 W
183 AMD Radeon R9 270 десктопная 4.9216.15 2013317 USD150 W
184 AMD Radeon Pro 455 для мобильных рабочих станций 4.7111.67 2016696 USD35 W
185 NVIDIA GeForce GTX 690 десктопная 4. 6721.01 2012569 USD300 W
186 AMD FirePro S7150 для рабочих станций 4.6523.54 20161683 USD150 W
187 AMD FirePro S10000 для рабочих станций 4.5619.63 2012699 USD375 W
188 NVIDIA Quadro K2200 для рабочих станций 4.5413.29 2014418 USD68 W
189 AMD Radeon Pro 555X для мобильных рабочих станций 4.4212.13 2017894 USD75 W
190 NVIDIA GeForce GTX 860M SLI для ноутбуков 4. 4118.62 2014489 USD120 W
191 NVIDIA GeForce GTX TITAN Z десктопная 4.3034.11 20141785 USD375 W
192 AMD Radeon HD 7970 десктопная 4.3019.68 2011542 USD250 W
193 AMD FirePro W9100 для рабочих станций 4.2529.07 20141744 USD275 W
194 AMD Radeon Pro 555 для мобильных рабочих станций 4.2511.78 2017894 USD75 W
195 NVIDIA GeForce GTX 970M для ноутбуков 4. 2422.03 2014848 USD81 W
196 AMD Radeon Pro WX 5100 для рабочих станций 4.2420.95 20161797 USD75 W
197 AMD FirePro S9050 для рабочих станций 4.2014.67 2014550 USD225 W
198 AMD Radeon Pro Vega 56 для рабочих станций 4.1945.79 20174999 USD210 W
199 AMD Radeon RX 550 десктопная 4.1510.24 2017540 USD50 W
200 AMD Radeon HD 7870 десктопная 4. 0517.48 2012452 USD200 W

выбираем лучшие из девяти новых GPU / Хабр

Весной 2021 года NVIDIA представила новую линейку видеокарт RTX Ax000 и Ax0 на архитектуре Ampere, с тензорными ядрами третьего поколения. На тот момент в Selectel уже можно было арендовать

выделенные и облачные серверы с GPU

Tesla M60, T4, V100 и даже топовыми NVIDIA A100.

Поскольку мы стараемся предоставлять клиентам только актуальное железо с современными технологиями, решили, что пора обновить линейку видеокарт. Предлагать все анонсированные NVIDIA видеокарты нерационально как для нас, так и для клиентов. Под катом расскажу, как мы выбирали лучших из лучших и поделюсь результатами нашего бенчмарка на тестовой сборке.

Подход, с помощью которого мы в Selectel выбираем железо — видеокарты, процессоры и другие комплектующие, — довольно прост. Мы предполагаем, что клиент хочет решить свои бизнес-задачи эффективно и с минимальными затратами. Соответственно, отталкиваемся от следующей формулы:

По ней же мы выбирали лидеров среди новых видеокарт.

Какие видеокарты рассматривали


Сравнивали девять GPU: видеокарты RTX от А2000 до А6000, А10, А16, А30, А40 и A100 PCIe. A2000 вышла только летом этого года, но это не помешало рассмотреть характеристики чипа и протестировать образец.

Тут у нас «семья» RTX Ax000 — от старшей A5000 до младшей А2000.

Все участники тестирования — серверные видеокарты, десктопных GeForce RTX 3080 и 3090 в списке нет. Эти карты (а если быть точным, установка драйверов NVIDIA) запрещены к использованию в серверах в дата-центрах. Производитель строго следит за соблюдением ограничений: санкции за нарушение применяются не только к провайдеру, но и клиенту, который арендует сервер с десктопным железом или устанавливает на нем ПО NVIDIA.

Для оценки видеокарт мы отталкивались от нескольких характеристик, которые важны для решения задач, часто возникающих у клиентов. То есть смотрели на то, за что, вообще, берут эти GPU. Назначение ядер представлено в упрощенной форме, каждый тип влияет на производительность видеокарты.

Среди них:

  1. Число ядер CUDA (для тех, кто не знает, это условное обозначение скалярных вычислительных блоков в видеочипах NVIDIA). Чем больше ядер, тем лучше карта справляется с работой с графикой и вычислениями в целом.
  2. Число тензорных ядер, которые динамически оптимизируют вычисления и здорово справляются с нагрузками, характерными для работы с ИИ, перемножением матриц для обучения нейросетей и анализа данных.
  3. Число RT (Ray Tracing) ядер, которые обеспечивают высокую точность рендеринга.

    К слову, NVIDIA не всегда указывает точное количество CUDA, RT и тензорных ядер. Для сравнения мы использовали данные сторонних источников.

  4. Объем памяти.
  5. Пропускная способность памяти. Эти два пункта логично влияют на производительность видеокарты.
  6. Поддержка виртуальных GPU VDI. Этот пункт важен, поскольку инфраструктуру виртуальных рабочих столов нередко используют наши клиенты.
  7. Энергопотребление. Это, скорее, пунктик для нас: для дата-центра этот показатель важен при выборе корпуса, питания для сервера и стойки.

Вот что получилось по цифрам:


Данные не предоставляются NVIDIA, взяты из открытых сторонних источников (pny.eu, techpowerup.com).

Какие выводы можно сделать из этой таблички

Для линейки RTX Ax000 характеристики растут почти линейно с ростом индекса модели.

A16 — это четыре видеокарты в одной. NVIDIA позиционирует устройство как специальное решение для VDI.

A30, на первый взгляд, менее производительная, чем A10, однако тип памяти HBM2 имеет большую пропускную способность. NVIDIA позиционирует A30 как решение для ИИ. По обоим устройствам компания не публикует данные по количеству тензорных и других ядер (характеристики получены из сторонних источников).

В сравнение с другими видеокартами в таблице, топовое решение A100 в форм-факторе PCIe имеет максимальную пропускную способность памяти и максимальное количество тензорных ядер, что ожидаемо. Очевидно, что основное назначение этой GPU — работа с искусственным интеллектом и сложными вычислениями. В линейке NVIDIA это самая производительная видеокарта на сегодняшний день, особенно версия с 80 ГБ памяти в форм-факторе SXM. Но последняя распаивается на плате, и из соображений унификации мы рассматривали только вариант в форм-факторе PCIe.

NVIDIA A4000.

А сколько стоит


Следуя уже озвученной формуле по выбору комплектующих, рассмотрим цены. Сложно писать о них в 2021 году, который запомнился кризисом чипов и постоянными перебоями поставок.

Точных цифр не будет по двум причинам. Во-первых, это коммерческая тайна. Во-вторых, и это главное, с момента анонсирования карт весной цены успели измениться (и, уверен, продолжат меняться далее).

Будем использовать такой подход: примем за эталон GPU A5000 — его цена в сравнительной таблице будет равняться 1 «попугаю». Цены на остальные карты я представлю через отношение к цене A5000. A10 и A16 в близком ценовом диапазоне, поэтому «стоят» столько же.

На этом этапе соотношение цен и заявленных характеристик ожидаемо. Первый кандидат на добавление в линейку видеокарт Selectel, на роль младшей модели, – А2000. Также вызывает интерес паритет между A5000, A10 и A16.

Изнанка наших GPU.

Перейдем к тестированию производительности претендентов.

Тестирование видеокарт


Проводить тесты оборудования — обычная практика для Selectel. Мы используем большое количество железа в различных продуктах компании, поэтому тестируем его как на совместимость друг с другом и ПО, так и на производительность.

Для этого у нас есть своя «лаборатория» — Selectel Lab. Некоторое оборудование мы даже предоставляем клиентам для бесплатного тестирования в их проектах. Из свежих примеров: отдаем на тест настоящего монстра DGX A100 c 8 одноименными видеокартами. Подробней о его бенчмарке можно прочитать по ссылке.

Для тестирования новых видеокарт мы собрали тестовые серверы с двумя мощными процессорами от Intel и достаточным количеством оперативной памяти.

Вот один из серверов для тестирования.

Характеристики следующие:

  • 2 × Intel® Xeon® Gold 6240: 18 ядер с частотой 2.6 ГГц
  • 192–384 ГБ DDR4;
  • 240–480 ГБ SSD SATA;
  • 1 × выбранный GPU

Бенчмарки, которые мы выбрали:

GeekBench 5 — общий тест, моделирующий выполнение задач и определяющий производительность GPU.

AI-benchmark — тест производительности, который замеряет скорость обучения и применения различных нейронных сетей на задачах распознавания и классификации.

V-Ray Benchmark — тест для проверки скорости рендеринга.

ffmpeg NVENC — тест на производительность при транскодинге видео.

Результаты тестирования представлены в таблице. Выделили лидеров по каждому пункту.


На время написания статьи видеокарт A16 и RTX A6000 на руках у нас не было, поэтому в таблицу они не вошли. Их бенчмарк планируется позже.

Лидеры бенчмарка


По результатам тестирования A5000 побеждает по соотношению цены и качества. Лучший результат в OpenCL Compute Score, незначительно уступает более дорогим A40 и A100 в CUDA Compute Score и подойдет для работы с графикой. Второе место в AI-benchmark после A100. Лидер в V-Ray тесте на скорость рендеринга, лидер в тесте на транскодинг. Поддерживает VDI. Безоговорочно наш вариант, если сопоставить с таблицей цен.

A2000 — в пять раз дешевле A5000, при этом демонстрирует приемлемые результаты бенчмарка для базовой модели. Не поддерживает VDI, но подходит для работы с графикой и задач ИИ.

A4000 — «середнячок» по производительности между A2000 и A5000, не поддерживает VDI, но в остальном выдерживает критику по соотношению цены и результатов бенчмарков.

A100, как я уже писал, — безоговорочный лидер для работы с искусственным интеллектом, обучением моделей, инференсом, анализом данных и сложными вычислениями. Оптимален для инфраструктуры удаленных рабочих столов.

Остальные GPU при сравнении бенчмарков и цены показали меньшие результаты.

Финал


На пьедестале победителей (которые, кстати, уже можно заказать на сайте) — четыре видеокарты. Нашей формуле соответствуют RTX A2000, RTX A4000, RTX A5000 и A100.

Мы хотим предоставить клиентам свободу выбора: от недорогих серверов с одним GPU до кластеров с несколькими видеокартами на борту. Если нужен «крепкий» сервер для рендеринга, добавьте в него A2000 — выполнит работу на пять и не «съест» бюджет. А для амбициозных задач со сложными вычислениями, ИИ, крупными VDI-проектами есть сервер с восемью А100. Уже есть готовый конфиг. Несмотря на наш строгий отбор, мы готовы предоставить клиенту любую карту NVIDIA (кроме десктопных RTX 3080 и 3090, конечно).

Выбранные карты в наличии на складе, а это значит, что кастомный сервер с ними вы получите в течение пяти дней. Если подойдет уже собранный сервер с GPU, он будет готов для работы уже через 2-60 минут.

Технический обзор Surface Book 3 GPU — Surface

  • Статья
  • Чтение занимает 9 мин
Были ли сведения на этой странице полезными?

Оцените свои впечатления

Да Нет

Хотите оставить дополнительный отзыв?

Отзывы будут отправляться в корпорацию Майкрософт. Нажав кнопку «Отправить», вы разрешаете использовать свой отзыв для улучшения продуктов и служб Майкрософт. Политика конфиденциальности.

Отправить

В этой статье

Введение

Surface Book 3, самый мощный пока выпущенный ноутбук Surface, интегрирует полностью модернизированные возможности вычислений и графики в свой знаменитый съемный форм-фактор. Под руководством четырехъядерного 10-го поколения Intel® Core™ i7 и NVIDIA® Quadro RTX™ 3000 графических процессоров (GPU) на 15-дюймовой модели, Surface Book 3 поставляется в широком диапазоне конфигураций для потребителей, творческих специалистов, архитекторов, инженеров и ученых данных. В этой статье объясняются основные различия между конфигурациями GPU для 13-дюймовых и 15-дюймовых моделей Surface Book 3.

Значительным дифференциатором Surface Book трех моделей является конфигурация GPU. Помимо интегрированного GPU Intel, встроенного во все модели, все устройства, кроме начального уровня 13,5-дюймового core i5, также оснащены дискретным GPU NVIDIA с max-Q Design, который включает функции, оптимизируя энергоэффективность для мобильных форм-факторов.

Встроенный в базу клавиатуры, дополнительный GPU NVIDIA предоставляет расширенные возможности визуализации графики и поставляется в двух основных конфигурациях: GeForce® GTX® 1650/1660 Ti для потребителей или творческих специалистов и Quadro RTX 3000 для творческих специалистов, инженеров и других бизнес-специалистов, которым необходимы расширенные графики или возможности глубокого обучения. В этой статье также описано, как оптимизировать использование GPUs приложения, указав, какие приложения должны использовать интегрированный iGPU по сравнению с дискретным GPU NVIDIA.

Surface Book 3 GPUs

В этом разделе описываются интегрированные и дискретные GPUs для Surface Book 3 моделей. Сведения о конфигурации всех моделей со ссылкой на приложение A: Surface Book 3 SKUs.

Intel Iris™ Plus Graphics

Интегрированный GPU (iGPU), включенный во все модели Surface Book 3, включает более широкий графический движок и переработанный контроллер памяти с поддержкой LPDDR4X. Установленный в качестве вторичного GPU на большинстве Surface Book 3 моделей, Intel Iris Plus Graphics выполняет функции сингулярного GPU в основной модели i5 с диагональю 13,5 дюйма. Хотя номинально устройство начального уровня в строке Surface Book 3, оно предоставляет расширенные графические возможности, позволяющие потребителям, любителям и онлайн-создателям запускать новейшее программное обеспечение производительности, например Adobe Creative Cloud, или наслаждаться играми в 1080p.

NVIDIA GeForce GTX 1650

NVIDIA GeForce GTX 1650 с помощью дизайна Max-Q обеспечивает крупное обновление основного мультипроцессора потоковой передачи для более эффективного обработки сложной графики современных игр. Одновременное выполнение операций плавающей точки и многостройки повышает производительность в вычислительных нагрузках современных игр. Новая архитектура единой памяти с двукратным кэшом предшественника позволяет улучшить производительность сложных современных игр. Новые улучшения в области затенки повышают производительность, повышают качество изображения и обеспечивают новые уровни геометрической сложности.

NVIDIA GeForce GTX 1660 Ti

Чем быстрее GeForce GTX 1650, тем быстрее GeForce GTX 1660 Ti обеспечивает Surface Book 3 дополнительные улучшения производительности и включает в себя новый и обновленный кододер NVIDIA, что делает его лучше для потребителей, геймеров, живых стримеров и творческих специалистов.

Благодаря 6 ГБ графической памяти GDDR6, Surface Book 3 модели, оснащенные NVIDIA GeForce GTX 1660 TI, обеспечивают превосходные скорости на передовом программном обеспечении производительности бизнеса и популярных играх, особенно при запуске самых современных названий или livestreaming. С необязательным SSD 2 TB (доступно только в США), 15-дюймовая модель с GeForce GTX 1660 Ti обеспечивает наибольшее хранилище любого устройства Surface Book 3.

NVIDIA Quadro RTX 3000

NVIDIA Quadro RTX 3000 открывает несколько ключевых функций для профессиональных пользователей: отрисовку трассировки лучей и ускорение ИИ, а также расширенные показатели графики и вычислений. Сочетание 30 ядер RT, 240 ядер тенсора и 6 ГБ графической памяти GDDR6 позволяет использовать несколько расширенных рабочих нагрузок, включая рабочие процессы с питанием от «Аль», создание 3D-контента, усовершенствование редактирования видео, профессиональное вещание и рабочие процессы с несколькими приложениями. Enterprise оборудование и поддержка программного обеспечения интегрируют средства развертывания для максимального простоя и минимизации требований к ИТ-поддержке. Сертифицированные для самых современных программных средств в мире, драйверы Quadro оптимизированы для профессиональных приложений и настроены, протестированы и проверены для обеспечения сертификации приложений, стабильности, надежности, доступности и поддержки с расширенной доступностью продукта.

Сравнение GPUs в Surface Book 3

GPUs NVIDIA обеспечивают пользователям большую производительность для игр, livestreaming и создания контента. Продукты GeForce GTX отлично подходит для геймеров и создателей контента. Продукты Quadro RTX ориентированы на профессиональных пользователей, обеспечивают большую производительность в играх и создании контента, а также добавляют следующие функции:

  • Ускорение RTX для отслеживания лучей и ИИ. Это позволяет отрисовка объектов и сред с физическими точными тенями, отражениями и преломлями. А его аппаратные возможности ускоренного ИИ означает, что расширенные функции на основе ИИ в популярных приложениях могут работать быстрее, чем когда-либо ранее.
  • Enterprise оборудования, драйверов и поддержки, а также сертификации приложений ISV.
  • Функции ИТ-управления, включая дополнительный уровень специальных корпоративных средств для удаленного управления, которые помогают увеличить время простоя и свести к минимуму требования к ИТ-поддержке.

Если вы не засчитаете себя в рядах специалистов в области разработки, дизайна, архитектуры или науки о данных, Surface Book 3, оснащенные графическими возможностями NVIDIA GeForce, скорее всего, будут отвечать вашим потребностям. И наоборот, если вы уже работаете или хотите присоединиться к профессии, которая требует высокоразвитых возможностей графики в переносном форм-факторе, который позволяет работать из любого места, Surface Book 3 с Quadro RTX 3000 заслуживает серьезного внимания. Дополнительные сведения можно найти в техническом Surface Book 3 Quadro RTX 3000.

Таблица 1: Дискретные GPUs на Surface Book 3

GeForce GTX 1650GeForce GTX 1660 TiQuadro RTX 3000
Целевые пользователиГеймеры, любители и создатели в ИнтернетеГеймеры, творческие специалисты и создатели в ИнтернетеТворческие специалисты, архитекторы, инженеры, разработчики, специалисты по данным
Рабочий процессГрафический дизайн
Фотография
Видео
Графический дизайн
Фотография
Видео
Рабочий процесс с питанием от al
Сертификация приложений
Видео с высоким уровнем повторной записи
Pro вещания
Рабочий процесс с несколькими приложениями
Ключевые приложенияAdobe Creative SuiteAdobe Creative SuiteAdobe Creative Suite
Autodesk AutoCAD
Dassault Systemes SolidWorks
Ускорение GPUОбработка видео и изображенийОбработка видео и изображенийОтслеживание лучей + AI + 6K видео
Pro вещания
Enterprise поддержки

Таблица2. Технические характеристики GPU на Surface Book 3

GeForce GTX 1650GeForce GTX 1660 TiQuadro RTX 3000
Ядра обработки NVIDIA CUDA102415361920
NVIDIA Tensor CoresНетНет240
NVIDIA RT CoresНетНет30
Память GPU4 ГБ6 ГБ6 ГБ
Пропускная способность памяти (GB/sec)До 112До 288До 288
Тип памятиGDDR5GDDR6GDDR6
Интерфейс памяти128-bit192-bit192-bit
Boost clock MHz124514251305
Базовые часы (MHz)10201245765
Отслеживание лучей в режиме реального времениНетНетДа
Ускорение оборудования ИИНетНетДа
Аппаратный коддерДаДаДа
Драйвер готовности к игре (GRD)Да 1Да 1Да 2
Драйвер Studio (SD)Да 1Да 1Да 1
Оптимальный драйвер для Enterprise (ODE)НетНетДа
Драйвер новых функций Quadro (QNF)НетНетДа
API Microsoft DirectX 12, API Vulkan, Open GL 4. 6ДаДаДа
Защита цифрового контента с высокой пропускной способностью (HDCP) 2.2ДаДаДа
Повышение GPU NVIDIAДаДаДа
  1. Рекомендуется
  2. Поддерживается

Оптимизация мощности и производительности Surface Book 3

Windows 10 включает режим saver батареи с ползунком производительности, который позволяет повысить производительность приложения (сдвинув его вправо) или сохранить время автономной работы (сдвинув его влево). Surface Book 3 реализует эту функцию алгоритмически для оптимизации мощности и производительности в следующих компонентах:

  • Регистры энергоэффективности ЦП (технология смены скорости Intel) и другие параметры настройки SoC для максимальной эффективности.
  • Fan Maximum RPM с четырьмя режимами: тихой, номинальной, производительной и максимальной.
  • Крышки мощности процессора (PL1/PL2).
  • Ограничения IA Turbo процессора.

По умолчанию, когда батарея опускается ниже 20 процентов, saver батареи регулирует параметры, чтобы продлить срок службы батареи. При подключении к мощности Surface Book 3 по умолчанию для параметров «Лучшая производительность», чтобы обеспечить работу приложений в режиме высокой производительности на вторичном GPU NVIDIA, присутствуют во всех системах i7 Surface Book 3.

Использование параметров по умолчанию рекомендуется для оптимальной производительности при использовании в качестве ноутбука или отсоединения в режиме планшета или студии. Вы можете получить доступ к saver батареи, выбрав значок батареи справа от панели задач.

Режим игры

Surface Book 3 включает новый режим игры, который автоматически выбирает максимальные параметры производительности при запуске.

Сейф Detach

Новые в Surface Book 3, приложения, включенные для Сейф Detach, позволяют отключиться во время использования GPU приложения. Для поддерживаемых приложений, таких как World of Warcraft, ваша работа перемещается в iGPU.

Изменение параметров приложения, чтобы всегда использовать определенный GPU

Вы можете переключаться между энергосберегаемой, но все еще способной встроенной графикой Intel и более мощным дискретным GPU NVIDIA и связать GPU с определенным приложением. По умолчанию Windows 10 автоматически выбирает соответствующий GPU, назначая графически требующие приложения дискретным GPU NVIDIA. В большинстве случаев нет необходимости вручную настраивать эти параметры. Однако если вы часто отсоединяем и повторно отсоединяем дисплей от базы клавиатуры при использовании графического приложения, обычно необходимо закрыть приложение до отсоединения. Чтобы включить непрерывное использование приложения, не закрывая его каждый раз, когда вы отсоедините или повторно прикрепите дисплей, вы можете назначить его интегрированному GPU, хотя и с некоторой потерей производительности графики.

В некоторых случаях Windows 10 может назначить графически требующим приложения iGPU; например, если приложение не полностью оптимизировано для гибридной графики. Чтобы исправить это, можно вручную назначить приложение дискретным GPU NVIDIA.

Настройка приложений с помощью настраиваемых параметров каждого GPU:

  1. Перейдите Параметры > **** > системный дисплей и выберите графические Параметры.

    1. Для настольной Windows выберите классический обзор приложенийи > **** найдите ее.
    2. Для приложения UWP выберите универсальное приложение, а затем выберите приложение из выпадаемого списка.
  2. Выберите Добавить, чтобы создать новую запись в списке для выбранной программы, выберите Параметры для открытия спецификаций графики, а затем выберите нужный вариант.

  3. Чтобы проверить, какой GPU используется для каждого приложения, откройте диспетчер задач, выберите Performance и просмотреть столбец GPU Engine.

Приложение A: Surface Book 3 SKUs

DisplayПроцессорГрафический процессорОЗУStorage
13,5-дюймовыйЧетырехъядерный 10-й gen Core i5-1035G7Intel Iris™ Plus Graphics16 LPDDR4x256 ГБ
13,5-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1650. Max-Q Design с 4 ГБ графической памяти GDDR5
16 LPDDR4x256 ГБ
13,5-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1650. Max-Q Design с 4 ГБ графической памяти GDDR5
32 LPDDR4x512 ГБ
13,5-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1650. Max-Q Design с 4 ГБ графической памяти GDDR5
32 LPDDR4x1 ТБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1660 Ti. Max-Q Design с графической памятью GDDR6 с 6 ГБ
16 LPDDR4x256 ГБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1660 Ti. Max-Q Design с графической памятью GDDR6 с 6 ГБ
32 LPDDR4x512 ГБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1660 Ti. Max-Q Design с графической памятью GDDR6 с 6 ГБ
32 LPDDR4x1 ТБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA GeForce GTX 1660 Ti. Max-Q Design с графической памятью GDDR6 с 6 ГБ
32 LPDDR4x2 ТБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA Quadro RTX 3000. Max-Q Design с графической памятью GDDR6 с 6 ГБ
32 LPDDR4x512 ГБ
15-дюймовыйЧетырехъядерный 10-й gen Core i7-1065G7Графика Intel Iris Plus
NVIDIA Quadro RTX 3000. Max-Q Design с графической памятью GDDR6 с 6 ГБ
32 LPDDR4x1 ТБ

Примечание

2TB SSD доступен только в США: Surface Book 3 15″ с NVIDIA GTX 1660Ti

Сводка

Созданная для производительности, Surface Book 3 включает различные конфигурации GPU, оптимизированные для выполнения определенных рабочих нагрузок и требований к использованию. Интегрированный графический GPU Intel Iris функционирует как единственный GPU на устройстве начального уровня Core i5 и как вторичный GPU на всех остальных моделях. GeForce GTX 1650 имеет крупное обновление основного потокового мультипроцессора для более эффективного запуска сложной графики. Чем быстрее GeForce GTX 1660 Ti Surface Book 3 с дополнительными улучшениями производительности, тем лучше для потребителей, геймеров, живых стримеров и творческих специалистов. Quadro RTX 3000 открывает несколько ключевых функций для профессиональных пользователей: отрисовку трассировки лучей и ускорение ИИ, а также расширенные показатели графики и вычислений.

Подробнее

Сравнение архитектуры процессоров Nvidia Ampere и Turing [GPU]

Опубликовано 15.09.2020, 13:50   · Комментарии:15

Turing и Ampere — это две передовые технологии графических процессоров от Nvidia, используемые в их видеокартах серии RTX. Обе эти архитектуры предлагают значительное улучшение по сравнению с более старых версий Nvidia, которые включают в себя Volta и Pascal. Эти два новейших графических процессоров (Turing и Ampere) имеют некоторое сходство друг с другом.

Ampere является более новой из двух и используется в видеокартах Nvidia последнего поколения, включая RTX 30 Series, а Turing обслуживает видеокарты RTX 20 Series. Архитектура Ampere поставляется с некоторыми новыми функциями и улучшениями по сравнению с архитектурой Turing GPU. Итак, чтобы помочь вам узнать о существенных различиях между этими видами графических процессоров, здесь я провожу общее сравнение двух типов процессоров по важным параметрам.

Архитектура графического процессора Turing

Тьюринг — непосредственный преемник графического процессора Volta. Архитектура построена по 12-нм техпроцессу и поддерживает GDDR5, HBM2 и память GDDR6. Tensor GPU поставляется с ядрами CUDA, RT Core и тензорными ядрами в одном чипе GPU (за исключением карт серии GTX 16). Это первая архитектура, поддерживающая трассировку лучей в реальном времени, которая используется для создания реалистичных изображений, теней, отражений и других сложных световых эффектов.

Более того, архитектура Тьюринга также поддерживает DLSS (Deep Learning Super Sampling), которая представляет собой технологию на основе искусственного интеллекта, использующую тензорные ядра для увеличения частоты кадров в играх без ущерба для качества изображения или графики. Однако следует отметить, что для использования преимуществ этих двух технологий игра также должна поддерживать их (трассировку лучей и DLSS). Архитектура Turing GPU обеспечивает увеличение производительности до 6 раз по сравнению со старой архитектурой Pascal GPU, что является большим шагом вперед.

Графические карты на базе архитектуры Turing GPU включают GeForce RTX 20 Series и GTX 16 Series. Однако видеокарты Turing серии GeForce GTX 16 не поставляются с ядрами RT и тензорными ядрами. Видеокарты серии GeForce RTX 20 также поддерживают VirtualLink через разъем USB Type-C для подключения гарнитуры VR следующего поколения через порт USB Type-C для получения потрясающих впечатлений от виртуальной реальности. Архитектура Turing GPU также используется в видеокартах для рабочих станций, включая Quadro RTX 4000, Quadro RTX 5000, Quadro RTX 6000 и Quadro RTX 8000.

Архитектура графического процессора Ampere

Ampere является преемником от графического процессора Turing. Он построен по 8-нм техпроцессу и поддерживает высокоскоростную память GDDR6, HBM2 и GDDR6X. Память GDDR6X в настоящее время является самой быстрой графической памятью, которая может достигать скорости до 21 Гбит/с и обеспечивать пропускную способность до 1 ТБ/с. Архитектура Ампер обеспечивает значительное улучшение по сравнению с Тюрингом и поставляется с 2 — го поколения RT ядер и 3 — го поколения тензорных сердечников.

Эти новые ядра RT и Tensor обеспечивают примерно в 2 раза пропускную способность или производительность по сравнению с ядрами RT и Tensor предыдущего поколения, используемыми в архитектуре Turing. Это означает, что вы получаете значительный прирост производительности в играх и других приложениях, если игра или приложение поддерживает технологии Ray Tracing и AI.

Архитектура Ampere теперь поддерживает стандарт PCIe Gen 4, что вдвое увеличивает пропускную способность интерфейса PCIe Gen3. Архитектура поддерживает CUDA версии 8.0 и включает 2 потоковых мультипроцессора FP32, что означает двойную производительность FP32 по сравнению с Turing. Архитектура графического процессора Ampere поддерживает NVLink 3.0 для увеличения вычислительной мощности системы, использующей более одного графического процессора. Архитектура Ampere обеспечивает повышение производительности на ватт до 1,9 раза по сравнению с архитектурой Turing.

Еще одним отличным дополнением к Ampere является поддержка HDMI 2.1, который поддерживает сверхвысокое разрешение и частоту обновления, которая составляет 8K при 60 Гц и 4K при 120 Гц. Он также поддерживает Dynamic HDR, а общая пропускная способность, поддерживаемая HDMI 2.1, составляет 48 Гбит/с.

RTX IO — это еще одна новая функция, представленная в архитектуре Ampere, которая может снизить накладные расходы на ввод-вывод ЦП и значительно сократить время загрузки игры за счет распаковки игровых текстур/данных внутри памяти графического процессора с помощью графического процессора. Эта функция работает вместе с Microsoft Windows DirectStorage API. Графические карты, использующие архитектуру графического процессора Ampere, — это видеокарты серии RTX 30, в том числе GeForce RTX 3090, RTX 3080, RTX 3070.

Сравнение архитектур Nvidia Ampere и GPU Turing

Быстрое и краткое сравнение архитектур графических процессоров Ampere и Turing от Nvidia.

Архитектура GPU Ampere Turing
Производитель Nvidia Nvidia
Процесс изготовления 8 нм (Samsung) 12 нм (TSMC)
Версия CUDA 8 7,5
RT ядра 2-е поколение 1-е поколение
Тензорные ядра 3-е поколение 2-е поколение
Потоковые мультипроцессоры 2x FP32 1x FP32
DLSS DLSS 2. 0 DLSS 1.0
Поддержка памяти HBM2, GDDR6X GDDR6, GDDR5, HBM2
Поддержка PCIe PCIe Gen 4 PCIe Gen 3
Кодировщик NVIDIA (NVENC) Gen 7 Gen 7
Декодер NVIDIA (NVDEC) Gen 5 Gen 4
DirectX 12 Ultimate да да
VR технология да да
Поддержка нескольких GPU NVLink 3.0 NVLink 2.0
Энергоэффективность Лучше, чем Turing Лучше, чем Volta
Видео порты HDMI 2.1, DisplayPort 1.4a HDMI 2.0b, DisplayPort 1.4a
Графические карты RTX 30 серии Серия RTX 20, серия GTX 16
Приложения Игры, домашний пк, искусственный интеллект (AI) Игры, домашний пк, искусственный интеллект (AI)

Заключение

Что ж, архитектура графического процессора Ampere предлагает значительные улучшения, когда дело доходит до трассировки лучей и DLSS, но даже когда эти функции не используются, прирост производительности в Ampere больше, чем у Turing. Другим значительным дополнением к Ampere является поддержка PCIe Gen 4, которая предлагает гораздо более высокую пропускную способность и может оказаться весьма полезной в будущем.

AMD vs Nvidia: что лучше?

Авторы данного обзора решили сравнить AMD и Nvidia, дабы выяснить – кто же станет безусловным чемпионом. Для самых заядлых геймеров данное соперничество является не менее важно, чем, скажем, соперничество между донецким «Шахтёром» и киевским «Динамо», между «Кока-кола» и «Пепси», между «Marvel» и «DC Comics». Кто делает лучшие процессоры: AMD или Nvidia? В нашем обществе существует несколько распространённых представлений о сильных и слабых сторонах каждого из этих брендов, и данное сравнение призвано проверить все эти точки зрения.

Информация о компаниях

AMD
  • Изначально компания получила известность в качестве производителя вычислительных процессоров (CPU), однако, затем плотно вошла на рынок графических процессоров (GPU).
  • Присутствует на рынках CPU и GPU, занимая на них вторые позиции, в то время как первые позиции на этих рынках занимают Intel и Nvidia соответственно.
  • Выпускает превосходную продукцию в нижнем и среднем классах.
  • Удаётся запускать высокопроизводительные приложения.
  • Вырабатывает большее количество тепла, поскольку использует большие массивы памяти для повышения производительности.
Nvidia
  • С первых дней своего существования занимается GPU и по сей день видеокарты Nvidia занимают первую позицию в данном секторе.
  • Заметное присутствие на рынке GPU и небольшое присутствие на рынке CPU.
  • Выпускает отличные графические процессоры среднего и высокого класса.
  • Создала единственный GPU, который действительно способен запускать высокопроизводительные приложения – такие, как игры 2K и 4K.
  • Генерирует меньшую мощность и потребляет меньшее количество энергии.

Цена

В сообществе геймеров принято считать, что AMD предлагает лучшее соотношение цены и качества своих продуктов, чем Nvidia. И хотя в целом это справедливая оценка, на самом деле всё обстоит немного сложнее. В перечне основных моделей процессоры Nvidia часто стоят значительно дороже, чем их аналоги более раннего поколения. Но отчасти это можно объяснить тем фактом, что Nvidia совсем недавно сократила своё новое поколение Turing. Однако, трудно игнорировать тот факт, что RTX 2080 Ti стоит почти вдвое дороже GTX 1080 Ti, или то, что стандартный RTX 2080 стоит примерно 800 долларов.

Впрочем, на базовой конференции Nvidia прозвучало обещание компании снизить цены, так что вскоре всё может измениться. И Nvidia уже предлагает процессоры CPU стоимостью всего в 150 долларов. На данный момент AMD предлагает значительно более выгодные цены на большинство моделей, но ситуация может измениться, когда на рынке появится их процессор Navi следующего поколения, а Nvidia внесёт некоторые изменения в свою ценовую политику. Что касается высокопроизводительных игровых видеокарт, то здесь расхождение становится менее заметным. Высокопроизводительный AMD Radeon VII стоит всего на 100 долларов дешевле, чем его аналог от Nvidia несмотря на то, что он не совсем соответствует тем же ключевым параметрам.

Победитель: AMD

Производительность

Nvidia Corporation может ставить премиальные цены на свои игровые видеокарты, но многие утверждают, что это их заслуженное право. Лучшие графические процессоры от Nvidia впечатляют и завораживают. RT 2080 Ti может стоить почти целое состояние, но на рынке более нет ничего подобного! Память GDDR6 объёмом 11 ГБ сочетается с новой трассировкой лучей и выборкой, управляемой искусственным интеллектом (подробнее об этом речь пойдёт ниже), и это делает её очень удобной для игр многих будущих поколений. И хотя Radeon VII выглядит в значительной степени сопоставимым с точки зрения своих характеристик, игроманы определённо заметят разницу, когда начнут использовать DirectX 12.

В общем, если говорить кратко, то процессоры Nvidia просто более мощные, особенно для игр. Они лучше работают в многозадачном режиме, способны выполнять исключительно сложные задачи и справляются с этим при значительно меньшем энергопотреблении. И хотя AMD предлагает больший объём памяти в линейке процессоров младших классов, это также означает, что они быстрее перегреваются, поэтому они просто не могут конкурировать друг с другом на более высоком уровне. И, несмотря на то, что разрыв в мощности постепенно сокращается, Nvidia по-прежнему имеет явное преимущество по этому показателю.

Победитель: Nvidia

Адаптивная синхронизация

И Nvidia, и AMD любят использовать множество модных технологий, однако пользователям не следует упускать из виду адаптивную синхронизацию, представленную соответственно технологиями G-Sync и FreeSync. Данные технологии максимально используют частоту обновления монитора, чтобы уменьшить разрывы, обеспечить постоянство частоты кадров и, в целом, просто обеспечить более приятный игровой процесс. И поскольку две упомянутые выше технологии совместимы лишь с картами соответствующих производителей, разницу следует учитывать.

Здесь мнения пользователей и экспертов расходятся, поскольку две компании достигли совершенно различных результатов при реализации этих технологий. Мониторы G-Sync работают исключительно с мониторами, поддерживающими G-Sync, и это считается премиальной функцией, часто доступной лишь в более дорогих моделях. FreeSync, напротив, имеет более высокую совместимость и будет работать с большинством мониторов стоимостью от 130 долларов и выше. Но, как и в целом обстоит дело с этими двумя компаниями, технология AMD жертвует мощностью ради доступности. G-Sync – это лучший вариант, а более высокие стандарты, применяемые к мониторам G-Sync, означают, что они, как правило, действительно приносят в адаптивную синхронизацию всё, чего она стоит.

Победитель: ничья в зависимости от того, сколько денег вы готовы потратить.

Программное обеспечение

Современные видеокарты – это нечто большее, чем просто устройство для отображения картинки на экране, а из этого следует, что наиболее продвинутые геймеры хотят настраивать их функциональность. Это означает, что программные платформы, которые использует каждая из компаний, также важны. Раньше победитель здесь был явным. Программное обеспечение Nvidia поставлялось с рядом полезных функций, которых просто не хватало AMD. Но в последние годы AMD сумела преодолеть этот пробел, и все меньше игровых компаний создают настройки, специально предназначенные для того или иного производителя видеокарт.

Однако, ни в коем случае не следует говорить о том, что GeForce Experience от Nvidia перестал впечатлять. Обновления драйверов выполняются автоматически, и вы можете делать снимки экрана и транслировать видео прямо через его интерфейс. И несмотря на то, что AMD уже начала включать в свое программное обеспечение всё больше функций оптимизации игр (и, надо сказать, она неплохо с этим справляется), они всё ещё пытаются догнать своего более опытного в этом деле конкурента. Автоматизация оптимизации GeForce Experience является исключительной и представляет собой отличный способ получить наилучшие впечатления от игры, не будучи техническим специалистом.

Тем не менее, в новейшей версии AMD Radeon Software Adrenalin имеется несколько интересных хитрых настроек. Программа не только предлагает автоматический разгон, но также позволяет транслировать игры прямо на ваше мобильное устройство, включая поддержку возможностей виртуальной реальности.

Победитель: Nvidia, однако, её статус победителя висит на волоске.

Специальные функции

Если говорить об универсальных функциях, то здесь компания AMD проделала огромную работу для того, чтобы догнать Nvidia. Однако, это было в прошлом. Появление поколения Тьюринга принесло с собой два фундаментальных изменения в правилах игры: трассировку лучей и выборку, управляемую искусственным интеллектом. Первое обеспечивает беспрецедентный уровень детализации при отображении света, и, хотя он ещё не слишком активно реализован в играх нынешнего поколения, демо-варианты, которые Nvidia представила на выставке CES, были просто потрясающими. Но наибольший импульс может дать ядро искусственного интеллекта Тьюринга. Благодаря машинному обучению данный искусственный интеллект может интуитивно улучшить качество графики на основе анализа совместного опыта.

Это та ситуация, когда расчёт времени был преимуществом для Nvidia. Впрочем, ходят слухи о том, что последующие AMD видеокарты будут использовать трассировку лучей. Однако, данные видеокарты ещё не выпущены, и до сих пор нет никакой информации о сложном искусственном интеллекте, который входит в новейшие процессоры Nvidia. И несмотря на то, что ни одна из этих технологий ещё не получила широкого распространения в игровом сообществе, можно ожидать, что вскоре всё изменится, поскольку разработчики смогут работать с ними более комфортно, а в следующем поколении консолей могут быть реализованы наши ожидания, связанные с кросс-совместимыми играми.

Победитель: Nvidia

Ключевые различия между AMD и Nvidia

 

Давайте обсудим основные ключевые различия между AMD и Nvidia.

  • Производительность: Radeon была оригинальным продуктом ATI (Array Technology Inc), а ATI являлась главным конкурентом Nvidia. После того, как AMD приобрела ATI, на рынке GPU появилось два ведущих игрока: Nvidia и AMD. Бренд Radeon взял верх над GeForce и стал их конкурентом. Компании AMD принадлежит меньшая доля рынка GPU – подобно тому, как ей принадлежит меньшая доля на рынке CPU, где она конкурирует с Intel. Контрольным показателем при сравнении производительности графических процессоров может быть количество кадров, обработанных за заданный промежуток времени, и скорость запуска таких игр, как Crysis. И в том, и в другом случае показатели не являются одинаковыми для разных моделей одного бренда и могут различаться.
  • Аппаратное обеспечение: Nvidia использует передовые технологии и широко известна благодаря своей превосходной производительности. В процессе работы видеокарт производства данной компании вырабатывается меньшее количество тепла, поскольку потребляется меньше электроэнергии. AMD компенсирует эти пробелы своей вычислительной мощностью, используя больше памяти и потребляя больше энергии. Это был пробел, который AMD закрыла в своих новых продуктах.
  • Технология: Nvidia использует ядра CUDA (объединённая вычислительная архитектура устройства), а AMD использует процессоры Stream. Между этими двумя ядрами не наблюдается серьёзных различий в производительности.
  • Программное обеспечение: Точно настроенное программное обеспечение оказывает влияние на производительность и позволяет закрывать пробелы в аппаратном обеспечении. Обе компании часто обновляют драйверы, при этом Nvidia демонстрирует немного большую последовательность и стабильность. Если не учитывать этих различий, можно сказать, что в этой области компании работают на равных условиях.
  • Потоковая передача и запись: Если не считать некоторого улучшения качества видео в процессе потоковой передачи и записи в случае с Nvidia, оба игрока находятся на одном уровне.
  • Подстановка вертикальной синхронизации: Эта функция позволяет избежать срывов картинки на экране за счёт синхронизации частоты обновления монитора с частотой кадров. И AMD Freesync, и Nvidia Gsync предоставляют свои решения, которые сопоставимы по своей производительности. Freesync – лучшее решение по стоимости, а Gsync – по общей производительности.

Вердикт

Так кто же из них является победителем? Никто. Несмотря на то, что Nvidia может быть признана лидером в большинстве категорий, ценовая политика AMD также имеет большое значение. Игровая видеокарта Nvidia высшего класса обойдётся довольно дорого, и покупателю также может понадобиться вложить большие инвестиции в надёжный процессор, материнскую плату и монитор, чтобы получить максимальную отдачу от видеокарты. В общем, если вы желаете получать всё самое лучшее, покупайте Nvidia. Если же вы можете обходиться без продукции наивысшего класса, AMD может предложить вам фантастические решения, особенно в случае с видеокартами стоимостью менее 200 долларов.

Скорее всего, в ближайшие годы различия между продуктами этих двух брендов будут только уменьшаться. AMD сделала несколько многообещающих шагов на рынке high-end, а Nvidia уже пообещала в ближайшие месяцы снизить цены на свою продукцию. Внимательно следите за рынком, поскольку выпуск следующего поколения AMD действительно откроет путь к следующей битве эпохи процессорных войн.

Сравнение эффективности CPU и GPU реализаций некоторых комбинаторных алгоритмов на задачах обращения криптографических функций | Булавинцев

TOP500 Supercomputer Site URL:http://www.top500.org (дата обращения: 01.01.2015)

Lee, V. W. Debunking the 100X GPU vs. CPU myth: an evaluation of throughput computing on CPU and GPU / V. W. Lee et al //ACM SIGARCH Computer Architecture News. — ACM, 2010. — Vol. 38, No. 3. — P. 451–460.

Flynn, M. Some computer organizations and their effectiveness / M. Flynn // Computers, IEEE Transactions on. — 1972. — Vol. 100, No. 9 — P. 948–960.

CUDA C Best Practices Guide — CUDA SDK v.6.0 — NVIDIA corp. — 2014. URL: http://docs.nvidia.com/cuda (дата обращения: 15.07.2014)

Percival, C. The scrypt Password-Based Key Derivation Function. — IETF Draft — 2012 / C. Percival, S. Josefsson URL: http://tools.ietf.org/html/josefsson-scrypt-kdf-00.txt (дата обращения: 30.11.2012)

Nohl, K. Attacking phone privacy / K. Nohl // Black Hat USA. — 2010. URL: https://srlabs.de/blog/wp-content/uploads/2010/07/Attacking.Phone_.Privacy_Karsten.Nohl_1.pdf (дата обращения: 01.01.2015)

Mironov, I. Applications of SAT solvers to cryptanalysis of hash functions / I. Mironov, L. Zhang // Theory and Applications of Satisfiability Testing-SAT 2006. — Springer Berlin Heidelberg, 2006. — P. 102–115.

Semenov, A. Parallel logical cryptanalysis of the generator A5/1 in BNB-Grid system / A. Semenov et al // Parallel Computing Technologies. — Springer Berlin Heidelberg, 2011. — P. 473–483.

Biryukov, A. Real Time Cryptanalysis of A5/1 on a PC / A. Biryukov, A. Shamir , D. Wagner // Fast Software Encryption. — Springer Berlin Heidelberg, 2001. — P. 1–18.

Goliс, J. D. Cryptanalysis of alleged A5 stream cipher / J. D. Goliс // Advances in Cryptology—EUROCRYPT’97. — Springer Berlin Heidelberg, 1997. — P. 239–255.

Kumar, S. Breaking ciphers with COPACOBANA—a cost-optimized parallel code breaker / S. Kumar et al. // Cryptographic Hardware and Embedded Systems-CHES 2006. — Springer Berlin Heidelberg, 2006. — P. 101–118.

Kwan, M. Reducing the Gate Count of Bitslice DES / M. Kwan //IACR Cryptology ePrint Archive. — 2000. — Vol. 2000. — P. 51.

John the Ripper password cracker — 2013 URL: http://www.openwall.com/john/ (дата обращения: 02.07.2014)

Davis, M. A machine program for theorem-proving / M. Davis, G. Logemann, D. Loveland // Communications of the ACM. — 1962. — Vol. 5, No. 7. — P. 394–397.

Moskewicz, M. W. Chaff: Engineering an efficient SAT solver / M. W. Moskewicz et al. //Proceedings of the 38th annual Design Automation Conference. — ACM, 2001. — P. 530–535.

Marques-Silva, J. P. GRASP: A search algorithm for propositional satisfiability / J. P Marques-Silva, K. A. Sakallah // Computers, IEEE Transactions on. — 1999. — Vol. 48, No. 5. — P. 506–521.

Blumofe, R. D. Scheduling multithreaded computations by work stealing / R. D. Blumofe, C. E. Leiserson //Journal of the ACM (JACM). — 1999. — Vol. 46, No. 5. — P. 720–748.

Backus, J. Can programming be liberated from the von Neumann style?: a functional style and its algebra of programs / J. Backus // Communications of the ACM. — 1978. — Vol. 21, No. 8. — P. 613–641.

Molka, D. Memory performance and cache coherency effects on an Intel Nehalem multiprocessor system / D. Molka et al. // PACT’09. 18th International Conference on Parallel Architectures and Compilation Techniques. — IEEE, 2009. — P. 261–270.

Een, N. MiniSat: A SAT solver with conflict-clause minimization / N. Een, N. Sörensson // Proceedings of the International Symposium on the Theory and Applications of Satisfiability Testing (2005) — 2005. — Vol. 5 — P.55

Сравнение систем виртуализации — VMware, Hyper-V, KVM, Xen — Datahouse.

ru

VMware против Microsoft Hyper-V

  • Гипервизор Hyper-V не поддерживает технологию, которая используется для проброса аппаратных USB-портов, что не позволяет подключать, например, аппаратные лицензионные ключи 1С к виртуальным машинам. Данные технологии обычно называются USB Redirection или USB Passthrough. Microsoft предлагает использовать вместо этого Discrete Device Assignment (DDA).
  • Hyper-V не умеет «на лету» добавлять CPU, вам придётся осуществлять добавление в offline режиме через остановку сервиса, что вызовет простой (DownTime).
  • Количество гостевых операционных систем, которые могут работать внутри виртуальной машины, у Hyper-V значительно меньше VMware, поэтому рекомендуется проверить актуальный список, если вам требуется запустить раритетного гостя.
  • Стоит признать, что Hyper-V позволяет уменьшать размер диска, а не только увеличивать, как VMware, но на практике, к сожалению, аппетиты только растут и чаще всего виртуальный сервер будет требовать всё больше занятого места.
  • Microsoft первой реализовала в своём гипервизоре Hyper-V технологию VM-GenerationID, которая пригодится администраторам службы каталогов, использующим сложные схемы Active Directory со множеством контроллеров в виртуальных средах. Благодаря VM-GenerationID можно избежать множества проблем при откате к старому снимку или при восстановлении её из резервной копии. Стоит отметить, что VMware также реализовала поддержку VM-GenerationID с версии vSphere 5.0 Update 2.

VMware против Red Hat KVM

После того, как KVM стал частью ядра Linux, он автоматически стал «генеральной линией партии» (mainline) в вопросе «а что выбрать для создания виртуализации средствами Linux». Заметьте, что Red Hat сделала ставку на KVM и в версии Red Hat Enterprise Linux 6.0 полностью исключил Xen, сделав окончательный выбор.

Эта борьба двух Linux-проектов, которые завязли в братской войне, шла на пользу VMware и Hyper-V, так как KVM и Xen отбирали долю рынка у друг друга, а не у конкурентов.

К минусам KVM часто относят:

  • Отсутствие более развитых средств управления (как у конкурентов)
  • Менее стабильную работу для задач с мощным и интенсивным вводом-выводом (I/O)

Традиционно к плюсам KVM относят неприхотливость к аппаратной части сервера, буквально — «если Linux работает на нём, то всё будет хорошо». Адепты свободного софта могут прочесть исходные коды гипервизора. Благодаря KVM можно получить недорогую виртуальную среду.

VMware против Citrix Xen

Citrix Xen одно время мог похвастать паравиртуализацией, которая требует модифицировать гостевую операционную систему, что невозможно для закрытых систем типа MS Windows, для более быстрой работы и снижения накладных расходов (overhead) на виртуализацию. Но с той поры прошло много лет, и все игроки на рынке виртуализации и аппаратного обеспечения приблизили работу гостя к производительности схожей «как на голом железе», что нивелирует плюсы паравиртуализации. А контейнеры и вовсе отобрали лавры быстрого гостя для UNIX- и Linux-гостей.

Citrix с Xen подвергся усилению конкуренции со стороны решений с открытым кодом от KVM и OpenStack, а также отсутствию поддержки поставщиков и сообщества, в отличие от KVM и OpenStack.

На сегодняшний день одной из сильных сторон можно назвать продвинутые возможности по предоставлению внутри виртуальной машины 3D аппаратной акселерации GPU от производителей Intel, AMD, NVIDIA.

К особенностям гипервизора можно отнести:

  • Проброс топовых GPU внутрь гостя GPU Pass-through (для конкретного виртуального гостя — конкретный GPU в физическом сервере)
  • GPU Virtualization — возможность множеству виртуальных машин получить доступ к GPU хоста, что лучше, чем программная эмуляция
  • vGPU Live Migration — позволяет виртуальной машине перемещаться между хостами без потерь с доступом к GPU

Такие технологии очень востребованы в секторах Computer-Aided Design (CAD) и Computer-Aided Manufacture (CAM), что позволяет виртуализировать рабочее место специалистов по компьютерному моделированию, чертёжников, проектировщиков и т. д.

AMD против Nvidia: полное сравнение

AMD против Nvidia: объяснение основных различий

Любители компьютеров и сборщики компьютерных игровых систем хорошо осведомлены о долгой, продолжающейся войне за господство на рынке видеокарт. Двумя титанами, сражавшимися на протяжении десятилетий, были Nvidia и AMD, также называемые «Зеленой командой» и «Красной командой». Advanced Micro Devices (AMD) обычно рассматривались как выбор для бюджетных сборок, но у AMD были моменты, когда выпуск новых продуктов временно опережал высококлассные предложения от Nvidia.

Хотите ли вы выбрать новую видеокарту или узнать больше об этих двух компаниях, в следующем руководстве мы сравним их и продукты, которые они предлагают в настоящее время.

AMD против NVIDIA: сторона по боковым сравнении

9001 мая 1, 1969
NVIDIA Advanced Micro Devices (AMD)
Company Founding Date апреля 1993 г.
категории продуктов GPU, мобильная графика, чипсетки материнской платы, суперкомпьютеры для материнской платы Процессоры для потребителей, GPU, мобильные процессоры, Профессиональные процессоры, серверы CPU
Флагманский график продукта GeForce RADEON 3090 RADEON RX 6900 XT
Технология адаптивной синхронизации G-Sync G-Sync REESEYNC
NVIDIA RAYON NVIDIA RADEON 6000 Series Radeon 6000 Series
Основатель Jensen Huang Jerry Sanders
Драйверы видеокарты GeForce Experience, панель управления Nvidia Radeon Ad реналин
Графическая карта Sapphire AMD 380 Dual-X. Sapphire производит графические карты с высокой эффективностью охлаждения.

AMD против Nvidia: 5 фактов, которые нужно знать

  • AMD, несмотря на свою привлекательность для бюджетных сборщиков, является гораздо более зрелой компанией, чем Nvidia, поскольку она была основана почти на 25 лет раньше, чем Nvidia.
  • Видеокарты обеих компаний очень близки по производительности, но серия Nvidia RTX гораздо лучше справляется с трассировкой лучей и сверхвысоким разрешением.
  • Продукты Nvidia в основном представляют собой решения для обработки графики, в то время как AMD производит большую часть потребительских процессоров на компьютерном рынке вместе со своими популярными графическими процессорами.
  • Графические процессоры Nvidia также используются для расширенных приложений в системах искусственного интеллекта и глубокого обучения с помощью технологии Nvidia CUDA.
  • Помимо потребительских процессоров и графических процессоров, AMD также производит оперативную память и твердотельные жесткие диски.

Линейки продуктов Nvidia

Nvidia наиболее известна на потребительском рынке своими популярными графическими процессорами GeForce (GPU), но они также производят технологические продукты для множества других приложений.Чип Nvidia Tegra — это вычислительное решение для мобильных устройств, а Tesla — их процессор для научных и инженерных приложений. Nvidia Drive — это серия технологий для автономных беспилотных транспортных средств, а nForce — технология набора микросхем, которая взаимодействует с системными процессорами на популярных потребительских материнских платах.

Графические процессоры Nvidia также используются в научных исследованиях и суперкомпьютерах. API CUDA (Compute Unified Device Architecture) — это технология, которая поддерживает большое количество ядер графического процессора для параллельной обработки.Лаборатории и исследовательские группы используют CUDA в обширных системах нейронных сетей для поддержки передовых проектов глубокого обучения и искусственного интеллекта.

Линейки продуктов AMD

AMD (Advanced Micro Devices) — компания-производитель полупроводников, производящая широкий спектр микрочипов. Они хорошо известны своими популярными линейками графических процессоров и системных процессоров. AMD рассматривается потребителями как хороший вариант для обеспечения производительности при бюджете от низкого до среднего, но их высокопроизводительные видеокарты и процессоры иногда конкурируют с высокопроизводительными продуктами Nvidia.

AMD предлагает обширную линейку процессоров и гибридных процессоров, включая бренд Athlon для бюджетных ПК, серию A для ноутбуков, Ryzen для высокопроизводительных настольных компьютеров и Ryzen Threadripper для профессионального программного обеспечения и высококлассных сборщиков для энтузиастов. Линейки продуктов для чипов AMD GPU включают популярные Radeon, Mobility Radeon, Radeon Pro для рабочих станций и Radeon Instinct для серверов и приложений машинного обучения. AMD также производит оперативную память и твердотельные жесткие диски.

Сравнение игровой производительности в различных ценовых категориях

Обе компании выпускают графические продукты, предназначенные для трех основных ценовых диапазонов на рынке, которые делятся на категории «бюджетный», «средний» и «энтузиаст».”

Для недорогих или «бюджетных» моделей ценовая категория в 200 долларов является целью для идеального соотношения цены и качества. Конкурирующими продуктами двух компаний в этом ценовом диапазоне являются GeForce GTX 1660 от Nvidia и RX 5500 XT от AMD. Графический процессор Nvidia повышает тактовую частоту памяти выше, чем у продукта AMD, но карта AMD имеет 8 ГБ видеопамяти по сравнению с 6 ГБ на GTX 1660 от Nvidia. В целом, с лучшими графическими драйверами GeForce GTX 1660 немного превосходит AMD RX 5500 XT.

На среднем уровне, где большинство компьютерных геймеров рассчитывают использовать свое развлекательное программное обеспечение, цена составляет около 400 долларов. Две конкурирующие карты на этом уровне — это RTX 3060 от Nvidia и RX 6700 XT от AMD. Карта от AMD работает лучше, чем продукт от Nvidia, но стоит немного дороже.

В высокопроизводительных продуктах стоимостью 700 долларов и выше основными конкурирующими картами для сравнения являются AMD RX 6800 XT и Nvidia RTX 3080. трассировка лучей включена и в сверхвысоком разрешении.Учитывая, что трассировка лучей широко не используется в современных играх, AMD, кажется, предлагает лучшую ценность на уровне энтузиастов. Однако выбор сильно зависит от вариантов использования, поэтому окончательный вердикт несколько равен.

Nvidia Geforce GTX 1660 Ti Tuf Gaming и его карта на белом фоне. Nvidia — ведущая компания в мире графических процессоров.

Возможности улучшения графики

Обе компании, помимо базовой мощности рендеринга, обладают солидным набором технологий, повышающих реалистичность видеоконтента.Подход Nvidia в этом отношении является более проприетарным, часто создавая технологии, которые работают только с оборудованием Nvidia, тогда как AMD стремится создавать функции, которые могут использоваться продуктами других производителей оборудования, включая продукты Nvidia.

Одной из примечательных функций графических решений Nvidia является Ampere, функция, которая обеспечивает Nvidia Broadcast для потоковой передачи и другого видеоконтента. Используя искусственный интеллект, Nvidia Broadcast позволяет стримерам и вещателям заменять фон человека, который находится в камере, на пользовательскую среду.Эта функция также может отфильтровывать шумы из аудиоканала трансляции.

Функции улучшения игр, которые работают только с Nvidia, включают DLSS, что означает суперсэмплинг с глубоким обучением, который использует ИИ для улучшения рендеринга в играх и повышения производительности. Основные графические карты Nvidia также поддерживают PhysX, технологию, которая увеличивает вычислительную мощность системы для имитации физики в игровом мире.

Последние функции AMD больше ориентированы на игры.Contrast Adaptive Sharpening (CAS) улучшает качество игр на мониторах с высоким разрешением. FidelityFX — это новая функция, которая позволяет большему количеству геймеров играть в разрешении 4K, тогда как их аппаратное обеспечение обычно не может адекватно работать в сверхвысоком разрешении. Затенение с переменной скоростью — это функция, которая интеллектуально выбирает, в каких областях видеоизображения сосредоточить больше энергии для детализации, обеспечивая более высокую эффективность производительности.

AMD против Nvidia: что выбрать?

Для большинства людей, читающих это, вопрос в основном актуален для выбора лучшей видеокарты для вашего бюджета и вычислительных потребностей.В настоящее время геймеры могут обнаружить, что высокопроизводительные карты Nvidia обеспечивают лучшую производительность при разрешении 4K, хотя графические процессоры AMD в целом работают немного лучше в других случаях использования.

Если вы планируете играть во множество игр нового поколения с трассировкой лучей, Nvidia в настоящее время является лучшим вариантом. Для бюджетных сборок лучше всего подойдет GeForce GTX 1660 от Nvidia. Суть в том, что видеокарта является крупной покупкой для большинства потребителей, поэтому не принимайте решение, не изучив, какая карта лучше всего соответствует вашим потребностям и вашему бюджету.

графических процессоров на Compute Engine  | Документация по вычислительному движку  | Облако Google

Compute Engine предоставляет графические процессоры (GPU), которые вы можете добавить к экземплярам вашей виртуальной машины (ВМ). Вы можете использовать эти графические процессоры для ускорения конкретные рабочие нагрузки на ваши экземпляры, такие как машинное обучение и данные обработка.

Если у вас есть рабочие нагрузки с интенсивным использованием графики, такие как 3D-визуализация, 3D-рендеринг или виртуальные приложения, вы можете создавать виртуальные рабочие станции, которые используют Технология NVIDIA® GRID®.Для получения информации о графических процессорах для приложений с интенсивным использованием графики приложения, см. Графические процессоры для графических рабочих нагрузок.

В этом документе содержится обзор графических процессоров в Compute Engine, а также информацию о работе с графическими процессорами см. на следующих ресурсах:

Попробуйте сами

Если вы новичок в Google Cloud, создайте учетную запись, чтобы оценить, как Compute Engine работает в реальном мире сценарии.Новые клиенты также получают бесплатные кредиты в размере 300 долларов США для запуска, тестирования и развертывание рабочих нагрузок.

Попробуйте Compute Engine бесплатно

Введение

Compute Engine предоставляет графические процессоры NVIDIA® для ваших экземпляров в транзитном режиме, чтобы экземпляры вашей виртуальной машины имеют прямой контроль над графическими процессорами и связанной с ними памятью.

Примечание. Экземпляры GPU не могут живая миграция и должен останавливаться для событий обслуживания хоста. Эти мероприятия по техническому обслуживанию обычно происходят раз в две недели. События технического обслуживания также могут происходить чаще когда необходимо. Информацию об обработке событий технического обслуживания см. Ограничения графического процессора.

Для вычислительных рабочих нагрузок модели графических процессоров доступны на следующих этапах:

  • NVIDIA® A100: общедоступный
  • NVIDIA® T4: nvidia-tesla-t4 : общедоступный
  • NVIDIA® V100: nvidia-tesla-v100 : общедоступный
  • NVIDIA® P100: nvidia-tesla-p100 : общедоступный
  • NVIDIA® P4: nvidia-tesla-p4 : Общедоступный
  • NVIDIA® K80: nvidia-tesla-k80 : общедоступный

Для графических рабочих нагрузок доступны модели графических процессоров следующих стадий:

  • Виртуальные рабочие станции NVIDIA® T4: nvidia-tesla-t4-vws : Общедоступный
  • Виртуальные рабочие станции NVIDIA® P100: nvidia-tesla-p100-vws : общедоступный
  • Виртуальные рабочие станции NVIDIA® P4: nvidia-tesla-p4-vws : Общедоступный

Информацию о графических процессорах для виртуальных рабочих станций см. Графические процессоры для графических рабочих нагрузок.

Вы можете подключать графические процессоры только к инстансам с предопределенный или пользовательские типы машин. GPU не поддерживаются на с общим ядром или оптимизированные для памяти типы машин.

Вы также можете добавить локальные твердотельные накопители к графическим процессорам. Для список поддерживаемых локальных SSD по типам GPU и регионам см. Локальная доступность SSD по регионам и зонам GPU.

Цены

Большинство устройств с графическим процессором получают скидки на постоянное использование аналогично vCPU. Почасовые и месячные цены на устройства с графическим процессором см. Страница с ценами на GPU.

моделей графических процессоров

Графические процессоры NVIDIA® A100

Для запуска графических процессоров NVIDIA® A100 необходимо использовать оптимизированный для ускорителя (A2) тип аппарата.

Каждый тип машины A2 имеет фиксированное количество GPU, количество виртуальных ЦП и объем памяти.

Примечание. Чтобы просмотреть доступные регионы и зоны для графических процессоров в Compute Engine, см. Регионы GPU и доступность зон.
Модель графического процессора Тип машины графических процессоров Память графического процессора Доступные виртуальные ЦП Доступная память
NVIDIA® A100 a2-highgpu-1g 1 ГП 40 ГБ HBM2 12 виртуальных ЦП 85 ГБ
а2-хайгпу-2г 2 графических процессора 80 ГБ HBM2 24 виртуальных ЦП 170 ГБ
а2-хайгпу-4г 4 графических процессора 160 ГБ HBM2 48 виртуальных ЦП 340 ГБ
а2-хайгпу-8г 8 графических процессоров 320 ГБ HBM2 96 виртуальных ЦП 680 ГБ
а2-мегагпу-16g 16 графических процессоров 640 ГБ HBM2 96 виртуальных ЦП 1360 ГБ

Другие доступные модели графических процессоров NVIDIA®

Виртуальные машины

с меньшим количеством графических процессоров ограничены максимальным числом виртуальных ЦП. В целом более высокое число GPU позволяет создавать инстансы с большим количеством виртуальных ЦП и объем памяти.

Примечание. Чтобы просмотреть доступные регионы и зоны для графических процессоров в Compute Engine, см. Регионы GPU и доступность зон.
Модель графического процессора графических процессоров Память графического процессора Доступные виртуальные ЦП Доступная память
NVIDIA® T4 1 ГП 16 ГБ GDDR6 1–24 виртуальных ЦП 1 — 156 ГБ
2 графических процессора 32 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ
4 графических процессора 64 ГБ GDDR6 1–96 виртуальных ЦП 1 — 624 ГБ
NVIDIA® P4 1 ГП 8 ГБ GDDR5 1–24 виртуальных ЦП 1 — 156 ГБ
2 графических процессора 16 ГБ GDDR5 1–48 виртуальных ЦП 1 — 312 ГБ
4 графических процессора 32 ГБ GDDR5 1–96 виртуальных ЦП 1 — 624 ГБ
NVIDIA® V100 1 ГП 16 ГБ HBM2 1–12 виртуальных ЦП 1 — 78 ГБ
2 графических процессора 32 ГБ HBM2 1–24 виртуальных ЦП 1 — 156 ГБ
4 графических процессора 64 ГБ HBM2 1–48 виртуальных ЦП 1 — 312 ГБ
8 графических процессоров 128 ГБ HBM2 1–96 виртуальных ЦП 1 — 624 ГБ
NVIDIA® P100 1 ГП 16 ГБ HBM2 1–16 виртуальных ЦП 1 — 104 ГБ
2 графических процессора 32 ГБ HBM2 1–32 виртуальных ЦП 1 — 208 ГБ
4 графических процессора 64 ГБ HBM2

1–64 виртуальных ЦП
(us-east1-c, europe-west1-d, europe-west1-b)

1–96 виртуальных ЦП
(все зоны P100)

1 — 208 ГБ
(США-восток1-c, Европа-Запад1-D, Европа-Запад1-b)

1 — 624 ГБ
(все зоны P100)

NVIDIA® K80 1 ГП 12 ГБ GDDR5 1–8 виртуальных ЦП 1–52 ГБ
2 графических процессора 24 ГБ GDDR5 1–16 виртуальных ЦП 1 — 104 ГБ
4 графических процессора 48 ГБ GDDR5 1–32 виртуальных ЦП 1 — 208 ГБ
8 графических процессоров 96 ГБ GDDR5 1–64 виртуальных ЦП

1 — 416 ГБ
(Азия-восток1-a и США-восток1-d)

1 — 208 ГБ
(все зоны K80)

Примечание:
  • Более подробное описание зон см. Регионы и зоны.
  • Платы
  • NVIDIA® K80® содержат по два графических процессора каждая. Цена на К80 Графические процессоры — это отдельные графические процессоры, а не плата.

Графические процессоры NVIDIA® GRID® для графических рабочих нагрузок

Если у вас есть графические рабочие нагрузки, такие как 3D-визуализация, вы можете создавать виртуальные рабочие станции, использующие платформу NVIDIA® GRID®. Справочную информацию о NVIDIA® GRID® см. Обзор ГРИД.

Когда вы выбираете GPU для виртуальной рабочей станции, NVIDIA® GRID® лицензия добавлена ​​к вашей виртуальной машине.Для получения дополнительной информации о ценах см. Страница с ценами на GPU.

Чтобы настроить виртуальную рабочую станцию ​​NVIDIA® GRID®, вам необходимо создать виртуальную машину с включенной виртуальной рабочей станцией и установите драйвер GRID.

После создания виртуальной рабочей станции вы можете подключиться к ней с помощью удаленного настольный протокол, такой как Teradici® PCoIP или VMware® Horizon View.

Примечание. Чтобы просмотреть доступные регионы и зоны для виртуальных рабочих станций в Compute Engine, см. Регионы GPU и доступность зон.
Модель графического процессора графических процессоров Память графического процессора Доступные виртуальные ЦП Доступная память
Виртуальная рабочая станция NVIDIA® T4 1 ГП 16 ГБ GDDR6 1–24 виртуальных ЦП 1 — 156 ГБ
2 графических процессора 32 ГБ GDDR6 1–48 виртуальных ЦП 1 — 312 ГБ
4 графических процессора 64 ГБ GDDR6 1–96 виртуальных ЦП 1 — 624 ГБ
Виртуальная рабочая станция NVIDIA® P4 1 ГП 8 ГБ GDDR5 1–16 виртуальных ЦП 1 — 156 ГБ
2 графических процессора 16 ГБ GDDR5 1–48 виртуальных ЦП 1 — 312 ГБ
4 графических процессора 32 ГБ GDDR5 1–96 виртуальных ЦП 1 — 624 ГБ
Виртуальная рабочая станция NVIDIA® P100 1 ГП 16 ГБ HBM2 1–16 виртуальных ЦП 1 — 104 ГБ
2 графических процессора 32 ГБ HBM2 1–32 виртуальных ЦП 1 — 208 ГБ
4 графических процессора 64 ГБ HBM2

1–64 виртуальных ЦП
(us-east1-c, europe-west1-d, europe-west1-b)

1–96 виртуальных ЦП
(все зоны P100)

1 — 208 ГБ
(США-восток1-c, Европа-Запад1-D, Европа-Запад1-b)

1 — 624 ГБ
(все зоны P100)

Пропускная способность сети и GPU

Использование более высокой пропускной способности сети может повысить производительность распределенных рабочие нагрузки. Для получения дополнительной информации см. Пропускная способность сети и графические процессоры.

графических процессоров на вытесняемых инстансах

Вы можете добавить графические процессоры к вытесняемым экземплярам ВМ. по более низким спотовым ценам на графические процессоры. графические процессоры прикрепленные к вытесняемым экземплярам, ​​работают как обычные графические процессоры, но сохраняются только в течение жизнь экземпляра. Выгружаемые экземпляры с графическими процессорами следуют тому же процесс упреждения как и все вытесняемые экземпляры.

Рассмотрите возможность запроса выделенной квоты Preemptible GPU для использования GPU на упреждающие экземпляры.Для получения дополнительной информации см. Квоты для вытесняемых экземпляров ВМ.

Во время обслуживания вытесняемые экземпляры с графическими процессорами вытесняются по умолчанию и не может быть перезапущен автоматически. Если вы хотите воссоздать свой случаях после того, как они были вытеснены, используйте группа управляемых экземпляров. Управляемые группы экземпляров воссоздают ваши экземпляры, если виртуальный ЦП, память и Ресурсы графического процессора доступны.

Если вы хотите получить предупреждение перед тем, как ваш экземпляр будет вытеснен, или хотите настроить ваш экземпляр для автоматического перезапуска после обслуживания, используйте стандартный экземпляр с GPU.Для стандартных экземпляров с графическими процессорами Google предоставляет предварительное уведомление за час до упреждения.

Compute Engine не взимать плату за графические процессоры, если их экземпляры вытесняются в первом через минуту после того, как они начнут работать.

Инструкции по автоматическому перезапуску стандартного экземпляра см. Обновление параметров для экземпляра.

Чтобы узнать, как создавать вытесняемые экземпляры с подключенными графическими процессорами, прочтите Создание ВМ с подключенными графическими процессорами.

Резервирование графических процессоров со скидками за обязательное использование

Чтобы зарезервировать ресурсы графического процессора в определенной зоне, см. Резервирование зональных ресурсов.Для обязательного использования по сниженным ценам на графические процессоры требуется резервирование.

Сравнительная таблица GPU

Ознакомьтесь с этим разделом, чтобы узнать больше о таких факторах, как производительность. спецификации, доступность функций и идеальные типы рабочих нагрузок, которые лучше всего подходят для различных моделей графических процессоров, доступных в Compute Engine.

Максимальное количество ЦП и памяти, доступное для любой модели графического процессора, зависит от зона, в которой работает ресурс GPU. Для получения дополнительной информации о памяти см. Ресурсы ЦП, а также доступный регион и зоны, см. список графических процессоров.

Общее сравнение

Метрическая система А100 Т4 В100 Р4 Р100 К80
Память 40 ГБ HBM2 при 1,6 ТБ/с 16 ГБ GDDR6 при 320 ГБ/с 16 ГБ HBM2 при 900 ГБ/с 8 ГБ GDDR5 при 192 ГБ/с 16 ГБ HBM2 при 732 ГБ/с 12 ГБ GDDR5 при 240 ГБ/с
Межблочное соединение Полноячеистая сеть NVLink @ 600 ГБ/с Н/Д Кольцо NVLink @ 300 ГБ/с Н/Д Н/Д Н/Д
Поддержка удаленных рабочих станций GRID
Лучше всего использовать для ML Обучение, Инференс, HPC ML Inference, Training, Remote Visualization Workstations, Video Transcoding ML Обучение, Инференс, HPC Рабочие станции удаленной визуализации, вывод машинного обучения и транскодирование видео ML Training, Inference, HPC, удаленные рабочие станции визуализации ML Инференс, Обучение, HPC
Цена Чтобы сравнить цены на GPU для различных моделей GPU и регионов, доступных в Compute Engine, см. цены на GPU.

Сравнение производительности

Метрическая система А100 Т4 В100 Р4 Р100 К80
Производительность вычислений
ФП64 9,7 терафлопс 0,25 терафлопс 1 7,8 терафлопс 0,2 терафлопс 1 4.7 терафлопс 1,46 терафлопс
ФП32 19,5 терафлопс 8,1 терафлопс 15,7 терафлопс 5,5 терафлопс 9,3 терафлопс 4,37 терафлопс
ФП16 18,7 терафлопс
INT8 22 ВЕРХА 2
Производительность тензорного ядра
ФП64 19. 5 терафлопс
ТФ32 156 терафлопс
Смешанная точность FP16/FP32 312 терафлопс 3 65 терафлопс 125 терафлопс
INT8 624 ВЕРХ 2 180 ВЕРХ. 2
INT4 1248 ВЕРХ 2 260 ТОП 2

1 Чтобы обеспечить правильную работу кода FP64, небольшое количество FP64 аппаратные блоки включены в архитектуру GPU T4 и P4.

2 тераопераций в секунду.

3 Для обучения смешанной точности NVIDIA A100 также поддерживает bfloat16 тип данных.

Ограничения

Для виртуальных машин с подключенными графическими процессорами применяются следующие ограничения:

  • Если вы хотите использовать графические процессоры NVIDIA® K80 с вашими виртуальными машинами, виртуальные машины не могут используйте платформы ЦП Intel Skylake или более поздних версий.

  • Графические процессоры
  • в настоящее время поддерживаются только с N1 или N1 общего назначения. типы машин A2, оптимизированные для ускорителей.

  • Вы не можете подключить графические процессоры к виртуальным машинам с типы машин с общим ядром.

  • ВМ с подключенными графическими процессорами должны остановка для мероприятий по обслуживанию хоста, но может автоматический перезапуск. События обслуживания хоста в Compute Engine имеют периодичность один раз в две недели но может иногда запускаться чаще. Вы должны настроить свой рабочие нагрузки для аккуратной обработки этих событий обслуживания. Конкретно, длительные рабочие нагрузки, такие как машинное обучение и высокопроизводительные вычисления (HPC) должны обрабатывать прерывание событий обслуживания хоста.Для получения дополнительной информации см. Обработка событий обслуживания хоста GPU.

  • Для защиты систем и пользователей Compute Engine новые проекты имеют глобальная квота GPU, которая ограничивает общее количество GPU, которые вы можете создать в любая поддерживаемая зона. Когда вы запрашиваете квоту GPU, вы должны запросить квоту для моделей графических процессоров, которые вы хотите создать в каждом регионе, и дополнительный глобальная квота на общее количество графических процессоров всех типов во всех зонах.

  • ВМ с одним или несколькими графическими процессорами имеют максимальное количество виртуальных ЦП для каждый GPU, который вы добавляете к экземпляру.Например, каждый Графический процессор NVIDIA® K80 позволяет использовать до восьми виртуальных ЦП и до 52 ГБ памяти в типе вашего экземпляра машины. Видеть доступные диапазоны vCPU и памяти для разных конфигураций GPU, см. список графических процессоров.

  • Графическим процессорам для правильной работы требуются драйверы устройств. Графические процессоры NVIDIA работают на Compute Engine должна использоваться минимальная версия драйвера. Чтобы получить больше информации о версиях драйверов см. Требуемые версии драйверов NVIDIA.

  • ВМ с определенной моделью подключенного графического процессора покрываются Соглашение об уровне обслуживания Comp Engine, только если эта подключенная модель графического процессора общедоступна и поддерживается более чем в одной зоне в одном регионе. Соглашение об уровне обслуживания Compute Engine не распространяется на модели графических процессоров в следующие зоны:

    • NVIDIA® A100:
    • NVIDIA® T4:
      • австралия-юго-восток1-a
      • европа-запад3-б
      • южная америка-восток1-c
    • NVIDIA® V100:
    • NVIDIA® P100:
      • австралия-юго-восток1-c
      • европа-запад4-а
    • NVIDIA® K80:
  • Compute Engine поддерживает одновременную работу 1 пользователя на каждый GPU.

Что дальше?

ЯНТАРНЫЙ Тесты GPU

На этой странице описывается поддержка GPU AMBER 16.
Если вы используете AMBER 14, см. заархивированную страницу AMBER 14. здесь.

Контрольные тайминги Росса Уокер.

На этой странице представлены тесты для AMBER v16 (PMEMD) с Ускорение графического процессора на момент обновления.8 [январь 2018 г.]. Если вы используете AMBER v14, см. архив ЯНТАРЬ Тесты версии 14. Если вы используете AMBER v12, пожалуйста см. заархивированные тесты AMBER версии 12.

Скачать ЯНТАРЬ 16 Набор тестов

Технические характеристики машины

Машина
Exxact AMBER Certified 2U GPU Workstation
CPU = Dual x 8 Core Intel E5-2640v4 (2.2 ГГц), 64 ГБ оперативной памяти DDR4
(обратите внимание, что более дешевые процессоры E5-2620v4 также дадут то же самое производительность для запуска графического процессора)
MPICH v3.1.4 — GNU v5.4.0 — Centos 7.4
Набор инструментов CUDA NVCC v9.0
Драйвер NVIDIA Linux 64 — 384. 98

Кодовая база = AMBER 16 + Обновления от Январь 2018

Прецизионная модель = SPFP (GPU), двойная точность (ЦП)

Parallel Notes = Все запуски с несколькими GPU intranode с парами графических процессоров, которые поддерживают одноранговую связь.В в случае используемой здесь машины Exxact это идентификаторы устройств 0 и 1 или 2 и 3.

Паскаль Наименование Титана-X = NVIDIA назвала новейший высокопроизводительный графический процессор на базе Pascal (GP102) Titan-X повторно использует название GTX-Titan-X из предыдущего Поколение Maxwell, но без GTX перед названием. Чтобы (пытаться) избежать путаницы, мы ссылайтесь на новый графический процессор Titan-X на базе Pascal как Titan-XP . (соглашение об именах, которое NVIDIA, наконец, решила принять с обновленный Titan-X, который они теперь называют Titan-XP) и предыдущий Maxwell на базе графического процессора Titan-X как Titan-X .

ECC = где применимые тесты выполнялись с ECC, выключенным — мы не видели проблем с AMBER надежность, связанная с включенным или выключенным ECC. Если вы видите примерно на 10 % меньше производительность, чем цифры здесь, затем запустите следующее (для каждого графического процессора) от имени пользователя root:

nvidia-smi -g 0 —ecc-config=0    (повторить с -g x для каждого идентификатора GPU)

Список тестов

Явный растворитель (PME)

  1. DHFR NVE HMR 4fs = 23 558 атомов
  2. DHFR NPT HMR 4fs = 23 558 атомов
  3. DHFR NVE = 23 558 атомов
  4. DHFR NPT = 23 558 атомов
  5. FactorIX NVE = 90 906 атомов
  6. FactorIX NPT = 90 906 атомов
  7. Целлюлоза NVE = 408 609 атомов
  8. Целлюлоза NPT = 408 609 атомов
  9. STMV NPT HMR 4fs = 1 067 095 атомов

Неявный растворитель (GB)

  1. TRPCage = 304 атома
  2. Миоглобин = 2492 атома
  3. Нуклеосома = 25095 атомов

Вы можете загрузить файл tar, содержащий ввод файлы для всех этих тестов здесь (84. 1 МБ)

Индивидуальные и совокупные показатели
Уникальная особенность поддержки графических процессоров AMBER, которая отличает его от подобных Gromacs и NAMD, заключается в том, что он НЕ полагается на ЦП для повысить производительность при работе на графическом процессоре. Это позволяет сделать широкое использование всех графических процессоров в узле с несколькими графическими процессорами с максимальным эффективность. Это также означает, что можно приобрести недорогие процессоры, из которых можно сделать GPU. ускорение работы с AMBER значительно более экономично, чем с аналогичные запуски с другими MD-кодами с ускорением на графическом процессоре.

Например, предположим, что у вас есть узел с 4 В нем есть графические процессоры GTX-Titan-X. С множеством других кодов MD вы можете использовать один до четырех из этих графических процессоров, а также несколько ядер ЦП для одной задачи. Однако остальные графические процессоры недоступны для дополнительных заданий. без ущерба для производительности первой работы со времён шины PCI-E и ядра процессора уже полностью загружены. ЯНТАРЬ отличается. Во время один GPU запускает процессор, а шина PCI-E практически не используется.Таким образом, у вас есть выбор запуска одного MD на нескольких графических процессорах, чтобы максимизировать пропускную способность при одном расчете, или, альтернативно, вы может выполнять четыре полностью независимых задания по одному на каждом графическом процессоре. В этом случае, когда каждый отдельный запуск, в отличие от многих других кодов GPU MD, будет бежать на полной скорости. По этой причине совокупная пропускная способность AMBER на экономически эффективные узлы с несколькими графическими процессорами значительно превосходят другие коды которые полагаются на постоянную связь ЦП с ГП.

 


Цена/производительность
Перед просмотром необработанных показателей пропускной способности каждого из различных тестов на разных моделях GPU это полезно учитывать соотношение цена/производительность, поскольку графические процессоры NVIDIA цены охватывают очень большой диапазон от экономически эффективных GeForce карты на новейшие глаз слезливые дорогие карты Tesla V100. На следующем графике показано относительное соотношение цена/качество. на графический процессор GTX1080 для текущих графических процессоров GeForce и Tesla по ценам по состоянию на январь 2018 г. Чем меньше, тем лучше .

 

Явные контрольные показатели PME растворителя

1) DHFR NVE HMR 4fs = 23 558 атомов

 Типовое производство MD NVE с
 ХОРОШЕЕ энергосбережение, HMR, 4fs.&cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2, дол=0,000001,
   nстлим=75000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   dt=0,004, отсечка=8.,
   нтт=0, нтб=1, нтп=0,
   выход = 1,
 /
 &эвальд
   dsum_tol = 0,000001,
 / 

Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)


Совокупная пропускная способность (GTX-Titan-XP)
(отдельные запуски одновременно на одном узле)


2) DHFR NPT HMR 4fs = 23 558 атомов

 Стандартная продукция MD NPT, MC Bar 4fs HMR
 &cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2,
   nстлим=75000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   дт=0. 004, вырезать=8.,
   нтт=1, tаутр=10,0,
   темп0=300.0,
   нтб=2, нтп=1, баростат=2,
   выход = 1,
 / 

Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)


3) DHFR NVE 2fs = 23 558 атомов

 Типовое производство MD NVE с
 хорошее энергосбережение, 2fs.&cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2, дол=0,000001,
   nстлим=75000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   dt=0,002, отсечка=8.,
   нтт=0, нтб=1, нтп=0,
   выход = 1,
 /
 &эвальд
  dsum_tol = 0,000001,
 / 

Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)


4) DHFR NPT 2fs = 23 558 атомов

 Типовая продукция MD NPT, MC Bar 2fs
 &cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2,
   nстлим=75000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   дт=0. 002, вырезать=8.,
   нтт=1, tаутр=10,0,
   темп0=300.0,
   нтб=2, нтп=1, баростат=2,
   выход = 1,
 / 

Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)


5) Фактор IX NVE = 90 906 атомов

 Типовое производство MD NVE с
 ХОРОШЕЕ энергосбережение.&cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2, дол=0,000001,
   nстлим=15000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   dt=0,002, отсечка=8.,
   нтт=0, нтб=1, нтп=0,
   выход = 1,
 /
 &эвальд
  dsum_tol=0.000001,nfft1=128,nfft2=64,nfft3=64,
 / 
 
Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)


6) Фактор IX NPT = 90 906 атомов

 Типовая продукция MD NPT, MC Bar 2fs
&cntrl
 нтх=5, ирест=1,
 нтк=2, нтф=2,
 nстлим=15000,
 нтпр=1000, нтвкс=1000,
 нтвр=10000,
 дт=0. 002, вырезать=8.,
 нтт=1, tаутр=10,0,
 темп0=300.0,
 нтб=2, нтп=1, баростат=2,
 выход = 1,
/ 
 
Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)

7) Целлюлоза NVE = 408 609 атомов

 Типовое производство MD NVE с
ХОРОШЕЕ энергосбережение.&cntrl
   нтх=5, ирест=1,
   нтк=2, нтф=2, дол=0,000001,
   nstlim=10000,
   нтпр=1000, нтвкс=1000,
   нтвр=10000,
   dt=0,002, отсечка=8.,
   нтт=0, нтб=1, нтп=0,
   выход = 1,
 /
 &эвальд
  dsum_tol = 0,000001,
 / 
 
Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)

8) Целлюлоза NPT = 408 609 атомов

 Типовая продукция MD NPT, MC Bar 2fs
 &cntrl
  нтх=5, ирест=1,
  нтк=2, нтф=2,
  nstlim=10000,
  нтпр=1000, нтвкс=1000,
  нтвр=10000,
  дт=0. 002, вырезать=8.,
  нтт=1, tаутр=10,0,
  темп0=300.0,
  нтб=2, нтп=1, баростат=2,
  выход = 1,
 / 

 

Производительность одного задания
(один запуск на одном или нескольких графических процессорах в пределах одного узла)

9) STMV NPT HMR 4fs = 1 067 095 атомов

 Типовая продукция MD NPT, HMR, MC Bar 4fs
 &cntrl
  нтх=5, ирест=1,
  нтк=2, нтф=2,
  nстлим=4000,
  нтпр=1000, нтвкс=1000,
  нтвр=4000,
  дт=0.  


Бенчмарки Implicit Solvent GB

1) TRPCage = 304 атома

 &управление
  имин=0,ирест=1,нтх=5,
  nstlim=500000, dt=0,002,
  нтф=2,нтк=2,
  нтт=1, tаутр=0,5,
  темп=325. 0, темп0=325.0,
  нтпр=1000, нтвкс=1000, нтвр=50000,
  нтб=0, игб=1,
  разрез=9999., rgbmax=9999.,
/ 
Примечание. Тест TRPCage слишком мал, чтобы сделать его эффективным. использование самых последних графических процессоров, поэтому производительность на этих картах не так выражена по сравнению с ранними карты поколения, как и для более крупных систем GB и запусков PME. Эта система также слишком мала, чтобы эффективно работать несколько графических процессоров.


TRPCage слишком мал для эффективного масштабирования до современных графических процессоров

2) Миоглобин = 2492 атома

&cntrl
имин=0,ирест=1,нтх=5,
nstlim=50000,dt=0.002,нтб=0,
ntf=2,ntc=2,
ntpr=1000, ntwx=1000, ntwr=10000,
 cut=9999,0, rgbmax=15,0,
igb=1,ntt=3,gamma_ln=1. 0,nscm=0,
темп0=300.0,иг=-1,
/

Примечание. Этот тестовый пример слишком мал, чтобы сделать его эффективным. использование нескольких графических процессоров при использовании новейшего оборудования.


Миоглобин слишком мал для эффективного масштабирования до нескольких современных графические процессоры.

3) Нуклеосома = 25095 атомов

&cntrl
имин=0,ирест=1,нтх=5,
nstlim=1000,dt=0,002,
нтф=2,нтк=2,нтб=0,
igb=5,cut=9999.0,rgbmax=15.0,
ntpr=200, ntwx=200, ntwr=1000,
солькон=0.


Эпизод 3: Сравнение производительности собственного графического процессора с виртуализированным графическим процессором и масштабируемость виртуализированных графических процессоров для машинного обучения

В нашем третьем эпизоде ​​производительности машинного обучения с vSphere 6. x мы сравним виртуальный графический процессор с физическим графическим процессором. Кроме того, мы расширяем результаты производительности рабочих нагрузок машинного обучения с использованием ввода-вывода VMware DirectPath (сквозной) по сравнению с виртуальным графическим процессором NVIDIA GRID, которые были частично рассмотрены в предыдущих эпизодах:

.

Машинное обучение с виртуализированными графическими процессорами

Производительность — одна из самых больших проблем, которая удерживает пользователей высокопроизводительных вычислений (HPC) от выбора виртуализации в качестве решения для развертывания приложений HPC, несмотря на преимущества виртуализации, такие как снижение затрат на администрирование, эффективность использования ресурсов, энергосбережение и безопасность.Однако с постоянным развитием технологий виртуализации разрыв в производительности между «голым железом» и виртуализацией почти исчез, и в некоторых случаях использования виртуализированные приложения могут достигать более высокой производительности, чем работающие на «голом железе», благодаря интеллектуальному и высокооптимизированному использованию ресурсов. гипервизоры. Например, предыдущее исследование [1] показывает, что приложения векторной машины, работающие в виртуализированном кластере из 10 серверов, имеют лучшее время выполнения, чем работающие на «голом железе».

Сравнение виртуального графического процессора с физическим графическим процессором

Чтобы понять влияние машинного обучения на графические процессоры с использованием виртуализации на производительность, мы использовали приложение для моделирования сложного языка, предсказывающее следующие слова по истории предыдущих слов с помощью рекуррентной нейронной сети (RNN) с 1500 единицами долговременной кратковременной памяти (LSTM) на слой в наборе данных Penn Treebank (PTB) [2, 3], который имеет:

  • 929 000 обучающих слов
  • 73 000 проверочных слов
  • 82 000 тестовых слов
  • 10 000 словарных слов

Мы протестировали три корпуса:

  • Физический графический процессор, установленный на «голое железо» (это «родная» конфигурация)
  • Графический процессор ввода-вывода DirectPath внутри виртуальной машины на vSphere 6
  • GRID vGPU (то есть профиль M60-8Q vGPU с 8 ГБ памяти) внутри виртуальной машины на vSphere 6

Виртуальная машина в последних двух случаях имеет 12 виртуальных ЦП (вЦП), 60 ГБ ОЗУ и 96 ГБ хранилища SSD.

Тест был реализован с использованием TensorFlow [4], который также использовался для реализации других тестов машинного обучения в наших экспериментах. Мы использовали CUDA 7.5, cuDNN 5.1 и CentOS 7.2 как для собственных, так и для гостевых операционных систем. Эти тестовые случаи выполнялись на сервере Dell PowerEdge R730 с двумя 12-ядерными процессорами Intel Xeon E5-2680 v3, разъемами 2,50 ГГц (24 физических ядра, 48 логических с включенной гиперпоточностью), 768 ГБ памяти и твердотельным накопителем (1,5 ТБ). . На этом сервере также было две карты NVIDIA Tesla M60 (каждая с двумя графическими процессорами), всего 4 графических процессора, каждый из которых имел 2048 ядер CUDA, 8 ГБ памяти, 36 x H.264 видео 1080p 30 потоков и может поддерживать от 1 до 32 виртуальных графических процессоров GRID с профилями памяти от 512 МБ до 8 ГБ. Эта экспериментальная установка использовалась для всех тестов, представленных в этом блоге (рис. 1 ниже).

Рис. 1. Сравнение конфигураций испытательного стенда для собственного графического процессора и виртуального графического процессора

Результаты на рис. 2 (ниже) показывают относительное время выполнения операций ввода-вывода DirectPath и GRID vGPU по сравнению с собственным графическим процессором. Виртуализация приводит к увеличению накладных расходов на 4 % — производительность операций ввода-вывода DirectPath и GRID vGPU аналогична.Эти результаты согласуются с предыдущими исследованиями производительности виртуальных графических процессоров со сквозным подключением, где накладные расходы в большинстве случаев составляют менее 5% [5, 6].

Рис. 2. Ввод-вывод DirectPath и NVIDIA GRID по сравнению с собственным GPU

GPU по сравнению с CPU в среде виртуализации

Одним из важных преимуществ использования графического процессора является сокращение продолжительного времени обучения задачам машинного обучения, что позволило повысить результаты исследований и разработок в области ИИ в последние годы. Во многих случаях это помогает сократить время выполнения с недель/дней до часов/минут.Мы иллюстрируем это преимущество на рисунке 3 (ниже), где показано время обучения с vGPU и без него для двух приложений:

  • РНН с ПТБ (описано ранее)
  • CNN с MNIST — распознаватель рукописного ввода, который использует сверточную нейронную сеть (CNN) в наборе данных MNIST [7].

Из результатов видно, что время обучения RNN на PTB с CPU было в 7,9 раз больше, чем время обучения с vGPU (рис. 3-a). Время обучения CNN на MNIST с процессором составило 10.в 1 раз выше, чем при обучении vGPU (рис. 3-б). Виртуальная машина, используемая в этом тесте, имеет 1 виртуальный графический процессор, 12 виртуальных ЦП, 60 ГБ памяти, 96 ГБ хранилища SSD, а тестовая установка аналогична описанной выше.

Рис. 3. Нормализованное время обучения PTB, MNIST с vGPU

и без него Как показывают результаты тестирования, мы можем успешно запускать приложения машинного обучения в виртуализированной среде vSphere 6, и его производительность аналогична времени обучения приложений машинного обучения, работающих в собственная конфигурация (не виртуализированная) с использованием физических графических процессоров.

А как насчет сквозного сценария? Как приложение машинного обучения работает на виртуальной машине vSphere 6 с использованием сквозного доступа к физическому графическому процессору по сравнению с использованием виртуализированного графического процессора? Мы представляем наши выводы в следующем разделе.

Сравнение ввода-вывода DirectPath и GRID vGPU

Мы оцениваем производительность, масштабируемость и другие преимущества ввода-вывода DirectPath и GRID vGPU. Мы также предоставляем некоторые рекомендации по лучшим вариантам использования каждого виртуального графического процессора.

Производительность

Чтобы сравнить производительность ввода-вывода DirectPath и GRID vGPU, мы сравнили их с RNN на PTB и CNN на MNIST и CIFAR-10. CIFAR-10 [8] представляет собой приложение для классификации объектов, которое распределяет изображения RGB размером 32×32 пикселя по 10 категориям: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик. MNIST — приложение для распознавания рукописного ввода. И CIFAR-10, и MNIST используют сверточные нейронные сети. Языковая модель, используемая для предсказания слов, основана на истории с использованием рекуррентной нейронной сети.Используемый набор данных — The Penn Tree Bank (PTB).

Рис. 4. Сравнение производительности операций ввода-вывода DirectPath и GRID vGPU.

Результаты на рис. 4 (выше) показывают сравнительную производительность двух решений виртуализации, в которых производительность ввода-вывода DirectPath несколько выше, чем у GRID vGPU. Это улучшение связано с тем, что сквозной механизм ввода-вывода DirectPath добавляет минимальные накладные расходы рабочим нагрузкам на основе графического процессора, выполняемым внутри виртуальной машины. На рисунке 4-a скорость ввода-вывода DirectPath примерно на 5 % выше, чем у GRID vGPU для MNIST, и они имеют одинаковую производительность с PTB.Для CIFAR-10 ввод-вывод DirectPath может обрабатывать примерно на 13 % больше изображений в секунду, чем GRID vGPU. Мы используем изображения в секунду для CIFAR-10, потому что это часто используемый показатель для этого набора данных. Виртуальная машина в этом эксперименте имеет 12 виртуальных ЦП, 60 ГБ видеопамяти и один графический процессор (ввод-вывод DirectPath или виртуальный графический процессор GRID).

Масштабируемость

Мы рассматриваем два типа масштабируемости: пользовательскую и графическую.

Масштабируемость пользователя

В облачной среде несколько пользователей могут совместно использовать физические серверы, что помогает лучше использовать ресурсы и экономить средства.Наш тестовый сервер с 4 графическими процессорами может поддерживать до 4 пользователей, нуждающихся в графическом процессоре. Кроме того, у одного пользователя может быть четыре ВМ с vGPU. Количество виртуальных машин, работающих на одну машину в облачной среде, как правило, велико для увеличения использования и снижения затрат [9]. Рабочие нагрузки машинного обучения, как правило, гораздо более ресурсоемкие, и использование наших тестовых систем с 4 графическими процессорами только для 4 пользователей отражает это.

Рисунок 5. Масштабирование количества ВМ с vGPU на CIFAR-10

На Рисунке 5 (выше) представлена ​​масштабируемость пользователей на CIFAR-10 от 1 до 4, где каждый использует виртуальную машину с одним GPU, и мы нормализуем количество изображений в секунду до этого случая DirectPath I/O — 1 VM (рис. 5-a).Как и в предыдущем сравнении, DirectPath I/O и GRID vGPU демонстрируют сравнимую производительность по мере увеличения количества ВМ с GPU. В частности, разница в производительности между ними составляет 6–10 % для изображений в секунду и 0–1,5 % для загрузки ЦП. Эта разница несущественна по сравнению с преимуществами, которые дает vGPU. Из-за своей гибкости и эластичности это хороший вариант для рабочих нагрузок машинного обучения. Результаты также показывают, что два решения линейно масштабируются с количеством виртуальных машин как с точки зрения времени выполнения, так и использования ресурсов ЦП.Виртуальные машины, используемые в этом эксперименте, имеют 12 виртуальных ЦП, 16 ГБ памяти и 1 графический процессор (ввод-вывод DirectPath или виртуальный графический процессор GRID).

Масштабируемость GPU

Для приложений машинного обучения, которым необходимо создавать очень большие модели или в которых наборы данных не помещаются в один графический процессор, пользователи могут использовать несколько графических процессоров для распределения рабочих нагрузок между ними и дальнейшего ускорения задачи обучения. В vSphere приложения, которым требуется несколько графических процессоров, могут использовать транзитный ввод-вывод DirectPath для настройки виртуальных машин с любым количеством графических процессоров.Эта возможность ограничена для приложений CUDA, использующих виртуальный графический процессор GRID, поскольку для вычислений CUDA допускается только 1 виртуальный графический процессор на виртуальную машину.

Мы демонстрируем эффективность использования нескольких графических процессоров в vSphere путем сравнительного анализа рабочей нагрузки CIFAR-10 и использования метрики количества изображений в секунду (изображений в секунду) для сравнения производительности CIFAR-10 на виртуальной машине с различным количеством графических процессоров при масштабировании от 1 до 4 графических процессоров.

Из результатов на рис. 6 (ниже) мы обнаружили, что количество изображений, обрабатываемых в секунду, улучшается почти линейно с количеством графических процессоров на хосте (рис. 6-a).В то же время их загрузка ЦП также увеличивается линейно (рис. 6-b). Этот результат показывает, что рабочие нагрузки машинного обучения хорошо масштабируются на платформе vSphere. В случае приложений машинного обучения, которым требуется больше графических процессоров, чем может поддерживать физический сервер, мы можем использовать модель распределенных вычислений с несколькими распределенными процессами, использующими графические процессоры, работающие на кластере физических серверов. При таком подходе можно использовать как ввод-вывод DirectPath, так и виртуальный графический процессор GRID для повышения масштабируемости с очень большим количеством графических процессоров.

Рис. 6. Масштабирование количества GPU на ВМ на CIFAR-10

Как выбрать между DirectPath I/O и GRID vGPU

Для ввода/вывода DirectPath

Из приведенных выше результатов видно, что DirectPath I/O и GRID vGPU имеют аналогичную производительность и низкие накладные расходы по сравнению с производительностью собственного графического процессора, что делает их хорошим выбором для приложений машинного обучения в виртуализированных облачных средах. Для приложений, которые требуют короткого времени обучения и используют несколько графических процессоров для ускорения задач машинного обучения, ввод-вывод DirectPath является подходящим вариантом, поскольку это решение поддерживает несколько графических процессоров на виртуальную машину.Кроме того, DirectPath I/O поддерживает более широкий спектр устройств с графическим процессором и, таким образом, может предоставить пользователям более гибкий выбор графического процессора.

Для GRID vGPU

Когда каждому пользователю требуется один графический процессор, GRID vGPU может быть хорошим выбором. Эта конфигурация обеспечивает более высокую степень консолидации виртуальных машин и использует преимущества виртуализации:

.
  • GRID vGPU позволяет гибко использовать устройство, поскольку vGPU поддерживает как общий GPU (несколько пользователей на физическую машину), так и выделенный GPU (один пользователь на физический GPU).Смешивание и переключение между рабочими нагрузками машинного обучения, 3D-графики и кодирования/декодирования видео с использованием графических процессоров намного проще и позволяет более эффективно использовать аппаратные ресурсы. Использование решений GRID для машинного обучения и 3D-графики позволяет облачным службам мультиплексировать графические процессоры среди большего числа одновременных пользователей, чем количество физических графических процессоров в системе. Это контрастирует с вводом-выводом DirectPath, который представляет собой решение с выделенным графическим процессором, в котором количество одновременных пользователей ограничено количеством физических графических процессоров.
  • GRID vGPU снижает затраты на администрирование, поскольку его развертывание и обслуживание не требуют перезагрузки сервера, поэтому конечным пользователям не требуется время простоя. Например, изменение профиля vGPU виртуальной машины не требует перезагрузки сервера. Любые изменения в конфигурации ввода-вывода DirectPath требуют перезагрузки сервера. Простота управления GRID vGPU сокращает время и сложность администрирования и обслуживания графических процессоров. Это преимущество особенно важно в облачной среде, где количество управляемых серверов может быть очень большим.

Заключение

Наши тесты показывают, что виртуализированные рабочие нагрузки машинного обучения в vSphere с vGPU обеспечивают производительность, близкую к производительности «голого железа».

Каталожные номера

  1. Джаффе, Д. Производительность больших данных в vSphere 6. (август 2016 г.). http://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/techpaper/bigdata-perf-vsphere6.pdf.
  2. Заремба В., Суцкевер И., Виньялс О. Регуляризация рекуррентных нейронных сетей. В: arxiv:1409.2329 (2014).
  3. Тейлор, А., Маркус, М., Санторини, Б.: Пенсильванский берег дерева: обзор. В: Абей, А. (ред.). Банки деревьев: современное состояние синтаксически аннотированных корпусов. Клювер (2003).
  4. Домашняя страница Tensorflow, https://www.tensorflow.org
  5. Ву, Л., Сивараман, Х., Бидаркар, Р.: Виртуализация графического процессора для высокопроизводительных вычислений общего назначения на гипервизоре ESX. В: Учеб. 22-го симпозиума по высокопроизводительным вычислениям (2014 г.).
  6. Уолтерс, Дж. П., Янг, А.Дж., Канг, Д.И., Яо, К.Т., Канг, М., Краго, С.П., Фокс, Г.К.: Производительность передачи GPU: сравнение KVM, Xen, VMWare ESXi и LXC для приложений CUDA и OpenCL. В: Материалы 7-й Международной конференции IEEE по облачным вычислениям 2014 г. (2014 г.).
  7. ЛеКун, Ю., Ботту, Л., Бенжио, Ю., Хаффнер, П.: Градиентное обучение в применении к распознаванию документов. В: Proceedings of the IEEE, 86(11):2278-2324 (ноябрь 1998 г.).
  8. Несколько уровней функций из крошечных изображений, https://www.cs.toronto.edu/~kriz/cifar.html
  9. Пандей А., Ву Л., Путияветтил В., Сивараман Х., Куркуре У., Баппанаду А.: Платформа автоматизации для сравнительного анализа и оптимизации производительности удаленных рабочих столов в облаке. В: Для публикации в материалах Международной конференции по высокопроизводительным вычислениям и моделированию 2017 г. (2017 г.).

Сравнение видеокарт | Оборудование сравнить GPU

MB 9012 0 1677 0 167
  • 1208020 1208020
  • 020 024 6243 2009 9002 NVIDIA GeForce GT 1030 200 00020 219 900 90? 20020 020 9? 209 0 0214 9? 009020 1214 90 00020? 21 90 0 13 9002 9002

    09020 1213 900? 1002 90? 0 139020 90? ? 90? 5 9 90? 9002 9002 9?? 9
    GPU HWC GPU Оценка 3DMark Fire Strike Graphics Memory Память пропускной способности
    MB / SEC
    Texel Скорость заполнения
    Мтекселей/сек
    Скорость заполнения пикселей
    Мпикселей/сек
    AMD Radeon RX 6900 ? 16384 524288 584000 233600
    AMD Radeon RX 6800 XT 19094? 16384 524288 525600 233600
    nVidia GeForce RTX 3090 10 ? 245768 457560 156240
    nVidia GeForce RTX 3080 Ti 20029 0
    12288
    436800 152880
    nVidia GeForce RTX 3080 Ti 20029 0 12288
    436800 152880
    AMD Radeon RX 6800 3 9? 16384 524288 408000 163200
    nVidia GeForce RTX 3080 9021 10240 778 547 3

    138240
    NVidia Титан Хр 11788 27938 12288 560845 379680 151 872
    NVidia GeForce RTX 3070 Ti 10988 ? 8192 622899 302400 151200
    AMD Radeon VII 10694 27400 16384 1048576 336000 89600
    NVidia GeForce RTX 2080 Ti 9863 31381 11264 630784 367200 118800
    nVidia Titan X9 152 ? 12288 4
    317408 136032
    NVIDIA GeForce GTX 1080 Ti 9118 27629 11264 4 331520 130240
    AMD Radeon Pro Duo 8319 27167 4096 1024000 512000 128000
    AMD Radeon Vega Frontier выпуск 7359 21379 16384 4 353792 88448
    NVIDIA GeForce RTX 2080 СУПЕР 7250 ? 8192 507904 316800 105600
    nVidia GeForce RTX 2070 Super 8192 458752 256800 102720
    NVIDIA GeForce RTX 2080 6118 26155 8192 458752 278760
    AMD Radeon RX 6600 XT 5704 ? 8192 262144 251904 125952
    AMD Radeon R9 295X2 5684 21205 4096 640000 358336 130304
    AMD Radeon RX Vega 64 5658 21986 8192 8192 4 319232 79808
    NVIDIA GeForce RTX 2060 Super 5381? 8192 458752 199920
    NVIDIA GeForce GTX 1080 5335 21942 8192 327680 257120 102848
    AMD Radeon RX 5700 XT пятидесятых Anniversary Edition 5301 ? 8096 458752 268800 107520
    NVIDIA GeForce RTX 2070 5222 22282 8192 458752 203040
    NVIDIA GeForce GTX Titan X 5081 17879 12288 336000 1
    AMD Radeon RX 5700 XT 5031? 8096 458752 256800 102720
    NVIDIA GeForce GTX 1070 Ti 4770 19808 8192 262144 244264 102848
    AMD Radeon RX 6700 XT 4631 ? 0 3 371360 148544
    AMD Radeon RX Vega 56 4579 21011 8192 419430 258944 73984
    AMD Radeon RX 5700 4413 ? 8096 458752 210960
    nVidia GeForce RTX 3070 9?0278 9? AMD Radeon RX 6600 4073 9? 8192 229376 182112 104064
    NVIDIA GeForce GTX 1070 4048 18174 8192 262144 180720
    AMD Radeon R9 390X 8G 3691 13555 8192 384000 184800 67200
    AMD Radeon R9 390 8G 3436 12733 8192 384000 160000 64000
    NVIDIA GeForce GTX 980 Ti 3069 3069 17120 6144 336000 176000
    AMD Radeon RX 5600 XT 3006? 6144 344064 198000 88000
    nVidia GeForce RTX 3060 Ti 28520 AMD Radeon RX 5600 2708 9? AMD Radeon RX 590 2515

    ?

    8192 262144 211536 47008
    AMD Radeon R9 Фьюри Х 2571 14793 4096 512000 268800 67200
    AMD Radeon RX 5500 XT 2465 ? 8192 229376 151 096 54944
    AMD Radeon R9 Нано 2436 14918 4096 512000 256000 64000
    AMD Radeon HD 7990 2432 15520 3072 3072 576000 243200 60800
    NVIDIA GeForce RTX 2060 2303? 6144 344064 163800 65520
    AMD Radeon RX 580 2243 13630 8192 262144 181008 40224
    NVIDIA GeForce GTX 1660 Ti 2224 ? 6144 2 144000 72000
    AMD Radeon RX 480 2047 13349 8192 262144 161280 35840
    AMD Radeon HD 5970 1963 ? 1024 256000 232000
    NVIDIA GeForce GTX Titan Black 1843 11666 6144 336000 213360 42672
    NVIDIA GeForce GTX 1060 1817 12359 6144 1 120480 72288
    NVIDIA GeForce GTX 690 1692 13111 2048 384512 234240 58560
    AMD Radeon RX 470 1654 11756 8192 211200 118528 29632
    NVIDIA GeForce GTX Titan 1635 10162 6144 288384 187488 40176
    NVIDIA GeForce GTX 980 1542 13552 4096 224000 144128 72064
    AMD Radeon R9 290X 1412 10609 4096 320000 140800 51200
    AMD Radeon R9 290 1384 9876 4096 320000 128000 51200
    NVIDIA GeForce GTX 970 1367 10867 4096 224000 109200 67200
    NVIDIA GeForce GTX 780 Ti 1324 30900 30900 3072 336000 210000 42000
    NVIDIA GeForce RTX 3060 1297? 0 368640 147840 63360
    AMD Radeon RX 5500 128421 ? 4096 229376 146960 53440
    NVIDIA GeForce GTX 1060 3GB 1283 12185 3072 1 108432 72288
    AMD Radeon HD 6990 1253 5820 2048 320000 159360 53120
    NVIDIA GeForce GTX 780 1148 10082 3072 288384 165696 41424
    NVIDIA GeForce GTX 590 1103 6680 1536 328320 77696 58272
    NVIDIA GeForce GTX 980m 1087 9476 4096 128000 99648 66432
    AMD Radeon RX 570 1045 12108 4096 229376 149504 37376
    AMD Radeon RX 480 4 ГБ0 4096 229376 161280 35840
    nVidia GeForce GTX 1650 0284 9? 4096 131072 83160 47520
    AMD Radeon RX 470 4 ГБ 2616 9000? 4096 211200 118528 29632
    AMD Radeon R9 380x 858 9519 4096 182400 124160 31040
    AMD Radeon R9 380 4G 837 8837 4096 182400 108640 31040
    AMD Radeon HD 7970 829 8225 3072 264000 118400 29600
    AMD Radeon R9 280x 804 8886 3072 288000 108800 27200
    NVIDIA GeForce GTX 880M 786 6360 4096 128000 122112 30528
    AMD Radeon R9 280 785 7961 307 2 240000 104496 29856
    AMD Radeon R7 370 4G 772 ? 4096 179200 62400 31200
    NVIDIA GeForce GTX 1050 Ti 766 7734 4096 114688 61920 41280
    AMD Radeon R9 M295X 736 ? 4096 176000 24000
    nVidia GeForce GTX 580 3GB 0144 3072 1 49408 37056
    NVIDIA GeForce GTX 770 719 7854 2048 224384 133888 33472
    AMD Radeon R9 M290X 714 ? 4096 153600 68000 27200
    AMD Radeon R9 M390X 709

    1 ?

    4096 160000 23136
    AMD Radeon R9 M395X 709

    1 ?

    4096 160000 23136
    AMD Radeon HD 7950 3GB 7016 9000? 3072 240000 89600 25600
    NVIDIA GeForce GTX 970m 676 7520 3072 73920 44352
    NVIDIA GeForce GTX 680 654 7650 2048 1 128768 32192
    4096 114688 75200 18800
    AMD Radeon R9 380 2G 600 8850 2048 182400 108640 31040
    NVIDIA GeForce GTX 760 595 5923 +2048 1 31360
    AMD Radeon RX 460 595 5595 4096 112000 61040 17440
    AMD Radeon R9 M385X 586 ? 4096 ед 61600 17600
    NVIDIA GeForce GTX 670 582 7351 2048 1 102480 29280
    NVIDIA GeForce GTX 1050 3ГБ 573 ? 3072 86016 66816 33408
    AMD Radeon HD 7870 XT 568 6390 2048 1 88800 29600
    AMD Radeon R9 270X 567 6590 2048 179200 80000 32000
    AMD Radeon R9 285 566 8500 2048 176000 102816 29376
    AMD Radeon R9 M380 561 ? 4096 40000 16000
    AMD Radeon R9 M280X 55521 ? 4096 88000 50400 14400
    NVIDIA GeForce GTX 870M 552 4770 3072 105392 22584
    AMD Radeon R9 M375X 548 ? 4096 72000 40600 16240
    NVIDIA GeForce GTX 860M 548 4340 4096 64000 76512 12752
    AMD Radeon R9 M365X 539 ? 4096 72000 37000 14800
    AMD Radeon HD 7870 536 6230 2048 153600 80000 32000
    AMD Radeon R7 370 2G 535 5582 2048 179200 62400 31200
    AMD Radeon HD 6970 530 3470 2048 176000 84480 28160
    NVIDIA GeForce GTX 580 529 4956 снимка 1536 1 49408 37056
    NVIDIA GeForce GTX 1050 529 6657 2048 114688 54160 43328
    AMD Radeon R9 М375 525 ? 4096 35200 40600 16240
    AMD Radeon R9 270 524 5943 2048 179200 72000 28800
    AMD Radeon HD 7950 512 7731 1536 240000 89600 25600
    nVidia GeForce GTX 290 905 80201 90 896 223776 32256
    NVIDIA GeForce GTX 960 505 7627 2048 112000 72128 36064
    AMD Radeon HD 6950 2GB 472 ? 2048 160000 70400 25600
    NVIDIA GeForce GTX 480 466 3650 1536 177408 42000 33600
    AMD Radeon HD 7850 464 5200 2048 153600 55040 27520
    NVIDIA GeForce GTX 660 Ti 456 6013 2048 144000 102480 21960
    NVIDIA GeForce GTX 660 447 5063 2048 144192 78400 23520
    NVIDIA GeForce GTX 950 439 6536 2048 105728 49152 32768
    NVIDIA GeForce GTX 285 2 ГБ 410 ? 2048 158976 51840 20736
    AMD Radeon HD 4870 X2 392? 1024 230400 60000 24000
    NVIDIA GeForce GTX 965m 391 5650 2048 64000 60416 30208
    NVIDIA GeForce GT 440 3GB 390 ? 3072 43200 14256 14256
    NVIDIA GeForce GTX 570 374 4387 1280 152000 43920 29280
    NVIDIA GeForce GTX 460 2GB 368 ? 2048 115200 37800 21600
    NVIDIA GeForce GTX 560 Ti 448 361 4200 1280 144000 40992 29280
    AMD Radeon HD 5870 358 ? 1024 153600 68000 27200
    AMD Radeon RX 460 2 ГБ 258 9000? 2048 112000 61040 17440
    AMD Radeon R7 260X 354 4381 2048 104000 61600 17600
    AMD Radeon HD 6950 353 3240 1024 160000 70400 25600
    AMD Radeon HD 4890 0 2 ГБ 2? 2048 124800 40000 16000
    AMD Radeon RX 550 341 3507 2048 114688 35200 17600
    AMD Radeon R7 360 341 4110 2048 104000 50400 16800
    AMD Radeon HD 6870 329 2870 1024 134400 50400 28800
    NVIDIA GeForce GTX 650 Ti 2 Гб 325 ? 2048 86400 59392 14848
    NVIDIA GeForce GTX 750 Ti 320 4562 2048 86400 40800 16320
    NVIDIA GeForce GTX 960m 314 4350 2048 64000 64000 43840 17536
    311? 2048 49152 40480 20240
    AMD Radeon R7 250X 2GB 219 9000? 2048 72000 40 000 16000
    NVIDIA GeForce GTX 470 308 2937 1280 133920 33992 24280
    NVIDIA GeForce GTX 560 Ti 307 3466 1024 128256 128256 52608 26304
    AMD Radeon HD 4870 2GB 306? 2048 115200 30000 12000
    AMD Radeon R9 M275X 299

    1 ?

    2048 72000 36000 14400
    NVIDIA GeForce GTX 560 296 3030 1024 128128 45360 25920
    AMD Radeon HD 3870 X2 1GB 294 ? 1024 144128 26400 26400
    nVidia GeForce GTX 285 1GB 211 1024 158976 51840 20736
    AMD Radeon R9 M370X 290

    1 ?

    2048 72000 32000 12800
    NVIDIA GeForce GT 640 DDR3 287 1560 2048 57024 28800 14400
    AMD Radeon HD 5850 284 ? 1024 128000 52200 23200
    AMD Radeon R9 M270X 284

    1 ?

    2048 72000 29000 11600
    AMD Radeon HD 6850 280 2395 1024 128000 37200 24800
    NVIDIA GeForce GTX 950m 279 3330 2048 32000 36560 14624
    NVIDIA GeForce GTX 850M 276 3340 2048 32000 35040 14016
    AMD Radeon R9 M265X 272 ? 2048 72000 23000 9200
    AMD Radeon HD 4850 2 ГБ 2721 ? 2048 63552 25000 10000
    nVidia GeForce GTX 280 263 ? 1024 141696 48160 19264
    nVidia GeForce GT 450 (OEM) 263 1536 18960 18960
    AMD Radeon HD 4850 X2 1GB 1024 127104 50000 20000
    AMD Radeon R7 M260X21 259

    1 ?

    2048 64000 19800 6600
    AMD Radeon R7 M360 253 2048 16000 27000 9000
    NVIDIA GeForce 940 252 1740 2048 16000 25728 8576
    NVIDIA GeForce 920m 252 1180 2048 14400 30528 7632
    NVIDIA GeForce 840m 251 1600 2048 16000 24696 8232
    NVIDIA GeForce GTX 460 1GB 249 ? 1024 115200 37800 21600
    AMD Radeon R7 M265 249 3256 2048 32000 17400 5800
    AMD Radeon R5 M330 249 ? 2048 14400 20600 8240
    NVidia GeForce 930M 249 1490 2048 14400 22272 7424
    AMD Radeon R5 M255 248 ? 2048 16000 18800 7520
    nVidia GeForce 830M 24821 ? 2048 14400 16464 8232
    AMD Radeon R7 240 247 1218 2048 28800 14600 5840
    AMD Radeon R7 M260 245 1120 2048 16000 17160 5720
    nVidia GeForce 825M 20090 20090 21090 25020 2048 14400 13600 6800
    nVidia GeForce GT 430 (OEM) 2212 2212 2048 28800 11200 2800
    nVidia GeForce GT 420 24121 ? 2048 +28800 5600 +2800
    AMD Radeon R5 М230 241 тысяча двести восемьдесят один 2048 16000 15600 3120
    NVidia GeForce 820M 241 850 2048 16000 11504 2876
    nVidia GeForce GTX 460 (OEM) 209021 3 2 0 1 2 1024 108800 36400 20800
    nVidia GeForce GTX 460 SE 2213 900 1024 108800 31200 20800
    nVidia GeForce GTX 275 229 9000 896 127008 50640 17724
    NVIDIA GeForce GTX 550 Ti 227 1897 1024 98496 28800 21600
    AMD Radeon HD 4890 1GB 223 ? 1024 124800 40000 16000
    NVIDIA GeForce 9800 GX2 0217 9? 512 128000 76800 19200
    nVidia GeForce GTX 465 217 ? 1024 102592 26708 19424
    AMD Radeon HD 7790 216 4330 1024 56000 16000
    Nvidia GeForce GT 440 1. 5ГБ 210 840 1536 43200 14256 14256
    AMD Radeon HD 6790 207 2150 1024 134400 33600 13440
    AMD Radeon HD 5830 206 ? +1024 128000 44800 12800
    NVIDIA GeForce GTX 650 Ti 206 3434 +1024 86400 59392 14848
    AMD Radeon HD 3870 X2 512 205 ? 512 115200 26400 26400
    nVidia GeForce GTX 260 216SP 55 нм 20921 202020 896 111888 41472 16128
    nVidia GeForce GTX 260 Core 216 202 ? 896 111888 41472 16128
    AMD Radeon HD 4850 X2 512MB 210 200 512 127104 50000 20000
    nVidia GeForce GTX 260 198 ? 896 111888 36864 16128
    NVIDIA GeForce GTX 650 195 2263 1024 80000 33856 16928
    NVIDIA GeForce 9600 GSO 1. 5 ГБ 195 ? снимка 1536 38400 26400 6600
    NVIDIA GeForce GTX 750 192 3958 1024 80 000 32640 16320
    AMD Radeon HD 7770 190 3180 1024 72000 40000 16000
    AMD Radeon R7 250X 190 2860 1024 72000 40000 16000
    AMD Radeon HD 4870 1GB 187 ? 1024 115200 30000 12000
    nVidia GeForce GT 230 118 ? 1536 38400 8800 4400
    AMD Radeon HD 5770 17911 ? 1024 76800 34000 13600
    AMD Radeon HD 6770 1 ГБ 178 9002? 1024 67200 36000 14400
    nVidia GeForce GTS 250 1 ГБ 1024 70400 47232 11808
    nVidia GeForce 8800 Ultra 172? 768 103680 39168 14688
    NVIDIA GeForce GTX 460 169 2557 768 86400 37800 16200
    AMD Radeon HD 7750 168 2240 1024 72000 25600 12800
    AMD Radeon HD 3850 X2 512 105984 21376 21376
    AMD Radeon HD 5750 1 ГБ 162

    ?

    1024 73600 25200 11200
    AMD Radeon HD 6750 1 ГБ 160

    ?

    1024 64000 26100 11600
    nVidia GeForce GTS 450 1 ГБ 0210 9? 1024 57728 25056 12528
    AMD Radeon HD 3870 1 ГБ 115? 1024 72000 12400 12400
    nVidia GeForce GTS 150 158? 1024 32000 47360 11840
    nVidia GeForce 8800 GTX 1517 9000 768 86400 36800 13800
    AMD Radeon HD 4850 1 ГБ 15421 ? 1024 63552 25000 10000
    nVidia GeForce 8800 GT 1 Гб 1024 57600 33600 9600
    nVidia GeForce 9800 GT 1 ГБ 1024 57600 33600 9600
    nVidia GeForce 9600 GT 1 ГБ 1211 900 1 024 57 600 20800 10400
    AMD Radeon R7 250 149 1 836 1 024 73600 24000 8000
    AMD Radeon HD 4830 1GB 146 ? 1024 57600 18400 9200
    AMD Radeon HD 3850 1 ГБ 1451 ? 1024 52992 10688 10688
    AMD Radeon HD 6670 (OEM) 1 ГБ 210 140 1024 64000 19200 6400
    AMD Radeon HD 5670 138 1024 64000 15500 6200
    AMD Radeon HD 6570 (OEM) 2 ГБ 1235 ? 1024 64000 15600 5200
    AMD Radeon HD 4670 1 ГБ 1331 ? 1024 35200 24000 6000
    nVidia GeForce GT 240 GDDR5 1GB 1024 54400 17600 4400
    nVidia GeForce GT 340 1GB 231 9000 1024 54400 17600 4400
    AMD Radeon HD 4870 512 МБ 218 9000 ? 512 115200 115200 30000 12000
    amd Radeon HD 6570 (OEM) 1 ГБ 128 128 28800

    5200
    AMD Radeon HD 4650 1 ГБ 127 ? 1024 22400 19200 4800
    nVidia GeForce 9500 GT 1GB GDDR32 1 5 12 NVidia GeForce GT 320 125 9? 1024 25280 12960 4320
    nVidia GeForce 8600 GT 1GB GDDR3 12? 1024 22400 8640 4320
    AMD Radeon HD 6450 (OEM) 1 ГБ 1024 28800 6000 3000
    nVidia GeForce GT 430 1GB 113 ? 1024 28800 11200 2800
    AMD Radeon HD 3650 122 1024 25600 5800 2900
    nVidia GeForce 8600 GT 1GB DDR2 122 1024 12800 8640 4320
    nVidia GeForce 810M 1211 9? 1024 14400 5904 2952
    AMD Radeon HD 6770 119 1520 512 67200 36000 14400
    Nvidia GeForce 9800 GTX + 115 ? 512 70400 47232 11808
    nVidia GeForce GTS 250 512 МБ 0 115 512 70400 47232 11808
    nVidia GeForce 8800 GTS (G80) 640 200 МБ 640 63360 24624 10260
    nVidia GeForce 9800 GTX 119? 512 70400 43200 10800
    nVidia GeForce 9600 GSO 768MB 106 106 768 38400 26400 6600
    AMD Radeon HD 4790 1051 ? AMD Radeon HD 5750 512 МБ 2013 9000? 512 73600 25200 11200
    nVidia GeForce 8800 GTS (G92) 203 100 512 62080 41600 10400
    AMD Radeon HD 6750 101 512 64000 26100 11600
    NVIDIA GeForce GTS 450 101 +1453 512 57728 25056 12528
    Nvidia GeForce GT 130 97 ? 768 12000 12000 8000
    nVidia GeForce 9600 GSO 512MB 29 90? 512 57600 31200 10400
    AMD Radeon HD 4770 951 ? 512 51200 24000 12000
    AMD Radeon HD 4850 512 МБ 94 94? 512 63552 25000 10000
    nVidia GeForce 8800 GT 512MB 29 0? 512 57600 33600 9600
    nVidia GeForce 9800 GT 512 МБ 29 0 900 512 57600 33600 9600
    AMD Radeon HD 4750 9421 ? 512 51200 23360 11680
    AMD Radeon HD 3870 512 МБ 93 93? 512 57600 12400 12400
    nVidia GeForce 9600 GT 512MB 92 92 ? 512 57600 20800 10400
    AMD Radeon HD 4830 512 МБ 87 87 ? 512 57600 18400 9200
    AMD Radeon HD 3850 512 МБ 861? 512 52992 10688 10688
    AMD Radeon HD 6670 (OEM) 80 1120 512 64000 19200 6400
    AMD Radeon HD 4730 77 ? 512 57600 22400 5600
    nVidia GeForce 8800 GTS (G80) 320 МБ 20 320 63360 24624 10260
    AMD Radeon HD 4670 512 МБ 13 ? 512 32000 24000 6000
    nVidia GeForce GT 240 GDDR5 72 ? 512 54400 17600 4400
    nVidia GeForce GT 340 72 512 54400 17600 4400
    nVidia GeForce 9600 GSO ASUS 512 209 71 ? 512 16000 26400 6600
    nVidia GeForce GT 220 GDDR3 68 ? 512 32384 10000 5000
    nVidia GeForce 8600 GTS 68

    1 ?

    512 32000 10800 5400
    AMD Radeon HD 5570 68 512 28800 13000 5200
    nVidia GeForce GT 315 66 512 25280 10000 5000
    AMD Radeon HD 4650 512 МБ 661? 512 16000 19200 4800
    nVidia GeForce 9500 GT 512MB GDDR3 6 512 25600 8800 4400
    nVidia GeForce 8600 GT 512MB GDDR3 6 ? 512 22400 8640 4320
    nVidia GeForce GT 430 64 ? 512 28800 11200 2800
    AMD Radeon HD 3470 512 МБ 631? 512 30400 3200 3200
    AMD Radeon HD 3650 512 МБ 6321 ? 512 25600 5800 2900
    AMD Radeon HD 5550 63 ? 512 12800 8800 4400
    nVidia GeForce 8600 GT 512 МБ DDR2 63 512 12800 8640 4320
    nVidia GeForce 8800 GS 62 9? 384 38400 26400 6600
    nVidia GeForce 9600 GSO 384MB 29 62 ? 384 38400 26400 6600
    nVidia GeForce GT 310 61 512 16000 4712 2356
    AMD Radeon HD 4550 512 МБ 61

    1 ?

    512 12800 4800 2400
    AMD Radeon HD 5450 61 ? 512 12800 12800 5200 2600
    amd Radeon HD 6450 (OEM) 61 340020 61 512 12800 5000 2500
    NVIDIA GeForce GT 210 61 ? 512 12800 4712 2356
    AMD Radeon HD 4350 61 ? 512 8000 4600 2300
    nVidia GeForce 8400 GS 512MB 2 61 9000 512 6400 5200 2600
    nVidia GeForce 8800 GT 256MB 60 ? 256 44800 33600 9600
    nVidia GeForce 8500 GT 60 512 12800 3600 1800
    AMD Radeon HD 3850 256 МБ 5621 ? 256 52992 10688 10688
    AMD Radeon HD 3690/3830 15 ? 256 26496 10688 10688
    nVidia GeForce 8600 GT 256MB GDDR3 2 0 3 ? 256 22400 8640 4320
    AMD Radeon HD 3470 256 МБ 3421 ? 256 30400 3200 3200
    nVidia GeForce 9500 GT DDR2 34 256 16000 8800 4400
    AMD Radeon HD 3650 256 МБ 3321 ? 256 25600 5800 2900
    nVidia GeForce 8600 GS (OEM) 2 31 9000 256 12800 8640 4320
    nVidia GeForce 8600 GT 256MB DDR2 33? 256 12800 8640 4320
    AMD Radeon HD 4550 256 МБ 3121 ? 256 12800 4800 2400
    nVidia GeForce 9400 GT 256MB 21 9000 256 12800 4400 2200
    nVidia GeForce 8300 GS (OEM) 21

    0 15 9000

    128 6400 1800 900

    God of War — собственное разрешение, NVIDIA DLSS и AMD FSR, тесты и сравнения

    Только что снято эмбарго на обзоры God of War, и мы наконец-то можем поделиться своими первыми техническими мыслями об этом долгожданном релизе для ПК. God of War поддерживает как NVIDIA DLSS, так и AMD FSR. Поэтому мы решили сначала поделиться нашими тестами DLSS/FSR.

    Для этих тестов мы использовали Intel i9 9900K с 16 ГБ памяти DDR4 на частоте 3800 МГц и NVIDIA RTX 3080. Мы также использовали 64-разрядную версию Windows 10 с драйвером GeForce 497.29.

    God of War не имеет встроенного инструмента для тестирования. Поэтому мы сравнили одну из областей открытия. Наша эталонная сцена — это когда Кратос и Атрей начинают охотиться на оленя. Эта область имеет множество объемных эффектов и, похоже, нагружает графический процессор больше, чем все предыдущие сцены.

    Ниже вы можете найти несколько сравнительных скриншотов между Native 4K (слева), качеством NVIDIA DLSS (в центре) и AMD FSR (справа). God of War использует множество эффектов постобработки и имеет действительно мягкое изображение (даже в родном разрешении). Таким образом, DLSS может выглядеть четче, чем исходное 4K, тогда как FSR может выглядеть почти так же хорошо, как исходное 4K.

    NVIDIA DLSS кажется более четким, чем AMD FSR, и работает немного лучше на нашей RTX3080. Однако мы заметили некоторые странные артефакты с DLSS (которых не было ни в родном разрешении, ни в FSR).Например, взгляните на цепочку для фонарей в конце нашего видео. Как вы можете видеть, в нем больше алиасинга, и при перемещении камеры наблюдается сильное мерцание. Эта мерцающая проблема напомнила нам о похожей проблеме, которую мы видели в Call of Duty: Vanguard. Мы уже сообщили об этом NVIDIA, поэтому надеемся, что зеленая команда сможет решить эту проблему с помощью будущей версии DLSS.

    Из-за этих проблем с мерцанием мы рекомендуем запускать игру в исходном разрешении (и использовать фильтр повышения резкости).Для тех, кому интересно, наша RTX3080 смогла запустить игру с постоянными 60 кадрами в секунду на высоких настройках в родном 4K (настройка выше исходных настроек/настроек PS4). Кроме того, вы можете использовать FSR вместе с фильтром повышения резкости. Обычно мы рекомендуем использовать DLSS, так как он более четкий, чем родное разрешение и FSR. Тем не менее, эти мерцающие проблемы могут сильно отвлекать, даже в режиме качества.

    С точки зрения производительности, DLSS обеспечивает повышение производительности на 20-25%. Это ниже, чем то, что мы видели в других играх.Тем не менее, как с DLSS, так и с FSR, наша RTX3080 смогла запустить игру в 4K/Ultra с постоянными 60 кадрами в секунду. Более того, что довольно удивительно, AMD FSR почти так же быстр, как NVIDIA DLSS.

    Наш анализ производительности ПК (в котором мы будем тестировать больше графических процессоров как от NVIDIA, так и от AMD) будет запущен позже на этой неделе, так что следите за обновлениями!

    Джон Пападопулос

    Джон — основатель и главный редактор DSOGaming. Он фанат компьютерных игр и активно поддерживает моддинг и инди-сообщества.До создания DSOGaming Джон работал над многочисленными игровыми сайтами. Хотя он заядлый игрок на ПК, его игровые корни можно найти на консолях. Джон любил и до сих пор любит 16-битные консоли и считает SNES одной из лучших консолей. Тем не менее, платформа ПК победила его над консолями. В основном это произошло благодаря компании 3DFX и ее культовой графической карте Voodoo 2, посвященной 3D-ускорителю. Джон также написал дипломную работу на тему «Эволюция графических карт для ПК». Контактное лицо: Электронная почта

    Глубокое обучение GPU Benchmarks 2020 | Рабочие станции для глубокого обучения, серверы, облачные сервисы на GPU

    Обзор современных высокопроизводительных графических процессоров и ускорителей вычислений, которые лучше всего подходят для задач глубокого и машинного обучения.Включены последние предложения от NVIDIA: поколение графических процессоров Ampere. Также оценивается производительность установок с несколькими графическими процессорами, таких как четырехъядерная конфигурация RTX 3090.

    Обзор протестированных графических процессоров

    Хотя мы протестировали лишь небольшую часть всех доступных графических процессоров, мы думаем, что охватили все графические процессоры, которые в настоящее время лучше всего подходят для обучения и разработки в области глубокого обучения благодаря их вычислительным возможностям и памяти, а также их совместимости с текущими платформами глубокого обучения.

    • GTX 1080TI

      Классический графический процессор NVIDIA для глубокого обучения был выпущен всего в 2017 году с 11 ГБ памяти DDR5 и 3 584 ядрами CUDA. Он был разработан для вычислительных рабочих нагрузок. Он уже давно снят с производства и был просто добавлен в качестве ориентира.

    • RTX 2080TI

      RTX 2080 TI была выпущена в четвертом квартале 2018 года. Она оснащена 5342 ядрами CUDA, организованными в виде 544 тензорных ядер NVIDIA Turing смешанной точности, обеспечивающих производительность ИИ на уровне 107 тензорных терафлопс, и 11 ГБ сверхбыстрой памяти GDDR6.Производство этого графического процессора было прекращено в сентябре 2020 года, и сейчас он практически недоступен.

    • Титан RTX

      Titan RTX оснащен самой большой версией архитектуры Turing™. Titan RTX обеспечивает производительность 130 тензорных терафлопов благодаря 576 тензорным ядрам и 24 ГБ сверхбыстрой памяти GDDR6.

    • Квадро RTX 6000

      Quadro RTX 6000 — это серверная версия популярного Titan RTX с улучшенной вентиляцией нескольких графических процессоров, дополнительными возможностями виртуализации и памятью ECC. Он оснащен тем же ядром Turing , что и Titan RTX, с 576 тензорными ядрами, обеспечивающими производительность 130 тензорных терафлопов и 24 ГБ сверхбыстрой памяти GDDR6 ECC.

    • Квадро RTX 8000

      Quadro RTX 8000 — старший брат RTX 6000. С тем же процессором GPU, но с удвоенной памятью GPU: 48 ГБ GDDR6 ECC. Фактически, в настоящее время это графический процессор с самой большой доступной памятью графического процессора, который лучше всего подходит для самых требовательных к памяти задач.

    • РТХ 3080

      Одна из первых моделей графических процессоров на базе архитектуры NVIDIA Ampere™, с улучшенными ядрами RT и Tensor и новыми потоковыми мультипроцессорами.RTX 3080 оснащен 10 ГБ сверхбыстрой памяти GDDR6X и 8704 ядрами CUDA.

    • РТХ 3090

      GeForce RTX™ 3090 — это класс TITAN поколения графических процессоров NVIDIA Ampere™. Он оснащен 10496 ядрами CUDA, 328 тензорными ядрами третьего поколения и новыми потоковыми мультипроцессорами. Как и Titan RTX, он имеет 24 ГБ памяти GDDR6X.

    • NVIDIA RTX A6000

      NVIDIA RTX A6000 — это обновление Quadro RTX 6000 на базе Ampere.Он оснащен тем же процессором GPU (GA-102), что и RTX 3090, но со всеми включенными ядрами процессора. Что приводит к 10752 ядрам CUDA и 336 тензорным ядрам третьего поколения. Кроме того, у него вдвое больше памяти графического процессора по сравнению с RTX 3090: 48 ГБ GDDR6 ECC.

    • Тесла В100

      Обладая 640 тензорными ядрами, Tesla V100 стал первым в мире графическим процессором, преодолевшим барьер производительности глубокого обучения в 100 терафлопс (TFLOPS), включая 16 ГБ памяти HBM2 с максимальной пропускной способностью. Он основан на графическом процессоре Volta, который доступен только для серии профессиональных графических процессоров NVIDIA.

    • NVIDIA A100

      Nvidia A100 — флагман поколения процессоров Nvidia Ampere. Благодаря 6912 ядрам CUDA, 432 тензорным ядрам третьего поколения и 40 ГБ памяти HBM2 с максимальной пропускной способностью. Один A100 преодолевает барьер производительности Peta TOPS.

    Получение максимальной производительности от Tensorflow

    Были предприняты некоторые меры, чтобы получить максимальную производительность от Tensorflow для бенчмаркинга.

    Размер партии

    Одним из наиболее важных параметров оптимизации рабочей нагрузки для каждого типа графического процессора является использование оптимального размера пакета.Размер пакета указывает, сколько параллельных размножений сети выполняется, результаты каждого размножения усредняются по пакету, а затем результат применяется для корректировки весов сети. Лучший размер пакета с точки зрения производительности напрямую связан с объемом доступной памяти графического процессора .

    Больший размер пакета повысит параллелизм и улучшит использование ядер графического процессора. Но размер пакета не должен превышать доступную память графического процессора , так как в этом случае должны сработать механизмы подкачки памяти и снизить производительность, иначе приложение просто аварийно завершает работу с исключением «недостаточно памяти».

    Большой размер партии в некоторой степени не оказывает отрицательного влияния на результаты обучения, напротив, большой размер партии может иметь положительный эффект для получения более обобщенных результатов. Примером может служить BigGAN, где для достижения наилучших результатов предлагается размер пакета до 2048. Еще одна интересная информация о влиянии размера партии на результаты обучения была опубликована OpenAI.

    Тензорный поток XLA

    Функция повышения производительности Tensorflow, которая некоторое время назад была объявлена ​​стабильной, но по-прежнему отключена по умолчанию, — это XLA (ускоренная линейная алгебра).Он выполняет оптимизацию графа сети, динамически компилируя части сети в определенные ядра, оптимизированные для конкретного устройства. Это может дать выигрыш в производительности от 10% до 30% по сравнению со статическими ядрами Tensorflow для разных типов слоев.

    Эта функция может быть включена простой опцией или флагом среды и будет иметь прямое влияние на производительность выполнения. Как включить XLA в своих проектах читайте здесь.

    Обучение с плавающей запятой 16 бит / смешанное точное обучение

    Что касается заданий логического вывода, то для повышения производительности предоставляется более низкая точность с плавающей запятой и еще более низкое 8- или 4-битное целочисленное разрешение.В большинстве ситуаций обучения 16-битная точность с плавающей запятой также может применяться для задач обучения с незначительной потерей точности обучения и может значительно ускорить выполнение заданий обучения. Применение 16-битной точности с плавающей запятой не так уж тривиально, поскольку модель должна быть настроена для ее использования. Поскольку не все этапы вычислений должны выполняться с более низкой битовой точностью, смешивание различных битовых разрешений для вычислений называется «смешанной точностью».

    Полный потенциал обучения смешанной точности будет лучше изучен с помощью Tensor Flow 2.X и, вероятно, станет тенденцией развития для улучшения производительности фреймворка глубокого обучения.

    Мы предоставляем тесты для 32-битной и 16-битной точности с плавающей запятой в качестве эталона для демонстрации потенциала.

    Тест глубокого обучения

    Модель визуального распознавания ResNet50 в версии 1.0 используется для нашего теста. Как классическая сеть глубокого обучения с ее сложной 50-уровневой архитектурой с различными сверточными и остаточными слоями, она по-прежнему является хорошей сетью для сравнения достижимой производительности глубокого обучения.Поскольку он используется во многих бенчмарках, доступна близкая к оптимальной реализация, обеспечивающая максимальную производительность графического процессора и показывающая пределы производительности устройств.

    Среда тестирования

    Для тестирования мы использовали наш сервер AIME A4000. Это продуманная среда для запуска нескольких высокопроизводительных графических процессоров, обеспечивающая оптимальное охлаждение и возможность запуска каждого графического процессора в слоте PCIe 4. 0 x16, напрямую подключенном к ЦП.

    Поколение NVIDIA Ampere использует PCIe 4.0 удваивает скорость передачи данных до 31,5 ГБ/с на ЦП и между графическими процессорами.

    Возможность подключения оказывает заметное влияние на производительность глубокого обучения, особенно в конфигурациях с несколькими графическими процессорами.

    Кроме того, AIME A4000 обеспечивает сложное охлаждение, необходимое для достижения и поддержания максимальной производительности.

    Технические характеристики для воспроизведения наших тестов:

    • AIME A4000, Epyc 7402 (24 ядра), 128 ГБ ECC RAM
    • Убунту 20.04
    • Версия драйвера NVIDIA 455.45
    • CUDA 11.1.74
    • CUDNN 8.0.5
    • Тензорный поток 1.15.4

    Сценарии Python, используемые для теста, доступны на Github по адресу: Tensorflow 1.x Benchmark

    .

    Производительность одного графического процессора

    Результатом наших измерений является среднее изображение в секунду, которое можно обучить при выполнении 100 пакетов с заданным размером пакета.

    Поколение NVIDIA Ampere явно лидирует, а A100 рассекречивает все остальные модели.

    При обучении с плавающей запятой 16-битной точности ускорители вычислений A100 и V100 увеличивают свое преимущество. Но также RTX 3090 может более чем удвоить производительность по сравнению с 32-битными вычислениями с плавающей запятой.

    Ускорение графического процессора по сравнению с центральным процессором увеличивается здесь до 167 раз по сравнению с 32-ядерным процессором, что делает вычисления на графическом процессоре не только возможными, но и обязательными для высокопроизводительных задач глубокого обучения.

    Эффективность обучения глубокому обучению с несколькими графическими процессорами

    Следующим уровнем производительности глубокого обучения является распределение рабочих и учебных нагрузок между несколькими графическими процессорами.AIME A4000 поддерживает до 4 графических процессоров любого типа.

    Глубокое обучение хорошо масштабирует на нескольких графических процессорах. Метод выбора для масштабирования с несколькими GPU, по крайней мере, в 90% случаев, заключается в распределении пакета по GPU. Таким образом, эффективный размер пакета представляет собой сумму размера пакета каждого используемого графического процессора.

    Таким образом, каждый GPU вычисляет свой пакет для обратного распространения для применяемых входных данных среза пакета. Затем результаты каждого графического процессора обмениваются и усредняются, а веса модели корректируются соответствующим образом и должны распределяться обратно на все графические процессоры.

    Что касается обмена данными, то для сбора результатов партии и корректировки весов перед запуском следующей партии происходит пиковая скорость обмена данными. В то время как графические процессоры работают над пакетом, обмен данными между графическими процессорами не происходит или не происходит вообще.

    В этом стандартном решении для масштабирования нескольких графических процессоров необходимо убедиться, что все графические процессоры работают с одинаковой скоростью, иначе самый медленный графический процессор будет узким местом , которого должны ждать все графические процессоры! Поэтому смешивание разных типов GPU бесполезно .

    С AIME A4000 достигается хороший масштабный коэффициент 0,88, поэтому каждый дополнительный GPU добавляет около 88% своей возможной производительности к общей производительности

    Эффективность обучения в перспективе

    Чтобы получить лучшее представление о том, как измерение количества изображений в секунду преобразуется во время обработки и ожидания при обучении таких сетей, мы рассмотрим реальный вариант обучения такой сети с большим набором данных.

    Например, набор данных ImageNet 2017 состоит из 1 431 167 изображений.Для однократной обработки каждого изображения набора данных, так называемой 1 эпохи обучения, на ResNet50 потребуется около:

    Конфигурация поплавок 32 тренировочный поплавок 16 тренировочный
    Процессор (32 ядра) 27 часов 27 часов
    Одна RTX 2080 TI 69 минут 29 минут
    Один RTX 3080 53 минуты 22 минуты
    Один RTX 3090 41 минута 18 минут
    Один RTX A6000 41 минута 16 минут
    Одноместный A100 23 минуты 8. 5 минут
    4 x RTX 2080TI 19 минут 8 минут
    4 х Тесла V100 15 минут 4,5 минуты
    4 x RTX 3090 11,5 минут 5 минут
    4 х Тесла А100 6,5 минут 3 минуты

    Обычно требуется не менее 50 периодов обучения, чтобы можно было получить результат для оценки после:

    Конфигурация поплавок 32 тренировочный поплавок 16 тренировочный
    Процессор (32 ядра) 55 дней 55 дней
    Одна RTX 2080 TI 57 часов 24 часа
    Один RTX 3080 44 часа 18 часов
    Один RTX 3090 34 часа 14. 5 часов
    Один RTX A6000 34 часа 14,5 часов
    Одноместный A100 19 часов 8 часов
    4 x RTX 2080TI 16 часов 6,5 часов
    4 х Тесла V100 12 часов 4 часа
    4 x RTX 3090 9,5 часов 4 часа
    4 х Тесла А100 5.5 часов 2,5 часа

    Это показывает, что правильная настройка может изменить продолжительность задачи обучения с недель до одного дня или даже нескольких часов. В большинстве случаев, вероятно, желательно время тренировки, позволяющее проводить тренировку в течение ночи, чтобы получить результаты на следующее утро.

    Выводы

    Mixed Precision может ускорить обучение более чем в 2 раза

    Особенность, на которую стоит обратить внимание с точки зрения производительности, — переключение тренировки с точности с плавающей запятой 32 на тренировку со смешанной точностью.Получение повышения производительности путем настройки программного обеспечения в зависимости от ваших ограничений, вероятно, может быть очень эффективным шагом для удвоения производительности.

    Масштабирование нескольких GPU более чем возможно

    Масштабирование производительности глубокого обучения

    с несколькими графическими процессорами хорошо масштабируется как минимум для 4 графических процессоров: 2 графических процессора часто могут превзойти следующий более мощный графический процессор с точки зрения цены и производительности.

    Это верно, например, при сравнении 2 x RTX 3090 с NVIDIA A100.

    Лучший графический процессор для глубокого обучения?

    Как и в большинстве случаев, на вопрос нет однозначного ответа.Производительность, безусловно, является наиболее важным аспектом графического процессора, используемого для задач глубокого обучения, но не единственным.

    Так что это сильно зависит от ваших требований. Вот наши оценки наиболее перспективных графических процессоров для глубокого обучения:

    .
    RTX 3080

    Он обеспечивает максимальную отдачу от затраченных средств. Если вы ищете экономичное решение, установка с 4 графическими процессорами может занять место в высшей лиге с затратами на приобретение менее одного самого высокопроизводительного графического процессора.

    Но имейте в виду, что объем доступной памяти графического процессора уменьшился, так как у RTX 3080 на 1 ГБ памяти меньше, чем у давней конфигурации памяти GTX 1080 TI и RTX 2080 TI с 11 ГБ памяти.Вероятно, это приводит к необходимости уменьшить размер пакета по умолчанию для многих приложений.

    Может быть RTX 3080 TI устранит это узкое место?

    RTX 3090

    RTX 3090 в настоящее время является реальным шагом вперед по сравнению с RTX 2080 TI. Благодаря своей сложной памяти объемом 24 ГБ и явному увеличению производительности по сравнению с RTX 2080 TI он устанавливает предел для этого поколения графических процессоров для глубокого обучения.

    Установка с двумя RTX 3090 может превзойти установку с четырьмя RTX 2080 TI по ​​времени цикла глубокого обучения, с меньшим энергопотреблением и более низкой ценой.

    NVIDIA A100

    Если требуется максимальная производительность независимо от цены и максимальная плотность производительности, NVIDIA A100 — лучший выбор: она обеспечивает максимальную вычислительную производительность во всех категориях.

    A100 значительно улучшил производительность по сравнению с Tesla V100, что делает соотношение цены и качества более приемлемым.

    Кроме того, более низкое энергопотребление 250 Вт по сравнению с 700 Вт установки с двумя RTX 3090 при сопоставимой производительности достигает диапазона, при котором при постоянной полной нагрузке разница в затратах на электроэнергию может стать фактором, который следует учитывать.

    Кроме того, что касается решений, требующих виртуализации для работы под гипервизором, например, для служб аренды облачных вычислений, в настоящее время это лучший выбор для высококлассных задач обучения глубокому обучению.

    Четырехъядерная установка NVIDIA A100, как это возможно с AIME A4000, катапультирует один из них в область вычислений HPC с производительностью петафлопс.

    Обновлено: 15.01.2022 — 10:03

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *