Nvidia smi команды: Page not found | Электрический блогнот — conspi.ru — Конспирология

Содержание

Контроль и мониторинг ваших Nvidia GPU во время майнинга

Информация о материале: Опубликовано: 04.03.2016 10:49

Существует целый ряд доступных инструментов, которые могут позволить вам контролировать и управлять различными настройками ваших GPU, большинство из которых имеют удобный пользовательский интерфейс для того, чтобы упростить работу с ними. Однако, при майнинге иногда удобнее иметь контроль поведением GPU прямо из командной строки, чтобы иметь возможность выполнять команды. Для видеокарт Nvidia существует Nvidia System Management Interface (Nvidia-smi) — утилита командной строки, которая является простым и эффективным способом управления и мониторинга Nvidia GPU. С помощью Nvidia-smi вы можете, например, управлять состоянием питания видеокарты, получить дополнительную производительность от видеокарты, не работающей в режиме максимальной производительности, при майнинге криптовалюты, не прибегая к ее разгону.

Теперь пришло время показать Вам несколько полезных трюков с использованием консольной утилиты Nvidia-smi для проверки и изменения максимального TDP (ограничения мощности), который данный графический процессор может использовать, а так же способ как постоянно контролировать температуру GPU и его энергопотребление и сохранять эти данные в лог-файл для дальнейшего анализа.

Утилита Nvidia-smi является частью драйверов для видеокарт от Nvidia и вы можете ее найти установленной в папке «c:\Program Files\NVIDIA Corporation\NVSMI\» если у вас установленна ОС Windows. Вам следует запустить командную строку (CMD) и перейти в эту папку, для того чтобы иметь возможность работать с этой утилитой и выполнять команды. Затем вам потребуется запустить Nvidia-smi с некоторыми параметрами, в зависимости от того, что вы хотите сделать. Если вы хотите поработать с определенным GPU в системе с несколькими видеокартами, вам нужно указать ID устройства.

Например, если вы хотите узнать Power limit (максимальное энергопотребление) вашего первого NVidia GPU в системе, запустите утилиту с такими параметрами:

nvidia-smi -i 0 --format=csv --query-gpu=power.limit

Если вы не указали параметр -i, который отвечает за ID видеокарты в системе, то вы получите Power limit для всех ваших видеокарт. Теперь начинается самое интересное, изменяя Power limit для ваших GPU на более низкое значение, вы сможете уменьшить энергопотребление видеокарт без влияния на производительность майнинга или с ее незначительным снижением. Таким образом, вы сможете получить лучшую энерго эффективность при майнинге на ваших видеокартах от Nvidia.

В следующем примере мы установим предел потребляемой мощности 175W для первого GPU в системе, при максимальной 275W, которая прописана по-умолчанию в BIOS-е видеокарты.

nvidia-smi -i 0 -pl 175

Следующий полезный пример, которым мы хотим поделиться, это проверка температуры Nvidia GPU с помощью консоли, которая будет обновляться 1 раз в секунду и записываться в LOG файл, для того чтобы мы могли проанализировать результаты позже. Используем команду для отображения температуры первого графического адаптера в системе с обновлением каждые 1000 миллисекунд (1 сек.)

nvidia-smi -i 0 --loop-ms=1000 --format=csv,noheader --query-gpu=temperature.gpu

Для того, чтобы остановить отображение температуры в градусах Цельсия, нажмите CTRL+C. Если вы хотите, чтобы результат записывался в текстовый файл, то введите следующую команду:

nvidia-smi -i 0 --loop-ms=1000 --format=csv,noheader --query-gpu=temperature.gpu > temperature.txt

Точно так же как вы можете получить отчет о текущей потребляемой мощности каждого GPU Nvidia в Ваттах, например каждую секунду. С помощью данного способа можно очень точно получать отчет по потреблению электроэнергии, не прибегая к аппаратным средствам, так как контроль потребляемой мощности реализован на аппаратном уровне во всех современных Nvidia GPU. Все что от вас потребуется, это выполнить следующую команду:

nvidia-smi -i 0 --loop-ms=1000 --format=csv,noheader --query-gpu=power.draw

Для того, чтобы остановить вывод энергопотребления просто нажмите CTRL+C, если вам требуется, чтобы результаты сохранялись в лог-файл, введите следующую команду:

nvidia-smi -i 0 --loop-ms=1000 --format=csv,noheader --query-gpu=power.draw > powerusage.txt

Настройка максимального энергопотребления вашего NVidia GPU может быть полезна для достижения наилучшего соотношения производительности к потреблению энергии при добыче криптовалют, а так же для того, чтобы сравнить энергопотребление при майнинге на различных алгоритмах. Инструмент nvidia-smi имеет и некоторые другие полезные функции, которые могут быть использованы. Стоит так же отметить, что изменения, внесенные данной утилитой, не являются постоянными, и они будут нуждаться в повторном применении после перезагрузки компьютера. Однако вы можете автоматизировать процесс с помощью создания простого .bat файла с нужной командой и запуская его непосредственно перед началом майнинга.

Как запустить nvidia-smi на Windows?

nvidia-smi, выполненный в командной строке в windows, возвращает следующую ошибку

C:\Users>nvidia-smi
'nvidia-smi' is not recognized as an internal or external command,
operable program or batch file.

Где он находится? CUDA уже установлен.

nvidia
Поделиться Источник dward4 18 июля 2019 в 17:41
3 ответа
nvidia-smi не отображает использование памяти
Я хочу использовать видеокарту NVIDIA-SMI на монитор моего GPU для моих проектов machine-learning/ AI. Однако, когда я запускаю nvidia-smi в моем cmd, git bash или powershell, я получаю следующие результаты: $ nvidia-smi Sun May 28 13:25:46 2017. ..
nvidia-smi возвращает ошибку на ubuntu 16.04 kernal 4.10.x
Пытался установить cuda driver 8.0 и toolkit 375 на ubuntu 16.04 с kernal 4.10, но продолжает получать эту ошибку. Как установить драйвер nvidia и инструментарий cuda? > nvidia-smi > NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest…

20

Nvidia-SMI по умолчанию хранится в следующем месте
C:\Windows\System32\DriverStore\FileRepository\nvdm*\нвидиа-smi.exe
Где nvdm* — это каталог, который начинается с nvdm и имеет неизвестное количество символов после него.
Примечание: более старые установки могут иметь его в C:\Program Files\NVIDIA Corporation\NVSMI

Вы можете перейти в этот каталог, а затем запустить nvidia-smi оттуда. Однако окно командной строки не будет сохраняться, что очень затрудняет просмотр информации. Кроме того, трудно определить, что такое каталог nvdm*, поскольку он изменяется, и существует несколько каталогов этого формата. Чтобы усложнить дело, в отличие от linux, он не может быть выполнен командной строкой по другому пути. Лучше найти точное местоположение и создать ярлык, который запускает его периодически.
Чтобы найти ваше точное местоположение
Откройте файл Explorer (значок папки файлов на панели задач, рядом с кнопками пуск / Кортана / просмотр задач).
На левой панели нажмите кнопку ‘This PC’.

В главном окне просмотра, как раз в верхней части значков, находится строка поиска. Введите nvidia-smi.exe и нажмите enter. Он появится через некоторое время.
Щелкните правой кнопкой мыши и выберите «Открыть расположение файла» и продолжите выполнение приведенных ниже инструкций, чтобы создать ярлык на рабочем столе , или дважды щелкните, чтобы запустить один раз ( не рекомендуется , так как он запускается и закрывает окно после завершения, что затрудняет просмотр информации).
Создайте ярлык, который запускает nvidia-smi и периодически обновляется

Выполните описанные выше действия в разделе «чтобы найти свое точное местоположение».
Щелкните правой кнопкой мыши на nvidia-smi.exe (он может просто сказать nvidia-smi в области просмотра) и выберите Создать ярлык. Скорее всего, он скажет вам, что вы не можете создать ярлык здесь, и спросит, хотите ли вы поместить его на свой рабочий стол. Нажмите «Да».
Теперь на рабочем столе щелкните правой кнопкой мыши на ярлыке, который вы только что создали, нажмите Свойства и в разделе ярлык > цель измените путь строки, чтобы включить -l < раз, когда вы хотите, чтобы он обновился > .
Например, изменить:
C:\Windows\System32\DriverStore\FileRepository\nvdm*\nvidia-smi.exe
к
C:\Windows\System32\DriverStore\FileRepository\nvdm*\nvidia-smi.exe -l 5
Затем нажмите «Apply», а затем «OK».
В этом примере, когда вы открываете ярлык, он будет держать командную строку открытой и позволит вам наблюдать за вашей работой, поскольку nvidia-smi обновляется каждые пять секунд.
Поделиться dward4 18 июля 2019 в 17:41

9

Вы можете добавить «C:\Program Files\NVIDIA Corporation\NVSMI» в PATH и затем перезапустить консоль.
Системные свойства > дополнительно > Переменные среды > системные переменные -> путь -> правка > новый > вставить путь к папке с помощью nvidia-smi
Поделиться Hewston 25 декабря 2019 в 22:44

1

На моей машине Windows 10, установленной с CUDA 10.2, nvidia-smi.exe можно найти по адресу C:\Windows\System32 .
Поскольку C:\Windows\System32 уже находится в windows PATH, запуск nvidia-smi в командной строке теперь должен работать из коробки
Поделиться tpl 19 августа 2020 в 09:20
исполняемый файл nvidia-smi не найден
Я прошел через 3 различных вопроса в репо nvidia- docker по поводу этой точной проблемы, но на самом деле не мог понять, что случилось. Я тяжелый пользователь docker, но я не очень понимаю терминологию и решения, используемые в этих вопросах. Когда я запускаю nvidia-smi как sudo или нет, все…
NVIDIA-SMI, NVML, энергопотребление: [не поддерживается]
Я попытался получить текущее энергопотребление с помощью следующей команды в Windows 10 x64: nvidia-smi.exe —format=csv, noheader —query-gpu=power.draw И получил следующий результат: [Не Поддерживается] Я проверил его на видеокарте GTX1050 (ноутбук). Пожалуйста, Также посмотрите вывод…
Похожие вопросы:

как работает nvidia-smi?
Какова внутренняя операция, которая позволяет nvidia-smi получать сведения об аппаратном уровне? Инструмент выполняется даже тогда, когда какой-то процесс уже запущен на устройстве GPU, и получает…

компания NVIDIA-SMI-на -переменного тока эквивалент в NVML
Я узнал, что nvidia-smi-ac можно использовать для изменения тактовой частоты GPU ядер и памяти. Построен ли nvidia-smi на базе библиотеки NVML? Каков его эквивалент в NVML, так как я проверил…

NVIDIA-SMI не удалось. Может ли’nt общаться с драйвером Nvidia
Я запускаю экземпляр cloud на узле gpu. Я установил CUDA и nvidia-smi показал детали драйвера, утлилизацию памяти. Через пару дней я столкнулся с этой ошибкой «NVIDIA-SMI потерпел неудачу,…

nvidia-smi не отображает использование памяти
Я хочу использовать видеокарту NVIDIA-SMI на монитор моего GPU для моих проектов machine-learning/ AI. Однако, когда я запускаю nvidia-smi в моем cmd, git bash или powershell, я получаю следующие…

nvidia-smi возвращает ошибку на ubuntu 16.04 kernal 4.10.x
Пытался установить cuda driver 8.0 и toolkit 375 на ubuntu 16.04 с kernal 4.10, но продолжает получать эту ошибку. Как установить драйвер nvidia и инструментарий cuda? > nvidia-smi >…

исполняемый файл nvidia-smi не найден
Я прошел через 3 различных вопроса в репо nvidia- docker по поводу этой точной проблемы, но на самом деле не мог понять, что случилось. Я тяжелый пользователь docker, но я не очень понимаю…

NVIDIA-SMI, NVML, энергопотребление: [не поддерживается]
Я попытался получить текущее энергопотребление с помощью следующей команды в Windows 10 x64: nvidia-smi.exe —format=csv, noheader —query-gpu=power.draw И получил следующий результат: [Не…

Включите разрешения nvidia-smi для запуска всеми пользователями
Как я могу включить nvidia-smi для всех пользователей? Я могу запустить его как пользователь sudo, но как обычный пользователь я получаю: Failed to initialize NVML: Insufficient Permissions

команда nvidia-smi может взаимодействовать с драйвером nvidia microsoft azure dsvm
Сразу после создания и запуска виртуальной машины data science и подключения через ssh я попытался использовать nvidia-smi , чтобы увидеть, работают ли встроенные nvidia и cuda. Возвращенное…

torch.cuda.is_avaiable возвращает False с nvidia-smi не работает
Я пытаюсь построить образ docker, который может работать с использованием GPUS, это моя ситуация: У меня есть python 3.6, и я начинаю с образа nvidia/cuda:10.0-cudnn7-devel. Факел не видит моего…
Мониторинг использования графического процессора (CUDA)
Следующая функция добавляет такую информацию, как PID, имя пользователя, использование процессора, использование памяти, использование памяти графическим процессором, программные аргументы и время выполнения процессов, которые выполняются на графическом процессоре, к выводу nvidia-smi:
function better-nvidia-smi () { nvidia-smi join -1 1 -2 3 \ <(nvidia-smi --query-compute-apps=pid,used_memory \ --format=csv \ | sed "s/ //g" | sed "s/,/ /g" \ | awk 'NR<=1 {print toupper($0)} NR>1 {print $0}' \ | sed "/\[NotSupported\]/d" \ | awk 'NR<=1{print $0;next}{print $0| "sort -k1"}') \ <(ps -a -o user,pgrp,pid,pcpu,pmem,time,command \ | awk 'NR<=1{print $0;next}{print $0| "sort -k3"}') \ | column -t }
Пример вывода:
$ better-nvidia-smi Fri Sep 29 16:52:58 2017 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 378. 13 Driver Version: 378.13 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 GeForce GT 730 Off | 0000:01:00.0 N/A | N/A | | 32% 49C P8 N/A / N/A | 872MiB / 976MiB | N/A Default | +-------------------------------+----------------------+----------------------+ | 1 Graphics Device Off | 0000:06:00.0 Off | N/A | | 23% 35C P8 17W / 250W | 199MiB / 11172MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 Not Supported | | 1 5113 C python 187MiB | +-----------------------------------------------------------------------------+ PID USED_GPU_MEMORY[MIB] USER PGRP %CPU %MEM TIME COMMAND 9178 187MiB tmborn 9175 129 2.6 04:32:19 ../path/to/python script.py args 42
driver — nvidia-smi не работает после установки драйвера в контейнере
Я использую Singularity, и мне нужно установить драйвер nvidia в мой контейнер Singularity, чтобы провести глубокое изучение с помощью gtx 1080. Это изображение необычности создано из докера nvidia отсюда: https://ngc.nvidia.com/catalog/containers/nvidia:kaldi и преобразуется в контейнер сингулярности. Не было драйверов nvidia, я думаю, потому что nvidia-smi не был найден до того, как я установил драйвер.
Я сделал следующие команды:
add-apt-repository ppa:graphics-drivers/ppa sudo apt update apt install nvidia-418
После этого я хотел посмотреть, правильно ли установлен драйвер, и выполнил команду:
nvidia-smi
Который возвращает: не удалось инициализировать NVML: несоответствие версии драйвера / библиотеки
Я искал, как решить эту ошибку и нашел эту тему: Несоответствие версии драйвера / библиотеки NVIDIA NVML
Один ответ говорит, чтобы сделать команду:
lsmod | grep nvidia
И затем к rmmod на каждом кроме nvidia и наконец к rmmod nvidia.
rmmod drm
Но когда я делаю это, поскольку тема исключает это, у меня появляется ошибка: rmmod: ОШИБКА: модуль nvidia используется.
В теме говорится, что нужно нажать lsof / dev / nvidia * и убить процесс, использующий модуль, но я ничего не вижу при написании drm, и кажется, что убивать процесс — очень плохая идея (Xorg, gnome-she) ,
Вот ответ на команду lsof / dev / nvidia *, за которой следует команда lsmod | grep nvidia, а затем rmmod drm Перезагрузка компьютера также не работала.
Что я должен сделать, чтобы управлять с помощью nvidia-smi и иметь возможность использовать мой графический процессор из контейнера Singularity?
Спасибо
0
Antoine V 3 Июл 2019 в 16:34
2 ответа
Лучший ответ
Спасибо за ваш ответ. Я хотел установить драйвер графического процессора в контейнере с особенностями, потому что, находясь внутри контейнера, я не мог использовать графический процессор (nvidia-smi: команда не найдена), в то время как вне контейнера я мог использовать nvidia-smi.
Вы правы, драйвер должен быть установлен вне контейнера, я хотел установить его в контейнере, чтобы избежать проблемы отсутствия доступа к драйверу изнутри контейнера.
Теперь я нашел решение: чтобы использовать GPU из контейнера для сингулярности, вы должны добавить —nv при вызове контейнера. пример :
singularity exec --nv singularity_container.simg ~/test_gpu.sh
Или
singularity shell --nv singularity_container.simg
Когда вы добавляете —nv, контейнер будет иметь доступ к драйверу nvidia и nvidia-smi будет работать. Без этого вы не сможете использовать GPU, nvidia-smi работать не будет.
1
Antoine V 13 Сен 2019 в 12:18
Возможно, вам придется выполнить описанные выше шаги в хост-ОС, а не в самом контейнере. /dev монтируется в контейнер как есть и все еще подлежит использованию хостом, хотя процессы выполняются в другом пользовательском пространстве.
1
tsnowlan 4 Июл 2019 в 07:41
56871412
GPU обработка с дополнительным модулем Spatial Analyst—Справка
Доступно с лицензией Spatial Analyst.

Дополнительный модуль Spatial Analyst теперь отличается повышенной производительностью и для некоторых инструментов использует графический процессор (GPU). В современных компьютерах эта технология использует преимущества вычислительной мощности видеокарты для повышения производительности определенных операций.
В настоящее время поддержка GPU реализована в следующих инструментах:
В чем заключается работа GPU?
Графический процессор (GPU) – это аппаратный компонент компьютера, основной задачей которого является ускорение визуализации графики на экране компьютера. В последнее время вычислительная мощность процессоров GPU направлена на выполнение общих вычислительных задач.
В инструментах на базе GPU задача обработки растра направляется не на центральный процессор компьютера (CPU), а на графический – GPU. Такой подход обеспечивает выигрыш при выполнении операций определенного типа. В таких случаях программа разбивает задачу на множество мелких частей, которые направляются на GPU для обработки. Далее GPU выполняет одновременную обработку всех этих мелких задач, но уже с большей скоростью. Полученные данные отправляются обратно, и программное обеспечение собирает отдельные компоненты в окончательный готовый продукт.
Поддерживаемые карты и драйверы GPU
Для графической обработки с помощью GPU рынок предлагает различные решения. В настоящее время поддерживаются только графические процессоры NVIDIA с вычислительной мощностью CUDA версии 3.0 или выше. Для доступа к этой возможности в систему должна быть установлена соответствующая карта.
Чтобы проверить типы графических карт на компьютере с Windows, откройте диспетчер устройств и разверните Видеоадаптеры. Там будут перечислены названия и типы вашей видеокарты. Если видеокарта NVIDIA не указана, то вы не сможете получить доступ к этой функции, и инструмент будет использовать только CPU.
Если видеокарта NVIDIA есть, то нужно проверить тип графического процессора, который установлен в системе, используя для этого Панель управления NVIDIA:
Щелкните правой кнопкой мыши на любой пустой области рабочего стола. В контекстном меню щелкните Панель управления NVIDIA.
В окне панели управления откройте меню Справка и щелкните Информация о системе. Отобразятся все сведения о видеоплате NVIDIA, версии драйверов и другие сведения.
Определив тип видеоплаты NVIDIA GPU, найдите ее вычислительную мощность CUDA на странице справки NVIDIA для графических процессоров CUDA . В соответствующем разделе найдите свою плату GPU и обратите внимание на значение Вычислительная мощность, указанное для нее. Это значение должно быть равным или выше 3,0.
Устанавливаемая на компьютерах видеокарта поставляется с драйвером по умолчанию. Перед запуском инструмента анализа, использующего GPU, необходимо обновить видеокарту графического процессора до последней доступной версии на странице NVIDIA driver update – .
конфигурация GPU
Для вычислительных операций этот инструмент будет использовать только один GPU. Но, если у вас в компьютере только один GPU, то он будет использоваться и для визуализации, и для вычислительных операций. В этом случае во время выполнения инструмента появится предупреждающее сообщение, указывающее, что дисплей может перестать отвечать на запросы. Поэтому, для пространственного анализа рекомендуется использовать два GPU: один для визуализации, а другой – для вычислительных операций.
Когда в системе используется несколько графических процессоров, по умолчанию будет использоваться первый графический процессор в режиме драйвера TCC (Tesla Compute Cluster). Если в режиме драйвера TCC графический процессор отсутствует, то будет использоваться первый GPU (с индексом 0), если не указано иное. Чтобы указать графический процессор или отключить его, см. следующее:
Чтобы использовать другой графический процессор, вы можете указать его с помощью переменной системного окружения CUDA_VISIBLE_DEVICES. Для этого сначала создайте эту переменную, если ранее она не была создана в системе. Затем задайте ее значение, равное значению индекса (0 для первого, 1 для второго и т. д.), представляющего устройство GPU, которое вы желали бы использовать, и перезапустите приложение.
Если вы не хотите, чтобы в анализе использовалось какое-либо из устройств GPU, установленных в системе, то вы можете установить переменную системного окружения CUDA_VISIBLE_DEVICES на -1 и перезапустить приложение. После этого инструмент будет выполняться только за счет CPU.
Чтобы вновь перейти к использованию графического процессора, следует либо удалить переменную системного окружения CUDA_VISIBLE_DEVICES, либо задать для нее значение того устройства GPU, которое вы хотите использовать, и после этого перезапустить приложение.
Более подробно об этой переменной системного окружения CUDA_VISIBLE_DEVICES см. в руководстве по программированию CUDA Toolkit Programming Guide .
Следующие подразделы содержат рекомендации по настройке конфигурации, обеспечивающей оптимальную работу с использованием возможностей графического процессора.
Настройка драйвера TCC
Для графических процессоров NVIDIA устройство GPU, используемое для вычислительных процессов, должно использовать драйвер TCC, а не драйвер Windows Display Driver Model (WDDM), использующийся по умолчанию. Режим TCC позволяет GPU работать более эффективно.
Чтобы включить режим драйвера TCC, используйте управляющую программу NVIDIA System Management Interface, обычно находящуюся в C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Например, команда ‘nvidia-smi -dm 1 -i 2’ переключает видеокарту с идентификатором устройства 2 в режим отображения 1 (TCC).
Примечание:
Если вы используете ArcGIS Server, то GPU, используемый для вычислительных процессов, должен находиться в режиме драйвера TCC.
Отключение режима ECC
Отключите режим Код с исправлением ошибок (ECC) для того графического процессора, который используется для вычислительных процессов, поскольку он уменьшает объем памяти, доступной для данного GPU.
Чтобы отключить режим ECC, используйте управляющую программу NVIDIA System Management Interface (nvidia-smi), обычно находящуюся в C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Например, команда ‘nvidia-smi -e 0 -i 1’ отключает режим ECC графического процессора с идентификатором устройства 1.
Изменение настроек TDR
Когда графический процессор, используемый для вычислительных процессов, находится в режиме драйвера WDDM, то драйвер устройства отображения Windows может перезагрузить этот графический процессор, если любой из этих процессов занимает более 2-х секунд. Это называется условием для Windows Timeout Detection and Recovery (TDR). В этом случае работа инструмента не будет завершена, будет выведена ошибка GPU.
Существует возможность для внесения изменения в ключ реестра, TdrDelay, чтобы избежать реализации этого сценария. Установив подходящее значение (например, 60 секунд), время позволит завершить работу до срабатывания условия TDR. На большинстве систем с Windows путь к ключу TdrDelay в Реестре следующий: HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\GraphicsDrivers. Если ключ TdrDelay не существует, его необходимо создать в этом расположении. Обратите внимание, что при создании или изменении этого значения реестра, вы должны в первую очередь сделать резервную копию реестра. Вы должны перезагрузить компьютер, чтобы внесенные изменения вступили в силу. В Microsoft Developers Network есть более подробная информация о настройке TDR Delay .
Внимание:
Esri не может нести ответственность за любые проблемы, которые могут возникнуть при неправильном изменении реестра. Примите надлежащие меры для того, чтобы быть уверенным в наличии у вас действительной резервной копии реестра для восстановления системы при возникновении каких-либо проблем, или обратитесь за помощью к квалифицированному системному аналитику для внесения изменений в реестр.
Связанные разделы
[Глубокое обучение] Интерпретация команд nvidia-smi
Эта статья воспроизводится по ссылке:http://www.cnblogs.com/nowornever-L/p/6934605.html
nvidia-smi используется для просмотра использования графического процессора. Я часто использую эту команду, чтобы определить, какие графические процессоры простаивают, но недавний статус использования графического процессора меня смущает, поэтому я объясняю конкретное значение каждого содержимого в таблице использования графического процессора, отображаемой командой nvidia-smi.
Это информация Tesla K80 на сервере. К
В таблице выше:
Вентилятор в первом столбце: N / A — скорость вентилятора, которая варьируется от 0 до 100%. Эта скорость представляет собой скорость вентилятора, ожидаемую компьютером. На самом деле, если вентилятор заблокировано, это может быть Невозможно достичь отображаемой скорости. Некоторое оборудование не возвращается к скорости, потому что оно не полагается на вентиляторное охлаждение, а поддерживает низкую температуру с помощью других периферийных устройств (например, сервер в нашей лаборатории круглый год находится в помещении с кондиционером). К
Temp во втором столбце: температура в градусах Цельсия. К
Perf в третьем столбце: это состояние производительности, от P0 до P12, P0 — максимальная производительность, а P12 — минимальная производительность. К
Pwr внизу четвертого столбца: Энергопотребление, Persistence-M вверху: статус Persistence-M. Хотя непрерывный режим потребляет много энергии, он стоит дороже, когда новый графический процессор приложение запускается.Время меньше, вот и выключенное состояние. К
Bus-Id в пятом столбце относится к шине GPU, domain: bus: device.function.
Disp.A в шестом столбце — Display Active, указывающий, инициализирован ли дисплей GPU. К
Использование памяти в пятом и шестом столбцах — это коэффициент использования памяти. К
Седьмой столбец — это плавающая загрузка графического процессора. К
Над восьмым столбцом есть информация о ECC. К
Вычислить M в нижней части восьмого столбца — это режим вычисления. К
На следующем рисунке показано использование памяти каждым процессом.
Использование видеопамяти и использование графического процессора — это разные вещи, Видеокарта состоит из графического процессора и видеопамяти.Отношения между видеопамятью и графическим процессором в некоторой степени аналогичны отношениям между памятью и процессором. Когда я запускал код caffe, видеопамять занимает меньше, а графический процессор — больше.Когда младший запускал код TensorFlow, видеопамять занимает больше, а графический процессор — меньше.

Подключение GPU к виртуальной машине Linux в Azure Stack HCI — Azure Stack HCI
В этой статье приведены пошаговые инструкции по установке и настройке графического процессора (GPU) NVIDIA в Azure Stack HCI с использованием технологии дискретного назначения устройств (DDA) для виртуальной машины Ubuntu. This topic provides step-by-step instructions on how to install and configure an NVIDIA graphics processing unit (GPU) with Azure Stack HCI using Discrete Device Assignment (DDA) technology for an Ubuntu virtual machine (VM). В этом документе предполагается, что у вас развернут кластер Azure Stack HCI и установлены виртуальные машины.This document assumes you have the Azure Stack HCI cluster deployed and VMs installed.
Скачайте ISO-образ Ubuntu Desktop выпуска 18.04.02.Download Ubuntu desktop release 18.04.02 ISO.
Откройте диспетчер Hyper-V на узле системы с установленным GPU.Open Hyper-V Manager on the node of the system with the GPU installed.
Примечание
DDA не поддерживает отработку отказа.DDA doesn’t support failover. Это ограничение для виртуальных машин с DDA.This is a virtual machine limitation with DDA. Поэтому мы рекомендуем использовать диспетчер Hyper-V для развертывания виртуальной машины на узле, а не диспетчер отказоустойчивости кластеров.Therefore, we recommend using Hyper-V Manager to deploy the VM on the node instead of Failover Cluster Manager. Использование диспетчера отказоустойчивости кластеров с DDA приводит к сбоям с сообщением об ошибке, указывающим на то, что на виртуальной машине есть устройство, которое не поддерживает высокий уровень доступности.Use of Failover Cluster Manager with DDA will fail with an error message indicating that the VM has a device that doesn’t support high availability.
Используя ISO-образ Ubuntu, скачанный на шаге 1, создайте виртуальную машину с помощью мастера создания виртуальной машины в диспетчере Hyper-V , чтобы создать виртуальную машину Ubuntu поколения 1 с 2 ГБ памяти и подключенную к ней сетевую карту.Using the Ubuntu ISO downloaded in step 1, create a new virtual machine using the New Virtual Machine Wizard in Hyper-V Manager to create a Ubuntu Gen 1 VM with 2GB of memory and a network card attached to it.
В PowerShell назначьте виртуальной машине отключенное устройство GPU с помощью приведенных ниже командлетов, заменив значение LocationPath значением для вашего устройства.In PowerShell, assign the Dismounted GPU device to the VM using the cmdlets below, replacing the LocationPath value with the value for your device.
# Confirm that there are no DDA devices assigned to the VM Get-VMAssignableDevice -VMName Ubuntu # Assign the GPU to the VM Add-VMAssignableDevice -LocationPath "PCIROOT(16)#PCI(0000)#PCI(0000)" -VMName Ubuntu # Confirm that the GPU is assigned to the VM Get-VMAssignableDevice -VMName Ubuntu
При успешном назначении GPU для виртуальной машины отображаются следующие выходные данные:
Настройте дополнительные значения, приведенные в документации по GPU:Configure additional values following GPU documentation here:
# Enable Write-Combining on the CPU Set-VM -GuestControlledCacheTypes $true -VMName VMName # Configure the 32 bit MMIO space Set-VM -LowMemoryMappedIoSpace 3Gb -VMName VMName # Configure greater than 32 bit MMIO space Set-VM -HighMemoryMappedIoSpace 33280Mb -VMName VMName
Примечание
Значение 33280 Мб должно быть достаточным для большинства GPU, но если оно меньше, чем объем памяти GPU, значение следует заменить на большее.The Value 33280Mb should suffice for most GPUs, but should be replaced with a value greater than your GPU memory.
С помощью диспетчера Hyper-V подключитесь к виртуальной машине и запустите установку операционной системы Ubuntu.Using Hyper-V Manager, connect to the VM and start the Ubuntu OS install. Выберите значения по умолчанию, чтобы установить ОС Ubuntu на виртуальной машине.Choose the defaults to install the Ubuntu OS on the VM.
После завершения установки используйте диспетчер Hyper-V Manager для завершения работы виртуальной машины и настройте параметр Автоматическое действие при завершении , как показано на снимке экрана ниже (чтобы завершать работу гостевой операционной системой на виртуальной машине):
Войдите в Ubuntu и откройте терминал, чтобы установить SSH:Log in to Ubuntu and open the terminal to install SSH:
$ sudo apt install openssh-server
Найдите адрес TCP/IP для установки Ubuntu с помощью команды ifconfig и скопируйте IP-адрес для интерфейса eth0. Find The TCP/IP address for the Ubuntu installation using the ifconfig command and copy the IP address for the eth0 interface.
Используйте SSH-клиент, например OpenSSH (ssh.exe, установленный с Windows 10, по умолчанию ) или приведенный выше, чтобы подключиться к виртуальной машине Ubuntu для дальнейшей настройки.Use an SSH client such as OpenSSH (ssh.exe installed with Windows 10 by default) or Putty to connect to the Ubuntu VM for further configuration.
При входе через клиент SSH выполните команду lspci и убедитесь, что GPU NVIDIA указан как 3D Controller (Контроллер трехмерной графики).Upon login through the SSH client, issue the command lspci and validate that the NVIDIA GPU is listed as «3D controller.»
Важно!
Если GPU NVIDIA не отображается как 3D Controller (Контроллер трехмерной графики), не выполняйте дальнейших действий.If The NVIDIA GPU is not seen as «3D controller,» please do not proceed further. Прежде чем продолжить, убедитесь, что выполнены описанные выше действия.Please ensure that the steps above are followed before proceeding.
На виртуальной машине найдите и откройте раздел Software & Updates (Программное обеспечение и обновления).Within the VM, search for and open Software & Updates. Перейдите в раздел Additional Drivers (Дополнительные драйверы), а затем выберите драйверы NVIDIA GPU последних версий в списке.Navigate to Additional Drivers , then choose the latest NVIDIA GPU drivers listed. Завершите установку драйвера, нажав кнопку Apply Changes (Применить изменения).Complete the driver install by clicking the Apply Changes button.
После завершения установки драйвера перезапустите виртуальную машину Ubuntu.Restart the Ubuntu VM after the driver installation completes. После запуска виртуальной машины подключитесь через клиент SSH и выполните команду nvidia-smi , чтобы убедиться, что установка драйвера GPU NVIDIA выполнена успешно. Once the VM starts, connect through the SSH client and issue the command nvidia-smi to verify that the NVIDIA GPU driver installation completed successfully. Результат должен быть подобен снимку экрана ниже:
С помощью клиента SSH настройте репозиторий и установите подсистему Docker CE:Using the SSH client, set up the repository and install the Docker CE Engine:
$ sudo apt-get update $ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ gnupg-agent \ software-properties-common
Добавьте официальный ключ GPG Docker:Add Docker’s official GPG key:
$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
Убедитесь, что теперь у вас есть ключ с отпечатком 9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88, выполнив поиск последних восьми символов отпечатка:Verify that you now have the key with the fingerprint 9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88 by searching for the last eight characters of the fingerprint:
$ sudo apt-key fingerprint 0EBFCD88
Выходные данные должны выглядеть следующим образом:Your output should look similar to this:
pub rsa4096 2017-02-22 [SCEA] 9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88 uid [ unknown] Docker Release (CE deb) <[email protected]> sub rsa4096 2017-02-22 [S]
Чтобы настроить стабильный репозиторий для архитектуры Ubuntu AMD64, выполните код ниже:Set up the stable repository for Ubuntu AMD64 architecture:
$ sudo add-apt-repository \ "deb [arch=amd64] https://download.docker.com/linux/ubuntu \ $(lsb_release -cs) \ stable"
Чтобы обновить пакеты и установить Docker CE, выполните код ниже:Update packages and install Docker CE:
$ sudo apt-get update $ sudo apt-get install docker-ce docker-ce-cli containerd.io
Чтобы проверить установку Docker CE, выполните код ниже:Verify the Docker CE install:
$ sudo docker run hello-world
Чтобы подготовиться к этой настройке, ознакомьтесь с часто задаваемыми вопросами, содержащимися в репозитории GitHub NVIDIA-Deepstream-Azure-IoT-Edge-on-a-NVIDIA-Jetson-Nano, где объясняется необходимость установки Docker вместо Moby. To prepare for this configuration, please review the FAQ contained in the NVIDIA-Deepstream-Azure-IoT-Edge-on-a-NVIDIA-Jetson-Nano GitHub repo, which explains the need to install Docker instead of Moby. После просмотра перейдите к шагам ниже.After reviewing, proceed to the steps below.
В клиенте SSH добавьте репозитории пакетов:From the SSH client, add package repositories:
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \ sudo apt-key add - distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \ sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update
Установите nvidia-docker2 и перезагрузите конфигурацию управляющей программы Docker:Install nvidia-docker2 and reload the Docker daemon configuration:
sudo apt-get install -y nvidia-docker2 sudo pkill -SIGHUP dockerd
Перезагрузите виртуальную машину:Reboot the VM:
sudo /sbin/shutdown -r now
После перезагрузки проверьте успешность установки Docker для NVIDIA:Upon reboot, verify successful installation of NVIDIA Docker:
sudo docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi
Успешная установка будет выглядеть аналогично выходным данным снимке экрана ниже:
Следуя приведенным здесь инструкциям, перейдите к установке Azure IoT Edge, пропустив установку среды выполнения:Following the instructions here, proceed to install Azure IoT Edge, skipping the runtime install:
curl https://packages.microsoft.com/config/ubuntu/18.04/multiarch/prod.list > ./microsoft-prod.list sudo cp ./microsoft-prod.list /etc/apt/sources.list.d/ curl https://packages.microsoft.com/keys/microsoft.asc | gpg --dearmor > microsoft.gpg sudo cp ./microsoft.gpg /etc/apt/trusted.gpg.d/ sudo apt-get update sudo apt-get install iotedge
Примечание
После установки Azure IoT Edge убедитесь, что файл config. yaml есть на виртуальной машине Ubuntu по пути /etc/iotedge/config.yaml.After installing Azure IoT Edge, verify that the config.yaml is present on the Ubuntu VM at /etc/iotedge/config.yaml
Создайте удостоверение устройства IoT Edge на портале Azure, как описано в руководстве здесь.Create an IoT Edge device identity in the Azure portal following guidance here. Затем скопируйте строку подключения устройства для созданного устройства IoT Edge.Next, copy the device connection string for the newly created IoT Edge.
С помощью клиента SSH обновите строку подключения устройства в файле config.yaml на виртуальной машине Ubuntu:Using the SSH client, update the device connection string in config.yaml on the Ubuntu VM:
sudo nano /etc/iotedge/config.yaml
Найдите конфигурации подготовки файла и раскомментируйте раздел Manual provisioning configuration.Find the provisioning configurations of the file and uncomment the «Manual provisioning configuration» section. Замените значение device_connection_string строкой подключения для устройства IoT Edge.Update the value of device_connection_string with the connection string from your IoT Edge device. Убедитесь, что все остальные разделы подготовки закомментированы. Проверьте подготовку: убедитесь, что перед строкой нет пробелов, а вложенные элементы отображаются с отступом в два пробела:Make sure any other provisioning sections are commented out. Make sure that the provisioning: line has no preceding whitespace and that nested items are indented by two spaces:
Чтобы вставить содержимое буфера обмена в Nano, нажмите клавишу SHIFT и щелкните правой кнопкой мыши или нажмите клавиши SHIFT+INSERT.To paste clipboard contents into Nano, shift+right click or press shift+insert. Сохраните и закройте файл (нажмите клавиши CTRL+X, Y, ВВОД).Save and close the file (Ctrl + X, Y, Enter).
С помощью клиента SSH перезапустите управляющую программу IoT Edge:Using the SSH client, restart the IoT Edge daemon:
sudo systemctl restart iotedge
Проверьте установку и состояние управляющей программы IoT Edge:Verify the installation and check the status of the IoT Edge daemon:
systemctl status iotedge journalctl -u iotedge --no-pager --no-full
С помощью клиента SSH создайте следующую структуру каталогов на виртуальной машине Ubuntu:Using the SSH client, create the following directory structure on the Ubuntu VM:
cd /var sudo mkdir deepstream mkdir . /deepstream/custom_configs cd /var/deepstream sudo mkdir custom_streams sudo chmod -R 777 /var/deepstream cd ./custom_streams
Убедитесь, что ваш рабочий каталог расположен по пути /var/deepstream/custom_streams, и загрузите демонстрационный видеофайл , выполнив следующую команду в клиенте SSH:Ensure your working directory is /var/deepstream/custom_streams and download the demo videos file by executing the following command in the SSH client:
wget -O cars-streams.tar.gz --no-check-certificate https://onedrive.live.com/download?cid=0C0A4A69A0CDCB4C&resid=0C0A4A69A0CDCB4C%21588371&authkey=AAavgrxG95v9gu0
Распакуйте видеофайлы:Un-compress the video files:
tar -xzvf cars-streams.tar.gz
Содержимое каталога /var/deepstream/custom_streams должно быть аналогичным показанному на снимке экрана ниже:The contents of the directory /var/deepstream/custom_streams should be similar to the screenshot below:
Создайте файл с именем test5_config_file_src_infer_azure_iotedge_edited.txt в каталоге /var/deepstream/custom_configs.Create a new file called test5_config_file_src_infer_azure_iotedge_edited.txt in the /var/deepstream/custom_configs directory. В текстовом редакторе откройте файл и вставьте в него следующий код, а затем сохраните и закройте файл:Using a text editor, open the file and paste in the following code, then save and close the file.
# Copyright (c) 2018 NVIDIA Corporation. All rights reserved. # # NVIDIA Corporation and its licensors retain all intellectual property # and proprietary rights in and to this software, related documentation # and any modifications thereto. Any use, reproduction, disclosure or # distribution of this software and related documentation without an express # license agreement from NVIDIA Corporation is strictly prohibited. [application] enable-perf-measurement=1 perf-measurement-interval-sec=5 #gie-kitti-output-dir=streamscl [tiled-display] enable=1 rows=2 columns=2 width=1280 height=720 gpu-id=0 #(0): nvbuf-mem-default - Default memory allocated, specific to particular platform #(1): nvbuf-mem-cuda-pinned - Allocate Pinned/Host cuda memory, applicable for Tesla #(2): nvbuf-mem-cuda-device - Allocate Device cuda memory, applicable for Tesla #(3): nvbuf-mem-cuda-unified - Allocate Unified cuda memory, applicable for Tesla #(4): nvbuf-mem-surface-array - Allocate Surface Array memory, applicable for Jetson nvbuf-memory-type=0 [source0] enable=1 #Type - 1=CameraV4L2 2=URI 3=MultiURI type=3 uri=file://. ./../../../../samples/streams/sample_1080p_h364.mp4 num-sources=2 gpu-id=0 nvbuf-memory-type=0 [source1] enable=1 #Type - 1=CameraV4L2 2=URI 3=MultiURI type=3 uri=file://../../../../../samples/streams/sample_1080p_h364.mp4 num-sources=2 gpu-id=0 nvbuf-memory-type=0 [sink0] enable=0 [sink3] enable=1 #Type - 1=FakeSink 2=EglSink 3=File 4=RTSPStreaming type=4 #1=h364 2=h365 codec=1 sync=0 bitrate=4000000 # set below properties in case of RTSPStreaming rtsp-port=8554 udp-port=5400 [sink1] enable=1 #Type - 1=FakeSink 2=EglSink 3=File 4=UDPSink 5=nvoverlaysink 6=MsgConvBroker type=6 msg-conv-config=../configs/dstest5_msgconv_sample_config.txt #(0): PAYLOAD_DEEPSTREAM - Deepstream schema payload #(1): PAYLOAD_DEEPSTREAM_MINIMAL - Deepstream schema payload minimal #(256): PAYLOAD_RESERVED - Reserved type #(257): PAYLOAD_CUSTOM - Custom schema payload msg-conv-payload-type=1 msg-broker-proto-lib=/opt/nvidia/deepstream/deepstream-4.0/lib/libnvds_azure_edge_proto.so topic=mytopic #Optional: #msg-broker-config=../../../../libs/azure_protocol_adaptor/module_client/cfg_azure.txt [sink2] enable=0 type=3 #1=mp4 2=mkv container=1 #1=h364 2=h365 3=mpeg4 ## only SW mpeg4 is supported right now. codec=3 sync=1 bitrate=2000000 output-file=out.mp4 source-id=0 [osd] enable=1 gpu-id=0 border-width=1 text-size=15 text-color=1;1;1;1; text-bg-color=0.3;0.3;0.3;1 font=Arial show-clock=0 clock-x-offset=800 clock-y-offset=820 clock-text-size=12 clock-color=1;0;0;0 nvbuf-memory-type=0 [streammux] gpu-id=0 ##Boolean property to inform muxer that sources are live live-source=0 batch-size=4 ##time out in usec, to wait after the first buffer is available ##to push the batch even if the complete batch is not formed batched-push-timeout=40000 ## Set muxer output width and height width=1920 height=1080 ##Enable to maintain aspect ratio wrt source, and allow black borders, works ##along with width, height properties enable-padding=0 nvbuf-memory-type=0 [primary-gie] enable=1 gpu-id=0 batch-size=4 ## 0=FP32, 1=INT8, 2=FP16 mode bbox-border-color0=1;0;0;1 bbox-border-color1=0;1;1;1 bbox-border-color2=0;1;1;1 bbox-border-color3=0;1;0;1 nvbuf-memory-type=0 interval=0 gie-unique-id=1 model-engine-file=. ./../../../../samples/models/Primary_Detector/resnet10.caffemodel_b4_int8.engine labelfile-path=../../../../../samples/models/Primary_Detector/labels.txt config-file=../../../../../samples/configs/deepstream-app/config_infer_primary.txt #infer-raw-output-dir=../../../../../samples/primary_detector_raw_output/ [tracker] enable=1 tracker-width=600 tracker-height=300 ll-lib-file=/opt/nvidia/deepstream/deepstream-4.0/lib/libnvds_mot_klt.so #ll-config-file required for DCF/IOU only #ll-config-file=tracker_config.yml #ll-config-file=iou_config.txt gpu-id=0 #enable-batch-process applicable to DCF only enable-batch-process=0 [tests] file-loop=1
Перейдите на портал Azure.Navigate to the Azure portal. Выберите IoT Hub Provisioned (Подготовлено в Центре Интернета вещей), щелкните Автоматическое управление устройствами , а затем — Центр Интернета вещей :Select IoT Hub Provisioned , click on Automatic Device Management , then click on IoT Edge :
На панели справа выберите удостоверение устройства, строка подключения устройства которого использовалась ранее в этой статье.In the right-hand pane, select the device identity whose device connection string was used above. Нажмите кнопку «Выбор модулей»:Click on set modules:
В разделе IoT Edge modules (модули) щелкните и выберите IoT Edge Module (модуль):Under IoT Edge Modules, click and choose IoT Edge Module:
На панели Добавить модуль IOT Edge выберите вкладку Параметры модуля , а затем введите или выберите следующие значения:In the Add IoT Edge Module pane, select the Module Settings tab, and then enter or select the following values:
Имя модуля IOT Edge : нвидиадипстреамсдкIoT Edge Module Name : NVIDIADeepStreamSDK
URI изображения : Marketplace. azurecr.IO/NVIDIA/deepstream-iot2Image URI : marketplace.azurecr.io/nvidia/deepstream-iot2
Политика перезапуска : всегдаRestart Policy : always
Требуемое состояние : работаетDesired Status : running
Политика извлечения образа : пустоImage Pull Policy : blank
Нажмите Добавить.Select Add.
Убедитесь, что модуль Нвидиадипстреамсдк указан в разделе модули IoT Edge:Ensure NvidiaDeepStreamSDK module is listed under IoT Edge Modules:
Щелкните модуль «Нвидиадипстреамсдк» и выберите «Параметры создания контейнера».Click on The «NVIDIADeepStreamSDK» module and choose «Container Create Options.» Конфигурация по умолчанию показана здесь:The default configuration is shown here:
Замените конфигурацию, приведенную выше, на следующую:Replace the configuration above with the configuration below:
{ "ExposedPorts": { "8554/tcp": {} }, "Entrypoint": [ "/usr/bin/deepstream-test5-app", "-c", "test5_config_file_src_infer_azure_iotedge_edited.txt", "-p", "1", "-m", "1" ], "HostConfig": { "runtime": "nvidia", "Binds": [ "/var/deepstream/custom_configs:/root/deepstream_sdk_v4.0.2_x86_64/sources/apps/sample_apps/deepstream-test5/custom_configs/", "/var/deepstream/custom_streams:/root/deepstream_sdk_v4.0.2_x86_64/sources/apps/sample_apps/deepstream-test5/custom_streams/" ], "PortBindings": { "8554/tcp": [ { "HostPort": "8554" } ] } }, "WorkingDir": "/root/deepstream_sdk_v4.0.2_x86_64/sources/apps/sample_apps/deepstream-test5/custom_configs/" }
Щелкните проверить и создать , а затем на следующей странице щелкните создать. Click Review and Create , and on the next page click Create. Теперь вы увидите три перечисленных ниже модуля для устройства IoT Edge в портал Azure:You should now see the three modules listed below for your IoT Edge device in the Azure portal:
Подключитесь к виртуальной машине Ubuntu с помощью клиента SSH и убедитесь, что выполняются правильные модули:Connect to the Ubuntu VM using the SSH client and verify that the correct modules are running:
sudo iotedge list
nvidia-smi
Примечание
Скачивание контейнера Нвидиадипстреам займет несколько минут.It will take a few minutes for the NvidiaDeepstream Container to be downloaded. Вы можете проверить загрузку с помощью команды «жаурналктл-u iotedge—No-пейджер—Full», чтобы просмотреть журналы управляющей программы iotedge.You can validate the download using the command «journalctl -u iotedge —no-pager —no-full» to look at the iotedge daemon logs.
Убедитесь, что контейнер Нвдиадипстрим работает.Confirm that the NvdiaDeepStreem Container is operational. Выходные данные команды на снимках экрана ниже указывают на успешное выполнение.The command output in the screenshots below indicates success.
sudo iotedge list
sudo iotedge logs -f NVIDIADeepStreamSDK
nvidia-smi
Проверьте TCP/IP-адрес виртуальной машины Ubuntu с помощью команды ifconfig и найдите адрес TCP/IP рядом с интерфейсом eth0 .Confirm the TCP/IP address for your Ubuntu VM using the ifconfig command and look for the TCP/IP address next to the eth0 interface.
Установите проигрыватель Влк на рабочей станции.Install the VLC Player on your workstation. В проигрывателе Влк щелкните Media-> открыть сетевой поток и введите адрес в следующем формате:Within the VLC Player, click Media -> open network stream , and type in the address using this format:
rtsp://ipaddress:8554/ds-testrtsp://ipaddress:8554/ds-test
где IPAddress — это TCP/IP-адрес виртуальной машины. where ipaddress is the TCP/IP address of your VM.
Дополнительные сведения о GPU и ДДА см. также в следующих статьях:For more on GPUs and DDA, see also:
Полезные запросы nvidia-smi | NVIDIA
Версия VBIOS
Запросить версию VBIOS для каждого устройства:
$ nvidia-smi --query-gpu = gpu_name, gpu_bus_id, vbios_version --format = csv
имя, pci.bus_id, vbios_version
GRID K2, 0000: 87: 00.0, 80.04.D4.00.07
GRID K2, 0000: 88: 00.0, 80.04.D4.00.08
Запрос метрик графического процессора для ведения журнала на стороне хоста
Этот запрос удобен для мониторинга показателей графического процессора на стороне гипервизора.Этот запрос будет работать как для ESXi, так и для XenServer
.
$ nvidia-smi --query-gpu = timestamp, name, pci.bus_id, driver_version, pstate, pcie.link.gen.max, pcie.link.gen.current, temperature.gpu, utilization.gpu, utilization.memory, memory.total, memory.free, memory.used --format = csv -l 5
При добавлении дополнительных параметров в запрос убедитесь, что между параметрами запроса не добавлены пробелы.
Вы можете получить полный список аргументов запроса, введя: nvidia-smi —help-query-gpu
nvidia-smi Использование для логирования
Краткосрочные рубки
Добавьте параметр «-f <имя файла>» для перенаправления вывода в файл
Добавьте «тайм-аут -t <секунды>» для выполнения запроса в течение <секунд> и остановки регистрации.
Убедитесь, что гранулярность вашего запроса соответствует требуемому использованию:
Многолетние лесозаготовки
Создайте сценарий оболочки для автоматизации создания файла журнала с данными отметки времени, добавленными к имени файла и параметрам запроса
Добавьте настраиваемое задание cron в / var / spool / cron / crontabs для вызова сценария с требуемыми интервалами.
Дополнительные команды низкого уровня, используемые для часов и питания
Включить режим сохранения
Все приведенные ниже настройки для часов и питания сбрасываются между запусками программы, если вы не включили режим сохранения (PM) для драйвера.
Также обратите внимание, что команда nvidia-smi выполняется намного быстрее, если включен режим PM.
nvidia-smi -pm 1 — сохранить настройки часов, питания и других параметров при запуске программы / вызове драйвера
Часы
Мощность
Управление и мониторинг графических процессоров
— документация xCAT 2.16.1
Количество графических процессоров NVIDIA в системе
nvidia-smi --query-gpu = count --format = csv, noheader
Версия установленного драйвера дисплея NVIDIA
nvidia-smi -i 0 --query-gpu = driver_version --format = csv, noheader
BIOS платы графического процессора
nvidia-smi -i 0 --query-gpu = vbios_version --format = csv, noheader
Название продукта, серийный номер и UUID графического процессора:
nvidia-smi -i 0 --query-gpu = имя, серийный номер, uuid --format = csv, noheader
Скорость вентилятора:
nvidia-smi -i 0 --query-gpu = fan.скорость --format = csv, noheader
Флаг режима вычислений указывает, могут ли отдельные или несколько вычислительных приложений работать на графическом процессоре. (известные как режимы эксклюзивности)
nvidia-smi -i 0 --query-gpu = compute_mode --format = csv, noheader
Процент времени за последний период выборки, в течение которого одно или несколько ядер выполнялись на графическом процессоре:
nvidia-smi -i 0 --query-gpu = utilization.gpu --format = csv, noheader
Всего ошибок, обнаруженных по всему чипу.Сумма device_memory, register_file, l1_cache, l2_cache и texture_memory
nvidia-smi -i 0 --query-gpu = ecc. errors.corrected.aggregate.total --format = csv, noheader
Температура ядра GPU, в градусах C:
nvidia-smi -i 0 --query-gpu = temperature.gpu --format = csv, noheader
Режим ECC, в котором сейчас работает графический процессор:
nvidia-smi -i 0 --query-gpu = ecc.mode.current --format = csv, noheader
Статус управления питанием:
nvidia-smi -i 0 --query-gpu = power.управление --format = csv, noheader
Последнее измеренное значение потребляемой мощности для всей платы, в ваттах:
nvidia-smi -i 0 --query-gpu = power.draw --format = csv, noheader
Минимальное и максимальное значение в ваттах, для которого предел мощности может быть установлен равным
.
nvidia-smi -i 0 --query-gpu = power.min_limit, power.max_limit --format = csv
nvidia-smi • help
Интерфейс управления системой NVIDIA — v370.28 NVSMI предоставляет информацию о мониторинге для Tesla и некоторых устройств Quadro.Данные представлены в виде простого текста или XML через стандартный вывод или файл. NVSMI также предоставляет несколько операций управления для изменения состояния устройства. Обратите внимание, что функциональность NVSMI предоставляется через NVML на основе C. библиотека. Посетите веб-сайт разработчиков NVIDIA для получения дополнительной информации о NVML. Также доступны оболочки Python для NVML. Выход NVSMI: обратная совместимость не гарантируется; NVML и привязки перевернуты совместимый. http://developer.nvidia.com/nvidia-management-library-nvml/ http: // pypi.python.org/pypi/nvidia-ml-py/ Поддерживаемые продукты: — Полная поддержка — Вся продукция Tesla, начиная с архитектуры Fermi — Все продукты Quadro, начиная с архитектуры Fermi — Все продукты GRID, начиная с архитектуры Kepler — Продукты GeForce Titan, начиная с архитектуры Kepler — Ограниченная поддержка — Все продукты Geforce, начиная с архитектуры Fermi nvidia-smi [ВАРИАНТ1 [АРГ1]] [ВАРИАНТ2 [АРГ2]] . .. -h, —help Распечатать информацию об использовании и выйти.СПИСОК ВАРИАНТОВ: -L, —list-gpus Показать список графических процессоров, подключенных к системе. ОБЗОР ВАРИАНТОВ: Показать сводку графических процессоров, подключенных к системе. [плюс любой из] -i, —id = выбрать конкретный графический процессор. -f, —filename = Войти в указанный файл, а не в стандартный вывод. -l, —loop = Проверить до Ctrl + C с указанным вторым интервалом. ВАРИАНТЫ ЗАПРОСА: -q, —query Показать информацию о графическом процессоре или устройстве. [плюс любой из] -u, —unit Показывать атрибуты устройства, а не графического процессора.-i, —id = выбрать конкретный графический процессор или устройство. -f, —filename = Войти в указанный файл, а не в стандартный вывод. -x, —xml-format Вывести вывод в формате XML. —dtd При отображении вывода xml вставлять DTD. -d, —display = Показать только выбранную информацию: ПАМЯТЬ, ИСПОЛЬЗОВАНИЕ, ЕСС, ТЕМПЕРАТУРА, МОЩНОСТЬ, ЧАСЫ, ВЫЧИСЛИТЬ, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT, ACCOUNTING.Флаги можно комбинировать с запятой, например ЕСС, МОЩНОСТЬ. Также возвращаются данные выборки с макс. / Мин. / Сред. для типов дисплея POWER, UTILIZATION и CLOCK. Не работает с флагами -u или -x. -l, —loop = Проверить до Ctrl + C с указанным вторым интервалом. -lms, —loop-ms = Проверить до Ctrl + C с указанным интервалом в миллисекундах. ВЫБОРНЫЕ ВАРИАНТЫ ЗАПРОСА: Позволяет вызывающей стороне передавать явный список свойств для запроса.[один из] —query-gpu = Информация о GPU. Для получения дополнительной информации позвоните —help-query-gpu. —query-supported-clocks = Список поддерживаемых часов. Для получения дополнительной информации позвоните —help-query-supported-clocks. —query-compute-apps = Список текущих активных вычислительных процессов. Для получения дополнительной информации позвоните —help-query-compute-apps. —query-account-apps = Список учтенных вычислительных процессов.Для получения дополнительной информации позвоните —help-query-account-account-apps. —query-retired-pages = Список удаленных страниц памяти устройства. Для получения дополнительной информации позвоните —help-query-retired-pages. [обязательный] —format = Список параметров формата, разделенных запятыми: csv — значения, разделенные запятыми (ОБЯЗАТЕЛЬНО) noheader — пропускать первую строку с заголовками столбцов nounits — не печатать единицы для числовых значения [плюс любой из] -i, —id = выбрать конкретный графический процессор или устройство.-f, —filename = Войти в указанный файл, а не в стандартный вывод. -l, —loop = Проверить до Ctrl + C с указанным вторым интервалом. -lms, —loop-ms = Проверить до Ctrl + C с указанным интервалом в миллисекундах. ВАРИАНТЫ МОДИФИКАЦИИ УСТРОЙСТВА: [любой из] -pm, —persistence-mode = Установить режим сохранения: 0 / ОТКЛЮЧЕН, 1 / ВКЛЮЧЕН -e, —ecc-config = Включить поддержку ECC: 0 / ОТКЛЮЧЕНО, 1 / ВКЛЮЧЕНО -p, —reset-ecc-errors = Сбросить количество ошибок ECC: 0 / VOLATILE, 1 / AGGREGATE -c, —compute-mode = Установить РЕЖИМ для вычислительных приложений: 0 / ПО УМОЛЧАНИЮ, 1 / EXCLUSIVE_PROCESS, 2 / ЗАПРЕЩЕНО —gom = Установить режим работы графического процессора: 0 / ALL_ON, 1 / COMPUTE, 2 / LOW_DP -r —gpu-reset Триггер сброса графического процессора.Может использоваться для сброса состояния аппаратного обеспечения графического процессора в ситуациях в противном случае потребовалась бы перезагрузка машины. Обычно полезно, если двухбитовая ошибка ECC имеет произошел. Работа операций сброса не гарантируется. во всех случаях и должны использоваться с осторожностью. —id = переключатель является обязательным для этого переключателя -vm —virt-mode = Переключить режим виртуализации графического процессора: Устанавливает режим виртуализации графического процессора на 3 / VGPU или 4 / VSGA Режим виртуализации графического процессора можно установить только тогда, когда он работает на гипервизоре.-ac —applications-clocks = Указывает часы как пара (например, 2000,800), которая определяет GPU скорость в МГц при запуске приложений на графическом процессоре. -rac —reset-приложения-часы Сбрасывает часы приложений на значения по умолчанию. -acp —applications-clocks-permission = Переключает требования к разрешениям для команд -ac и -rac: 0 / без ограничений, 1 / с ограничениями -pl —power-limit = Задает максимальный предел управления мощностью в ваттах.-am —accounting-mode = Включить или отключить режим учета: 0 / ОТКЛЮЧЕН, 1 / ВКЛЮЧЕН -caa —clear-account-apps Очищает все учтенные PID в буфере. —auto-boost-default = Установить политику автоматического повышения по умолчанию на 0 / ОТКЛЮЧЕНО или 1 / ENABLED, принудительное изменение только после последний клиент повышения завершился. —auto-boost-permission = Разрешить контроль над автоматическим ускорением без прав администратора / root: 0 / без ограничений, 1 / с ограничениями [плюс необязательно] -i, —id = выбрать конкретный графический процессор. ВАРИАНТЫ МОДИФИКАЦИИ АППАРАТА: -t, —toggle-led = Установить состояние светодиода устройства: 0 / ЗЕЛЕНЫЙ, 1 / ЖЕЛТЫЙ [плюс необязательно] -i, —id = выбрать конкретный юнит. ПОКАЗАТЬ ОПЦИИ DTD: —dtd Распечатать DTD устройства и выйти. [плюс необязательно] -f, —filename = Войти в указанный файл, а не в стандартный вывод. -u, —unit Показать устройство, а не устройство, DTD. —debug = Записывать зашифрованную отладочную информацию в указанный файл.СТАТИСТИКА: (ЭКСПЕРИМЕНТАЛЬНАЯ) stats Отображает статистику устройства. «nvidia-smi stats -h» для получения дополнительной информации. Мониторинг устройства: dmon Отображает статистику устройства в формате прокрутки. «nvidia-smi dmon -h» для получения дополнительной информации. демон Работает в фоновом режиме и контролирует устройства как процесс-демон. Это экспериментальная функция. «nvidia-smi daemon -h» для получения дополнительной информации.replay Используется для воспроизведения / извлечения постоянной статистики, созданной демоном. Это экспериментальная функция. «nvidia-smi replay -h» для получения дополнительной информации. Мониторинг процесса: pmon Отображает статистику процесса в формате прокрутки. «nvidia-smi pmon -h» для получения дополнительной информации. ТОПОЛОГИЯ: topo Отображает топологию устройства / системы. «nvidia-smi topo -h» для получения дополнительной информации.NVLINK: nvlink Отображает информацию об устройстве nvlink. «nvidia-smi nvlink -h» для получения дополнительной информации. ЧАСЫ: часы Управление и запрос информации о часах. «nvidia-smi clocks -h» для получения дополнительной информации. Пожалуйста, обратитесь к странице руководства nvidia-smi (1) для получения более подробной информации.
Ubuntu Manpage: nvidia-smi — программа интерфейса управления системой NVIDIA
Предоставлено: nvidia-current_295. 40-0ubuntu1_amd64

НАИМЕНОВАНИЕ
nvidia-smi - программа NVIDIA System Management Interface
ОБЗОР
nvidia-smi [ВАРИАНТ1 [АРГ1]] [ВАРИАНТ2 [АРГ2]]... -h, --help Распечатать информацию об использовании и выйти СПИСОК ВАРИАНТОВ -L, --list-gpus Показать список доступных графических процессоров ОБЗОР ВАРИАНТОВ <нет аргументы> Показать сводку графических процессоров, подключенных к системе. [плюс любой из] -i, --id Таргетинг на конкретный графический процессор или устройство -f, --filename Войти в указанный файл -l, --loop Проверить до Ctrl + C с заданным интервалом в секундах ВАРИАНТЫ ЗАПРОСА -q, --query Показать информацию о графическом процессоре или устройстве [плюс любой из] -u, --unit Показать атрибуты устройства, а не графического процессора -i, --id Таргетинг на конкретный графический процессор или устройство -f, --filename Войти в указанный файл -x, --xml-format Создание вывода XML --dtd При создании вывода XML встраивайте DTD -d, --display Отображать только выбранную информацию: ПАМЯТЬ, ИСПОЛЬЗОВАНИЕ, ECC, ТЕМПЕРАТУРА, МОЩНОСТЬ, ЧАСЫ, ВЫЧИСЛЕНИЕ, PIDS, ПРОИЗВОДИТЕЛЬНОСТЬ.Флаги могут быть объединенным с запятой, например «ПАМЯТЬ, ЕСС». Не работает с -u / - unit или -x / - флаги формата xml. -l, --loop Проверить до Ctrl + C с заданным интервалом в секундах ВАРИАНТЫ МОДИФИКАЦИИ УСТРОЙСТВА [любой из] - в минуту, - в режиме настойчивости Установите режим сохранения: 0 | ОТКЛЮЧЕНО, 1 | ВКЛЮЧЕНО Доступно в Linux. Только. -e, --ecc-config Переключить поддержку ECC: 0 | DISABLED, 1 | ENABLED -p, --reset-ecc-errors Сбросить количество ошибок ECC: 0 | VOLATILE, 1 | AGGREGATE -c, --compute-mode Установить РЕЖИМ для вычислительных приложений: 0 | DEFAULT, 1 | EXCLUSIVE_THREAD, 2 | ЗАПРЕЩЕНО, 3 | EXCLUSIVE_PROCESS -dm, --driver-model Включение или отключение режима TCC: 0 / WDDM, 1 / TCC Доступно в Windows Только. -fdm, --force-драйвер-модель Включение или отключение режима TCC: 0 / WDDM, 1 / TCC Игнорирует ошибку, которая дисплей подключен. Доступно только в Windows. -r, --gpu-reset Сбрасывает состояние графического процессора. Может использоваться для очистки двухбитовых ошибок ECC или восстановить зависший GPU. Требуется переключатель -i для целевого конкретного устройства. Доступно только в Linux.[плюс необязательно] -i, --id Таргетинг на конкретный графический процессор ВАРИАНТЫ МОДИФИКАЦИИ АППАРАТА -t, --toggle-led Установить состояние светодиода устройства: 0 | ЗЕЛЕНЫЙ, 1 | ЖЕЛТЫЙ [плюс необязательно] -i, --id Таргетинг на определенный юнит ПОКАЗАТЬ ОПЦИИ DTD --dtd Распечатать DTD устройства и выйти [плюс необязательно] -f, --filename Запись в указанный файл -u, --unit Показать устройство, а не устройство, DTD
ОПИСАНИЕ
NVSMI предоставляет информацию мониторинга для каждого устройства NVIDIA Tesla и каждого из его высокопроизводительные устройства Quadro на базе Ферми и Кеплера. Он предоставляет очень ограниченную информацию для других типов устройств NVIDIA. См. Документацию по NVML на http://developer.nvidia.com/nvidia-management-library-nvml , чтобы узнать, какие функции поддерживаются. на конкретном устройстве. Данные представлены в текстовом или XML-формате через stdout или файл. NVSMI также предоставляет несколько операций управления для смены устройства. государственный. Обратите внимание, что функциональные возможности NVSMI предоставляются через библиотеку на основе C. NVML.Увидеть Веб-сайт разработчиков NVIDIA для получения дополнительной информации о NVML. Обертки Python и Perl для Также доступны NVML. Не гарантируется, что вывод NVSMI будет обратным. совместимый; NVML и привязки обратно совместимы. http://developer.nvidia.com/nvidia-management-library-nvml/ http://pypi.python.org/pypi/nvidia-ml-py/ http://search.cpan.org/search?query=nvidia%3A%3Aml
ОПЦИИ
ОБЩИЕ ОПЦИИ -h, --help Распечатайте информацию об использовании и выйдите. ОБЗОР ОПЦИИ -L, --list-gpus Перечислите каждый из графических процессоров NVIDIA в системе вместе с их серийными номерами или UUID. Графические процессоры Tesla и Quadro из семейства Fermi и Kepler сообщают серийные номера, которые совпадают идентификаторы, напечатанные на каждой доске. Продукты Tesla GT200 поддерживают только UUID, которые также уникальны, но не соответствуют никакому идентификатору на доске. Все остальные продукты отчет N / A. ЗАПРОС ОПЦИИ -q, - запрос Отображение информации о графическом процессоре или устройстве. Отображаемая информация включает все данные, перечисленные в ( GPU АТРИБУТЫ ) или ( БЛОК АТРИБУТЫ ) этого документа. Некоторые устройства и / или среды не поддерживаю всю возможную информацию. Любые неподдерживаемые данные обозначаются буквой «Н / Д» в выход. По умолчанию отображается информация для всех доступных графических процессоров или модулей.Используйте -i возможность ограничить вывод одним графическим процессором или устройством. [плюс опционально] -u, - ед. Данные устройства отображения вместо данных графического процессора. Данные о единицах доступны только для NVIDIA S-класса Корпуса Tesla. -i, --id = ID Отображение данных для одного указанного графического процессора или устройства. Указанный идентификатор может быть графическим процессором / устройством. Индекс на основе 0 в естественном перечислении, возвращаемый драйвером, серийный номер платы графического процессора число, UUID графического процессора или идентификатор шины PCI графического процессора (как domain: bus: device.функция в шестнадцатеричном формате). Это Рекомендуется, чтобы пользователи, желающие согласованности, использовали либо UUID, либо идентификатор шины PCI, поскольку устройство Последовательность перечисления между перезагрузками и последовательным интерфейсом платы не гарантируется. номер может быть разделен между несколькими графическими процессорами на одной плате. -f ФАЙЛ, --filename = ФАЙЛ Перенаправить вывод запроса в указанный файл вместо стандартного вывода. Указанный файл будет перезаписан. -x, --xml-формат Создавать выходные данные XML вместо удобочитаемого формата по умолчанию.И GPU, и Unit запрос выходы соответствуют соответствующим DTD. Они доступны через флаг --dtd . -dtd Используйте с -x . Вставьте DTD в вывод XML. -d, - дисплей Отображение только выбранной информации: ПАМЯТЬ, ИСПОЛЬЗОВАНИЕ, ЕСС, ТЕМПЕРАТУРА, МОЩНОСТЬ, ЧАСЫ, ВЫЧИСЛИТЬ, PIDS, ПРОИЗВОДИТЕЛЬНОСТЬ. Флаги можно комбинировать с запятой, например. «ПАМЯТЬ, ЕСС». Не работать с флагами -u / - unit или -x / - xml-format. -l SEC, --loop = SEC Непрерывно сообщать данные запроса с заданным интервалом, а не просто по умолчанию. однажды. Приложение будет спать между запросами. Обратите внимание, что в Linux ошибка ECC или XID Если не указан флаг -x , сообщения об ошибках будут распечатываться во время периода ожидания. Нажатие Ctrl + C в любой момент прервет цикл, который в противном случае будет выполняться бесконечно. Если для формы -l аргумент не указан, используется интервал по умолчанию 5 секунд. ЗАПРОС ОПЦИИ [любой один из] -pm, --persistence-mode = MODE Установите режим сохранения для целевых графических процессоров. См. Раздел ( GPU ATTRIBUTES ). описание режима сохранения. Требуется рут. Повлияет на все графические процессоры, кроме одного графического процессора указывается с помощью аргумента -i . Эффект от этой операции мгновенный. Однако это не сохраняется после перезагрузки.После каждой перезагрузки режим сохранения по умолчанию будет "Неполноценный". Доступно только в Linux. -e, --ecc-config = КОНФИГУРАЦИЯ Установите режим ECC для целевых графических процессоров. См. Описание в разделе ( GPU ATTRIBUTES ). режима ECC. Требуется рут. Повлияет на все графические процессоры, если один графический процессор не указан с аргумент -i . Этот параметр вступает в силу после следующей перезагрузки и остается постоянным. -p, --reset-ecc-errors = ТИП Сбросьте счетчики ошибок ECC для целевых графических процессоров.См. Раздел ( GPU ATTRIBUTES ). описание типов счетчиков ошибок ECC. Доступные аргументы: 0 | VOLATILE или 1 | AGGREGATE. Требуется рут. Повлияет на все графические процессоры, если только один графический процессор не указан с помощью -i аргумент. Эффект от этой операции мгновенный. -c, --compute-mode = MODE Установите режим вычислений для целевых графических процессоров. См. Раздел ( GPU ATTRIBUTES ). описание вычислительного режима.Требуется рут. Повлияет на все графические процессоры, если только один графический процессор не указывается с помощью аргумента -i . Эффект от этой операции мгновенный. Однако это не сохраняется после перезагрузки. После каждой перезагрузки режим вычислений сбрасывается на «ПО УМОЛЧАНИЮ». -dm, - модель драйвера -fdm, --force-драйвер-модель Включение или отключение модели драйвера TCC. Только для Windows. Требуются права администратора. -dm завершится ошибкой, если подключен дисплей, но -fdm заставит изменить модель драйвера.Повлияет на все графические процессоры, если только один графический процессор не указан с помощью аргумента -i . Перезагрузка есть требуется для изменения. См. Драйвер Модель для получения дополнительной информации о Windows. модели драйверов. -r, -gpu-reset Сбрасывает состояние графического процессора, выполняя сброс вторичной шины. Может использоваться для очистки двойного бита ECC ошибки или восстановить зависший GPU. Требуется переключатель -i для целевого конкретного устройства. Требуется рут.Не может быть никаких приложений, использующих это конкретное устройство (например, приложение CUDA, графическое приложение, такое как X-сервер, приложение для мониторинга, такое как другой экземпляр nvidia- smi). Также не может быть никаких вычислительных приложений, работающих на любом другом графическом процессоре в системе. Только на поддерживаемых устройствах семейства Fermi и Kepler под управлением Linux. [плюс опционально] -i, --id = ID Измените один указанный графический процессор.Указанный идентификатор может быть индексом GPU / модуля на основе 0 в естественное перечисление, возвращаемое драйвером, серийный номер платы графического процессора, UUID графического процессора, или идентификатор шины PCI графического процессора (в шестнадцатеричном формате domain: bus: device.function). Рекомендуется, чтобы пользователи, желающие согласованности, используют либо UUID, либо идентификатор шины PCI, поскольку перечисление устройств порядок перезагрузки не гарантируется, и серийный номер платы может быть совместно используемым несколькими графическими процессорами на одной плате. БЛОК МОДИФИКАЦИЯ ОПЦИИ -t, --toggle-led = СОСТОЯНИЕ Установите состояние светодиодного индикатора на передней и задней панели устройства на указанный цвет. Видеть раздел ( UNIT ATTRIBUTES ) для описания состояний светодиодов. Допустимые цвета: 0 | ЗЕЛЕНЫЙ и 1 | ЯНТАРНЫЙ. Требуется рут. [плюс опционально] -i, --id = ID Измените одну указанную единицу.Указанный идентификатор - это индекс объекта с отсчетом от 0 в естественное перечисление, возвращаемое драйвером. ПОКАЗАТЬ DTD ОПЦИИ -dtd Отображение устройства или блока DTD. [плюс опционально] -f ФАЙЛ, --filename = ФАЙЛ Перенаправить вывод запроса в указанный файл вместо стандартного вывода. Указанный файл будет перезаписан. -u, - ед. Отображать DTD блока вместо DTD устройства.
GPU АТРИБУТЫ
В следующем списке описаны все возможные данные, возвращаемые параметром запроса устройства -q . Если не указано иное, все численные результаты даны с основанием 10 и без единиц измерения. Метка времени Текущая системная метка времени на момент вызова nvidia-smi. Формат: "День недели" Месяц День ЧЧ: ММ: СС Год ". Драйвер Версия Версия установленного драйвера дисплея NVIDIA.Это буквенно-цифровая строка. Прикреплено Графические процессоры Количество доступных графических процессоров NVIDIA. Ожидается, что под Linux все графические процессоры NVIDIA будут доступный. Изделие Название Официальное название продукта GPU. Это буквенно-цифровая строка. Для всех товаров. Дисплей Режим Флаг, указывающий, подключен ли дисплей к графическому процессору. "Включено" указывает на то, что прикрепленный дисплей.«Отключено» означает иное. Постоянство Режим Флаг, указывающий, включен ли режим сохранения для графического процессора. Значение либо «Включено» или «Отключено». Когда включен режим сохранения, драйвер NVIDIA остается загруженным. даже если нет активных клиентов, таких как X11 или nvidia-smi. Это минимизирует драйвер задержка загрузки, связанная с запуском зависимых приложений, таких как программы CUDA. Для всех CUDA- способные продукты. Только Linux. Драйвер Модель В Windows поддерживаются модели драйверов TCC и WDDM. Модель драйвера может быть изменена с флагами ( -dm ) или ( -fdm ). Модель драйвера TCC оптимизирована для вычислений Приложения. I.E. Время запуска ядра будет быстрее с TCC. Модель драйвера WDDM: разработан для графических приложений и не рекомендуется для вычислительных приложений. Linux не поддерживает несколько моделей драйверов и всегда будет иметь значение «N / A». Текущая Модель драйвера, используемая в настоящее время. Всегда "н / д" в Linux. В ожидании Модель драйвера, которая будет использоваться при следующей перезагрузке. Всегда включен "N / A" Linux. Серийный Номер Этот номер соответствует серийному номеру, напечатанному на каждой плате. Это глобальный уникальное неизменяемое буквенно-цифровое значение. графический процессор UUID Это значение является глобально уникальным неизменяемым буквенно-цифровым идентификатором графического процессора.Оно делает не соответствуют никаким физическим этикеткам на плате. VBIOS Версия BIOS платы графического процессора. Inforom Версия Номера версий для каждого объекта в информационном хранилище платы графического процессора. Информация - это небольшое постоянное хранилище данных конфигурации и состояния графического процессора. Вся инфором версия поля числовые. Эти номера версий может быть полезно знать, потому что некоторые графические процессоры функции доступны только с информацией определенной версии или выше. OEM Объект Версия для данных конфигурации OEM. ECC Объект Версия для данных записи ECC. Power Object Версия для данных управления питанием. PCI Базовая информация о PCI для устройства. Часть этой информации может измениться, когда карты добавлено / удалено / перенесено в систему. Для всех товаров. Шина Номер шины PCI в шестнадцатеричном формате Устройство Номер устройства PCI в шестнадцатеричном формате Домен Номер домена PCI в шестнадцатеричном формате Устройство Id Идентификатор устройства PCI в шестнадцатеричном формате Sub System Id PCI Sub System id, in hex Шина Id Идентификатор шины PCI как «домен: шина: устройство.функция "в шестнадцатеричном формате GPU Ссылка информация Генерация канала PCIe и ширина шины Текущее Текущее поколение и ширина ссылки. Их можно уменьшить, если графический процессор не используется. Максимум Максимальное поколение и ширина канала связи, возможная с этим графическим процессором и системой конфигурация. Например, если графический процессор поддерживает более высокое поколение PCIe чем система поддерживает, то это сообщает о поколении системного PCIe. Вентилятор Скорость Значение скорости вентилятора - это процент от максимальной скорости, на которой вентилятор устройства работает в данный момент. работает на. Он колеблется от 0 до 100%. Многие детали не сообщают о скорости вращения вентилятора, потому что они полагаться на охлаждение с помощью вентиляторов в окружающем корпусе. Для всех дискретных продуктов с преданные фанаты. Производительность Состояние Текущее состояние производительности графического процессора. Состояния варьируются от P0 (максимальная производительность) до P12. (минимальная производительность). Память Использование Информация о бортовой памяти. Сообщаемый общий объем памяти зависит от состояния ECC. Если ECC включено общая доступная память уменьшена на несколько процентов, из-за необходимого биты четности. Драйвер также может зарезервировать небольшой объем памяти для внутреннего использования, даже без активной работы на GPU. Для всех товаров. Всего Всего установленной памяти графического процессора. Используется Общий объем памяти, выделенной активными контекстами. Свободна Общая свободная память. Вычислить Режим Флаг режима вычислений указывает, могут ли отдельные или несколько вычислительных приложений запустить на GPU. «ПО УМОЛЧАНИЮ» означает, что для одного устройства разрешено несколько контекстов. "EXCLUSIVE_THREAD" означает, что для каждого устройства разрешен только один контекст, который можно использовать из одного потока в время. "EXCLUSIVE_PROCESS" означает, что для каждого устройства разрешен только один контекст, который можно использовать с несколько потоков одновременно."ЗАПРЕЩЕНО" означает, что для каждого устройства не разрешены контексты (нет вычислительные приложения). EXCLUSIVE_PROCESS был добавлен в CUDA 4.0. Поддерживаются предыдущие выпуски CUDA только один эксклюзивный режим, который эквивалентен EXCLUSIVE_THREAD в CUDA 4.0 и последующих версиях. Для всех продуктов с поддержкой CUDA. Использование Показатели использования показывают, насколько загружен каждый графический процессор с течением времени, и могут использоваться, чтобы определить, насколько Многие приложения используют графические процессоры в системе. GPU Процент времени за последнюю секунду, в течение которого одно или несколько ядер были выполняется на графическом процессоре. Память Процент времени за последнюю секунду, в течение которого глобальная память (устройства) читали или писали. Ecc Режим Флаг, указывающий, включена ли поддержка ECC. Может быть либо «Включено», либо "Неполноценный". Для перехода в режим ECC требуется перезагрузка. Требуется объект Inforom ECC версии 1.0 или выше. Текущий Режим ECC, в котором сейчас работает графический процессор. В ожидании Режим ECC, в котором будет работать графический процессор после следующей перезагрузки. ECC Ошибки Графические процессоры NVIDIA могут обеспечивать подсчет ошибок для двух типов ошибок ECC (однобитовых и двойных). bit) в двух временных масштабах (изменчивой и совокупной). Одноразрядные ошибки ECC: автоматически исправляются аппаратным обеспечением и не приводят к повреждению данных. Двойные битовые ошибки обнаруживаются, но не исправляются. Пожалуйста, ознакомьтесь с документами ECC в Интернете для получения информации о вычислить поведение приложения при возникновении двойных битовых ошибок. Отслеживание счетчиков непостоянных ошибок количество ошибок, обнаруженных с момента последней загрузки драйвера. Общее количество ошибок сохраняется на неопределенный срок и, таким образом, действует как счетчик времени жизни. Замечание о подсчете изменчивости: в Windows это один раз при загрузке. В Linux это может быть больше частый. В Linux драйвер выгружается, когда нет активных клиентов. Следовательно, если настойчивость включен режим или всегда активен клиент-драйвер (например, X11), тогда Linux также видит поведение при загрузке.Если нет, изменчивые счетчики сбрасываются каждый раз при запуске вычислительного приложения. Продукты Tesla и Quadro из семейства Fermi и Kepler могут отображать общую ошибку ECC подсчетов, а также разбивка ошибок по местоположению на микросхеме. Локации описано ниже. Данные на основе местоположения для общего количества ошибок требуют Inforom ECC. версия объекта 2.0. Для всех остальных счетчиков ECC требуется версия объекта ECC 1.0. Устройство Память Обнаружены ошибки в глобальной памяти устройства. Регистр Файл В памяти регистрового файла обнаружены ошибки. L1 Кэш В кэше L1 обнаружены ошибки. L2 Кэш В кэше L2 обнаружены ошибки. Всего Общее количество ошибок, обнаруженных по всей микросхеме. Сумма Устройство Память , Регистр Файл , L1 Кэш и L2 Кэш . Температура Показания датчиков температуры на плате. Все показания указаны в градусах Цельсия. Не все. продукты поддерживают все типы чтения. В частности, продукты в модульных форм-факторах, которые полагаются на корпусные вентиляторы или пассивное охлаждение, как правило, не позволяют получить показания температуры. Видеть ниже об ограничениях. GPU Core Температура графического процессора. Для всех дискретных продуктов и продуктов S-класса. Мощность Показания Показания мощности помогают пролить свет на текущее энергопотребление графического процессора и факторы которые влияют на это использование.Когда управление питанием включено, графический процессор ограничивает потребляемую мощность ниже нагрузка, чтобы соответствовать предопределенному диапазону мощности, манипулируя текущей производительностью государственный. См. Ниже пределы доступности. Power State Power State устарело и было переименовано в Performance State в 2.285. Для обеспечения совместимости с XML в формате XML Performance State указывается указаны в обоих местах. Питание Управление Флаг, указывающий, включено ли управление питанием.Либо «Поддерживается» или «Н / Д». Требуется объект Inforom PWR версии 3.0 или выше. Power Draw Последнее измеренное значение потребляемой мощности для всей платы в ваттах. Только в наличии если поддерживается управление питанием. Это показание является точным в пределах +/- 5. Вт. Требуется объект Inforom PWR версии 3.0 или выше. Мощность Предел Максимальное значение мощности алгоритма управления питанием в ваттах.Общая мощность платы draw управляется алгоритмом управления питанием, так что он остается ниже этого значения. Доступно, только если поддерживается управление питанием. Требует Объект Inforom PWR версии 3.0 и выше. Часы Текущая частота, с которой работают части графического процессора. Все показания указаны в МГц. Графика Текущая частота тактовой частоты графики (шейдера). SM Текущая частота часов SM (Streaming Multiprocessor). Память Текущая частота тактовой частоты памяти. Макс Часы Максимальная частота, на которой должны работать части графического процессора. Все показания указаны в МГц. Графика Максимальная частота тактовой частоты графики (шейдера). SM Максимальная частота тактовой частоты SM (Streaming Multiprocessor). Память Максимальная частота тактовой частоты памяти. Вычислить Процессы Список процессов, имеющих контекст вычислений на устройстве.Каждая запись имеет формат «. » Б / у GPU Память Объем памяти, используемой на устройстве контекстом. Недоступно в Windows при работе в режиме WDDM, потому что Windows KMD управляет всей памятью, а не Драйвер NVIDIA.
БЛОК АТРИБУТЫ
В следующем списке описаны все возможные данные, возвращаемые параметром запроса блока -q -u .Если не указано иное, все численные результаты даны с основанием 10 и без единиц измерения. Метка времени Текущая системная метка времени на момент вызова nvidia-smi. Формат: "День недели" Месяц День ЧЧ: ММ: СС Год ". Драйвер Версия Версия установленного драйвера дисплея NVIDIA. Формат: «Старшее число. Второстепенное число». HIC Информация Информация о любых интерфейсных платах хоста (HIC), установленных в системе. Прошивка Версия Версия прошивки, запущенной на HIC. Прикрепленные Шт. Количество подключенных Юнитов в системе. Изделие Название Официальное название продукта подразделения. Это буквенно-цифровое значение. Для всех S-класса товары. Продукт Id Идентификатор продукта для единицы. Это буквенно-цифровое значение формы "часть1-часть2-часть3". Для всей продукции S-класса. Продукт Серийный номер Неизменяемый глобальный уникальный идентификатор объекта. Это буквенно-цифровое значение. За вся продукция S-класса. Прошивка Версия Версия микропрограммы, установленной на устройстве. Формат: «Старшее число. Второстепенное число». Для всей продукции S-класса. Светодиод Состояние Светодиодный индикатор используется для обозначения систем с потенциальными проблемами. Цвет светодиода AMBER указывает на проблему.Для всей продукции S-класса. Цвет Цвет светодиодного индикатора. Либо «ЗЕЛЕНЫЙ», либо «ЯНТАРНЫЙ». Причина Причина текущего цвета светодиода. Причина может быть указана как любая комбинация «Неизвестно», «Установлено на ЖЕЛТЫЙ с помощью хост-системы», «Температурный датчик. отказ »,« Отказ вентилятора »и« Температура превышает критический предел ». Температура Показания температуры важных компонентов устройства.Все показания в градусах Цельсия. Не все показания могут быть доступны. Для всей продукции S-класса. Впуск Температура воздуха на впуске агрегата. Выхлоп Температура воздуха на выходе из агрегата. Доска Температура воздуха по всей панели блока. БП Показания для блока питания. Для всей продукции S-класса. Состояние Рабочее состояние блока питания. Состояние источника питания может быть любым из следующие: «Нормальный», «Ненормальный», «Высокое напряжение», «Неисправность вентилятора», «Радиатор. температура »,« Ограничение тока »,« Напряжение ниже порога срабатывания УФ-срабатывания », «Низкое напряжение», «Команда дистанционного выключения I2C», «Вход MOD_DISABLE» или «Короткий контакт. переход". Напряжение Установка напряжения БП в вольтах. Ток Ток, потребляемый блоком питания, в амперах. Вентилятор Информация Показания вентилятора для агрегата. Показания предусмотрены для каждого вентилятора, которых может быть много. Для всей продукции S-класса. Состояние Состояние вентилятора: «НОРМАЛЬНОЕ» или «ОТКАЗАННОЕ». Скорость Для исправного вентилятора скорость вентилятора в об / мин. Прикреплено Графические процессоры Список идентификаторов шины PCI, соответствующих каждому графическому процессору, подключенному к устройству.Автобус Идентификаторы имеют вид "домен: шина: устройство.функция" в шестнадцатеричном формате. Для всей продукции S-класса.
ПРИМЕЧАНИЯ
В Linux файлы устройства NVIDIA могут быть изменены с помощью nvidia-smi, если он запущен от имени пользователя root. Пожалуйста, посмотрите соответствующий раздел файла README драйвера. Аргументы -a и -g теперь устарели и заменены аргументами -q и -i соответственно. Тем не мение, старые аргументы все еще работают для этого выпуска.
ПРИМЕРЫ
nvidia-smi -q Запросить атрибуты для всех графических процессоров один раз и отобразить в виде обычного текста в стандартный вывод. nvidia-smi -q -d ECC, POWER -i 0 -l 10 -f out.log Запросить ошибки ECC и энергопотребление для GPU 0 с частотой 10 секунд, на неопределенный срок и записать в файл.бревно. nvidia-smi -c 1 -i GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8 Установите режим вычислений "EXCLUSIVE_THREAD" для графического процессора с UUID. "GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8". nvidia-smi -q -u -x -dtd Запросить атрибуты для всех единиц один раз и отобразить в формате XML со встроенным DTD для стандартный вывод. nvidia-smi --dtd -u -f nvsmi_unit.dtd Запишите DTD модуля в nvsmi_unit.dtd.
ИЗМЕНИТЬ ЖУРНАЛ
=== Изменения между nvidia-smi v2.0 и v2.285 === * Сообщить о версии VBIOS. * Добавлен -d / - отображать флаг для фильтрации частей данных * Добавлен отчет об идентификаторе подсистемы PCI. * Обновлены документы, указывающие, что мы поддерживаем M2075 и C2075. * Сообщать о версии прошивки HIC HWBC с ключом -u * Сообщать о максимальных (P0) часах рядом с текущими часами * Добавлен флаг --dtd для печати DTD устройства или модуля. * Добавлено сообщение, когда драйвер NVIDIA не запущен * Добавлен отчет о генерации каналов PCIe (макс. И текущее) и ширине канала (макс. И Текущий).* Получение ожидающей модели драйвера работает без прав администратора * Добавлена поддержка запуска nvidia-smi в гостевых учетных записях Windows. * Запуск nvidia-smi без команды -q выведет неполную версию -q вместо помощь * Исправлен синтаксический анализ -l / - loop = аргумент (значение по умолчанию, 0, на большое значение) * Изменен формат pciBusId (на XXXX: XX: XX.X - это изменение было видно в 280) * Разбор busId для команды -i менее строг. Вы можете пасовать 0: 2: 0.0 или 0000: 02: 00 и другие варианты * Изменена схема управления версиями, чтобы также включить "версию драйвера". * Формат XML всегда соответствует DTD, даже если возникают условия ошибки * Добавлена поддержка одно- и двухбитовых событий ECC и ошибок XID (по умолчанию включено. с флагом -l отключен для флага -x) * Добавлен сброс устройства -r --gpu-reset flags * Добавлен список вычислительных запущенных процессов * Состояние питания переименовано в состояние производительности. В выводе XML существует устаревшая поддержка Только. * Обновлен номер версии DTD до 2.0, чтобы соответствовать обновленному выходу XML. === Изменения между nvidia-smi v2.285 и v3.295 === * Более четкие отчеты об ошибках для запущенных команд (например, изменение режима вычислений) * При одновременном выполнении команд на нескольких графических процессорах ошибки N / A обрабатываются как предупреждения. * nvidia-smi -i теперь также поддерживает UUID * Формат UUID изменен в соответствии со стандартом UUID и будет сообщать другое значение.
СМОТРИ ТАКЖЕ
В Linux драйвер README устанавливается как / usr / share / doc / NVIDIA_GLX-1.0 / README.txt
АВТОР
Корпорация NVIDIA
АВТОРСКИЕ ПРАВА
Авторское право 2011-2012 NVIDIA Corporation.
Топовая утилита для мониторинга активности CUDA на GPU
Другой полезный подход к мониторингу — использование пс , отфильтрованных для процессов, которые используют ваши графические процессоры. Я много пользуюсь этим:
ps f -o user, pgrp, pid, pcpu, pmem, start, time, command -p `lsof -n -w -t / dev / nvidia *`
Это покажет все процессы nvidia, использующие GPU, и некоторую статистику о них. lsof ... получает список всех процессов, использующих графический процессор nvidia, принадлежащий текущему пользователю, а ps -p ... показывает результаты ps для этих процессов. ps f показывает хорошее форматирование для отношений / иерархий дочерних / родительских процессов, а -o указывает настраиваемое форматирование. Это похоже на выполнение ps u , но добавляет идентификатор группы процессов и удаляет некоторые другие поля.
Одно из преимуществ этого по сравнению с nvidia-smi заключается в том, что он отображает ветки процессов, а также основные процессы, использующие графический процессор.
Однако одним из недостатков является то, что он ограничен процессами, принадлежащими пользователю, выполняющему команду. Чтобы открыть его для всех процессов, принадлежащих любому пользователю, я добавляю sudo перед lsof .
Наконец, я комбинирую его с часами , чтобы получать непрерывное обновление. Итак, в итоге это выглядит так:
смотреть -n 0.1 'ps f -o user, pgrp, pid, pcpu, pmem, start, time, command -p `sudo lsof -n -w -t / dev / nvidia *`'
, который имеет такой вывод:
Каждые 0.1s: ps f -o user, pgrp, pid, pcpu, pmem, start, time, command -p `sudo lsof -n -w -t / dev / nvi ... Пн, 6 июня, 14:03:20 2016 ПОЛЬЗОВАТЕЛЬ PGRP PID% CPU% MEM ВРЕМЯ НАЧАЛА КОМАНДА grisait + 27294 50934 0,0 0,1 02 июня 00:01:40 / opt / google / chrome / chrome --type = gpu-process --channel = 50877.0.2015482623 grisait + 27294 50941 0,0 0,0 02 июня 00:00:00 \ _ / opt / google / chrome / chrome --type = gpu-broker grisait + 53596 53596 36.6 1.1 13:47:06 00:05:57 python -u process_examples.py grisait + 53596 33428 6.9 0.5 14:02:09 00:00:04 \ _ python -u process_examples.py grisait + 53596 33773 7.5 0.5 14:02:19 00:00:04 \ _ python -u process_examples.py grisait + 53596 34174 5.0 0.5 14:02:30 00:00:02 \ _ python -u process_examples.py grisait + 28205 28205 905 1.5 13:30:39 04:56:09 python -u train.py grisait + 28205 28387 5.8 0.4 13:30:49 00:01:53 \ _ python -u train.py grisait + 28205 28388 5.3 0.4 13:30:49 00:01:45 \ _ python -u train.py grisait + 28205 28389 4.5 0.4 13:30:49 00:01:29 \ _ python -u train.ру grisait + 28205 28390 4.5 0.4 13:30:49 00:01:28 \ _ python -u train.py grisait + 28205 28391 4.8 0.4 13:30:49 00:01:34 \ _ python -u train.py
python — понимание процессов GPU из команды nvidia-smi
У меня есть новый ноутбук с графическим процессором NVidia RTX 2070, который я использую для обучения моделей tensorflow 2. 1 . К сожалению, у меня возникают проблемы с GPU OOM (нехватка памяти) — в середине обучения он вылетает, я уменьшил использование ОЗУ до , но, конечно, проблема все еще сохраняется.
Я попытался проверить, из-за чего GPU выходит из строя. Когда я набираю nvidia-smi в терминале, я получаю следующие результаты:
+ ----------------------------------------------- ------------------------------ + | NVIDIA-SMI 440.64.00 Версия драйвера: 440.64.00 Версия CUDA: 10.2 | | ------------------------------- + ----------------- ----- + ---------------------- + | Имя графического процессора Persistence-M | Bus-Id Disp.A | Неустойчивый Uncorr. ECC | | Fan Temp Perf Pwr: Использование / Крышка | Использование памяти | GPU-Util Compute M.| | =============================== + ================= ===== + ====================== | | 0 GeForce RTX 2070 Вкл | 00000000: 01: 00.0 Выкл. | N / A | | НЕТ 43C P8 6W / НЕТ | 1009MiB / 7982MiB | 11% По умолчанию | + ------------------------------- + ----------------- ----- + ---------------------- + + ------------------------------------------------- ---------------------------- + | Процессы: Память GPU | | Тип PID графического процессора Имя процесса Использование | | ================================================= ============================ | | 0 1209 G / usr / lib / xorg / Xorg 72MiB | | 0 1237 G / usr / bin / gnome-shell 52MiB | | 0 1565 г / usr / lib / xorg / Xorg 481MiB | | 0 1693 G / usr / bin / gnome-shell 195MiB | | 0 12312 г...uest-channel-token = 14048285025818334832 204MiB | + ------------------------------------------------- ---------------------------- +
О чем эти процессы? Вы можете помочь мне их интерпретировать и понять? Есть ли что-нибудь, что я могу убить и как?
Объяснение вывода утилиты nvidia-smi | Шачи Каул | Аналитика Vidhya
Машинное обучение и глубокие нейронные сети в процессе развития вычисления на ЦП занимали больше времени или даже не могли быть выполнены вовремя. После этого для них был представлен графический процессор, хотя он уже использовался для игр. Чтобы узнать больше о графическом процессоре и его мониторинге, загляните в этот блог.
Графические процессоры NVIDA начали широко использоваться во многих моделях машинного обучения и глубокого обучения, поэтому настройку нескольких графических процессоров необходимо контролировать и управлять ею, чтобы получить ее преимущества. Что ж, тогда хорошие новости! Спаситель — одна из служебных программ командной строки «nvidia-smi». Давай узнаем об этом.
Существует служебная программа командной строки nvidia-smi ( также NVSMI ), которая отслеживает и управляет графическими процессорами NVIDIA, такими как Tesla, Quadro, GRID и GeForce.Он устанавливается вместе с инструментарием CUDA и предоставляет вам полезную информацию.
Ниже представлен вывод командной строки «nvidia-smi».
Figure1
В качестве выходных данных создаются две таблицы, первая из которых отражает информацию обо всех доступных графических процессорах (в приведенном выше примере указано 1 графический процессор). Вторая таблица расскажет вам о процессах, использующих графические процессоры.
Пойдем по очереди.
Figure2Figure3
Давайте углубимся в это подробнее.
Temp: Температура ядра GPU выражена в градусах Цельсия.Нам не нужно беспокоиться об этом, поскольку он будет контролироваться центрами обработки данных AWS, кроме как заботиться о вашем оборудовании. Вышеупомянутая цифра «44C» в приведенной таблице является нормальной, но позвонить по достижении 90+ C.
Perf: Обозначает текущее состояние производительности графического процессора. Он варьируется от P0 до P12, что соответствует максимальной и минимальной производительности соответственно.
Persistence-M: Значение флага режима сохраняемости, где «Вкл» означает, что ни один драйвер NVIDIA не будет оставаться загруженным (сохраняться), даже если не запущен активный клиент, такой как nvidia-smi. Это уменьшает задержку загрузки драйвера с зависимыми приложениями, такими как программы CUDA.
Pwr: Usage / Cap: Относится к текущему потреблению энергии графическим процессором из общей мощности. Это амплитуды в ваттах.
Bus-Id: Идентификатор шины PCI GPU в виде «domain: bus: device.function» в шестнадцатеричном формате, который используется для фильтрации статистики конкретного устройства.
Disp.A : Активный дисплей — это флаг, который определяет, хотите ли вы выделить память на устройстве GPU для отображения i.е. для инициализации дисплея на GPU. Здесь «Выкл.» Означает, что нет дисплея, использующего устройство с графическим процессором.
Использование памяти: Обозначает выделение памяти на GPU из общего объема памяти. Tensorflow или Keras (бэкэнд тензорного потока) автоматически выделяет всю память при запуске, даже если этого не требует. Следовательно, взгляните на GPU на Keras и Tensorflow, нацеленные на его решение с более интересной информацией.
Неустойчивые неисправности.ECC: ECC означает код исправления ошибок, который проверяет передачу данных путем обнаружения и исправления ошибок передачи. Графические процессоры NVIDIA обеспечивают подсчет ошибок ECC. Здесь энергозависимый счетчик ошибок обнаруживает количество ошибок с момента загрузки последнего драйвера.
GPU-Util: Указывает процент использования графического процессора, то есть процент времени, когда ядра использовали графический процессор. Например, , вывод в таблице выше показан в 13% случаев. В случае низкого процента графический процессор использовался недостаточно, если код тратит время на чтение данных с диска (мини-пакеты).
Compute M. : Режим вычислений конкретного графического процессора относится к режиму общего доступа, в котором режим вычислений устанавливается по умолчанию после каждой перезагрузки.