AMD OpenCL ™ APP SDK 2.6 и AMD Catalyst ™ Разработчик драйвера доступны для загрузки
Саннивейл, Calif. -1/11/2012
AMD (NYSE: AMD) выпустила новые версии AMD APP SDK и AMD Catalyst ™ разработчиков драйверов, которые включают в себя много новых функций, в том числе несколько возможностей недавно опубликованной OpenCL ™ 1,2 спецификация.Новые функции предоставляют разработчикам значительные кодирования улучшения производительности, что делает его гораздо легче писать OpenCL использованием C.Кроме того, новые возможности доставить во время выполнения повышения производительности.Более подробную информацию о AMD APP SDK 2.6 и драйверы AMD Catalyst разработчик см. соответствующие AMD Developer блог post.
“AMD делает упор на OpenCL позволяет разработчикам с большей легкостью использовать возможности гетерогенных вычислений”, сказал Манджу Хедж, корпоративный вице-президент AMD Fusion Experience Program.”Последний релиз SDK и драйверов разработчика повышает производительность труда разработчиков за счет внедрения новых функций, таких как C API оболочки и ядра статические C языковая поддержка”.
AMD ведет промышленности поддержкой OpenCL с разработчиками и технологий компаний по всему миру, способствуя созданию OpenCL как верхний инструмент для разработчиков.Для потребителей, они будут продолжать видеть больше приложений, поступающих на рынок, которые оптимизированы на OpenCL.Новые приложения будут использовать все возможности обработки процессора и GPU, что позволяет быстрее выполнения раз, длительное время автономной работы и более плавное воспроизведение своих любимых приложений при работе в широком диапазоне ноутбуков, настольных ПК и все-в-одном ПКна основе технологии VISION от AMD.
Основные функции, поддерживаемые в SDK 2.6 и AMD Catalyst 11,12 водителя:
- Включение Khronos C API Wrapper
- OpenCL выполнения интеграции в Linux в дополнение к Windows ® Catalyst drivers.
- Multi GPU поддержка Linux platforms
- Поддержка расширений AVX для процессоров, поддерживающих эту extension
- Поддержка расширений в FMA4 OpenCL встроенной функцией библиотеки для процессоров, поддерживающих эту extension
Дополнительные возможности предварительного просмотра снабжена разработчиков Driver:
- Статическое ядро C language
- OpenCL ™ 1. 2 Возможности просмотра:
- Host флаги доступа для объектов памяти обеспечивает более эффективную обработку буфера
- План основе GPU буфера и инициализации изображения устраняет потребность в определенных буфер / изображение transfers
- Память объекты миграции поддерживает передачу буфера до need
- Новый образ обобщенного создание API
- Enhanced Image / буфер карты operations
Resources
- Скачать последнюю версию AMD APP SDK и AMD Catalyst разработчика Drivers
- Просмотреть AMD APP Showcase
- Посетить AMD Developer Central
- Следите за новостями из команды AMD на Твиттере @ AMD_Unprocessed или @ AMDSoftware
Оригинальный текст:
AMD OpenCL™ APP SDK 2.6 and AMD Catalyst™ Developer Driver Available for Download
SUNNYVALE, Calif. —1/11/2012
AMD (NYSE: AMD) released new versions of the AMD APP SDK and AMD Catalyst™ developer drivers which include many new features, including several capabilities of the recently published OpenCL™ 1.2 specification. The new features provide developers with significant coding productivity enhancements, making it much easier to write OpenCL using C++. In addition, the new features deliver run-time performance enhancements. For more details on the AMD APP SDK 2.6 and AMD Catalyst developer drivers see the related AMD Developer blog post.
“AMD is focusing on OpenCL to enable developers to more easily harness the power of heterogeneous computing,” said Manju Hegde, corporate vice president, AMD Fusion Experience Program. “The latest SDK and developer drivers release enhances developer productivity by introducing new features like the C++ wrapper API and Static C++ kernel language support.”
AMD is driving industry support for OpenCL with developers and technology companies around the world, contributing to the establishment of OpenCL as a top tool for developers.
Key features supported in SDK 2.6 and AMD Catalyst 11.12 driver:
- Inclusion of the Khronos C++ Wrapper API
- OpenCL runtime integration into Linux in addition to Windows® Catalyst drivers.
- Multi GPU support on Linux platforms
- Support for AVX extensions for CPUs that support this extension
- Support for FMA4 extensions in OpenCL built-in function libraries for CPUs that support this extension
Additional preview capabilities provided with the Developer Driver:
- Static C++ kernel language
- OpenCL™ 1. 2 preview capabilities:
- Host access flags for memory objects enables more efficient buffer handling
- Pattern based GPU buffer and image initialization eliminates need for certain buffer/image transfers
- Memory objects migration supports transfer of buffer prior to need
- New generalized image creation API
- Enhanced image/buffer map operations
Resources
OpenCL 1.2 для AMD Card
На моем ноутбуке есть дискретная карта, которая должна поддерживать OpenCL 1.2, которая мне нужна для запуска желаемой платформы:
$ lspci | grep VGA
00:02.0 VGA compatible controller: Intel Corporation 2nd Generation Core Processor Family Integrated Graphics Controller (rev 09)
01:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Seymour [Radeon HD 6400M/7400M Series] (rev ff)
Я установил драйверы с открытым исходным кодом, как описано в ответе на этот вопрос, а также скачал и установил приложение AMD SDK 3.
devices.c
а также hello.c
компилировать и запускать, но все сообщает OpenCL 1.1 MESA
даже после того, как я заменил символическую ссылку для libOpenCL.so
в /usr/lib/x86_64-linux-gnu/
с одним из SDK:$ /opt/AMDAPPSDK-3.0/bin/x86_64/clinfo
Number of platforms: 1
Platform Profile: FULL_PROFILE
Platform Version: OpenCL 1.1 MESA 11.2.0
Platform Name: Clover
Platform Vendor: Mesa
Platform Extensions: cl_khr_icd
Platform Name: Clover
Number of devices: 1
Device Type: CL_DEVICE_TYPE_GPU
Vendor ID: 1002h
Max compute units: 2
Max work items dimensions: 3
Max work items[0]: 256
Max work items[1]: 256
Max work items[2]: 256
Max work group size: 256
Preferred vector width char: 16
Preferred vector width short: 8
Preferred vector width int: 4
Preferred vector width long: 2
Preferred vector width float: 4
Preferred vector width double: 0
Native vector width char: 16
Native vector width short: 8
Native vector width int: 4
Native vector width long: 2
Native vector width float: 4
Native vector width double: 0
Max clock frequency: 750Mhz
Address bits: 32
Max memory allocation: 268435456
Image support: No
Max size of kernel argument: 1024
Alignment (bits) of base address: 1024
Minimum alignment (bytes) for any datatype: 128
Single precision floating point capability
Denorms: No
Quiet NaNs: Yes
Round to nearest even: Yes
Round to zero: No
Round to +ve and infinity: No
IEEE754-2008 fused multiply-add: No
Cache type: None
Cache line size: 0
Cache size: 0
Global memory size: 1073741824
Constant buffer size: 268435456
Max number of constant args: 13
Local memory type: Scratchpad
Local memory size: 32768
Kernel Preferred work group size multiple: 64
Error correction support: 0
Unified memory for Host and Device: 1
Profiling timer resolution: 0
Device endianess: Little
Available: Yes
Compiler available: Yes
Execution capabilities:
Execute OpenCL kernels: Yes
Execute native function: No
Queue on Host properties:
Out-of-Order: No
Profiling : Yes
Platform ID: 0x7f9d5e667ac0
Name: AMD CAICOS (DRM 2. 43.0, LLVM 3.8.0)
Vendor: AMD
Device OpenCL C version: OpenCL C 1.1
Driver version: 11.2.0
Profile: FULL_PROFILE
Version: OpenCL 1.1 MESA 11.2.0
Extensions: cl_khr_global_int32_base_atomics cl_khr_global_int32_extended_atomics cl_khr_local_int32_base_atomics cl_khr_local_int32_extended_atomics cl_khr_byte_addressable_store
Вопрос: есть ли способ узнать, действительно ли мое устройство не поддерживает OpenCL 1.2 или если поддержка есть, включить его тогда? Большое спасибо!
PS Я не установил никаких драйверов для дискретной карты, но говорят, что они мне не нужны. Я использую X на встроенной карте:
$ glxinfo | grep -i vendor
server glx vendor string: SGI
client glx vendor string: Mesa Project and SGI
Vendor: Intel Open Source Technology Center (0x8086)
OpenGL vendor string: Intel Open Source Technology Center
PS2. Когда я удалил opencl-headers
а также mesa-opencl-icd
, четное /opt/AMDAPPSDK-3.0/bin/x86_64/clinfo
перестал работать (не могу получить идентификаторы платформы).
Edit3: исправлено предыдущее, путем создания ссылки на
sudo ln -s '/opt/AMDAPPSDK-3.0/lib/x86_64/sdk/libamdocl64.so' /usr/lib/x86_64-linux-gnu/libamdocl64.so
но теперь он сообщает о CPU как об устройстве OpenCL!
$ clinfo
Number of platforms: 1
Platform Profile: FULL_PROFILE
Platform Version: OpenCL 2.0 AMD-APP (1800.8)
Platform Name: AMD Accelerated Parallel Processing
Platform Vendor: Advanced Micro Devices, Inc.
Platform Extensions: cl_khr_icd cl_amd_event_callback cl_amd_offline_devices
Platform Name: AMD Accelerated Parallel Processing
Number of devices: 1
Device Type: CL_DEVICE_TYPE_CPU
Vendor ID: 1002h
Board name:
Max compute units: 4
Max work items dimensions: 3
Max work items[0]: 1024
Max work items[1]: 1024
Max work items[2]: 1024
Max work group size: 1024
Preferred vector width char: 16
Preferred vector width short: 8
Preferred vector width int: 4
Preferred vector width long: 2
Preferred vector width float: 8
Preferred vector width double: 4
Native vector width char: 16
Native vector width short: 8
Native vector width int: 4
Native vector width long: 2
Native vector width float: 8
Native vector width double: 4
Max clock frequency: 1044Mhz
Address bits: 64
Max memory allocation: 2147483648
Image support: Yes
Max number of images read arguments: 128
Max number of images write arguments: 64
Max image 2D width: 8192
Max image 2D height: 8192
Max image 3D width: 2048
Max image 3D height: 2048
Max image 3D depth: 2048
Max samplers within kernel: 16
Max size of kernel argument: 4096
Alignment (bits) of base address: 1024
Minimum alignment (bytes) for any datatype: 128
Single precision floating point capability
Denorms: Yes
Quiet NaNs: Yes
Round to nearest even: Yes
Round to zero: Yes
Round to +ve and infinity: Yes
IEEE754-2008 fused multiply-add: Yes
Cache type: Read/Write
Cache line size: 64
Cache size: 32768
Global memory size: 8301789184
Constant buffer size: 65536
Max number of constant args: 8
Local memory type: Global
Local memory size: 32768
Max pipe arguments: 16
Max pipe active reservations: 16
Max pipe packet size: 2147483648
Max global variable size: 1879048192
Max global variable preferred total size: 1879048192
Max read/write image args: 64
Max on device events: 0
Queue on device max size: 0
Max on device queues: 0
Queue on device preferred size: 0
SVM capabilities:
Coarse grain buffer: No
Fine grain buffer: No
Fine grain system: No
Atomics: No
Preferred platform atomic alignment: 0
Preferred global atomic alignment: 0
Preferred local atomic alignment: 0
Kernel Preferred work group size multiple: 1
Error correction support: 0
Unified memory for Host and Device: 1
Profiling timer resolution: 1
Device endianess: Little
Available: Yes
Compiler available: Yes
Execution capabilities:
Execute OpenCL kernels: Yes
Execute native function: Yes
Queue on Host properties:
Out-of-Order: No
Profiling : Yes
Queue on Device properties:
Out-of-Order: No
Profiling : No
Platform ID: 0x7fbb72e8c430
Name: Intel(R) Core(TM) i5-2430M CPU @ 2. 40GHz
Vendor: GenuineIntel
Device OpenCL C version: OpenCL C 1.2
Driver version: 1800.8 (sse2,avx)
Profile: FULL_PROFILE
Version: OpenCL 1.2 AMD-APP (1800.8)
Extensions: cl_khr_fp64 cl_amd_fp64 cl_khr_global_int32_base_atomics cl_khr_global_int32_extended_atomics cl_khr_local_int32_base_atomics cl_khr_local_int32_extended_atomics cl_khr_int64_base_atomics cl_khr_int64_extended_atomics cl_khr_3d_image_writes cl_khr_byte_addressable_store cl_khr_gl_sharing cl_ext_device_fission cl_amd_device_attribute_query cl_amd_vec3 cl_amd_printf cl_amd_media_ops cl_amd_media_ops2 cl_amd_popcnt cl_khr_spir cl_khr_gl_event
Редактировать 4: пробовал эту версию драйвера fglrx для OpenCL в Ubuntu 16.04, clinfo просто вылетает.
Изменить 5: Сделал этот подход работает на пользовательском Debian 8 Джесси LiveCD, он сообщает OpenCL 1. 2 GPU (fglrx-driver
+ AMD APP SDK
установлен в chroot на ВМ (несмотря на это fglrx
не удалось обнаружить оборудование и обновить Xorg, но модуль DKMS был установлен) и упакован в Live USB в соответствии с интерактивными руководствами), но не удалось выполнить то же самое в Ubuntu 14.04 (Debian не поддерживается нужной мне программой). Проблема как в моей 16.04, так и в более ранней версии Ubuntu:
01:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Seymour [Radeon HD 6400M/7400M Series] (rev ff) (prog-if ff)
!!! Unknown header type 7f
Kernel driver in use: radeon
Kernel modules: radeon
Нет я могу сделать fglrx
увидеть AMD как текущий рендер (14.04), установив переменную окружения DRI_PRIME=1
, но Clinfo все еще там падает.
Теперь я прочитал об этом fglrx
устарела, и новые драйверы AMD не поддерживают Radeon xxxxM, в то время как с открытым исходным кодом radeon
один не поддерживает OpenCL.
AMD APP SDK Runtime — что это за программа и нужна ли она?
Приветствую друзья! Сегодня моя задача — узнать максимум информации об AMD APP SDK Runtime, а также написать все простыми словами, чтобы было понятно каждому)) Судя по названию — возможно нужно для драйверов видеокарты. Ладно, поехали разбираться!
РЕКЛАМА
AMD APP SDK Runtime — что это такое?
Выяснил:
Данный компонент необходим только разработчикам для создания программ, которые при помощи видеокарты производят вычисления.
Поэтому, при установке драйверов — с него можно снять галочку:
РЕКЛАМА
Учитывая, что он весит 90 мегов, то думаю реально стоит снять галочку.
Нашел еще одну версию: данный компонент это аналог CUDA (NVIDIA), простыми словами — нужно чтобы видеокартой считать математические операции, так, как это делает процессор (возможно нужно для майнинга). Инфа найдена на форуме Overclockers.
Также походу без этого компонента не будет пахать OpenCL. Что такое OpenCL? Это некая платформа (фреймворк) для написания программ, которые могут производить вычисления при помощи видеокарты и процессора. То есть примерно тоже самое, что я уже писал выше, а значит снова делаем вывод — вряд ли обычному юзеру данная штука нужна))
Кстати на заметку — чтобы видеокарта нормально конвертировала видео, нужно поставить AMD Media Codec Package.
Интересный момент. Как мы уже выяснили, при помощи данного компонента можно видеокартой производить вычисления. Именно поэтому, бывает так, что какой-то процесс грузит комп.. и если удалить компонент, то возможно что нагрузка исчезнет.. а самое интересное, знаете почему? Потому что могут работать вирусы, которые майнят на вашем ПК. А без компонента они этого делать не смогут))
AMD APP SDK Runtime — ошибка
Но бывает и другая ситуация — у вас может быть ошибка, связанна с данным компонентом, например:
РЕКЛАМА
Тогда нужно поступить так:
- Зажать Win + R, появится окошко Выполнить, вставляете туда команду appwiz. cpl, нажимаете ОК.
- Находим в списке софта AMD Calayst Install Manager, нажимаем правой кнопкой > Изменить.
- Появится окошко — нажимаем Далее.
- Доходим в общем до момента, где будет три выбора: Диспетчер удаления, Исправить диспетчер установки, Быстрое удаление. Вот здесь нужно выбрать первый вариант и нажать Далее.
- Потом выбрать Пользовательское (или Custom).
- Поставить галочку напротив AMD APP SDK Runtime и нажать Далее > Готово > выполнить перезагрузку (лучше именно сразу).
Что мы сделали? Этими действиями вы восстановите компонент, из-за которого появлялась ошибка. А потом уже, если это исправит и ошибки не будет — можно теоритически будет его таким же способом удалить, только галочку уже нужно будет снять.
Еще нашел важную инфу: если у вас выскакивает ошибка мол прекращена работа kdbsync.exe, то здесь тоже может помочь удаление этого компонента. Одному человеку реально помогло.
Заключение
Главное выяснили:
- AMD APP SDK Runtime — компонент, который нужен в первую очередь разработчикам. Как я понимаю, основная функция компонента — использование мощностей видеокарты для математических вычислений (как это делает процессор).
- Может вызывать ошибку. Решение — переустановить драйвера, либо сам компонент. Или в крайнем случае полностью удалить драйвера AMD (например утилитой Display Driver Uninstaller), после скачать их с офф сайта и установить заново.
Надеюсь информация пригодилась. Удачи.
На главную! 06.03.2020РЕКЛАМА
AMD APP SDK OpenCL Optimization Guide Open CL Programming
AMD APP SDK
2.6 NDRange and Execution Range Optimization 2-21
Copyright © 2015 Advanced Micro Devices, Inc. Все права защищены.
2.6.3.3 Измерения рабочей группы по сравнению с размером
Локальный NDRange может содержать до трех измерений, обозначенных здесь X, Y и
Z. Измерение X возвращается с помощью get_local_id (0), Y возвращается с помощью
get_local_id (1), а Z возвращается функцией get_local_id (2). Аппаратное обеспечение
графического процессора распределяет ядра таким образом, чтобы измерение X перемещалось быстрее всего, поскольку рабочие элементы
упаковываются в волновые фронты. Например, 128 потоков в 2D-рабочей группе размером
32×4 (X = 32 и Y = 4) упакованы в два волновых фронта следующим образом:
(обозначения показаны в порядке X, Y).
Общее количество рабочих элементов в рабочей группе обычно является наиболее важным параметром
, который следует учитывать, в частности, при оптимизации, чтобы скрыть задержку путем увеличения
волновых фронтов на вычислительную единицу.Однако выбор размеров XYZ для того же общего размера рабочей группы
может иметь следующие эффекты второго порядка.
• Рабочие элементы в одном и том же четвертьволновом фронте выполняются в одном цикле в механизме обработки
. Таким образом, на конфликты объединения глобальной памяти и локального банка памяти
может влиять измерение, особенно если быстро меняющееся измерение X
мало. Как правило, лучше всего выбрать размер X не менее
16, а затем оптимизировать шаблоны памяти для блока из 16 рабочих элементов, которые
отличаются на 1 по измерению X.
• Рабочие элементы в одном волновом фронте имеют одинаковый счетчик программ, и
выполняет одну и ту же инструкцию в каждом цикле. Порядок упаковки может иметь значение
, если ядро содержит расходящиеся ветви. Если возможно, упакуйте вместе
рабочих элементов, которые, вероятно, будут следовать в одном направлении при обнаружении потока управления
. Например, рассмотрим ядро обработки изображений, в котором каждый рабочий элемент
обрабатывает один пиксель, а поток управления зависит от цвета
пикселя.Более вероятно, что квадрат 8×8 пикселей того же цвета
, чем полоса 64×1; таким образом, 8×8 будет иметь меньшее расхождение и более высокую производительность
.
• В случае сомнений, квадратная рабочая группа 16×16 — хорошее начало.
2.6.4 Сводка оптимизаций NDRange
Как показано выше, оптимизация диапазона выполнения — сложная тема с множеством взаимодействующих переменных
, которая часто требует некоторых экспериментов для определения оптимальных значений
.Вот некоторые общие рекомендации:
WaveFront0
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13 , 0 14,0 15,0
16,0 17,0 18,0 19,0 20,0 21,0 22,0 23,0 24,0 25,0 26,0 27,0 28,0 29 , 0 30,0 31,0
0,1 1,1 2,1 3,1 4,1 5,1 6,1 7,1 8,1 9,1 10,1 11,1 12,1 13 , 1 14,1 15,1
16,1 17,1 18,1 19,1 20,1 21,1 22,1 23,1 24,1 25,1 26,1 27,1 28,1 29 , 1 30,1 31,1
WaveFront1
0,2 1,2 2,2 3,2 4,2 5,2 6,2 7,2 8,2 9,2 10,2 11,2 12 , 2 13,2 14,2 15,2
16,2 17,2 18,2 19,2 20,2 21,2 22,2 23,2 24,2 25,2 26,2 27,2 28 , 2 29,2 30,2 31,2
0,3 1,3 2,3 3,3 4,3 5,3 6,3 7,3 8,3 9,3 10,3 11,3 12 , 3 13,3 14,3 15,3
16,3 17,3 18,3 19,3 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28 , 3 29,3 30,3 31,3
AMD OpenCl APP SDK 2.
5 обновление | PCОбновление AMD OpenCl APP SDK 2.5
Автор: Admin 06 августа 2011 0 комментариев Сегодня я хотел бы познакомить вас с последним обновлением AMD для OpenCL, AMD APP SDK 2.5 и драйверов Catalyst 11.7. С момента выпуска драйвера Catalyst 11.4 в апреле среда выполнения AMD OpenCL для платформ Windows была интегрирована в драйверы Catalyst, чтобы конечные пользователи могли легко воспользоваться преимуществами важных улучшений производительности и других функций.В этом последнем выпуске мы добавили ключевые улучшения производительности для APU, которые освобождают приложения от ограничения пропускной способности CPU-GPU, накладываемого шиной PCIe, обеспечивая эффективную скорость передачи данных до 15 ГБ / с. Дополнительную информацию см. В другом сообщении «Передача данных от процессора к графическому процессору превышает 15 ГБ / с с использованием пути нулевого копирования APU».
На платформах Windows среда выполнения теперь включает широкую поддержку нескольких графических процессоров. Сюда входит поддержка OpenCL для APU плюс дискретный графический процессор, обеспечивающий масштабирование вычислительной производительности на всех графических процессорах, а также поддержку PowerExpress.
Расширение Khronos FP64 включено для семейства графических процессоров Cypress, поддерживающих двойную точность, и в дальнейшем планируется включить для всех графических процессоров с двойной точностью.
Дополнительные сведения о новых функциях в этом выпуске:
- Время запуска ядра было дополнительно сокращено.
- Версия компилятора LLVM, используемая для ядер OpenCL, была обновлена.
- Включает поддержку использования SSE3 и SSE4.
- Добавлена поддержка частичного использования инструкций FMA4 и XOP.
- Больше нет необходимости использовать параметр командной строки компилятора -fno-alias. Накладные расходы на передачу
- PCIe были уменьшены в Linux.
- Передача между CPU и GPU улучшена для буферов, объявленных с помощью флага CL_MEM_USE_HOST_PTR или CL_MEM_ALLOC_HOST_PTR.
- Для APU, буферы с нулевым копированием, созданные как CL_MEM_ALLOC_HOST_PTR | CL_MEM_READ_ONLY предлагает улучшенную производительность чтения графического процессора.
- Среда выполнения поддерживает несколько графических процессоров, включая одновременное использование графического процессора на обоих, а также на APU и дискретном графическом процессоре в системах, работающих под Windows.
- Встроенные функции OpenCL используют AVX на способных процессорах
- Поддержка PowerExpress 4.0.
- Поддержка атомарных счетчиков для дискретных графических процессоров.
- Поддержка автономной работы графического процессора.
- OpenCL может использоваться службой Windows.
- UVD3 / MPEG-2 поддержка.
- Библиотека clFFT поддерживает систему счисления 3 и 5, включая поддержку смешанной системы счисления 2/3/5.
- Библиотека BLAS поддерживает функции D / S SYRK, D / S SYR2K, D / S GEMV, D / S SYMV.
- Расширение Khronos FP64 поддерживается для серий ATI Radeon ™ HD 5900 и 5800, а также для серий AMD FirePro ™ V8800 и V8700.
- Расширение gDEBugger 6.0 доступно для Visual Studio.
- Начиная с Catalyst 11.8, улучшенные функции среды выполнения регулярно появляются в ежемесячных выпусках Catalyst для Windows.
- Kernel Analyzer 1.9 поддерживает версии Catalyst с 11.4 по 11.7.
- APP Profiler предоставляет
- Улучшенную трассировку API.
- Улучшенная визуализация временной шкалы
- Поддержка анализа трассировки приложений OpenCL.
- ID резьбы и порядковый номер теперь включены в вывод профиля.
Обзор OpenCL AMD APP
OpenCL Что такое технология AMD APP?
Технология AMD APP — это набор передовых аппаратных и программных технологий, которые позволяют ядрам обработки графики AMD (GPU), работающим совместно с ядрами x86 (CPU) системы, ускорять многие приложения, помимо графики. Это обеспечивает более сбалансированные платформы, способные выполнять ресурсоемкие вычислительные задачи быстрее, чем когда-либо, и заставляет разработчиков программного обеспечения оптимизироваться для AMD Accelerated Processing Units (APU).Что такое комплект для разработки программного обеспечения AMD APP?
AMD APP Software Development Kit (SDK) — это полная платформа разработки, созданная AMD, чтобы вы могли быстро и легко разрабатывать приложения, ускоренные с помощью технологии AMD APP. SDK позволяет разрабатывать приложения на языке высокого уровня OpenCL ™ (язык открытых вычислений).
Что такое OpenCL ™?
OpenCL ™ — это первый действительно открытый и бесплатный стандарт программирования для вычислений общего назначения в гетерогенных системах.OpenCL ™ позволяет программистам сохранить свои дорогостоящие вложения в исходный код и легко ориентироваться как на многоядерные процессоры, так и на новейшие графические процессоры, например, от AMD.
Разработанный комитетом по открытым стандартам с участием представителей основных отраслевых поставщиков, OpenCL ™ предоставляет пользователям то, что они требовали: кросс-вендорное непатентованное решение для ускорения их приложений на ядрах ЦП и ГП.
Дополнительную информацию и загрузку можно получить на http://goo.gl/7lf7S
Поделитесь этим постом на AMD OpenCl APP SDK 2.5 обновлениеВысокоскоростная установка с графическим процессором — документация musrfit 1.7.6
В 2016/2017 гг. Мы изучали способы ускорить существующие фреймворки, особенно musrfit.
Это позволяет теперь анализировать наборы гистограмм высокопольных спектрометров, таких как HAL-9500
в PSI без
подверженный ошибкам фитинг RRF (см. U. Locans и A. Suter,
musrfit — настройка параметров в реальном времени с использованием графического процессора и
Заметка А. Сутера, «Подходит для вращающейся системы отсчета», в исходном коде musrfit
).В то же время
это может помочь значительно ускорить сложные глобальные подгонки и правильно работать с мюонием. Это также
позволяет пользователям Apple macOS ускорить установку кода на ЦП. В настоящее время это не так просто
чтобы получить musrfit
в многопоточном режиме под macOS, поскольку Apple по умолчанию не поддерживает OpenMP
. ДКС
позволяет musrfit
использовать вместо OpenCL
, который по умолчанию присутствует в macOS.
Предупреждение
Прежде чем вы побежите в магазин за видеокартой для геймеров или картой Tesla, убедитесь, что у вас есть соответствующий сервер с достаточно сильным блоком питания!
Примечание
Однако текущая версия musrfit / DKS
еще не поддерживает все теоретические функции графического процессора.Если теоретическая функция еще не доступна для GPU, musrfit
вернется к реализации CPU.
Концептуально установка musrfit / DKS
выглядит следующим образом:
установите последнюю версию аппаратного драйвера для вашей графической карты.
установите GPU SDK, который позволяет обрабатывать числа (
CUDA
для NVIDIA,OpenCL
для AMD)установить
DKS
установите версию
musrfit
, которая готова дляDKS
Далее будет более подробно рассмотрено описание установки musrfit / DKS
для следующих систем:
Использование musrfit
с ускорением графического процессора и поддержкой OpenCL
описано в
Руководство пользователя программы анализа данных μSR musrfit. Дополнительные мусрфит / ДКС
можно найти здесь.
Настройка
musrfit / DKS
для Tesla K40c (NVIDIA)Предполагается, что Tesla K40c уже физически установлен в вашей системе. Пока я только обсудим его настройку для системы на базе Linux. Чтобы проверить, что ваши операционные системы посмотрев карту, введите в терминале команду:
Ответ должен выглядеть примерно так:
05: 00.0 3D-контроллер: NVIDIA Corporation GK110BGL [Tesla K40c] (rev a1)
, что означает, что ОС физически распознает вашу карту.
Установка драйвера для Tesla K40c
Далее вам нужно будет загрузить и установить драйвер для вашей карты. Выберите подходящую операционную систему,
карту и т. д. из центра загрузки NVIDIA. В PSI
в настоящее время мы используем Red Hat Enterprise Linux 7.x (RHEL), для которого мы получим об / мин (что-то вроде nvidia-diag-driver-local-repo-rhel7-375.66-1.x86_64.rpm
). Установите его и убедитесь, что нет конфликта
с новым драйвером системы.
Установка CUDA
Загрузите CUDA SDK от NVIDIA для своей системы. Опять таки,
для RHEL 7.x это об / мин. После установки rpm вы должны перезагрузить компьютер.
После этого вы готовы к установке DKS
.
Установка ДКС
Для следующего списка команд в командной строке будет отображаться «$»
. Не входи в него! Также будут добавлены некоторые комментарии, начиная с '#'
, которые можно опустить.Они существуют только для того, чтобы
объясните, что происходит. DKS
означает динамический планировщик ядра и обеспечивает тонкий интерфейс.
позволяя хост-приложениям включать GPU и другие аппаратные ускорители.
Подробности можно найти в перечисленных здесь статьях или на вики-странице DKS.
Вкратце установка должна быть примерно такой:
# перейдите в каталог, в который вы хотите клонировать / установить DKS # Для macOS DKS, скорее всего, попадет в $ HOME / Applications, чтобы соответствовать документу musrfit для macOS $ cd $ HOME / Приложения $ git clone https: // gitlab. psi.ch/uldis_l/DKS.git $ cd DKS сборка $ mkdir $ cd build $ cmake ../ -DENABLE_MUSR = 1 -DCMAKE_INSTALL_PREFIX = .. / exec $ cmake --build ./ --clean-first $ make install
Поскольку DKS
устанавливается по нестандартному пути, требуется несколько дополнительных небольших шагов.
Для Linux это будет отличаться от macOS.
Для Linux:
добавьте путь к библиотеке DKS
в /etc/ld.so.conf.d/musrfit-x86_64.conf
и выполните от имени суперпользователя
Для macOS:
добавьте путь DKS
к $ HOME /.профиль
:
экспорт DKS = $ HOME / Applications / DKS / exec экспорт LD_LIBRARY_PATH = $ DKS / lib: $ LD_LIBRARY_PATH launchctl setenv DKS $ DKS launchctl setenv LD_LIBRARY_PATH $ LD_LIBRARY_PATH
Установка мусрфита на ДКС
Большинство этапов установки аналогичны описанным для musrfit
без поддержки графического процессора. Здесь объясняются только различия. Сначала оформьте заказ musrfit
, потом вам нужно будет
переключить рабочую ветку, что делает
$ cd $ HOME / Приложения / musrfit $ git checkout dks6
Установить через cmake
Есть еще переключатель конфигурации
- -Ddks =
позволяет включить / отключить поддержку
DKS
.По умолчанию<значение> = 1
, , т.е. включен. Чтобы отключить, используйте= 0
Для типичной установки в системе RHEL или macOS это может выглядеть так:
$ cmake ../ -DCMAKE_INSTALL_PREFIX = $ ROOTSYS -DASlibs = 1 -DBMWlibs = 1 -Dnexus = 1 -Ddks = 1
После
$ cmake --build ./ --clean-first - -j8 $ make install
и обновление таблицы поиска разделяемых библиотек ( только требуется для Linux)
$ / sbin / ldconfig # как суперпользователь / root
, настройка завершена.
Настройка
musrfit / DKS
для графической карты AMD (Radeon R9 390X) Установка драйверадля графической карты AMD, например,
Radeon R9 390XЭто будет немного зависеть от карты AMD и операционной системы. Здесь я кратко расскажу, как это было сделано в системе RHEL (Linux) с использованием Radeon R9 390X.
Предполагается, что Radeon R9 390X уже физически установлен в вашей системе. Пока я только обсудим его настройку для системы на базе Linux.Чтобы убедиться, что ваши операционные системы видят карту, введите в терминал команду:
Ответ должен выглядеть примерно так:
84: 00.0 VGA-совместимый контроллер: Advanced Micro Devices, Inc. [AMD / ATI] Hawaii XT / Grenada XT [Radeon R9 290X / 390X] (rev 80)
, что означает, что ОС физически распознает вашу карту.
Для RHEL7.x следует использовать драйвер AMDGPU-PRO. Его можно скачать с AMD. Распаковать драйвер
$ tar -Jxvf amdgpu-pro-17. 10-414273.tar.xz $ cd amdgpu-pro-17.10-414273
Установить драйвер как root
$ ./amdgpu-pro-install --compute -y
Здесь я предполагаю, что графическая карта AMD используется только для вычислений. Вам нужно добавить следующую команду чтобы пользователь blabla (измените его на соответствующее имя пользователя) мог получить доступ к графическому процессору (в противном случае работает только рут):
$ / sbin / usermod -a -G видео blabla
Перезагрузите машину.
AMD APP Software Development Kit (SDK) для включения поддержки
OpenCL
AMD APP Software Development Kit (SDK) — это полная платформа разработки, созданная AMD, чтобы позволить вам
быстро и легко разрабатывать приложения, ускоренные технологией AMD APP.SDK предоставляет образцы, документацию,
и другие материалы, чтобы быстро начать использовать ускоренные вычисления с использованием OpenCL
или C ++ AMP
в вашем C / C ++
приложений.
Загрузите AMD APP SDK 3.0 из AMD-SDK.
Распаковать установщик
$ tar -xvjf AMD-APP-SDKInstaller-v3.0.130.136-GA-linux64.tar.bz2
Запускаем установщик
$ ./AMD-APP-SDK-v3.0.130.136-GA-linux64.sh
Это установит AMD APP SDK в / opt / AMDAPPSDK-3.0/
, где вы можете найти OpenCL
, включая
и файлы библиотеки, а также документацию и образцы кода. Руководство по установке AMD OpenCL SDK может
можно найти в Примечаниях по установке AMD SDK.
Установка ДКС и мусрфит
Для установки DKS
и musrfit
следуйте приведенным выше инструкциям.
Настройка
musrfit / DKS
для macOS для поддержки OpenCL Поскольку Apple не предоставляет готовую поддержку OpenMP
в своей структуре компилятора macOS (Xcode),
обычно musrfit
— это просто однопоточный .Здесь может помочь DKS
, поскольку он поставляет OpenCL
поддержка, которая присутствует в macOS. Следовательно, если вы хотите запустить musrfit
в многопоточном режиме, самый простой
способ использовать DKS
.
Поскольку графическая карта не задействована, вам не нужен драйвер графической карты или дополнительный SDK.
Единственное что нужно DKS
и правильная версия musrfit .
Инструкцию по установке для DKS / musrfit
можно найти здесь.
APP SDK - полная платформа разработки
Технология AMD OpenCL ™ Accelerated Parallel Processing (APP) - это набор передовых аппаратных и программных технологий, которые позволяют ядрам обработки графики AMD (GPU), работающим совместно с ядрами x86 (CPU) системы, выполнять неоднородное выполнение для ускорения многих приложений за пределами просто графика. Это обеспечивает более сбалансированные платформы, способные выполнять ресурсоемкие вычислительные задачи быстрее, чем когда-либо, и заставляет разработчиков программного обеспечения оптимизироваться для AMD Accelerated Processing Units (APU). AMD APP Software Development Kit (SDK) - это полная платформа разработки, созданная AMD, чтобы вы могли быстро и легко разрабатывать приложения, ускоренные с помощью технологии AMD APP. SDK предоставляет образцы, документацию и другие материалы, которые помогут вам быстро начать использовать ускоренные вычисления с использованием OpenCL ™ или C ++ AMP в вашем приложении C / C ++. (Проверьте зону AMD OpenCL ™ на наличие этих и других инструментов и библиотек.)
Перед продолжением важно загрузить и установить указанные протестированные драйверы для вашей видеокарты.
Для получения дополнительной информации см. Страницу Контрольные суммы MD5, системные требования и совместимость драйверов. Прокрутите вниз, чтобы увидеть текущие загрузки APP SDK. Теперь доступенAMD APP SDK v3.0!
AMD APP SDK 3.0 поддерживает OpenCL ™ 2.0 с примерами, демонстрирующими новые функции и преимущества OpenCL ™ 2. 0 - последнего стандарта API вычислений от Khronos. SDK также включает образцы для ускоренных библиотек, таких как библиотека шаблонов C ++ с открытым исходным кодом под названием «Bolt» и библиотека OpenCV (Open Computer Vision) с ускорением OpenCL ™.Этот выпуск поддерживает драйвер Catalyst Omega 15.7. Список устройств, поддерживаемых OpenCL ™ 2.0, см. На странице «Контрольные суммы MD5, системные требования и поддерживаемые компиляторы и устройства». Прочтите Руководство по началу работы для получения более подробной информации. Пожалуйста, попробуйте и поделитесь с нами своим мнением.
ресурсов
Загрузки
AMD продолжает лидировать в OpenCL с первым полностью совместимым OpenCL 1.2 Решение
- AMD APP SDK 2.7 упрощает разработчикам программного обеспечения использование вычислительных возможностей процессоров AMD, графических процессоров и APU -
САННИВЕЙЛ, Калифорния - 7 июня 2012 г. - Компания AMD (NYSE: AMD) объявила сегодня о сохранении лидерства в продвижении внедрения OpenCL ™ с доступностью AMD APP SDK 2.7, включающей первую совместимую реализацию OpenCL ™ 1.2 и всестороннюю поддержку для C ++ [i]. Новый SDK расширяет экосистему приложений OpenCL, предоставляя разработчикам мощное кроссплатформенное решение для разблокировки производительности графических процессоров AMD, APU и многоядерных процессоров с добавленным API-оболочкой C ++ и языком ядра C ++ от AMD для большей эффективности, улучшено производительность и надежность приложений [ii].
«AMD продолжает лидировать в движении OpenCL, что продемонстрировано выпуском нашего последнего SDK с первой в отрасли полностью совместимой реализацией OpenCL 1.2», - сказал Манджу Хегде, корпоративный вице-президент подразделения гетерогенных приложений и решений для разработчиков AMD. «Наши новейшие инструменты разработки позволяют разработчикам более легко использовать мощь гетерогенных вычислений, чтобы помочь улучшить взаимодействие с пользователем, упрощая создание приложений, которые могут в большей степени использовать вычислительные возможности ведущих процессоров AMD, графических процессоров и APU. ”
Поддержка APU AMD A-Series второго поколения и графических процессоров AMD Radeon ™ HD 7000 Series теперь доступна с AMD APP SDK 2.7. Новый SDK также включает обновленные версии обновлений gDEBugger, APP ML, профилировщика приложений и анализатора ядра. Для получения полной информации о функциях, возможностях и поддержке AMD APP SDK 2.7 посетите блог разработчиков AMD или загрузите AMD APP SDK 2.7 из AMD Developer Central.
AMD APP SDK 2.7 Основные характеристики
- OpenCL ™ 1.2
- Флаги доступа к хосту для объектов памяти
- Буфер графического процессора на основе шаблонов и инициализация изображения
- Новый API для создания обобщенных изображений
- Операции с расширенным изображением / буферной картой
- API оболочки C ++
- Значения по умолчанию для платформы, очереди, устройства и т. Д. Значительно сокращают объем требуемого стандартного кода
- Улучшенные упрощенные конструкторы для cl :: Buffer и добавление функций cl :: copy
- Дополнительная поддержка событий при использовании функторов
- Язык ядра C ++
- Перегрузка ядра и функций
- Наследование
- Шаблоны
Экосистема разработчиков продолжает оптимизировать приложения, внедряя OpenCL, чтобы использовать непревзойденный уровень вычислительных возможностей ускорения графического процессора, поскольку более 100 приложений и игр в настоящее время ускоряются с помощью APU AMD. Разработчики, которые хотят участвовать в движении отрасли к гетерогенным вычислениям, должны принять участие в предстоящем саммите AMD Fusion Developer Summit (AFDS). AFDS предоставляет уникальную возможность услышать из первых рук и пообщаться с разработчиками в рамках примерно 30 сессий, связанных с внедрением OpenCL, включая сессии по математическим библиотекам, библиотекам с открытым исходным кодом, приложениям и инструментам. Дополнительная информация об OpenCL 1.2 будет предоставлена в сеансе PT4290, а об OpenCL ™ Static C ++ - в сеансе PL3660.Чтобы узнать больше об AFDS, посетите www.amd.com/afds.
Ресурсы
Следите за новостями команды AMD в Twitter: @AMD_Unprocessed или @AMDSoftware
[i] Продукт соответствует спецификации OpenCL ™ версии 1.2. Посетите www. Khronos.org для получения дополнительной информации
[ii] Для доступа ко многим ключевым функциям требуется программное обеспечение AMD Catalyst ™ 12.4 или более поздние версии драйверов
AMD OpenCL ™ APP SDK 2.
6 и AMD Catalyst ™ Developer DriverSUNNYVALE, Калифорния - 11 января 2012 г. - AMD (NYSE: AMD) выпустила новые версии AMD APP SDK и драйверов для разработчиков AMD Catalyst ™, которые включают множество новых функций, в том числе несколько возможности недавно опубликованной спецификации OpenCL ™ 1.2. Новые функции предоставляют разработчикам значительные улучшения производительности программирования, что значительно упрощает написание OpenCL с использованием C ++. Кроме того, новые функции обеспечивают повышение производительности во время выполнения.Дополнительные сведения о драйверах разработчика AMD APP SDK 2.6 и AMD Catalyst см. В соответствующем сообщении блога разработчиков AMD.
«AMD фокусируется на OpenCL, чтобы дать разработчикам возможность более легко использовать мощь гетерогенных вычислений», - сказал Манджу Хегде, корпоративный вице-президент программы AMD Fusion Experience. «Последний выпуск SDK и драйверов для разработчиков повышает продуктивность разработчиков за счет введения новых функций, таких как API оболочки C ++ и поддержка языка ядра Static C ++».
AMD обеспечивает отраслевую поддержку OpenCL разработчиками и технологическими компаниями по всему миру, внося свой вклад в превращение OpenCL в лучший инструмент для разработчиков.Потребители по-прежнему будут видеть на рынке все больше программных приложений, оптимизированных для OpenCL. Новые приложения будут использовать все возможности обработки ЦП и ГП, что обеспечит более быстрое время работы, более длительное время автономной работы и более плавное воспроизведение в своих любимых программных приложениях при работе на широком спектре ноутбуков, настольных ПК и моноблоков. на основе технологии VISION от AMD.
Ключевые функции, поддерживаемые в SDK 2.6 и драйвере AMD Catalyst 11.12:
- Включение API оболочки Khronos C ++
- Интеграция среды выполнения OpenCL в Linux в дополнение к драйверам Windows® Catalyst
- Поддержка нескольких графических процессоров на платформах Linux
- Поддержка расширений AVX для ЦП, поддерживающих это расширение
- Поддержка расширений FMA4 во встроенных библиотеках функций OpenCL для ЦП, поддерживающих это расширение
Дополнительные возможности предварительного просмотра, предоставляемые драйвером разработчика:
- Статический язык ядра C ++
- OpenCL ™ 1. 2 возможности предварительного просмотра:
- Флаги доступа хоста для объектов памяти позволяют более эффективно обрабатывать буфер
- Буфер графического процессора на основе шаблонов и инициализация изображения устраняют необходимость в определенных передачах буфера / изображения
- Миграция объектов памяти поддерживает перенос буфера до необходимости
- Новый обобщенный API создания изображений
- Расширенные операции с изображениями / буферными картами
Ресурсы
Следите за новостями команды AMD в Twitter: @AMD_Unprocessed или @AMDSoftware
GPU-Tech.org - AMD APP SDK 2.6 доступен для загрузки
На этот раз быстро. Страница разработчиков AMD теперь обновлена контрольными суммами AMD APP SDK 2.6. Файлы, связанные там на момент написания этой статьи, по-прежнему имеют размер 2.5, но если вы измените ссылку так, чтобы она указывала на 2.6 вместо связанного SDK, вы получите совершенно новый APP SDK 2.6. Но сначала попробуйте зайти на их сайт - они должны были обновить его в любую минуту. В записи блога, сделанной пару дней назад, AMD Марк Иретон, помимо сегодняшней даты запуска 2.6 SDK, некоторые изменения уже описаны, AMD APP 2.6 принесет. В частности, Open CL 1.2 будет в списке поддержки на 2012 год, где AMD обязуется полностью поддерживать наиболее важный открытый стандарт GPU-вычислений как для процессоров, так и для графических процессоров. По заявлению AMD, APP SDK 2.6 должен включать предварительные версии некоторых основных функций OpenCL 1.2.При условии, что системные требования не изменились слишком сильно по сравнению с APP SDK 2.5, выпуски Linux будут подходить для openSUSE 11.x, Ubuntu 11.04, Red Hat Enterprise Linux 6.Икс. Если вам нужно знать, какую версию SDK, Runtime, App Profiler, Kernel Analyzer и т. Д. Вы получите при установке 2.6-SDK, просто взгляните на снимок экрана выше. Примечание: APP SDK 2.6 по умолчанию предлагает распаковать в c: \ AMD \ SUPPORT \ streamsdk _2-6-RC3_win764 [выделено жирным шрифтом]
Согласно прилагаемому руководству по началу работы следующие процессоры поддерживаются AMD APP SDK 2. 6:
Кроме того, наборы инструкций SIMD, такие как SSE3 и AVX, имеющиеся в современных процессорах, поддерживаются и автоматически векторизуются, а также скомпилированы для использования преимуществ XOP и FMA4 - эксклюзивов AMD для последних процессоров AMD FX (Bulldozer).Crossfire, решение AMD для нескольких графических процессоров, потребует дополнительной любви со стороны разработчиков для правильного использования. Вот цитата из FAQ по APP SDK (также включенного в ссылки для загрузки выше):
Q: Работает ли AMD APP SDK v2.6 с поддержкой OpenCL 1.1 на нескольких графических процессорах (ATI
CrossFire)?
A: Приложения OpenCL могут явно вызывать отдельные вычислительные ядра на нескольких совместимых графических процессорах
в одной системе. Разделение алгоритма на несколько ядер параллельных вычислений
должно выполняться разработчиком.Рекомендуется отключить ATI CrossFire
в большинстве конфигураций системы, чтобы приложения AMD APP могли получить доступ ко всем доступным графическим процессорам
в системе.
Технология ATI CrossFire позволяет нескольким графическим процессорам AMD работать вместе над одной задачей рендеринга графики
. Этот метод не применяется к вычислительным задачам AMD APP, поскольку он
несовместим с вычислительной моделью, используемой для приложений AMD APP.
[Обновление от 23 декабря 2012 г.] :
Тем временем AMD выпустила Radeon HD 7970, а также Catalyst 11.12 драйверов WHQL. Была обновлена информация о том, какие функции OpenCL 1.2 поддерживаются. Следующий список взят из просочившейся прессы AMD для запуска Radeon HD 7970:
Предварительный просмотр разработчика основных функций OpenCL 1.2:
- Флаги доступа к хосту для объектов памяти обеспечивают более эффективную обработку буфера
- Буфер графического процессора на основе шаблонов и инициализация изображений использование 32-битных скалярных шаблонов или шаблонов с плавающей запятой 4 устраняет необходимость в определенных передачах буфера / изображений
- Миграция объектов памяти поддерживает перенос буфера до необходимости
- Новый универсальный API создания изображений
- Расширенные операции с изображениями / буферами
- OpenCL 1.