AMD GPU Programming

ROCm es una plataforma de código abierto para programación GPU que soporta AMD GPUs, y también proporciona compatibilidad con CUDA y OpenCL. ROCm expone al programador a los detalles del hardware y da control total sobre el proceso de paralelización. Sin embargo, esto también requiere una buena comprensión de la arquitectura del dispositivo, el modelo de memoria, el modelo de ejecución y las técnicas de optimización.

HIP es una API de tiempo de ejecución C++ y un lenguaje de kernel que le permite escribir código portátil que puede ejecutarse tanto en AMD como en NVIDIA GPU. HIP proporciona una capa de abstracción delgada sobre las API nativas GPU, como ROCm y CUDA, y le permite aprovechar las bibliotecas y herramientas existentes GPU.

Esta capacitación en vivo dirigida por un instructor (en línea o en el sitio) está dirigida a desarrolladores de nivel principiante a intermedio que deseen usar ROCm y HIP para programar AMD GPU y explotar su paralelismo.

Al final de esta capacitación, los participantes serán capaces de:

Configure un entorno de desarrollo que incluya la plataforma ROCm, un código AMD GPU y Visual Studio.
Cree un programa ROCm básico que realice la suma de vectores en el GPU y recupere los resultados de la memoria GPU.
Utilice la API ROCm para consultar la información del dispositivo, asignar y desasignar la memoria del dispositivo, copiar datos entre el host y el dispositivo, iniciar kernels y sincronizar subprocesos.
Utilice el lenguaje HIP para escribir kernels que se ejecuten en el GPU y manipulen los datos.
Utilice las funciones, variables y bibliotecas integradas de HIP para realizar tareas y operaciones comunes.
Utilice los espacios de memoria ROCm y HIP, como global, compartido, constante y local, para optimizar las transferencias de datos y los accesos a la memoria.
Utilice los modelos de ejecución ROCm y HIP para controlar los subprocesos, los bloques y las cuadrículas que definen el paralelismo.
Depure y pruebe programas ROCm y HIP utilizando herramientas como ROCm Debugger y ROCm Profiler.
Optimice los programas ROCm y HIP mediante técnicas como la fusión, el almacenamiento en caché, la captura previa y la creación de perfiles.

Formato del curso

Conferencia interactiva y discusión.
Muchos ejercicios y práctica.
Implementación práctica en un entorno de laboratorio en vivo.

Opciones de personalización del curso

Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertar una cita.

Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Temario del curso

Introducción

¿Qué es ROCm?
¿Qué es HIP?
ROCm vs CUDA vs OpenCL
Descripción general de las características y la arquitectura de ROCm y HIP
Configuración del entorno de desarrollo

Empezar

Creación de un nuevo proyecto ROCm mediante el código Visual Studio
Exploración de la estructura y los archivos del proyecto
Compilación y ejecución del programa
Visualización de la salida mediante printf y fprintf

ROCm API

Comprender el papel de la API ROCm en el programa host
Uso de la API ROCm para consultar la información y las capacidades del dispositivo
Uso de la API ROCm para asignar y desasignar la memoria del dispositivo
Uso de la API ROCm para copiar datos entre el host y el dispositivo
Uso de la API ROCm para iniciar kernels y sincronizar subprocesos
Uso de la API ROCm para controlar errores y excepciones

Lenguaje HIP

Comprender el papel del lenguaje HIP en el programa del dispositivo
Uso del lenguaje HIP para escribir kernels que se ejecutan en el GPU y manipular datos
Uso de tipos de datos, calificadores, operadores y expresiones de HIP
Uso de funciones, variables y bibliotecas integradas de HIP para realizar tareas y operaciones comunes

Modelo de memoria ROCm y HIP

Descripción de la diferencia entre los modelos de memoria de host y de dispositivo
Uso de espacios de memoria ROCm y HIP, como global, compartido, constante y local
Uso de objetos de memoria ROCm y HIP, como punteros, matrices, texturas y superficies
Uso de modos de acceso a memoria ROCm y HIP, como solo lectura, solo escritura, lectura-escritura, etc.
Uso del modelo de coherencia de memoria ROCm y HIP y mecanismos de sincronización

Modelo de ejecución de ROCm y HIP

Descripción de la diferencia entre los modelos de ejecución de host y dispositivo
Uso de subprocesos, bloques y cuadrículas ROCm y HIP para definir el paralelismo
Uso de funciones de rosca ROCm y HIP, como hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x, etc.
Uso de funciones de bloque ROCm y HIP, como __syncthreads, __threadfence_block, etc.
Uso de funciones de cuadrícula ROCm y HIP, como hipGridDim_x, hipGridSync, grupos cooperativos, etc.

Depuración

Comprender los errores y fallos comunes en los programas ROCm y HIP
Uso del depurador de código Visual Studio para inspeccionar variables, puntos de interrupción, pila de llamadas, etc.
Uso del depurador ROCm para depurar programas ROCm y HIP en dispositivos AMD
Uso de ROCm Profiler para analizar programas ROCm y HIP en dispositivos AMD

Optimización

Comprender los factores que afectan el rendimiento de los programas ROCm y HIP
Uso de técnicas de fusión ROCm y HIP para mejorar el rendimiento de la memoria
Uso de técnicas de almacenamiento en caché y precarga de ROCm y HIP para reducir la latencia de memoria
Uso de técnicas de memoria local y memoria compartida ROCm y HIP para optimizar los accesos a la memoria y el ancho de banda
Uso de herramientas de generación de perfiles y generación de perfiles ROCm y HIP para medir y mejorar el tiempo de ejecución y la utilización de recursos

Resumen y siguiente paso

Requerimientos

Comprensión del lenguaje C/C++ y de los conceptos de programación paralela
Conocimientos básicos de arquitectura de computadores y jerarquía de memoria
Experiencia con herramientas de línea de comandos y editores de código

Audiencia

Desarrolladores que deseen aprender a usar ROCm y HIP para programar AMD GPU y explotar su paralelismo
Desarrolladores que deseen escribir código escalable y de alto rendimiento que pueda ejecutarse en diferentes dispositivos AMD
Programadores que deseen explorar los aspectos de bajo nivel de la programación GPU y optimizar el rendimiento de su código

28 Horas

Formación Corporativa a Medida

Soluciones de formación diseñadas exclusivamente para empresas.

Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.

Inversión

Precio por grupo privado (formación online) desde 6400 € + IVA*

Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales

(*El precio final puede variar según la especialización técnica del curso, el nivel de personalización, la modalidad y el número de participantes)

¿Necesita ayuda para elegir el curso adecuado?

AMD GPU Programming

Temario del curso

Requerimientos

Formación Corporativa a Medida

Próximos cursos

AMD GPU Programming

AMD GPU Programming

AMD GPU Programming

Categorías Relacionadas

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

AMD GPU Programming

Temario del curso

Requerimientos

Formación Corporativa a Medida

Próximos cursos

AMD GPU Programming

AMD GPU Programming

AMD GPU Programming

Cursos Relacionados

Desarrollo de Aplicaciones de IA con Huawei Ascend y CANN

Deployando Modelos de IA con CANN y Procesadores Ascend AI

GPU Programming en Biren AI Accelerators

Cambricon MLU Development with BANGPy and Neuware

Introducción a CANN para Desarrolladores de Frameworks de IA

CANN para Edge AI Implementación

Comprensión de la Pila de Cómputo AI de Huawei: Desde CANN hasta MindSpore

Optimización del Desempeño de Redes Neuronales con CANN SDK

CANN SDK para Pipelines de Visión por Computadora y PLN

Construcción de Operadores Personalizados de IA con CANN TIK y TVM

Migrando Aplicaciones CUDA a Arquitecturas Chinas GPU

Performance Optimization on Ascend, Biren, and Cambricon

Categorías Relacionadas

GPU

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites