COMPUTACIÓN DE ALTO RENDIMIENTO CON R PARA INVESTIGADORES

COMPUTACIÓN DE ALTO RENDIMIENTO CON R PARA INVESTIGADORES

  • Duración: 40 Horas

Duración: 40 Horas

Resumen:
Este curso surge de la necesidad de agilizar las investigaciones y optimizar los recursos computacionales para el procesamiento de algoritmos altamente demandantes y grandes volúmenes de datos. En este contexto, R ofrece herramientas de alto nivel para interactuar con la computación de alto rendimiento (HPC - High Performance Computing). El curso está dirigido a quienes que desean acelerar el tiempo de ejecución de sus algoritmos y aplicar sus scripts en plataformas de procesamientos más grandes, como es el caso de Clústers. El curso introducirá los conceptos básicos de HPC y su arquitectura computacional, se revisarán las estructuras básicas y funcionalidades de programación en R y se continuará con paquetes relevantes de R para ciencia de datos destinados a la utilización de recursos informáticos de alto rendimiento. Primero se aplicará paralelización en computadoras personales, para luego continuar con la paralelización y distribución de procesos en el Clúster. Los participantes aprenderán estrategias para hacer que los scripts de R se ejecuten de manera más rápida, al establecer conexión con el Clúster a través de RStudio Server y al utilizar múltiples núcleos y nodos para la aceleración paralela y distribuida de procesos.

Audiencia:
Investigadores en áreas de ingeniería, ciencias naturales, de la tierra, ambientales, biológicas, de la computación, estadísticas, sociales, entre otros.

Objetivo General:
Promover la computación de alto rendimiento como contribución a la investigación interdisciplinaria para la resolución eficiente de problemas científicos complejos.

Objetivos Específicos:
• Fomentar la integración entre investigadores de diversas disciplinas para crear una visión integrada del uso de las técnicas de computación científica y de alto desempeño.
• Impulsar el desarrollo de actividades de formación en las áreas de matemática aplicada, modelación numérica, simulación, y computación de alto desempeño.
•Difundir la utilización de las técnicas de computación de alto desempeño y la utilización de las infraestructuras computacionales de alto desempeño (clúster de computadores, plataformas distribuidas de computación).
• Formar y capacitar recursos humanos para colaborar con las actividades de orientación de los investigadores que utilizan las técnicas de modelado matemático, simulación y computación de alto desempeño.

Metodología y Evaluación:
La metodología será online. Se realizarán tres encuentros semanales (lunes, miércoles y viernes) de 17 a 19hs a través de la plataforma zoom con las explicaciones teóricas, técnicas y prácticas. El foro del curso se utilizará como una herramienta de comunicación y de resolución de problemas. Se espera que los participantes destinen 10 horas semanales, 6 de ellas serán a través de la plataforma zoom y 4 de trabajo autónomo a partir de las explicaciones e indicaciones dadas en los encuentros zoom. La carga temporal total del curso es de 24 horas con encuentros zoom, complementados con 16hs de trabajo autónomo tutorizado.

Requisitos Previos:
• No se requiere previo conocimiento en HPC.
• Se recomienda tener experiencia previa en R, aunque en el curso se revisarán los principios básicos de R.
• Se recomienda la preparación anticipada con recursos introductorios sobre R. Considere, por ejemplo, los cursos disponibles en DataCamp y Coursera.
• Se debe disponer de computadora personal con permisos de instalación.

Características del curso:
• El curso tendrá una duración de 40 horas con actividades prácticas a partir de las orientaciones teóricas y técnicas.
• Se ofrecerán materiales adicionales que garanticen la continuidad del aprendizaje en el tema.
• El estudiante entregará avances de los trabajos que realizarán a través de la plataforma de educación virtual.

Competencias a Desarrollar:
• Conocer estrategias para hacer que los scripts de R sean más rápidos y eficientes.
• Establecer conexión con el Clúster a través de RStudio Server.
• Utilizar múltiples núcleos y nodos para la aceleración paralela y distribuida de procesos.

Contenidos con distribucion horaria:

 
Semana 1 – 20 Julio
10 horas
• Tema 1. Introducción a HPC y su arquitectura computacional: ¿qué es y para qué es útil? (2 horas)
• Tema 2. Introducción a R. Básicos, tipos de datos, estadística descriptiva, gráficos y archivos reproducibles. (4 horas)
Trabajo autónomo (4 horas)
Semana 2 – 27 Julio
10 horas
• Tema 3. Código R eficiente en computadoras personales (2 horas)
• Tema 4. Paralelización en computadoras personales (4 horas)
Trabajo autónomo (4 horas) 
Semana 3 – 3 Agosto
10 horas
• Tema 5. Acceso al Clúster de CEDIA. Conexión remota.
Rstudio Server como interfaz en HPC. Transferencia de datos al Clúster. (2 horas)
• Tema 6. Paralelización con R en el Clúster (parallel) (2 horas)
• Tema 7. Procesamiento distribuido en el Clúster (rslurm) (2 horas)
• Trabajo autónomo (4 horas)
Semana 4 – 10 de Agosto
10 horas
• Trabajo autónomo con tutorías (10 horas) 
Total • Encuentros zoom: 24 horas
• Trabajo autónomo: 16 horas 

 

Información extra: Se entrega certificado de aprobación por 40 Horas una vez finalizado el curso.

Powered by CEDIA
© EFC 2024. CEDIA copyright