DEJAR UNA SOLICITUD PARA EL CURSO
- Duración: 4 Días (32 horas académicas)
- Aprendizaje guiado por un instructor (en persona o de forma remota)
- Nivel: Principiante
- Idioma de los manuales: Inglés
En este curso, el alumno aprenderá sobre los patrones y prácticas de ingeniería de datos en lo que respecta a trabajar con soluciones analíticas por lotes y en tiempo real utilizando tecnologías de plataforma de datos de Azure. Los alumnos comenzarán por entender las principales tecnologías de computación y almacenamiento que se utilizan para construir una solución analítica. A continuación, explorarán cómo diseñar una capa de servicio analítica y se centrarán en las consideraciones de ingeniería de datos para trabajar con archivos de origen. Los alumnos aprenderán a explorar interactivamente datos almacenados en archivos en un lago de datos. Aprenderán distintas técnicas de ingesta que pueden utilizarse para cargar datos utilizando la capacidad de Apache Spark que se encuentra en Azure Synapse Analytics o Azure Databricks, o cómo ingerir utilizando Azure Data Factory o Azure Synapse pipelines. Los alumnos también aprenderán las distintas maneras en que pueden transformar datos utilizando las mismas tecnologías que se utilizan para la ingesta de datos. El alumno dedicará tiempo al curso aprendiendo a monitorizar y analizar el rendimiento del sistema analítico para poder optimizar el rendimiento de cargas de datos, o consultas que se emitan contra los sistemas. Comprenderá la importancia de aplicar la seguridad para garantizar la protección de los datos en reposo o en tránsito. A continuación, el alumno mostrará cómo se pueden utilizar los datos de un sistema analítico para crear cuadros de mando o construir modelos predictivos en Azure Synapse Analytics.
Perfil del asistente
El público principal de este curso son profesionales de datos, arquitectos de datos y profesionales de la inteligencia empresarial que quieren aprender sobre ingeniería de datos y construcción de soluciones analíticas utilizando tecnologías de plataformas de datos que existen en Microsoft Azure. El asistente secundario de este curso son analistas y científicos de datos que trabajan con soluciones analíticas construidas en Microsoft Azure.
Rol de trabajo: Ingeniero de datos
Preparación para el examen: DP-203
Características: ninguno
Aptitudes obtenidas
- Explora opciones de computación y almacenamiento para cargas de trabajo de ingeniería de datos en Azure
- Diseñar e implementar la capa de servicio
- Comprender las consideraciones de ingeniería de datos
Requisitos previos
Los alumnos que aprueben este curso tendrán conocimientos sobre computación en cloud y conceptos básicos de datos, así como experiencia profesional con soluciones de datos.
Específicamente completar:
- AZ-900 - Azure Fundamentals
- DP-900 - Microsoft Azure Data Fundamentals
Esquema del curso
Módulo 1: Explorar las opciones de computación y almacenamiento para las cargas de trabajo de ingeniería de datos
Este módulo proporciona un resumen de las opciones tecnológicas de computación y almacenamiento de Azure que están disponibles para ingenieros de datos que construyen cargas de trabajo analíticas. Este módulo enseña maneras de estructurar el lago de datos y de optimizar los archivos para las cargas de trabajo de exploración, streaming y batch. El alumno aprenderá a organizar el lago de datos en niveles de refinamiento de datos mientras transforma los archivos a través del procesamiento por lotes y de flujo. Luego aprenderá a crear índices en sus conjuntos de datos, tales como archivos CSV, JSON y Parquet, y a utilizarlos para una posible aceleración de las consultas y las cargas de trabajo.
Lecciones
- Introducción a Azure Synapse Analytics
- Describir Azure Databricks
- Introducción al almacenamiento de Azure Data Lake
- Describir la arquitectura de Delta Lake
- Trabajar con flujos de datos utilizando Azure Stream Analytics
Laboratorio : Explora opciones de computación y almacenamiento para cargas de trabajo de ingeniería de datos
- Combinar el procesamiento de flujos y de lotes con una única canalización
- Organizar el lago de datos en niveles de transformación de archivos
- Indexar el almacenamiento del lago de datos para acelerar consultas y cargas de trabajo
Después de completar este módulo, los estudiantes serán capaces de:
- Describir Azure Synapse Analytics
- Describir Azure Databricks
- Describir el almacenamiento de Azure Data Lake
- Describir la arquitectura de Delta Lake
- Describir Azure Stream Analytics
Módulo 2: Diseñar e implementar la capa de servicio
Este módulo enseña a diseñar e implementar almacenes de datos en un almacén de datos moderno para optimizar las cargas de trabajo analíticas. El alumno aprenderá a diseñar un esquema multidimensional para almacenar datos de hechos y dimensiones. A continuación, el alumno aprenderá a poblar las dimensiones que cambian lentamente mediante la carga de datos incremental desde Azure Data Factory.
Lecciones
- Diseñar un esquema multidimensional para optimizar las cargas de trabajo analíticas
- Transformación sin código a escala con Azure Data Factory
- Rellenar dimensiones que cambian lentamente en los pipelines de Azure Synapse Analytics
Laboratorio: Diseño e implementación de la capa de servicio
- Diseñar un esquema en estrella para cargas de trabajo analíticas
- Rellenar dimensiones que cambian lentamente con Azure Data Factory y mapear flujos de datos
Después de completar este módulo, los estudiantes serán capaces de:
- Diseñar un esquema en estrella para cargas de trabajo analíticas
- Poblar una dimensión que cambia lentamente con Azure Data Factory y mapear flujos de datos
Módulo 3: Consideraciones de ingeniería de datos para archivos de origen
Este módulo explora las consideraciones de ingeniería de datos que son comunes cuando se cargan datos en un almacén de datos analítico moderno a partir de archivos almacenados en un Azure Data Lake, y la comprensión de las consideraciones de seguridad asociadas con el almacenamiento de archivos almacenados en el lago de datos.
Lecciones
- Diseñar un almacén de datos moderno utilizando Azure Synapse Analytics
- Asegurar un almacén de datos en Azure Synapse Analytics
Laboratorio : Consideraciones de ingeniería de datos
- Gestionar archivos en un lago de datos de Azure
- Asegurar los archivos almacenados en un lago de datos de Azure
Después de completar este módulo, los estudiantes serán capaces de:
- Diseñar un almacén de datos moderno utilizando Azure Synapse Analytics
- Asegurar un almacén de datos en Azure Synapse Analytics
Módulo 4: Ejecutar consultas interactivas utilizando los pools SQL sin servidor de Azure Synapse Analytics
En este módulo, los alumnos aprenderán a trabajar con archivos almacenados en el lago de datos y con fuentes de archivos externas, mediante declaraciones T-SQL ejecutadas por un pool SQL sin servidor en Azure Synapse Analytics. Los alumnos consultarán archivos Parquet almacenados en un lago de datos, así como archivos CSV almacenados en un almacén de datos externo. A continuación, crearán grupos de seguridad de Azure Active Directory e impondrán el acceso a los archivos del lago de datos mediante el Control de Acceso Basado en Funciones (RBAC) y las Listas de Control de Acceso (ACL).
Lecciones
- Explorar capacidades de los pools SQL sin servidor de Azure Synapse
- Consultar de datos en el lago utilizando pools SQL sin servidor de Azure Synapse
- Crear objetos de metadatos en pools SQL sin servidor de Azure Synapse
- Proteger datos y gestionar usuarios en pools SQL sin servidor de Azure Synapse
Laboratorio : Realiza consultas interactivas utilizando pools SQL sin servidor
- Consultar datos de Parquet con pools SQL sin servidor
- Crear tablas externas para archivos Parquet y CSV
- Crear vistas con pools SQL sin servidor
- Asegurar el acceso a los datos de un lago de datos utilizando pools SQL sin servidor
- Configurar la seguridad del lago de datos utilizando el Control de Acceso Basado en Cargos (RBAC) y la Lista de Control de Acceso
Después de completar este módulo, los estudiantes serán capaces de:
- Comprender las capacidades de los pools SQL sin servidor de Azure Synapse
- Consultar datos en el lago utilizando los pools SQL sin servidor de Azure Synapse
- Crear objetos de metadatos en Azure Synapse serverless SQL pools
- Proteger los datos y gestionar los usuarios en los pools SQL sin servidor de Azure Synapse
Módulo 5: Explorar, transformar y cargar datos en el almacén de datos utilizando Apache Spark
Este módulo enseña cómo explorar los datos almacenados en un lago de datos, transformar los datos y cargarlos en un almacén de datos relacional. El alumno explorará archivos Parquet y JSON y utilizará técnicas para consultar y transformar archivos JSON con estructuras jerárquicas. A continuación, el alumno utilizará Apache Spark para cargar datos en el almacén de datos y unir los datos de Parquet en el lago de datos con los datos en el pool SQL dedicado.
Lecciones
Comprender la ingeniería de big data con Apache Spark en Azure Synapse Analytics
Ingesta de datos con notebooks Apache Spark en Azure Synapse Analytics
Transformar datos con DataFrames en Apache Spark Pools en Azure Synapse Analytics
Integrar pools de SQL y Apache Spark en Azure Synapse Analytics
Laboratorio : Explorar, transformar y cargar datos en el almacén de datos utilizando Apache Spark
- Realiza la exploración de datos en Synapse Studio
- Ingesta de datos con notebooks Spark en Azure Synapse Analytics
- Transforma los datos con DataFrames en Spark pools en Azure Synapse Analytics
- Integrar SQL y Spark pools en Azure Synapse Analytics
Después de completar este módulo, los estudiantes serán capaces de:
- Describir la ingeniería de big data con Apache Spark en Azure Synapse Analytics
- Ingerir datos con cuadernos Apache Spark en Azure Synapse Analytics
- Transformar datos con DataFrames en Apache Spark Pools en Azure Synapse Analytics
- Integrar pools de SQL y Apache Spark en Azure Synapse Analytics
Módulo 6: Exploración y transformación de datos en Azure Databricks
Este módulo enseña a utilizar varios métodos de Apache Spark DataFrame para explorar y transformar datos en Azure Databricks. El alumno aprenderá a realizar métodos DataFrame estándar para explorar y transformar datos. También aprenderá a realizar tareas más avanzadas, tales como eliminar datos duplicados, manipular valores de fecha/hora, renombrar columnas y agregar datos.
Lecciones
- Describir Azure Databricks
- Leer y escribir datos en Azure Databricks
- Trabajar con DataFrames en Azure Databricks
- Trabajar con métodos avanzados de DataFrames en Azure Databricks
Laboratorio : Exploración y Transformación de Datos en Azure Databricks
- Utilizar DataFrames en Azure Databricks para explorar y filtrar datos
- Guardar en caché un DataFrame para acelerar las consultas posteriores
- Eliminar datos duplicados
- Manipular valores de fecha/hora
- Eliminar y cambiar el nombre de las columnas de DataFrame
- Agregar datos almacenados en un DataFrame
Después de completar este módulo, los estudiantes serán capaces de:
- Describir los Azure Databricks
- Leer y escribir datos en Azure Databricks
- Trabajar con DataFrames en Azure Databricks
- Trabajar con métodos avanzados de DataFrames en Azure Databricks
Módulo 7: Ingerir y cargar datos en el almacén de datos
Este módulo enseña a los estudiantes cómo ingerir datos en el almacén de datos a través de scripts T-SQL y pipelines de integración de Synapse Analytics. El alumno aprenderá a cargar los datos en los pools SQL dedicados de Synapse con PolyBase y COPY utilizando T-SQL. El alumno también aprenderá a utilizar la gestión de la carga de trabajo junto con una actividad de Copia en un pipeline de Azure Synapse para la ingestión de datos a escala de petabytes.
Lecciones
- Utilizar las mejores prácticas de carga de datos en Azure Synapse Analytics
- Ingesta a escala de petabytes con Azure Data Factory
Laboratorio : Ingesta y carga de datos en el almacén de datos
- Realizar una ingesta a escala de petabytes con Azure Synapse Pipelines
- Importación de datos con PolyBase y COPY utilizando T-SQL
- Utilizar las mejores prácticas de carga de datos en Azure Synapse Analytics
Después de completar este módulo, los estudiantes serán capaces de:
- Utilizar las mejores prácticas de carga de datos en Azure Synapse Analytics
- Ingesta a escala de petabytes con Azure Data Factory
Módulo 8: Transformar Datos con Azure Data Factory o Azure Synapse Pipelines
Este módulo enseña a los estudiantes a construir pipelines de integración de datos para ingerir desde múltiples fuentes de datos, transformar los datos utilizando flujos de datos de mapeo, y realizar el movimiento de datos en uno o más sumideros de datos.
Lecciones
- Integración de datos con Azure Data Factory o Azure Synapse Pipelines
- Transformación sin código a escala con Azure Data Factory o Azure Synapse Pipelines
Laboratorio : Transformación de Datos con Azure Data Factory o Azure Synapse Pipelines
- Ejecuta transformaciones sin código a escala con Azure Synapse Pipelines
- Crea una canalización de datos para importar archivos CSV mal formateados
- Crear flujos de datos de mapeo
Después de completar este módulo, los estudiantes serán capaces de:
- Realizar la integración de datos con Azure Data Factory
- Realizar transformaciones sin código a escala con Azure Data Factory.
Módulo 9: Orquestar el movimiento y transformación de datos en Azure Synapse Pipelines
En este módulo, aprenderás a crear servicios vinculados y a orquestar el movimiento y la transformación de datos utilizando cuadernos en Azure Synapse Pipelines.
Lecciones
- Orquestar el movimiento y la transformación de datos en Azure Data Factory
Laboratorio : Orquestar el movimiento y la transformación de datos en Azure Synapse Pipelines
- Integrar los datos de los cuadernos con Azure Data Factory o Azure Synapse Pipelines
Después de completar este módulo, los estudiantes serán capaces de:
- Orquestar el movimiento y la transformación de datos en Azure Synapse Pipelines
Módulo 10: Optimizar el rendimiento de las consultas con pools SQL dedicados en Azure Synapse
En este módulo, los alumnos aprenderán estrategias para optimizar el almacenamiento y el procesamiento de datos al utilizar pools SQL dedicados en Azure Synapse Analytics. El alumno sabrá cómo utilizar funciones de programador, tales como windowing y HyperLogLog, utilizar mejores prácticas de carga de datos y optimizar y mejorar el rendimiento de las consultas.
Lecciones
Optimizar el rendimiento de las consultas del almacén de datos en Azure Synapse Analytics
Comprender funciones de programador de almacén de datos de Azure Synapse Analytics
Laboratorio : Optimizar el Rendimiento de Consultas con Pools SQL Dedicados en Azure Synapse
- Comprender funciones de los programadores de Azure Synapse Analytics
- Optimizar el rendimiento de las consultas del almacén de datos en Azure Synapse Analytics
- Mejorar el rendimiento de las consultas
Después de completar este módulo, los estudiantes serán capaces de:
- Optimizar el rendimiento de las consultas del almacén de datos en Azure Synapse Analytics
- Comprender funciones de programador de almacén de datos de Azure Synapse Analytics
Módulo 11: Analizar y Optimizar el Almacenamiento del Almacén de Datos
En este módulo, los estudiantes aprenderán a analizar y luego optimizar el almacenamiento de datos de los pools SQL dedicados de Azure Synapse. El alumno sabrá las técnicas para comprender el uso del espacio de tablas y detalles del almacenamiento del almacén de columnas. A continuación, el alumno sabrá cómo comparar requisitos de almacenamiento entre tablas idénticas que utilizan diferentes tipos de datos. Por último, el alumno observará el impacto que tienen las vistas materializadas cuando se ejecutan en lugar de las consultas complejas y aprenderá a evitar un registro extenso optimizando las operaciones de eliminación.
Lecciones
- Analizar y optimizar almacenamiento del almacén de datos en Azure Synapse Analytics
Laboratorio : Analizar y optimizar el almacenamiento del almacén de datos
- Comprender datos sesgados y el uso del espacio
- Comprender detalles del almacenamiento del almacén de columnas
- Estudiar el impacto de las vistas materializadas
- Explora reglas para operaciones de registro mínimo
Después de completar este módulo, los estudiantes serán capaces de:
- Analizar y optimizar el almacenamiento del almacén de datos en Azure Synapse Analytics
Módulo 12: Apoyar el Hybrid Transactional Analytical Processing (HTAP) con Azure Synapse Link
En este módulo, los estudiantes aprenderán cómo Azure Synapse Link permite la conectividad perfecta de una cuenta de Azure Cosmos DB con un espacio de trabajo de Synapse. El alumno entenderá cómo habilitar y configurar Synapse link, y luego cómo consultar el almacén analítico de Azure Cosmos DB utilizando Apache Spark y SQL serverless.
Lecciones
- Diseñar un procesamiento transaccional y analítico híbrido utilizando Azure Synapse Analytics
- Configurar Azure Synapse Link con Azure Cosmos DB
- Consultar Azure Cosmos DB con pools de Apache Spark
- Consultar Azure Cosmos DB con pools SQL sin servidor
Laboratorio : Apoyo al Procesamiento Analítico Transaccional Híbrido (HTAP) con Azure Synapse Link
- Configurar Azure Synapse Link con Azure Cosmos DB
- Consulta Azure Cosmos DB con Apache Spark para Synapse Analytics
- Consultar Azure Cosmos DB con SQL pool sin servidor para Azure Synapse Analytics
Después de completar este módulo, los estudiantes serán capaces de:
- Diseñar un procesamiento transaccional y analítico híbrido utilizando Azure Synapse Analytics
- Configurar Azure Synapse Link con Azure Cosmos DB
- Consultar Azure Cosmos DB con Apache Spark para Azure Synapse Analytics
- Consultar Azure Cosmos DB con SQL serverless para Azure Synapse Analytics
Módulo 13: Seguridad de extremo a extremo con Azure Synapse Analytics
En este módulo, los estudiantes aprenderán a asegurar un espacio de trabajo de Synapse Analytics y su infraestructura de apoyo. El alumno observará al administrador del Directorio Activo de SQL, gestionará las reglas del cortafuegos de IP, administrará los secretos con Azure Key Vault y accederá a esos secretos a través de un servicio vinculado a Key Vault y a las actividades de la tubería. El alumno comprenderá cómo implementar la seguridad a nivel de columna, la seguridad a nivel de fila y el enmascaramiento dinámico de datos al utilizar pools SQL dedicados.
Lecciones
- Asegurar un almacén de datos en Azure Synapse Analytics
- Configurar y gestionar los secretos en Azure Key Vault
- Implementar controles de cumplimiento para los datos sensibles
Laboratorio : Seguridad de extremo a extremo con Azure Synapse Analytics
- Asegurar la infraestructura de apoyo de Azure Synapse Analytics
- Asegurar el espacio de trabajo de Azure Synapse Analytics y los servicios gestionados
- Asegurar los datos del espacio de trabajo de Azure Synapse Analytics
Después de completar este módulo, los estudiantes serán capaces de:
- Asegurar un almacén de datos en Azure Synapse Analytics
- Configurar y gestionar los secretos en Azure Key Vault
- Implementar controles de cumplimiento para los datos sensibles
Módulo 14: Procesamiento de flujos en tiempo real con Stream Analytics
En este módulo, los estudiantes aprenderán a procesar datos en flujo con Azure Stream Analytics. El alumno ingestará datos de telemetría de vehículos en Event Hubs, y luego procesará esos datos en tiempo real, utilizando varias funciones windowing en Azure Stream Analytics. Enviarán los datos a Azure Synapse Analytics. Por último, el alumno aprenderá a escalar el trabajo de Stream Analytics para aumentar el rendimiento.
Lecciones
- Habilitar la mensajería fiable para aplicaciones de Big Data utilizando Azure Event Hubs
- Trabajar con flujos de datos utilizando Azure Stream Analytics
- Ingerir flujos de datos con Azure Stream Analytics
Laboratorio : Procesamiento de flujos en tiempo real con Stream Analytics
- Utiliza Stream Analytics para procesar datos en tiempo real desde Event Hubs
- Utiliza funciones windowing de Stream Analytics para crear agregados y enviarlos a Synapse Analytics
- Escala el trabajo de Azure Stream Analytics para aumentar el rendimiento mediante la partición
- Repartir la entrada del flujo para optimizar la paralelización
Después de completar este módulo, los estudiantes serán capaces de:
- Habilitar la mensajería fiable para aplicaciones de Big Data utilizando Azure Event Hubs
- Trabajar con flujos de datos utilizando Azure Stream Analytics
- Ingerir flujos de datos con Azure Stream Analytics
Módulo 15: Crear una solución de procesamiento de flujos con Event Hubs y Azure Databricks
En este módulo, los estudiantes aprenderán a ingerir y procesar datos de streaming a escala con Event Hubs y Spark Structured Streaming en Azure Databricks. El alumno aprenderá las principales características y usos del Streaming Estructurado. El alumno implementará ventanas deslizantes para agregar sobre trozos de datos y aplicar marcas de agua para eliminar los datos obsoletos. Por último, el alumno se conectará a Event Hubs para leer y escribir flujos.
Lecciones
- Procesar datos de streaming con el streaming estructurado de Azure Databricks
Laboratorio : Crear una solución de procesamiento de flujos con Event Hubs y Azure Databricks
- Explorar las principales características y usos del Streaming Estructurado
- Transmitir datos desde un archivo y escríbelos en un sistema de archivos distribuido
- Utilizar ventanas deslizantes para agregar trozos de datos en lugar de todos los datos
- Aplicar marcas de agua para eliminar los datos obsoletos
Conectar con flujos de lectura y escritura de Event Hubs
- Después de completar este módulo, los alumnos serán capaces de:
- Procesar datos de flujo con el flujo estructurado de Azure Databricks
Módulo 16: Construir informes utilizando la integración de Power BI con Azure Synapse Analytics
En este módulo, el alumno aprenderá a integrar Power BI con su espacio de trabajo de Synapse para construir informes en Power BI. El alumno creará una nueva fuente de datos y un informe de Power BI en Synapse Studio. A continuación, el alumno aprenderá a mejorar el rendimiento de consultas con vistas materializadas y el almacenamiento en caché del conjunto de resultados. Por último, el alumno explorará el lago de datos con pools SQL sin servidor y creará visualizaciones contra esos datos en Power BI.
Lecciones
- Crear informes con Power BI utilizando su integración con Azure Synapse Analytics
Laboratorio : Crear informes utilizando la integración de Power BI con Azure Synapse Analytics
- Integrar un espacio de trabajo de Azure Synapse y Power BI
- Optimizar la integración con Power BI
- Mejorar el rendimiento de consultas con vistas materializadas y almacenamiento en caché del conjunto de resultados
- Visualizar datos con SQL serverless y crear un informe de Power BI
Después de completar este módulo, los estudiantes serán capaces de:
- Crear informes con Power BI utilizando su integración con Azure Synapse Analytics
Módulo 17: Realizar procesos de aprendizaje automático integrados en Azure Synapse Analytics
Este módulo explora la experiencia integrada de extremo a extremo de Azure Machine Learning y Azure Cognitive Services en Azure Synapse Analytics. Aprenderás a conectar un espacio de trabajo de Azure Synapse Analytics con un espacio de trabajo de Azure Machine Learning mediante un Servicio Vinculado y, a continuación, a desencadenar un experimento de ML automatizado que utilice datos de una tabla de Spark. También aprenderás a utilizar modelos entrenados de Azure Machine Learning o Azure Cognitive Services para enriquecer los datos de una tabla de SQL pool y luego servir los resultados de la predicción utilizando Power BI.
Lecciones
- Utilizar el proceso de aprendizaje automático integrado en Azure Synapse Analytics
Laboratorio : Realizar procesos de aprendizaje automático integrado en Azure Synapse Analytics
- Crear un servicio vinculado de Azure Machine Learning
- Desencadenar un experimento de Auto ML utilizando datos de una tabla de Spark
- Enriquecer los datos utilizando modelos entrenados
- Servir resultados de predicción utilizando Power BI
Después de completar este módulo, los estudiantes serán capaces de:
- Utilizar el proceso de aprendizaje automático integrado en Azure Synapse Analytics