Overview Apache Spark Pool
Introducción
¡Hola! en este artículo busco darte un vistazo a Apache Spark Pool, una de las opciones incluidas en Azure Synapse Analytics.
Verás, esta gran opción actualmente disponible dentro del workspace de Synapse, te permitirá realizar actividades de ingeniería de datos, tales como exploración y preparación de datos hasta cargas de trabajo de machine leargning; todo esto, utilizando un grupo de Apache Spark Pool a demanda. Es decir, Azure Synapse te proporciona un entorno con características avanzadas para que puedas ejecutar consultas spark sobre macrodatos.
Esto es más que bueno, ya que no tendremos que invertir tanto tiempo en preparar y configurar un entorno como lo haciamos anteriormente, sino que bastará con crear el Spark Pool, definir la cantidad de vCores que necesitaremos y luego hacer toda la magia en algún notebook por ejemplo.
Consideraciones
Si aún no lo haz hecho, te recomiendo revisar antes el artículo de resumen de Azure Synapse Analytics y el de crear un Azure Synapse Workspace.
Asimismo, antes de iniciar este laboratorio, te recomiendo crear un contenedor dentro de tu Azure Data Lake Storage Gen2, para que puedas almacenar aquí los archivos que se generarán en los siguientes pasos.
Creación de Apache Spark Pool
Entonces, dicho esto lo primero que debes realizar es crear tu Spark Pool, para ello sigue los siguientes pasos:
- Acceder a Azure Synapse Studio
- Luego ir al Hub Manage > Apache Spark Pool > New
- En la nueva ventana, ingresamos un nombre único para el Apache Spark Pool. Por ejemplo, yo utilizo SparkPool01
- Clic en Review + create y finalmente clic en Create.
- Al darle clic en Create, el proceso toma alrededor de 2 minutos. Transcurrido ese tiempo, podrás ver en la ventana Apache Spark Pool el Pool que acabamos de implementar.
Ejecutar un Notebook usando Spark Pool
Ya que tenemos creado el Spark Pool, vamos a dar un vistazo inicial sobre el funcionamiento ejecutando un Notebook de ejemplo de Azure, en donde consumiremos datos abiertos sobre festivos y feriados de todo el mundo disponibles desde los 90’s, para luego almacenarlos en archivos CSV, Json y parquet en carpetas dentro de un contenedor de Azure Data Lake Storage Gen2.
- Asi que en primer lugar, vamos al Hub Home > Learn
- Clic en Browse gallery
- Aparece una caja de búsqueda asi que puedes ingresar una palabra para encontrar un notebook de ejemplo en específico. Como mencioné, yo quiero buscar uno que actúe con un Data Lake Storage Gen2. Clic en Continue.
- Finalmente, clic en Open Notebook
- La última acción te llevará al Notebook importado. Una vez abierto el Notebook tendrás que asegurarte que esté utilizando el SparkPool01 creado en los primeros pasos, y luego le das clic en Run All para iniciar una sesión que utilice Spark Pool a demanda en este Notebook.
En caso no encuentres el Notebook de ejemplo importando, puedes ir al Hub Develop > Notebooks > Seleccionar el Notebook importado.
- Si seguiste cada uno de los pasos mencionados, al cabo de unos minutos ya podrás ver los resultados de cada celda. Puedes validar que en tu Data Lake Storage Gen2, se habrán creado los 3 archivos CSV, Json y parquet.
Video Explicativo
Conclusiones
En el presente artículo/video, hemos mostrado como crear un Apache Spark Pool dentro de Azure Synapse Analytics para posteriormente hacer uso de sus capacidades a través de un Notebook de ejemplo que buscó generar y guardar archivos planos en un contenedor de Azure Data Lake Storage Gen2.
Espero te haya sido de utilidad. ¡Hasta la próxima! ?
0 Comentarios