Overview Apache Spark Pool

Publicado por Keyla Dolores en

Introducción

¡Hola! en este artículo busco darte un vistazo a Apache Spark Pool, una de las opciones incluidas en Azure Synapse Analytics.

Verás, esta gran opción actualmente disponible dentro del workspace de Synapse, te permitirá realizar actividades de ingeniería de datos, tales como exploración y preparación de datos hasta cargas de trabajo de machine leargning; todo esto, utilizando un grupo de Apache Spark Pool a demanda. Es decir, Azure Synapse te proporciona un entorno con características avanzadas para que puedas ejecutar consultas spark sobre macrodatos.

Esto es más que bueno, ya que no tendremos que invertir tanto tiempo en preparar y configurar un entorno como lo haciamos anteriormente, sino que bastará con crear el Spark Pool, definir la cantidad de vCores que necesitaremos y luego hacer toda la magia en algún notebook por ejemplo.

Consideraciones

Si aún no lo haz hecho, te recomiendo revisar antes el artículo de resumen de Azure Synapse Analytics y el de crear un Azure Synapse Workspace.

Asimismo, antes de iniciar este laboratorio, te recomiendo crear un contenedor dentro de tu Azure Data Lake Storage Gen2, para que puedas almacenar aquí los archivos que se generarán en los siguientes pasos.

Creación de Apache Spark Pool

Entonces, dicho esto lo primero que debes realizar es crear tu Spark Pool, para ello sigue los siguientes pasos:

  • Acceder a Azure Synapse Studio
  • Luego ir al Hub Manage > Apache Spark Pool > New
  • En la nueva ventana, ingresamos un nombre único para el Apache Spark Pool. Por ejemplo, yo utilizo SparkPool01
  • Clic en Review + create y finalmente clic en Create.
  • Al darle clic en Create, el proceso toma alrededor de 2 minutos. Transcurrido ese tiempo, podrás ver en la ventana Apache Spark Pool el Pool que acabamos de implementar.

Ejecutar un Notebook usando Spark Pool

Ya que tenemos creado el Spark Pool, vamos a dar un vistazo inicial sobre el funcionamiento ejecutando un Notebook de ejemplo de Azure, en donde consumiremos datos abiertos sobre festivos y feriados de todo el mundo disponibles desde los 90’s, para luego almacenarlos en archivos CSV, Json parquet en carpetas dentro de un contenedor de Azure Data Lake Storage Gen2.

  • Asi que en primer lugar, vamos al Hub Home > Learn
  • Clic en Browse gallery
  • Aparece una caja de búsqueda asi que puedes ingresar una palabra para encontrar un notebook de ejemplo en específico. Como mencioné, yo quiero buscar uno que actúe con un Data Lake Storage Gen2. Clic en Continue.
  • Finalmente, clic en Open Notebook
  • La última acción te llevará al Notebook importado. Una vez abierto el Notebook tendrás que asegurarte que esté utilizando el SparkPool01 creado en los primeros pasos, y luego le das clic en Run All para iniciar una sesión que utilice Spark Pool a demanda en este Notebook.

En caso no encuentres el Notebook de ejemplo importando, puedes ir al Hub Develop > Notebooks > Seleccionar el Notebook importado.

  • Si seguiste cada uno de los pasos mencionados, al cabo de unos minutos ya podrás ver los resultados de cada celda. Puedes validar que en tu Data Lake Storage Gen2, se habrán creado los 3 archivos CSV, Json y parquet.

Video Explicativo

Conclusiones

En el presente artículo/video, hemos mostrado como crear un Apache Spark Pool dentro de Azure Synapse Analytics para posteriormente hacer uso de sus capacidades a través de un Notebook de ejemplo que buscó generar y guardar archivos planos en un contenedor de Azure Data Lake Storage Gen2.

Espero te haya sido de utilidad. ¡Hasta la próxima! ?


Keyla Dolores

Keyla es Data Architect y lleva más de 8 años en el mundo Microsoft. Administra esta página y un canal en YouTube (Keyla Dolores), donde crea y comparte contenido sobre temas de Microsoft Azure. Adicionalmente, podrán verla también en los diversos eventos nacionales o internacionales hablando de diferentes servicios de Azure Data Platform.

0 Comentarios

Agregue un comentario

Avatar placeholder

Su dirección de correo no se hará público. Los campos requeridos están marcados *