Creación de un clúster de Spark en Azure Databricks
En el post anterior, describimos los pasos para crear nuestro espacio de trabajo de Azure Databricks.
Hoy, el objetivo será ayudarte a crear un cluster necesario para ejecutar tus futuras cargas de trabajo. Entiéndase como cluster, a un conjunto de recursos de computación destinados a ejecutar grandes cargas de trabajo de ingeniería de datos, ciencia de datos y análisis de datos.
Entonces, lo primero que haremos será ubicarnos dentro del portal de azure, sobre el recurso que ya hemos creado en el post anterior. El mío se llama azdtbrk_kd.
Ya dentro, hacemos clic en Launch Workspace, el cual nos llevará directamente al portal de azure databricks.
Este portal nos ayudará a gestionar y configurar todos lo necesario para que nuestro recurso esté totalmente funcional.
Hacemos clic en Clusters:
Clic en Create Cluster
Se abrirá una nueva ventana donde tendrás que completar los siguientes datos:
Nombre del Cluster: Coloca el nombre que prefieras
Cluster Mode: Standard
Databicks Runtime Version: 5.5 (Scala 2.11, Spark 2.4.3)
Autopilot Options: Aquí definiremos cada cuantos minutos de inactividad se apagará el cluster.
Python Version: 3
Finalmente, le das clic en Create Cluster:
Después de unos minutos, veremos en dentro portal de azure databricks el cluster que acabamos de crear.
Keyla Dolores
Keyla es data engineer, speaker internacional, docente y blogger. Le gusta aprender nuevas tecnologías que puedan ayudar a más personas a sacar mayor provecho a sus datos. Cuando no está haciendo algunas de estas cosas, seguro la encontrarás dibujando a carboncillo, molestando al gato o comiendo queso.
0 Comentarios