Descripción
Acelere los cálculos y aproveche al máximo sus datos de forma eficaz y eficiente en Databricks
Características principales:
- Comprenda las optimizaciones de Spark para cargas de trabajo de big data y maximice el rendimiento
- Cree pipelines de ingeniería de big data eficientes con Databricks y Delta Lake
- Gestione eficientemente los clústeres de Spark para el procesamiento de big data
Descripción del libro:
Databricks es una plataforma líder en la industria, basada en la nube para el análisis de datos, la ciencia de datos y la ingeniería de datos, que apoya a miles de organizaciones en todo el mundo en su viaje de datos. Es una plataforma de análisis de big data rápida, fácil y colaborativa basada en Apache Spark para la ciencia de datos y la ingeniería de datos en la nube.
En Optimizing Databricks Workloads, comenzará con una breve introducción a Azure Databricks y rápidamente comprenderá las importantes técnicas de optimización. El libro cubre cómo seleccionar la configuración óptima del clúster de Spark para ejecutar el procesamiento y las cargas de trabajo de big data en Databricks, algunas técnicas de optimización muy útiles para Spark DataFrames, las mejores prácticas para optimizar Delta Lake y técnicas para optimizar los trabajos de Spark a través del núcleo de Spark. Contiene una oportunidad para aprender sobre algunos de los escenarios del mundo real donde la optimización de las cargas de trabajo en Databricks ha ayudado a las organizaciones a aumentar el rendimiento y ahorrar costos en varios dominios.
Al final de este libro, estará preparado con el conjunto de herramientas necesario para acelerar sus trabajos de Spark y procesar sus datos de manera más eficiente.
Lo que aprenderá:
- Domine los fundamentos de Spark y la plataforma Databricks
- Procese big data utilizando la API de Spark DataFrame con Delta Lake
- Analice datos utilizando el procesamiento de gráficos en Databricks
- Utilice MLflow para gestionar los ciclos de vida del aprendizaje automático en Databricks
- Descubra cómo elegir la configuración de clúster adecuada para sus cargas de trabajo
- Explore los métodos de compactación y agrupación de archivos para ajustar las tablas Delta
- Descubra técnicas de optimización avanzadas para acelerar los trabajos de Spark
A quién va dirigido este libro:
Este libro está dirigido a ingenieros de datos, científicos de datos y arquitectos de la nube que tengan conocimientos prácticos de Spark/Databricks y una comprensión básica de los principios de la ingeniería de datos. Los lectores deberán tener un conocimiento práctico de Python, y cierta experiencia en SQL en PySpark y Spark SQL es beneficiosa.
Autor: Anirudh Kala, Anshul Bhatnagar, Sarthak Sarbahi
Editorial: Packt Publishing
Publicado: 24/12/2021
Páginas: 230
Tipo de encuadernación: Tapa blanda
Peso: 0.89 libras
Tamaño: 9.25h x 7.50w x 0.48d
ISBN13: 9781801819077
ISBN10: 1801819076
Categorías BISAC:
- Informática | Administración y gestión de bases de datos
- Informática | Desarrollo e ingeniería de software | General
Este título no es retornable

