Paperback book titled "Optimizing Databricks Workloads" by Packt Publishing, featuring a cover with abstract data and Spark icons.

Pasa el cursor sobre la imagen para ampliarla. Clic en la imagen para aumentar

Optimización de las cargas de trabajo de Databricks: Aproveche el poder de Apache Spark en Azure y maximice el rendimiento de las cargas de trabajo modernas de big data

Name: Optimización de las cargas de trabajo de Databricks: Aproveche el poder de Apache Spark en Azure y maximice el rendimiento de las cargas de trabajo modernas de big data
SKU: 9781801819077
Price: 61.32 USD
Availability: InStock

Packt Publishing

Precio:

$61.32

Cantidad:

Comparte este producto

Acelere los cálculos y aproveche al máximo sus datos de forma eficaz y eficiente en Databricks

Características principales:

Comprenda las optimizaciones de Spark para cargas de trabajo de big data y maximice el rendimiento
Cree pipelines de ingeniería de big data eficientes con Databricks y Delta Lake
Gestione eficientemente los clústeres de Spark para el procesamiento de big data

Descripción del libro:

Databricks es una plataforma líder en la industria, basada en la nube para el análisis de datos, la ciencia de datos y la ingeniería de datos, que apoya a miles de organizaciones en todo el mundo en su viaje de datos. Es una plataforma de análisis de big data rápida, fácil y colaborativa basada en Apache Spark para la ciencia de datos y la ingeniería de datos en la nube.

En Optimizing Databricks Workloads, comenzará con una breve introducción a Azure Databricks y rápidamente comprenderá las importantes técnicas de optimización. El libro cubre cómo seleccionar la configuración óptima del clúster de Spark para ejecutar el procesamiento y las cargas de trabajo de big data en Databricks, algunas técnicas de optimización muy útiles para Spark DataFrames, las mejores prácticas para optimizar Delta Lake y técnicas para optimizar los trabajos de Spark a través del núcleo de Spark. Contiene una oportunidad para aprender sobre algunos de los escenarios del mundo real donde la optimización de las cargas de trabajo en Databricks ha ayudado a las organizaciones a aumentar el rendimiento y ahorrar costos en varios dominios.

Al final de este libro, estará preparado con el conjunto de herramientas necesario para acelerar sus trabajos de Spark y procesar sus datos de manera más eficiente.

Lo que aprenderá:

Domine los fundamentos de Spark y la plataforma Databricks
Procese big data utilizando la API de Spark DataFrame con Delta Lake
Analice datos utilizando el procesamiento de gráficos en Databricks
Utilice MLflow para gestionar los ciclos de vida del aprendizaje automático en Databricks
Descubra cómo elegir la configuración de clúster adecuada para sus cargas de trabajo
Explore los métodos de compactación y agrupación de archivos para ajustar las tablas Delta
Descubra técnicas de optimización avanzadas para acelerar los trabajos de Spark

A quién va dirigido este libro:

Este libro está dirigido a ingenieros de datos, científicos de datos y arquitectos de la nube que tengan conocimientos prácticos de Spark/Databricks y una comprensión básica de los principios de la ingeniería de datos. Los lectores deberán tener un conocimiento práctico de Python, y cierta experiencia en SQL en PySpark y Spark SQL es beneficiosa.

Autor: Anirudh Kala, Anshul Bhatnagar, Sarthak Sarbahi
Editorial: Packt Publishing
Publicado: 24/12/2021
Páginas: 230
Tipo de encuadernación: Tapa blanda
Peso: 0.89 libras
Tamaño: 9.25h x 7.50w x 0.48d
ISBN13: 9781801819077
ISBN10: 1801819076
Categorías BISAC:
- Informática | Administración y gestión de bases de datos
- Informática | Desarrollo e ingeniería de software | General

Este título no es retornable