Optimización de las cargas de trabajo de Databricks: Aproveche el poder de Apache Spark en Azure y maximice el rendimiento de las cargas de trabajo modernas de big data


Precio:
Precio de venta$61.32

Descripción

Acelere los cálculos y aproveche al máximo sus datos de forma eficaz y eficiente en Databricks


Características principales:

  • Comprenda las optimizaciones de Spark para cargas de trabajo de big data y maximice el rendimiento
  • Cree pipelines de ingeniería de big data eficientes con Databricks y Delta Lake
  • Gestione eficientemente los clústeres de Spark para el procesamiento de big data

Descripción del libro:

Databricks es una plataforma líder en la industria, basada en la nube para el análisis de datos, la ciencia de datos y la ingeniería de datos, que apoya a miles de organizaciones en todo el mundo en su viaje de datos. Es una plataforma de análisis de big data rápida, fácil y colaborativa basada en Apache Spark para la ciencia de datos y la ingeniería de datos en la nube.

En Optimizing Databricks Workloads, comenzará con una breve introducción a Azure Databricks y rápidamente comprenderá las importantes técnicas de optimización. El libro cubre cómo seleccionar la configuración óptima del clúster de Spark para ejecutar el procesamiento y las cargas de trabajo de big data en Databricks, algunas técnicas de optimización muy útiles para Spark DataFrames, las mejores prácticas para optimizar Delta Lake y técnicas para optimizar los trabajos de Spark a través del núcleo de Spark. Contiene una oportunidad para aprender sobre algunos de los escenarios del mundo real donde la optimización de las cargas de trabajo en Databricks ha ayudado a las organizaciones a aumentar el rendimiento y ahorrar costos en varios dominios.

Al final de este libro, estará preparado con el conjunto de herramientas necesario para acelerar sus trabajos de Spark y procesar sus datos de manera más eficiente.


Lo que aprenderá:

  • Domine los fundamentos de Spark y la plataforma Databricks
  • Procese big data utilizando la API de Spark DataFrame con Delta Lake
  • Analice datos utilizando el procesamiento de gráficos en Databricks
  • Utilice MLflow para gestionar los ciclos de vida del aprendizaje automático en Databricks
  • Descubra cómo elegir la configuración de clúster adecuada para sus cargas de trabajo
  • Explore los métodos de compactación y agrupación de archivos para ajustar las tablas Delta
  • Descubra técnicas de optimización avanzadas para acelerar los trabajos de Spark


A quién va dirigido este libro:

Este libro está dirigido a ingenieros de datos, científicos de datos y arquitectos de la nube que tengan conocimientos prácticos de Spark/Databricks y una comprensión básica de los principios de la ingeniería de datos. Los lectores deberán tener un conocimiento práctico de Python, y cierta experiencia en SQL en PySpark y Spark SQL es beneficiosa.



Autor: Anirudh Kala, Anshul Bhatnagar, Sarthak Sarbahi
Editorial: Packt Publishing
Publicado: 24/12/2021
Páginas: 230
Tipo de encuadernación: Tapa blanda
Peso: 0.89 libras
Tamaño: 9.25h x 7.50w x 0.48d
ISBN13: 9781801819077
ISBN10: 1801819076
Categorías BISAC:
- Informática | Administración y gestión de bases de datos
- Informática | Desarrollo e ingeniería de software | General

Este título no es retornable