Ingeniería de datos moderna con Apache Spark: una guía práctica para crear aplicaciones de streaming de misión crítica


Precio:
Precio de venta$64.99

Descripción

Aproveche Apache Spark dentro de un ecosistema moderno de ingeniería de datos. Esta guía práctica le enseñará cómo escribir aplicaciones completamente funcionales, seguir las mejores prácticas de la industria y comprender la razón detrás de estas decisiones. Con Apache Spark como base, seguirá un viaje paso a paso que comienza con los conceptos básicos de ingesta, procesamiento y transformación de datos, y termina con una plataforma de datos local completa que ejecuta Apache Spark, Apache Zeppelin, Apache Kafka, Redis, MySQL, Minio (S3) y Apache Airflow.

Las aplicaciones de Apache Spark resuelven una amplia gama de problemas de datos, desde la carga y procesamiento de datos tradicionales hasta análisis ricos basados en SQL, así como complejas cargas de trabajo de aprendizaje automático e incluso el procesamiento casi en tiempo real de datos de transmisión. Spark encaja bien como base central para cualquier carga de trabajo de ingeniería de datos. Este libro le enseñará a escribir aplicaciones Spark interactivas utilizando cuadernos de Apache Zeppelin, escribir y compilar aplicaciones y módulos reutilizables, y probar completamente tanto por lotes como por transmisión. También aprenderá a contenerizar sus aplicaciones utilizando Docker y a ejecutar e implementar sus aplicaciones Spark utilizando una variedad de herramientas como Apache Airflow, Docker y Kubernetes.

La lectura de este libro le permitirá aprovechar Apache Spark para optimizar sus canalizaciones de datos y le enseñará a crear aplicaciones Spark modulares y comprobables. Creará e implementará aplicaciones Spark de transmisión de misión crítica en un entorno de bajo estrés que allanará el camino para su propio camino hacia la producción.


Lo que aprenderá
  • Simplifique la transformación de datos con Spark Pipelines y Spark SQL
  • Una la ingeniería de datos con el aprendizaje automático
  • Diseñe aplicaciones de canalización de datos modulares
  • Cree componentes y bibliotecas de aplicaciones reutilizables
  • Contenerice sus aplicaciones Spark para lograr coherencia y fiabilidad
  • Utilice Docker y Kubernetes para implementar sus aplicaciones Spark
  • Acelere la experimentación de aplicaciones utilizando Apache Zeppelin y Docker
  • Comprenda los datos estructurados serializables y los contratos de datos
  • Aproveche estrategias efectivas para optimizar los datos en sus lagos de datos
  • Cree aplicaciones de streaming estructurado de Spark de extremo a extremo utilizando Redis y Apache Kafka
  • Adopte las pruebas para sus aplicaciones por lotes y de streaming
  • Implemente y supervise sus aplicaciones Spark

A quién va dirigido este libro
Ingenieros de software profesionales que desean aplicar sus habilidades actuales a nuevas y emocionantes oportunidades dentro del ecosistema de datos, ingenieros de datos en ejercicio que buscan una guía mientras atraviesan los muchos desafíos de pasar de los modos por lotes a los de transmisión, arquitectos de datos que desean proporcionar una dirección clara y concisa sobre cómo aprovechar y usar mejor Apache Spark dentro de su organización, y aquellos interesados en los pormenores de convertirse en un ingeniero de datos moderno en el mundo acelerado y hambriento de datos de hoy.


Autor: Scott Haines
Editorial: Apress
Publicado: 23/03/2022
Páginas: 585
Tipo de encuadernación: Tapa blanda
Peso: 2,31 libras
Tamaño: 10,00 alto x 7,00 ancho x 1,24 profundidad
ISBN13: 9781484274514
ISBN10: 1484274512
Categorías BISAC:
- Informática | Lenguajes | Java
- Matemáticas | Probabilidad y Estadística | General
- Informática | Administración y Gestión de Bases de Datos

Sobre el autor
Scott Haines es un ingeniero full stack con un enfoque actual en sistemas de análisis en tiempo real, de alta disponibilidad y confiables. Trabaja en Twilio como ingeniero de software principal en el equipo de Voice Insights, donde ayuda a impulsar la adopción de Spark, crea arquitecturas de canalización de transmisión y ayuda a diseñar y construir una plataforma masiva de procesamiento de transmisión y por lotes.
Antes de Twilio, Scott trabajó escribiendo las API Java de backend para Yahoo Games, así como el motor de clasificación y calificación de juegos en tiempo real (construido sobre Storm) para proporcionar recomendaciones personalizadas y visitas a la página para 10 millones de clientes. Terminó su período en Yahoo trabajando para Flurry Analytics, donde escribió el sistema de alertas y notificaciones para dispositivos móviles.

Este título no es retornable