Descripción
Este libro explica cómo escalar Apache Spark 3 para manejar cantidades masivas de datos, ya sea mediante procesamiento por lotes o por streaming. Cubre cómo usar las API estructuradas de Spark para realizar transformaciones y análisis de datos complejos que puedes usar para implementar flujos de trabajo de análisis de extremo a extremo. Este libro cubre las nuevas características de Spark 3, los fundamentos teóricos y la arquitectura de la aplicación. La primera sección presenta el ecosistema de Apache Spark como un motor unificado para el análisis de datos a gran escala, y te muestra cómo ejecutar y ajustar tu primera aplicación en Spark. La segunda sección se centra en el procesamiento por lotes adecuado para el procesamiento de fin de ciclo y la ingesta de datos a través de archivos y bases de datos. Explica la API de Spark DataFrame, así como los datos estructurados y no estructurados con Apache Spark. La última sección trata sobre las cargas de trabajo de procesamiento de streaming escalables, de alto rendimiento y tolerantes a fallos para procesar datos en tiempo real. Aquí aprenderás sobre el modelo de ejecución de Apache Spark Streaming, la arquitectura de Spark Streaming, la monitorización, la elaboración de informes y la recuperación de Spark Streaming. Se dedica un capítulo completo a las futuras direcciones de Spark Streaming. Con casos de uso del mundo real, fragmentos de código y cuadernos alojados en GitHub, este libro te proporcionará una comprensión de los conceptos de análisis de datos a gran escala, y te ayudará a ponerlos en práctica.
Al completar este libro, tendrás los conocimientos y habilidades para implementar sin problemas cargas de trabajo por lotes y de streaming a gran escala para analizar flujos de datos en tiempo real con Apache Spark.
Lo que aprenderá
Para quién es este libroIngenieros de datos, analistas de datos, ingenieros de aprendizaje automático, programadores de Python y R
Autor: Alfonso Antolínez García
Editorial: Apress
Publicado: 06/06/2023
Páginas: 403
Tipo de encuadernación: Tapa blanda
Peso: 1.60lbs
Tamaño: 10.00h x 7.00w x 0.86d
ISBN13: 9781484293799
ISBN10: 1484293797
Categorías BISAC:
- Computadoras | Teoría de la información
- Computadoras | Inteligencia artificial | General
- Computadoras | Lenguajes | Python
Al completar este libro, tendrás los conocimientos y habilidades para implementar sin problemas cargas de trabajo por lotes y de streaming a gran escala para analizar flujos de datos en tiempo real con Apache Spark.
Lo que aprenderá
- Dominar los conceptos de clústeres de Spark y procesamiento de datos por lotes
- Comprender la ingesta, transformación y almacenamiento de datos
- Obtener una visión de los conceptos esenciales de procesamiento de flujos y las diferentes arquitecturas de streaming
- Implementar trabajos y aplicaciones de streaming con Spark Streaming
Para quién es este libroIngenieros de datos, analistas de datos, ingenieros de aprendizaje automático, programadores de Python y R
Autor: Alfonso Antolínez García
Editorial: Apress
Publicado: 06/06/2023
Páginas: 403
Tipo de encuadernación: Tapa blanda
Peso: 1.60lbs
Tamaño: 10.00h x 7.00w x 0.86d
ISBN13: 9781484293799
ISBN10: 1484293797
Categorías BISAC:
- Computadoras | Teoría de la información
- Computadoras | Inteligencia artificial | General
- Computadoras | Lenguajes | Python
Acerca del autor
Alfonso Antolínez García es un gerente de TI senior con una larga trayectoria profesional en varias empresas multinacionales como Bertelsmann SE, Lafarge y TUI AG. Ha trabajado en la industria de los medios, la industria de los materiales de construcción y la industria del ocio. Alfonso también trabaja como profesor universitario, impartiendo clases de inteligencia artificial, aprendizaje automático y ciencia de datos. En su tiempo libre, escribe trabajos de investigación sobre inteligencia artificial, matemáticas, física y las aplicaciones de la teoría de la información a otras ciencias.

