Descripción
Apache Spark es asombroso cuando todo funciona a la perfección. Pero si no ha visto las mejoras de rendimiento que esperaba, o aún no se siente lo suficientemente seguro como para usar Spark en producción, este libro práctico es para usted. Los autores Holden Karau y Rachel Warren demuestran optimizaciones de rendimiento para ayudar a que sus consultas de Spark se ejecuten más rápido y manejen tamaños de datos más grandes, utilizando menos recursos.
Ideal para ingenieros de software, ingenieros de datos, desarrolladores y administradores de sistemas que trabajan con aplicaciones de datos a gran escala, este libro describe técnicas que pueden reducir los costos de infraestructura de datos y las horas de desarrollador. No solo obtendrá una comprensión más completa de Spark, sino que también aprenderá cómo sacarle el máximo partido.
Con este libro, explorará:
- Cómo las nuevas interfaces de Spark SQL mejoran el rendimiento sobre la estructura de datos RDD de SQL
- La elección entre uniones de datos en Core Spark y Spark SQL
- Técnicas para aprovechar al máximo las transformaciones RDD estándar
- Cómo solucionar problemas de rendimiento en el paradigma de pares clave/valor de Spark
- Cómo escribir código Spark de alto rendimiento sin Scala ni la JVM
- Cómo probar la funcionalidad y el rendimiento al aplicar las mejoras sugeridas
- Uso de las bibliotecas de aprendizaje automático Spark MLlib y Spark ML
- Componentes de transmisión de Spark y paquetes comunitarios externos
Autor: Holden Karau, Rachel Warren
Editorial: O'Reilly Media
Publicado: 06/16/2017
Páginas: 358
Tipo de encuadernación: Tapa blanda
Peso: 1.20lbs
Tamaño: 9.20h x 7.00w x 0.70d
ISBN13: 9781491943205
ISBN10: 1491943203
Categorías BISAC:
- Computadoras | Ciencia de Datos | General
- Computadoras | Ciencia de Datos | Análisis de Datos
- Computadoras | Programación | Código Abierto
Acerca del autor
Holden Karau es una mujer transgénero canadiense y una activa colaboradora de código abierto. Cuando no está en San Francisco trabajando como ingeniera de desarrollo de software en el Centro de Tecnología Spark de IBM, Holden da charlas internacionales sobre Apache Spark y atiende consultas en cafeterías en casa y en el extranjero. Es una contribuidora frecuente de Spark, especializándose en PySpark y Aprendizaje Automático. Antes de IBM, trabajó en una variedad de problemas distribuidos, de búsqueda y clasificación en Alpine, Databricks, Google, Foursquare y Amazon. Se graduó de la Universidad de Waterloo con una Licenciatura en Matemáticas en Ciencias de la Computación. Fuera del software, le gusta jugar con fuego, soldar, los patinetes, la poutine y bailar.
Rachel Warren es científica de datos e ingeniera de software en Alpine Data Labs, donde utiliza Spark para abordar desafíos de procesamiento de datos del mundo real. Tiene experiencia trabajando como analista tanto en la industria como en la academia. Se graduó con un título en Ciencias de la Computación de la Universidad Wesleyan en Connecticut.

