Descripción
Aprenda a usar, implementar y mantener Apache Spark con esta guía completa, escrita por los creadores del framework de computación en clúster de código abierto. Con énfasis en las mejoras y nuevas características de Spark 2.0, los autores Bill Chambers y Matei Zaharia desglosan los temas de Spark en secciones distintas, cada una con objetivos únicos.
Explorará las operaciones básicas y las funciones comunes de las API estructuradas de Spark, así como Structured Streaming, una nueva API de alto nivel para construir aplicaciones de streaming de principio a fin. Desarrolladores y administradores de sistemas aprenderán los fundamentos de la monitorización, ajuste y depuración de Spark, y explorarán técnicas y escenarios de aprendizaje automático para emplear MLlib, la biblioteca escalable de aprendizaje automático de Spark.
- Obtenga una visión general sencilla de big data y Spark
- Aprenda sobre DataFrames, SQL y Datasets --las API centrales de Spark-- a través de ejemplos prácticos
- Sumérjase en las API de bajo nivel de Spark, RDDs y la ejecución de SQL y DataFrames
- Comprenda cómo funciona Spark en un clúster
- Depure, monitoree y ajuste clústeres y aplicaciones de Spark
- Descubra el poder de Structured Streaming, el motor de procesamiento de flujos de Spark
- Aprenda cómo puede aplicar MLlib a una variedad de problemas, incluyendo clasificación o recomendación
Autor: Bill Chambers, Matei Zaharia
Editorial: O'Reilly Media
Publicado: 20/03/2018
Páginas: 603
Tipo de encuadernación: Tapa blanda
Peso: 2.00lbs
Tamaño: 9.10h x 6.90w x 1.20d
ISBN13: 9781491912218
ISBN10: 1491912219
Categorías BISAC:
- Informática | Ingeniería informática
- Informática | Ciencia de datos | Modelado y diseño de datos
- Informática | Ciencia de datos | Análisis de datos
Acerca del autor
Bill Chambers es gerente de producto en Databricks, centrado en análisis a gran escala, documentación sólida y colaboración en toda la organización para ayudar a los clientes a tener éxito con Spark y Databricks. Tiene una Maestría en Sistemas de Información de la Escuela de Información de UC Berkeley, donde se especializó en ciencia de datos.
Matei Zaharia es profesor asistente de informática en la Universidad de Stanford y director de tecnología en Databricks. Inició el proyecto Spark en UC Berkeley en 2009, donde era estudiante de doctorado, y continúa desempeñándose como su vicepresidente en Apache. Matei también cofundó el proyecto Apache Mesos y es un committer en Apache Hadoop. El trabajo de investigación de Matei fue reconocido con el Premio a la Tesis Doctoral de la ACM de 2014 y el Premio de Investigación de Sistemas de VMware.

