Análisis avanzados con Spark: patrones para aprender de datos a escala


Precio:
Precio de venta$59.99

Descripción

En la segunda edición de este libro práctico, cuatro científicos de datos de Cloudera presentan un conjunto de patrones autocontenidos para realizar análisis de datos a gran escala con Spark. Los autores combinan Spark, métodos estadísticos y conjuntos de datos del mundo real para enseñarte cómo abordar los problemas de análisis mediante ejemplos. Actualizado para Spark 2.1, esta edición sirve como una introducción a estas técnicas y otras mejores prácticas en la programación de Spark.

Comenzarás con una introducción a Spark y su ecosistema, para luego profundizar en patrones que aplican técnicas comunes, incluyendo clasificación, agrupamiento, filtrado colaborativo y detección de anomalías, a campos como la genómica, la seguridad y las finanzas.

Si tienes un nivel de comprensión básico de aprendizaje automático y estadísticas, y programas en Java, Python o Scala, encontrarás los patrones del libro útiles para trabajar en tus propias aplicaciones de datos.

Con este libro, podrás:

  • Familiarizarte con el modelo de programación de Spark
  • Sentirte cómodo dentro del ecosistema de Spark
  • Aprender enfoques generales en ciencia de datos
  • Examinar implementaciones completas que analizan grandes conjuntos de datos públicos
  • Descubrir qué herramientas de aprendizaje automático son adecuadas para problemas particulares
  • Adquirir código que puede adaptarse a muchos usos


Autor: Sandy Ryza, Uri Laserson, Sean Owen
Editorial: O'Reilly Media
Publicado: 18/07/2017
Páginas: 280
Tipo de encuadernación: Tapa blanda
Peso: 0.90 libras
Tamaño: 9.10h x 7.00w x 0.50d
ISBN13: 9781491972953
ISBN10: 1491972955
Categorías BISAC:
- Informática | Ciencia de Datos | Modelado y Diseño de Datos
- Informática | Sistemas Distribuidos | General
- Informática | Programación | Algoritmos

Acerca del autor

Sandy Ryza desarrolla algoritmos para el transporte público en Remix. Anteriormente, fue científico de datos sénior en Cloudera y Clover Health. Es un committer de Apache Spark, miembro del PMC de Apache Hadoop y fundador del proyecto Time Series for Spark. Es el ganador del premio Twining 2012 del departamento de informática de la Universidad de Brown por ser el más "relajado".

Uri Laserson es Profesor Asistente de Genética en la Escuela de Medicina Icahn del Monte Sinaí, donde desarrolla tecnología escalable para genómica e inmunología utilizando el ecosistema Hadoop.

Sean Owen es Director de Ciencia de Datos en Cloudera. Es un committer y miembro del PMC de Apache Spark, y fue committer de Apache Mahout.

Josh Wills es el Jefe de Ingeniería de Datos en Slack, el fundador del proyecto Apache Crunch, y una vez escribió un tuit sobre los científicos de datos.