Aprendiendo Spark: Análisis de datos a la velocidad del rayo


Precio:
Precio de venta$79.99

Descripción

Los datos son más grandes, llegan más rápido y en una variedad de formatos, y todo ello debe procesarse a escala para análisis o aprendizaje automático. Pero, ¿cómo se pueden procesar cargas de trabajo tan variadas de manera eficiente? Presentamos Apache Spark.

Actualizada para incluir Spark 3.0, esta segunda edición muestra a los ingenieros y científicos de datos por qué la estructura y la unificación en Spark son importantes. Específicamente, este libro explica cómo realizar análisis de datos simples y complejos y emplear algoritmos de aprendizaje automático. A través de tutoriales paso a paso, fragmentos de código y cuadernos, podrás:

  • Aprender las API estructuradas de alto nivel de Python, SQL, Scala o Java
  • Comprender las operaciones de Spark y el motor SQL
  • Inspeccionar, ajustar y depurar las operaciones de Spark con las configuraciones de Spark y la interfaz de usuario de Spark
  • Conectarse a fuentes de datos: JSON, Parquet, CSV, Avro, ORC, Hive, S3 o Kafka
  • Realizar análisis en datos por lotes y de transmisión utilizando Structured Streaming
  • Construir canalizaciones de datos confiables con Delta Lake de código abierto y Spark
  • Desarrollar canalizaciones de aprendizaje automático con MLlib y poner modelos en producción utilizando MLflow


Autor: Jules S. Damji, Brooke Wenig, Tathagata Das
Editorial: O'Reilly Media
Publicado: 11/08/2020
Páginas: 400
Tipo de encuadernación: Tapa blanda
Peso: 1.40 libras
Tamaño: 9.20h x 7.00w x 0.90d
ISBN13: 9781492050049
ISBN10: 1492050040
Categorías BISAC:
- Computadoras | Ciencia de Datos | General
- Computadoras | Software Empresarial y de Productividad | General
- Computadoras | Lenguajes | Java

Acerca del Autor

Jules S. Damji es un defensor senior de desarrolladores en Databricks y colaborador de MLflow. Es un desarrollador práctico con más de 20 años de experiencia y ha trabajado como ingeniero de software en empresas líderes como Sun Microsystems, Netscape, @Home, Loudcloud/Opsware, Verisign, ProQuest y Hortonworks, construyendo sistemas distribuidos a gran escala. Posee una licenciatura y una maestría en ciencias de la computación y una maestría en defensa política y comunicación de la Universidad Estatal de Oregón, Cal State y la Universidad Johns Hopkins, respectivamente.

Brooke Wenig es líder de práctica de aprendizaje automático en Databricks. Dirige un equipo de científicos de datos que desarrollan canalizaciones de aprendizaje automático a gran escala para clientes, además de impartir cursos sobre las mejores prácticas de aprendizaje automático distribuido. Anteriormente, fue consultora principal de ciencia de datos en Databricks. Posee una maestría en ciencias de la computación de UCLA con un enfoque en aprendizaje automático distribuido.

Tathagata Das es ingeniero de software en Databricks, un committer de Apache Spark y miembro del Comité de Gestión de Proyectos (PMC) de Apache Spark. Es uno de los desarrolladores originales de Apache Spark, el desarrollador principal de Spark Streaming (DStreams) y actualmente es uno de los desarrolladores principales de Structured Streaming y Delta Lake. Tathagata posee una maestría en ciencias de la computación de UC Berkeley.

Denny Lee es un defensor de desarrolladores en Databricks que ha trabajado con Apache Spark desde la versión 0.6. Es un ingeniero práctico en sistemas distribuidos y ciencias de datos con amplia experiencia en el desarrollo de infraestructura a escala de Internet, plataformas de datos y sistemas de análisis predictivo tanto para entornos locales como en la nube. También tiene una maestría en informática biomédica de la Universidad de Salud y Ciencias de Oregón y ha diseñado e implementado potentes soluciones de datos para clientes de atención médica empresarial.