Dominando Spark con R: La guía completa para el análisis y modelado a gran escala


Precio:
Precio de venta$55.99

Descripción

Si eres como la mayoría de los usuarios de R, tienes un profundo conocimiento y amor por las estadísticas. Pero a medida que tu organización continúa recolectando grandes cantidades de datos, agregar herramientas como Apache Spark tiene mucho sentido. Con este libro práctico, los científicos de datos y profesionales que trabajan con aplicaciones de datos a gran escala aprenderán cómo usar Spark desde R para abordar problemas de big data y big compute.

Los autores Javier Luraschi, Kevin Kuo y Edgar Ruiz te muestran cómo usar R con Spark para resolver diferentes problemas de análisis de datos. Este libro cubre temas relevantes de ciencia de datos, computación en clúster y problemas que deberían interesar incluso a los usuarios más avanzados.

  • Analizar, explorar, transformar y visualizar datos en Apache Spark con R
  • Crear modelos estadísticos para extraer información y predecir resultados; automatizar el proceso en flujos de trabajo listos para producción
  • Realizar análisis y modelado en muchas máquinas usando técnicas de computación distribuida
  • Usar datos a gran escala de múltiples fuentes y diferentes formatos con facilidad desde Spark
  • Aprender sobre marcos de modelado alternativos para procesamiento de gráficos, análisis geoespacial y genómica a escala
  • Sumergirse en temas avanzados que incluyen transformaciones personalizadas, procesamiento de datos en tiempo real y creación de extensiones personalizadas de Spark


Autor: Javier Luraschi, Kevin Kuo, Edgar Ruiz
Editorial: O'Reilly Media
Publicado: 19/11/2019
Páginas: 293
Tipo de encuadernación: Tapa blanda
Peso: 1.05lbs
Tamaño: 9.19h x 7.00w x 0.62d
ISBN13: 9781492046370
ISBN10: 149204637X
Categorías BISAC:
- Informática | Ciencia de Datos | Análisis de Datos
- Informática | Lenguajes | General
- Informática | Ingeniería informática

Sobre el Autor

Javier es un ingeniero de software con experiencia en tecnologías que van desde aplicaciones de escritorio, web, móviles y backend, hasta realidad aumentada y aprendizaje profundo. Anteriormente trabajó para Microsoft Research y SAP y tiene una doble titulación en Matemáticas e Ingeniería de Software. Es autor de varios paquetes R como sparklyr, cloudml, r2d3, mlflow, tfdeploy y kerasjs.

Kevin construye bibliotecas de código abierto para aprendizaje automático e implementación de modelos. Ha ocupado puestos de científico de datos en varias industrias, incluida la de seguros, donde fue actuario acreditado. Kevin es el creador de mlflow, mleap, sparkxgb entre varios paquetes R. También es un mixólogo y sommelier aficionado.

Edgar Ruiz tiene experiencia en la implementación de soluciones de informes empresariales y inteligencia de negocios. Es autor de múltiples artículos y publicaciones de blog que comparten ideas de análisis e infraestructura de servidor para la ciencia de datos. Edgar es el autor y administrador del sitio web db.rstudio.com, y el administrador actual del sitio web sparklyr. También es coautor del paquete dbplyr, y creador de los paquetes dbplot, tidypredict y modeldb.