Análisis de datos con Python y Pyspark


Precio:
Precio de venta$79.98

Descripción

¡Piensa en grande con tus datos! PySpark lleva el potente motor de procesamiento de grandes volúmenes de datos de Spark al ecosistema de Python, permitiéndote escalar tus tareas de datos y crear pipelines ultrarrápidos.

En Data Analysis with Python and PySpark aprenderás a:

Gestionar tus datos a medida que escalan a través de múltiples máquinas
Escalar tus programas de datos con total confianza
Leer y escribir datos desde y hacia una variedad de fuentes y formatos
Lidiar con datos desordenados con la funcionalidad de manipulación de datos de PySpark
Descubrir nuevos conjuntos de datos y realizar análisis de datos exploratorios
Construir pipelines de datos automatizados que transforman, resumen y obtienen información de los datos
Solucionar errores comunes de PySpark
Crear trabajos fiables de larga duración

Data Analysis with Python and PySpark es tu guía para entregar proyectos de datos exitosos basados en Python. Repleto de ejemplos relevantes y técnicas esenciales, este libro práctico te enseña a construir pipelines para informes, aprendizaje automático y otras tareas centradas en datos. Los ejercicios rápidos en cada capítulo te ayudan a practicar lo que has aprendido y a comenzar a implementar PySpark en tus sistemas de datos rápidamente. No se requiere conocimiento previo de Spark.

La compra del libro impreso incluye un eBook gratuito en formatos PDF, Kindle y ePub de Manning Publications.

Sobre la tecnología
El motor de procesamiento de datos Spark es una increíble fábrica de análisis: entran datos brutos, sale información. PySpark envuelve el motor central de Spark con una API basada en Python. Ayuda a simplificar la empinada curva de aprendizaje de Spark y pone esta potente herramienta a disposición de cualquiera que trabaje en el ecosistema de datos de Python.

Sobre el libro
Data Analysis with Python and PySpark te ayuda a resolver los desafíos diarios de la ciencia de datos con PySpark. Aprenderás a escalar tus capacidades de procesamiento a través de múltiples máquinas mientras ingieres datos desde cualquier fuente, ya sean clústeres de Hadoop, almacenamiento de datos en la nube o archivos de datos locales. Una vez que hayas cubierto los fundamentos, explorarás la versatilidad completa de PySpark construyendo pipelines de aprendizaje automático y combinando código de Python, pandas y PySpark.

Qué hay dentro

Organizar tu código PySpark
Gestionar tus datos, sin importar el tamaño
Escalar tus programas de datos con total confianza
Solucionar problemas comunes de pipelines de datos
Crear trabajos fiables de larga duración

Sobre el lector
Escrito para científicos e ingenieros de datos familiarizados con Python.

Sobre el autor
Como director de ML para una empresa de software basada en datos, Jonathan Rioux utiliza PySpark a diario. Enseña el software a científicos de datos, ingenieros y analistas de negocios expertos en datos.

Tabla de contenido

1 Introducción
PARTE 1 FAMILIARÍZATE: PRIMEROS PASOS EN PYSPARK
2 Tu primer programa de datos en PySpark
3 Enviando y escalando tu primer programa PySpark
4 Analizando datos tabulares con pyspark.sql
5 Gimnasia con dataframes: Uniendo y agrupando
PARTE 2 ADQUIERE DESTREZA: TRADUCE TUS IDEAS EN CÓDIGO
6 Dataframes multidimensionales: Usando PySpark con datos JSON
7 PySpark bilingüe: Combinando código Python y SQL
8 Extendiendo PySpark con Python: RDD y UDFs
9 Los grandes datos son solo muchos datos pequeños: Usando pandas UDFs
10 Tus datos bajo una lente diferente: Funciones de ventana
11 PySpark más rápido: Entendiendo la planificación de consultas de Spark
PARTE 3 GANA CONFIANZA: USANDO APRENDIZAJE AUTOMÁTICO CON PYSPARK
12 Preparando el escenario: Preparando características para el aprendizaje automático
13 Aprendizaje automático robusto con ML Pipelines
14 Construyendo transformadores y estimadores de ML personalizados

Autor: Jonathan Rioux
Editorial: Manning Publications
Publicado: 22/03/2022
Páginas: 456
Tipo de encuadernación: Tapa blanda
Peso: 1.67 libras
Tamaño: 9.13h x 7.32w x 1.10d
ISBN13: 9781617297205
ISBN10: 1617297208
Categorías BISAC:
- Informática | Ciencia de Datos | Análisis de Datos
- Informática | Lenguajes | Python

Acerca del autor
Como científico de datos para una consultoría de ingeniería, Jonathan Rioux utiliza PySpark a diario. Enseña el software a científicos de datos, ingenieros y analistas de negocios con conocimientos de datos.