Descripción
Gestione y automatice el análisis de datos con Pandas en Python
Hoy en día, los analistas deben gestionar datos caracterizados por una variedad, velocidad y volumen extraordinarios. Utilizando la biblioteca de código abierto Pandas, puede usar Python para automatizar y realizar rápidamente prácticamente cualquier tarea de análisis de datos, sin importar cuán grande o compleja sea. Pandas puede ayudarlo a garantizar la veracidad de sus datos, visualizarlos para una toma de decisiones efectiva y reproducir análisis de manera confiable en múltiples conjuntos de datos.
Pandas para todos, 2.ª edición, reúne conocimientos prácticos y perspectivas para resolver problemas reales con Pandas, incluso si es nuevo en el análisis de datos con Python. Daniel Y. Chen presenta conceptos clave a través de ejemplos simples pero prácticos, construyéndolos incrementalmente para resolver problemas de ciencia de datos del mundo real más difíciles, como el uso de la regularización para evitar el sobreajuste de datos, o cuándo usar métodos de aprendizaje automático no supervisado para encontrar la estructura subyacente en un conjunto de datos. Las nuevas características de la segunda edición incluyen:- Cobertura extendida de trazado y la biblioteca de visualización de datos seaborn
- Ejemplos y recursos ampliados
- Cobertura actualizada de código y paquetes de Python 3.9, incluidas las bibliotecas statsmodels y scikit-learn
- Material adicional en línea sobre geopandas, Dask y creación de gráficos interactivos con Altair
Chen le da una ventaja inicial en el uso de Pandas con un conjunto de datos realista y cubre la combinación de conjuntos de datos, el manejo de datos faltantes y la estructuración de conjuntos de datos para un análisis y visualización más fáciles. Demuestra potentes técnicas de limpieza de datos, desde la manipulación básica de cadenas hasta la aplicación de funciones simultáneamente en marcos de datos.
- Trabaje con DataFrames y Series, e importe o exporte datos
- Cree gráficos con matplotlib, seaborn y pandas
- Combine conjuntos de datos y maneje datos faltantes
- Reorganice, ordene y limpie conjuntos de datos para que sean más fáciles de trabajar
- Convierta tipos de datos y manipule cadenas de texto
- Aplique funciones para escalar manipulaciones de datos
- Agregue, transforme y filtre grandes conjuntos de datos con groupby
- Aproveche las capacidades avanzadas de fecha y hora de Pandas
- Ajuste modelos lineales usando las bibliotecas statsmodels y scikit-learn
- Use modelado lineal generalizado para ajustar modelos con diferentes variables de respuesta
- Compare múltiples modelos para seleccionar el "mejor"
- Regularice para superar el sobreajuste y mejorar el rendimiento
- Use agrupamiento en el aprendizaje automático no supervisado
Autor: Daniel Chen
Editorial: Addison-Wesley Professional
Publicado: 30/12/2022
Páginas: 512
Tipo de encuadernación: Tapa blanda
Peso: 1.75lbs
Tamaño: 8.70h x 7.10w x 1.50d
ISBN13: 9780137891153
ISBN10: 0137891156
Categorías BISAC:
- Informática | Lenguajes | Python
- Informática | Ciencia de datos | Almacenamiento de datos
Sobre el autor
Daniel Chen es estudiante de posgrado en el programa de doctorado interdisciplinario en Genética, Bioinformática y Biología Computacional (GBCB) en la Universidad Politécnica y Estatal de Virginia (Virginia Tech). Participa en Software Carpentry como instructor, miembro del Comité de Mentoría y actualmente se desempeña como Presidente del Comité de Evaluación. Completó su Maestría en Salud Pública en la Escuela de Salud Pública Mailman de la Universidad de Columbia en Epidemiología con un certificado en Epidemiología Avanzada y actualmente está ampliando su trabajo de tesis de maestría en el Laboratorio de Análisis Social y de Decisiones bajo el Instituto de Bioinformática de Virginia sobre la difusión de actitudes en redes sociales.

