Descripción
Esta guía, completamente revisada, demuestra cómo la flexibilidad de la línea de comandos puede ayudarte a convertirte en un científico de datos más eficiente y productivo. Aprenderás a combinar herramientas pequeñas pero potentes de línea de comandos para obtener, limpiar, explorar y modelar tus datos rápidamente. Para empezar, el autor Jeroen Janssens proporciona una imagen de Docker con más de 100 herramientas de Unix, útiles ya sea que trabajes con Windows, macOS o Linux.
Descubrirás rápidamente por qué la línea de comandos es una tecnología ágil, escalable y extensible. Incluso si te sientes cómodo procesando datos con Python o R, aprenderás cómo mejorar enormemente tu flujo de trabajo de ciencia de datos aprovechando el poder de la línea de comandos. Este libro es ideal para científicos de datos, analistas, ingenieros, administradores de sistemas e investigadores.
- Obtén datos de sitios web, APIs, bases de datos y hojas de cálculo
- Realiza operaciones de limpieza en archivos de texto, CSV, HTML, XML y JSON
- Explora datos, calcula estadísticas descriptivas y crea visualizaciones
- Gestiona tu flujo de trabajo de ciencia de datos
- Crea tus propias herramientas a partir de comandos de una sola línea y código Python o R existente
- Paraleliza y distribuye pipelines intensivos en datos
- Modela datos con algoritmos de reducción de dimensionalidad, regresión y clasificación
- Aprovecha la línea de comandos desde Python, Jupyter, R, RStudio y Apache Spark
Autor: Jeroen Janssens
Editorial: O'Reilly Media
Publicado: 07/09/2021
Páginas: 282
Tipo de encuadernación: Tapa blanda
Peso: 1.00lbs
Tamaño: 9.19h x 7.00w x 0.59d
ISBN13: 9781492087915
ISBN10: 1492087912
Categorías BISAC:
- Informática | Administración y gestión de bases de datos
- Informática | Sistemas operativos | Linux
- Informática | Software matemático y estadístico
Sobre el autor
Jeroen Janssens enseña ciencia de datos; a menudo a través de capacitación y coaching, ocasionalmente a través de charlas, y con poca frecuencia a través de la escritura. Sus intereses incluyen la visualización de datos, la construcción de modelos de aprendizaje automático y la automatización de cosas utilizando Python, R o Bash. Es el autor de Data Science at the Command Line, publicado por O'Reilly Media. Jeroen tiene un doctorado en aprendizaje automático de la Universidad de Tilburg y una maestría en inteligencia artificial de la Universidad de Maastricht. Anteriormente, fue profesor asistente en la Jheronimus Academy of Data Science y científico de datos en Elsevier en Ámsterdam y en varias startups en la ciudad de Nueva York. Actualmente, Jeroen es el CEO de Data Science Workshops, que organiza talleres de inscripción abierta, cursos internos, sesiones de inspiración, hackatones y encuentros. Todo relacionado con la ciencia de datos, por supuesto. Vive con su esposa y dos hijos en Róterdam, Países Bajos.

