Descripción
Este libro ofrece una guía completa y moderna sobre web scraping, utilizando Python como lenguaje de programación, sin pasar por alto detalles importantes o mejores prácticas. Escrito pensando en una audiencia de ciencia de datos, el libro explora tanto el scraping como el contexto más amplio de las tecnologías web en las que opera, para garantizar una comprensión completa. Los autores recomiendan el web scraping como una herramienta poderosa para el arsenal de cualquier científico de datos, ya que muchos proyectos de ciencia de datos comienzan obteniendo un conjunto de datos apropiado.
Comenzando con una breve descripción del scraping y casos de uso en la vida real, los autores exploran los conceptos centrales de HTTP, HTML y CSS para proporcionar una base sólida. Junto con una rápida introducción a Python, cubren Selenium para sitios con mucho JavaScript y el rastreo web en detalle. El libro finaliza con un resumen de las mejores prácticas y una colección de ejemplos que unen todo lo aprendido e ilustran varios casos de uso de la ciencia de datos.Lo que aprenderá
- Aprovechar las mejores prácticas bien establecidas y los paquetes de Python de uso común
- Manejar la web actual, incluyendo JavaScript, cookies y técnicas comunes de mitigación de web scraping
- Comprender las preocupaciones gerenciales y legales relacionadas con el web scraping
Una audiencia orientada a la ciencia de datos que probablemente ya esté familiarizada con Python u otro lenguaje de programación o kit de herramientas analíticas (R, SAS, SPSS, etc.). Los estudiantes o instructores de cursos universitarios también pueden beneficiarse. Los lectores no familiarizados con Python apreciarán una breve introducción a Python en el capítulo 1 para ponerse al día con los conceptos básicos y proporcionar referencias a otras guías.
Autor: Seppe Vanden Broucke, Bart Baesens
Editorial: Apress
Publicado: 19/04/2018
Páginas: 306
Tipo de encuadernación: Tapa blanda
Peso: 1.24 libras
Tamaño: 10.00h x 7.00w x 0.68d
ISBN13: 9781484235812
ISBN10: 1484235819
Categorías BISAC:
- Informática | Lenguajes | Python
- Informática | Administración y gestión de bases de datos
- Empresa y Economía | Industrias | Informática y Tecnología de la Información
Sobre el autor
Seppe vanden Broucke es profesor asistente de ciencia de datos y procesos en la Facultad de Economía y Empresa, KU Leuven, Bélgica. Sus intereses de investigación incluyen la minería de datos empresariales y el análisis, el aprendizaje automático, la gestión de procesos y la minería de procesos. Su trabajo ha sido publicado en reconocidas revistas internacionales y presentado en las principales conferencias. La enseñanza de Seppe incluye cursos de Análisis Avanzado, Big Data y Gestión de la Información. También imparte frecuentemente cursos para audiencias industriales y empresariales. Además del trabajo, Seppe disfruta viajar, leer (de Murakami a Bukowski a Asimov), escuchar música (de Booka Shade a Miles Davis a Claude Debussy), ver películas y series (menos en estos días por falta de tiempo), jugar y mantenerse al día con las noticias.
Bart Baesens es profesor de big data y análisis en la KU Leuven, Bélgica, y profesor en la Universidad de Southampton, Reino Unido. Ha realizado una extensa investigación sobre big data y análisis, modelado de riesgo crediticio, detección de fraude y análisis de marketing. Bart ha escrito más de 200 artículos científicos y varios libros. Además de disfrutar del tiempo con su familia, también es un fanático del Club Brujas de fútbol. Bart es un gourmet y cocinero aficionado. Le encanta beber una buena copa de vino (sus favoritos son el Viognier blanco o el Cabernet Sauvignon tinto) ya sea en su bodega o mientras contempla la auténtica cabina telefónica roja inglesa en su jardín. A Bart le encanta viajar y le fascina la Primera Guerra Mundial, y lee muchos libros sobre el tema.
