Obtención de datos estructurados de Internet: Ejecución de rastreadores/extractores web a escala de producción de Big Data


Precio:
Precio de venta$59.99

Descripción

Utilice el web scraping a escala para obtener rápidamente cantidades ilimitadas de datos gratuitos disponibles en la web en un formato estructurado. Este libro le enseña a usar scripts de Python para rastrear sitios web a escala y extraer datos de páginas HTML y habilitadas para JavaScript, y convertirlos en formatos de datos estructurados como CSV, Excel, JSON, o cargarlos en una base de datos SQL de su elección.

Este libro va más allá de los conceptos básicos del web scraping y cubre temas avanzados como el procesamiento del lenguaje natural (PLN) y el análisis de texto para extraer nombres de personas, lugares, direcciones de correo electrónico, detalles de contacto, etc., de una página a escala de producción utilizando técnicas de big data distribuidas en una infraestructura en la nube basada en Amazon Web Services (AWS). El libro cubre el desarrollo de un proceso sólido de procesamiento e ingesta de datos en el corpus de Common Crawl, que contiene petabytes de datos disponibles públicamente y un conjunto de datos de rastreo web disponible en el registro de datos abiertos de AWS.

Obtención de datos estructurados de Internet también incluye un tutorial paso a paso sobre cómo implementar sus propios rastreadores utilizando un marco de web scraping de producción (como Scrapy) y cómo lidiar con problemas del mundo real (como el descifrado de Captcha, la rotación de IP proxy y más). Se proporciona el código utilizado en el libro para ayudarle a comprender los conceptos en la práctica y escribir su propio rastreador web para impulsar sus ideas de negocio.


Lo que aprenderá

  • Comprender el web scraping, sus aplicaciones/usos y cómo evitarlo accediendo a puntos finales de API REST disponibles públicamente para obtener datos directamente.
  • Desarrollar un web scraper y un rastreador desde cero utilizando las bibliotecas lxml y BeautifulSoup, y aprender a extraer datos de páginas habilitadas para JavaScript usando Selenium.
  • Usar la computación en la nube basada en AWS con EC2, S3, Athena, SQS y SNS para analizar, extraer y almacenar información útil de las páginas rastreadas.
  • Usar el lenguaje SQL en PostgreSQL ejecutándose en Amazon Relational Database Service (RDS) y SQLite usando SQLalchemy.
  • Revisar sci-kit learn, Gensim y spaCy para realizar tareas de PNL en páginas web extraídas, como el reconocimiento de entidades con nombre, la agrupación temática (Kmeans, Aglomerative Clustering), el modelado de temas (LDA, NMF, LSI), la clasificación de temas (Naive Bayes, Gradient Boosting Classifier) y la similitud de texto (vecinos más cercanos basados en la distancia coseno).
  • Manejar formatos de archivo de archivo web y explorar datos abiertos de Common Crawl en AWS.
  • Ilustrar aplicaciones prácticas para datos de rastreo web construyendo una herramienta de sitio web similar y un perfilador de tecnología similar a builtwith.com.
  • Escribir scripts para crear una base de datos de backlinks a escala web similar a Ahrefs.com, Moz.com, Majestic.com, etc., para optimización de motores de búsqueda (SEO), investigación de la competencia y determinación de la autoridad y clasificación del dominio del sitio web.
  • Usar datos de rastreo web para construir un sistema de análisis de sentimiento de noticias o un análisis financiero alternativo que cubra las señales de negociación del mercado de valores.
  • Escribir un rastreador listo para producción en Python utilizando el marco Scrapy y lidiar con soluciones prácticas para Captchas, rotación de IP y más.


A quién va dirigido este libro

Público principal: analistas de datos y científicos con poca o ninguna exposición a los desafíos del procesamiento de datos en el mundo real; secundario: desarrolladores de software experimentados que realizan procesamiento de datos intensivo en la web y necesitan una introducción; terciario: propietarios de negocios y fundadores de startups que necesitan saber más sobre la implementación para dirigir mejor a su equipo técnico.



Autor: Jay M. Patel
Editorial: Apress
Publicado: 12/11/2020
Páginas: 397
Tipo de encuadernación: Tapa blanda
Peso: 1.60 libras
Tamaño: 10.00h x 7.00w x 0.86d
ISBN13: 9781484265758
ISBN10: 1484265750
Categorías BISAC:
- Computadoras | Administración y gestión de bases de datos
- Computadoras | Idiomas | General

Sobre el autor
Jay M. Patel es un desarrollador de software con más de 10 años de experiencia en proyectos de minería de datos, rastreo/scraping web, aprendizaje automático y procesamiento del lenguaje natural (PLN). Es cofundador y científico de datos principal de Specrom Analytics, que ofrece productos y servicios de contenido, correo electrónico, marketing social y escucha social utilizando rastreo/scraping web y minería de texto avanzada.

Jay trabajó en la Agencia de Protección Ambiental de EE. UU. (EPA) durante cinco años, donde diseñó flujos de trabajo para rastrear y extraer información útil de cientos de miles de documentos que formaban parte de presentaciones regulatorias de empresas. También dirigió uno de los primeros equipos de investigación dentro de la agencia en utilizar flujos de trabajo basados en Apache Spark para aplicaciones de química y bioinformática, como similitudes químicas y relaciones cuantitativas estructura-actividad. Desarrolló redes neuronales recurrentes y modelos LSTM más avanzados en Tensorflow para la generación química de SMILES.

Jay se graduó con una licenciatura en ingeniería del Instituto de Tecnología Química, Universidad de Mumbai, India, y una maestría en ciencias de la Universidad de Georgia, EE. UU. Jay se desempeña como editor de una publicación titulada Web Data Extraction y también escribe en su blog sobre proyectos personales, paquetes de código abierto y experiencias como fundador de una startup en su sitio personal, jaympatel.com.