{"product_id":"getting-structured-data-from-the-internet-running-web-crawlers-scrapers-on-a-big-data-production-scale","title":"Obtención de datos estructurados de Internet: Ejecución de rastreadores\/extractores web a escala de producción de Big Data","description":"\u003cp\u003eUtilice el web scraping a escala para obtener rápidamente cantidades ilimitadas de datos gratuitos disponibles en la web en un formato estructurado. Este libro le enseña a usar scripts de Python para rastrear sitios web a escala y extraer datos de páginas HTML y habilitadas para JavaScript, y convertirlos en formatos de datos estructurados como CSV, Excel, JSON, o cargarlos en una base de datos SQL de su elección. \u003c\/p\u003e\u003cp\u003eEste libro va más allá de los conceptos básicos del web scraping y cubre temas avanzados como el procesamiento del lenguaje natural (PLN) y el análisis de texto para extraer nombres de personas, lugares, direcciones de correo electrónico, detalles de contacto, etc., de una página a escala de producción utilizando técnicas de big data distribuidas en una infraestructura en la nube basada en Amazon Web Services (AWS). El libro cubre el desarrollo de un proceso sólido de procesamiento e ingesta de datos en el corpus de Common Crawl, que contiene petabytes de datos disponibles públicamente y un conjunto de datos de rastreo web disponible en el registro de datos abiertos de AWS.\u003cbr\u003e\u003c\/p\u003e\u003cb\u003e\u003ci\u003eObtención de datos estructurados de Internet\u003c\/i\u003e\u003c\/b\u003e también incluye un tutorial paso a paso sobre cómo implementar sus propios rastreadores utilizando un marco de web scraping de producción (como Scrapy) y cómo lidiar con problemas del mundo real (como el descifrado de Captcha, la rotación de IP proxy y más). Se proporciona el código utilizado en el libro para ayudarle a comprender los conceptos en la práctica y escribir su propio rastreador web para impulsar sus ideas de negocio.\u003cbr\u003e\u003cp\u003e\u003cbr\u003e\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e \u003cp\u003e\u003cb\u003eLo que aprenderá\u003c\/b\u003e\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e\u003cul\u003e\n\u003cli\u003eComprender el web scraping, sus aplicaciones\/usos y cómo evitarlo accediendo a puntos finales de API REST disponibles públicamente para obtener datos directamente.\u003c\/li\u003e\n\u003cli\u003eDesarrollar un web scraper y un rastreador desde cero utilizando las bibliotecas lxml y BeautifulSoup, y aprender a extraer datos de páginas habilitadas para JavaScript usando Selenium.\u003c\/li\u003e\n\u003cli\u003eUsar la computación en la nube basada en AWS con EC2, S3, Athena, SQS y SNS para analizar, extraer y almacenar información útil de las páginas rastreadas.\u003c\/li\u003e\n\u003cli\u003eUsar el lenguaje SQL en PostgreSQL ejecutándose en Amazon Relational Database Service (RDS) y SQLite usando SQLalchemy.\u003c\/li\u003e\n\u003cli\u003eRevisar sci-kit learn, Gensim y spaCy para realizar tareas de PNL en páginas web extraídas, como el reconocimiento de entidades con nombre, la agrupación temática (Kmeans, Aglomerative Clustering), el modelado de temas (LDA, NMF, LSI), la clasificación de temas (Naive Bayes, Gradient Boosting Classifier) y la similitud de texto (vecinos más cercanos basados en la distancia coseno).\u003c\/li\u003e\n\u003cli\u003eManejar formatos de archivo de archivo web y explorar datos abiertos de Common Crawl en AWS.\u003c\/li\u003e\n\u003cli\u003eIlustrar aplicaciones prácticas para datos de rastreo web construyendo una herramienta de sitio web similar y un perfilador de tecnología similar a builtwith.com.\u003c\/li\u003e\n\u003cli\u003eEscribir scripts para crear una base de datos de backlinks a escala web similar a Ahrefs.com, Moz.com, Majestic.com, etc., para optimización de motores de búsqueda (SEO), investigación de la competencia y determinación de la autoridad y clasificación del dominio del sitio web.\u003c\/li\u003e\n\u003cli\u003eUsar datos de rastreo web para construir un sistema de análisis de sentimiento de noticias o un análisis financiero alternativo que cubra las señales de negociación del mercado de valores.\u003c\/li\u003e\n\u003cli\u003eEscribir un rastreador listo para producción en Python utilizando el marco Scrapy y lidiar con soluciones prácticas para Captchas, rotación de IP y más.\u003c\/li\u003e\n\u003c\/ul\u003e\u003cp\u003e\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e\u003cp\u003e\u003cb\u003e\u003cbr\u003e\u003c\/b\u003e\u003c\/p\u003e\u003cp\u003e\u003cb\u003eA quién va dirigido este libro\u003c\/b\u003e\u003c\/p\u003ePúblico principal: analistas de datos y científicos con poca o ninguna exposición a los desafíos del procesamiento de datos en el mundo real; secundario: desarrolladores de software experimentados que realizan procesamiento de datos intensivo en la web y necesitan una introducción; terciario: propietarios de negocios y fundadores de startups que necesitan saber más sobre la implementación para dirigir mejor a su equipo técnico.\u003cp\u003e\u003c\/p\u003e\u003cbr\u003e\u003cbr\u003e\u003cb\u003eAutor:\u003c\/b\u003e \u003ca href=\"https:\/\/sureshotbooks-com.myshopify.com\/search?type=product%2Carticle%2Cpage\u0026amp;q=AUTH-11901546\"\u003eJay M. Patel\u003c\/a\u003e\u003cbr\u003e\u003cb\u003eEditorial:\u003c\/b\u003e Apress\u003cbr\u003e\u003cb\u003ePublicado:\u003c\/b\u003e 12\/11\/2020\u003cbr\u003e\u003cb\u003ePáginas:\u003c\/b\u003e 397\u003cbr\u003e\u003cb\u003eTipo de encuadernación:\u003c\/b\u003e Tapa blanda\u003cbr\u003e\u003cb\u003ePeso:\u003c\/b\u003e 1.60 libras\u003cbr\u003e\u003cb\u003eTamaño:\u003c\/b\u003e 10.00h x 7.00w x 0.86d\u003cbr\u003e\u003cb\u003eISBN13:\u003c\/b\u003e 9781484265758\u003cbr\u003e\u003cb\u003eISBN10:\u003c\/b\u003e 1484265750\u003cbr\u003e\u003cb\u003eCategorías BISAC:\u003c\/b\u003e\u003cbr\u003e- \u003ca href=\"https:\/\/sureshotbooks-com.myshopify.com\/search?type=product%2Carticle%2Cpage\u0026amp;q=CAT-COM\"\u003eComputadoras\u003c\/a\u003e | \u003ca href=\"https:\/\/sureshotbooks-com.myshopify.com\/search?type=product%2Carticle%2Cpage\u0026amp;q=BISAC-COM021000\"\u003eAdministración y gestión de bases de datos\u003c\/a\u003e\u003cbr\u003e- \u003ca href=\"https:\/\/sureshotbooks-com.myshopify.com\/search?type=product%2Carticle%2Cpage\u0026amp;q=CAT-COM\"\u003eComputadoras\u003c\/a\u003e | \u003ca href=\"https:\/\/sureshotbooks-com.myshopify.com\/search?type=product%2Carticle%2Cpage\u0026amp;q=BISAC-COM051010\"\u003eIdiomas | General\u003c\/a\u003e\u003cbr\u003e\u003cbr\u003e\u003cp\u003e\u003cb\u003eSobre el autor\u003c\/b\u003e\u003cbr\u003e\u003cb\u003eJay M. Patel\u003c\/b\u003e es un desarrollador de software con más de 10 años de experiencia en proyectos de minería de datos, rastreo\/scraping web, aprendizaje automático y procesamiento del lenguaje natural (PLN). Es cofundador y científico de datos principal de Specrom Analytics, que ofrece productos y servicios de contenido, correo electrónico, marketing social y escucha social utilizando rastreo\/scraping web y minería de texto avanzada.\u003c\/p\u003e\u003cp\u003e\u003c\/p\u003e Jay trabajó en la Agencia de Protección Ambiental de EE. UU. (EPA) durante cinco años, donde diseñó flujos de trabajo para rastrear y extraer información útil de cientos de miles de documentos que formaban parte de presentaciones regulatorias de empresas. También dirigió uno de los primeros equipos de investigación dentro de la agencia en utilizar flujos de trabajo basados en Apache Spark para aplicaciones de química y bioinformática, como similitudes químicas y relaciones cuantitativas estructura-actividad. Desarrolló redes neuronales recurrentes y modelos LSTM más avanzados en Tensorflow para la generación química de SMILES. \u003cp\u003e\u003c\/p\u003e \u003cp\u003eJay se graduó con una licenciatura en ingeniería del Instituto de Tecnología Química, Universidad de Mumbai, India, y una maestría en ciencias de la Universidad de Georgia, EE. UU. Jay se desempeña como editor de una publicación titulada Web Data Extraction y también escribe en su blog sobre proyectos personales, paquetes de código abierto y experiencias como fundador de una startup en su sitio personal, jaympatel.com. \u003c\/p\u003e","brand":"Apress","offers":[{"title":"Default Title","offer_id":42667546444013,"sku":"9781484265758","price":59.99,"currency_code":"USD","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0550\/8097\/6621\/products\/img_0136204d-1874-40d2-a454-6bb29695262e.jpg?v=1649447135","url":"https:\/\/sureshotbooks.com\/es\/products\/getting-structured-data-from-the-internet-running-web-crawlers-scrapers-on-a-big-data-production-scale","provider":"SureShot Books Publishing LLC","version":"1.0","type":"link"}