Minería de texto con R: Un enfoque tidy


Precio:
Precio de venta$39.99

Descripción

Gran parte de los datos disponibles hoy en día no están estructurados y contienen mucho texto, lo que dificulta a los analistas aplicar sus herramientas habituales de manipulación y visualización de datos. Con este práctico libro, explorará técnicas de minería de texto con tidytext, un paquete que las autoras Julia Silge y David Robinson desarrollaron utilizando los principios tidy detrás de paquetes R como ggraph y dplyr. Aprenderá cómo tidytext y otras herramientas tidy en R pueden hacer que el análisis de texto sea más fácil y efectivo.

Los autores demuestran cómo tratar el texto como marcos de datos le permite manipular, resumir y visualizar las características del texto. También aprenderá a integrar el procesamiento del lenguaje natural (PLN) en flujos de trabajo efectivos. Ejemplos de código prácticos y exploraciones de datos le ayudarán a generar información real a partir de la literatura, las noticias y las redes sociales.

  • Aprenda a aplicar el formato de texto tidy al PLN
  • Utilice el análisis de sentimientos para extraer el contenido emocional del texto
  • Identifique los términos más importantes de un documento con mediciones de frecuencia
  • Explore las relaciones y conexiones entre palabras con los paquetes ggraph y widyr
  • Convierta entre los formatos de texto tidy y no tidy de R
  • Utilice el modelado de temas para clasificar colecciones de documentos en grupos naturales
  • Examine estudios de caso que comparan archivos de Twitter, investigan metadatos de la NASA y analizan miles de mensajes de Usenet


Autor: Julia Silge, David Robinson
Editorial: O'Reilly Media
Publicado: 18/07/2017
Páginas: 194
Tipo de encuadernación: Tapa blanda
Peso: 0.60lbs
Tamaño: 9.10h x 6.90w x 0.40d
ISBN13: 9781491981658
ISBN10: 1491981652
Categorías BISAC:
- Computadoras | Inteligencia Artificial | Procesamiento del Lenguaje Natural
- Computadoras | Ciencia de Datos | Visualización de Datos
- Computadoras | Ciencia de Datos | Análisis de Datos

Sobre el autor

Julia Silge es científica de datos en Stack Overflow; su trabajo implica analizar conjuntos de datos complejos y comunicar temas técnicos a diversas audiencias. Tiene un doctorado en astrofísica y le encantan Jane Austen y hacer gráficos hermosos. Julia trabajó en el mundo académico y en tecnología educativa antes de pasar a la ciencia de datos y descubrir el lenguaje de programación estadística R.

David Robinson es científico de datos en Stack Overflow con un doctorado en Biología Cuantitativa y Computacional de la Universidad de Princeton. Disfruta desarrollando paquetes R de código abierto, incluidos broom, gganimate, fuzzyjoin y widyr, así como escribiendo en su blog, Variance Explained, sobre estadísticas, R y minería de texto.