Descripción
Prepárese para desatar el poder de sus datos. Con la cuarta edición de esta guía completa, aprenderá a construir y mantener sistemas distribuidos confiables y escalables con Apache Hadoop. Este libro es ideal para programadores que buscan analizar conjuntos de datos de cualquier tamaño, y para administradores que desean configurar y ejecutar clústeres de Hadoop.
Utilizando exclusivamente Hadoop 2, el autor Tom White presenta nuevos capítulos sobre YARN y varios proyectos relacionados con Hadoop como Parquet, Flume, Crunch y Spark. Aprenderá sobre los cambios recientes en Hadoop y explorará nuevos estudios de caso sobre el papel de Hadoop en los sistemas de atención médica y el procesamiento de datos genómicos.
- Aprenda componentes fundamentales como MapReduce, HDFS y YARN
- Explore MapReduce en profundidad, incluyendo los pasos para desarrollar aplicaciones con él
- Configure y mantenga un clúster de Hadoop ejecutando HDFS y MapReduce en YARN
- Aprenda dos formatos de datos: Avro para serialización de datos y Parquet para datos anidados
- Utilice herramientas de ingesta de datos como Flume (para datos de streaming) y Sqoop (para transferencia masiva de datos)
- Comprenda cómo funcionan las herramientas de procesamiento de datos de alto nivel como Pig, Hive, Crunch y Spark con Hadoop
- Aprenda la base de datos distribuida HBase y el servicio de configuración distribuida ZooKeeper
Autor: Tom White
Editorial: O'Reilly Media
Publicado: 21/04/2015
Páginas: 756
Tipo de encuadernación: Tapa blanda
Peso: 2.60lbs
Tamaño: 9.20h x 6.90w x 1.60d
ISBN13: 9781491901632
ISBN10: 1491901632
Categorías BISAC:
- Informática | Programación | Paralelo
- Informática | Lenguajes | Java
- Informática | Ciencia de datos | Análisis de datos
Sobre el autor
Tom White ha sido un committer de Apache Hadoop desde febrero de 2007 y es miembro de la Apache Software Foundation. Trabaja para Cloudera, una empresa establecida para ofrecer soporte y capacitación de Hadoop. Anteriormente fue consultor independiente de Hadoop, trabajando con empresas para configurar, usar y extender Hadoop. Ha escrito numerosos artículos para O'Reilly, java.net y developerWorks de IBM, y ha dado conferencias en varias ocasiones, incluyendo ApacheCon 2008 sobre Hadoop. Tom tiene una licenciatura en Matemáticas de la Universidad de Cambridge y una Maestría en Filosofía de la Ciencia de la Universidad de Leeds, Reino Unido.

