Descripción
Crear y probar modelos de aprendizaje automático requiere acceso a datos grandes y diversos. Pero, ¿dónde puedes encontrar conjuntos de datos utilizables sin encontrarte con problemas de privacidad? Este libro práctico presenta técnicas para generar datos sintéticos (datos falsos generados a partir de datos reales) para que puedas realizar análisis secundarios para investigar, comprender el comportamiento del cliente, desarrollar nuevos productos o generar nuevos ingresos.
Los científicos de datos aprenderán cómo la generación de datos sintéticos proporciona una forma de hacer que dichos datos estén ampliamente disponibles para fines secundarios, al mismo tiempo que abordan muchas preocupaciones de privacidad. Los analistas aprenderán los principios y los pasos para generar datos sintéticos a partir de conjuntos de datos reales. Y los líderes empresariales verán cómo los datos sintéticos pueden ayudar a acelerar el tiempo de lanzamiento de un producto o solución.
Este libro describe:
- Pasos para generar datos sintéticos utilizando distribuciones normales multivariadas
- Métodos para el ajuste de distribución que cubren diferentes métricas de bondad de ajuste
- Cómo replicar la estructura simple de los datos originales
- Un enfoque para modelar la estructura de datos para considerar relaciones complejas
- Múltiples enfoques y métricas que se pueden usar para evaluar la utilidad de los datos
- Cómo se puede replicar el análisis realizado en datos reales con datos sintéticos
- Implicaciones de privacidad de los datos sintéticos y métodos para evaluar la divulgación de identidad
Autor: Khaled El Emam, Lucy Mosquera, Richard Hoptroff
Editorial: O'Reilly Media
Publicado: 09/06/2020
Páginas: 166
Tipo de encuadernación: Tapa blanda
Peso: 0.60lbs
Tamaño: 9.19h x 7.00w x 0.35d
ISBN13: 9781492072744
ISBN10: 1492072745
Categorías BISAC:
- Informática | Inteligencia Artificial | General
- Informática | Ciencia de Datos | Análisis de Datos
- Informática | Seguridad | Criptografía y Cifrado
Acerca del autor
El Dr. Khaled El Emam es científico sénior en el Instituto de Investigación del Hospital de Niños del Este de Ontario (CHEO) y Director del Laboratorio de Información de Salud Electrónica multidisciplinario, donde realiza investigación académica sobre métodos de generación de datos sintéticos y medición del riesgo de reidentificación, y también es Profesor en la Facultad de Medicina (Pediatría) de la Universidad de Ottawa.
Es el fundador, CEO y presidente de Privacy Analytics. Khaled ha estado realizando análisis de datos desde principios de los 90, construyendo modelos estadísticos y de aprendizaje automático para predicción y evaluación. Desde 2004, ha estado desarrollando tecnologías para facilitar el intercambio de datos para análisis secundarios, desde investigación básica en algoritmos hasta el desarrollo de soluciones aplicadas que se han implementado a nivel mundial. Estas tecnologías abordaron problemas en anonimización y seudonimización, datos sintéticos, computación segura y marca de agua de datos. Ha (co)escrito varios libros sobre diversos temas de privacidad e ingeniería de software. En 2003 y 2004, fue clasificado como el principal investigador en ingeniería de sistemas y software a nivel mundial por el Journal of Systems and Software, basándose en su investigación sobre medición y evaluación y mejora de la calidad. Anteriormente, Khaled fue Oficial Superior de Investigación en el Consejo Nacional de Investigación de Canadá. También se desempeñó como jefe del Grupo de Métodos Cuantitativos en el Instituto Fraunhofer en Kaiserslautern, Alemania. Ocupó la Cátedra de Investigación de Canadá en Información de Salud Electrónica en la Universidad de Ottawa de 2005 a 2015, y tiene un doctorado del Departamento de Ingeniería Eléctrica y Electrónica, King's College, de la Universidad de Londres, Inglaterra.
Lucy Mosquera tiene una licenciatura en Biología y Matemáticas de la Universidad Queen's y actualmente es estudiante de posgrado en el departamento de estadística de la Universidad de Columbia Británica. Durante su tiempo en Queen's, Lucy brindó apoyo de gestión de datos en una docena de ensayos clínicos y estudios observacionales realizados a través de la Unidad de Investigación de Evaluación Clínica del Hospital General de Kingston. Lucy también ha trabajado en métodos de intercambio de datos de ensayos clínicos basados en cifrado homomórfico y protocolos de intercambio secreto. En Replica Analytics, Lucy es responsable de desarrollar modelos estadísticos y de aprendizaje automático para la generación de datos, e integrar la experiencia en el área temática de los datos de ensayos clínicos en los métodos de generación de datos sintéticos, así como las evaluaciones estadísticas de nuestra generación de datos sintéticos.
El Dr. Richard Hoptroff es un inventor, inversor y empresario tecnológico de larga trayectoria. Doctorado en Física por el King's College de Londres por su trabajo en computación óptica e inteligencia artificial en 1992, junto con Ravensbeck, fundó Right Information Systems, una empresa de software de previsión de redes neuronales que fue vendida en 1997 a Cognos Inc (parte de IBM). Luego trabajó como postdoctorado en el Laboratorio de Investigación para la Arqueología y la Historia del Arte en la Universidad de Oxford y en 2001, creó Flexipanel Ltd, una empresa que suministra módulos Bluetooth a la industria electrónica.
En 2010, fundó Hoptroff London, con el objetivo de desarrollar movimientos de relojes inteligentes y de alta precisión y crear una nueva marca de relojes. En 2013 estableció una nueva categoría comercial al lanzar al mercado el primer reloj atómico comercial y el primer reloj de pulsera atómico.
Hoptroff ha aprovechado su experiencia en tecnología de cronometraje y software para desarrollar una solución de marca de tiempo sincronizada de alta precisión para el sector de servicios financieros, basada en una combinación única de ingeniería de reloj atómico maestro y software propietario.

