Descripción
Contents1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 ¿Qué es el aprendizaje profundo por refuerzo? . . . . . . . . . . . . . . . . . . . . 11.2 Tres paradigmas del aprendizaje automático . . . . . . . . . . . . . . . . . . . . . . . 121.3 Resumen del libro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Métodos tabulares basados en valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Problemas de decisión secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Agentes tabulares basados en valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3 Entornos de gimnasio clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.4 Resumen y lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Aproximación de la función de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.1 Problemas grandes y de alta dimensión . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2 Agentes profundos basados en valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3 Entornos Atari 2600 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.4 Resumen y lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874 Métodos basados en políticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.1 Problemas continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2 Agentes basados en políticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3 Entornos de locomoción y visuo-motores . . . . . . . . . . . . . . . . . . . . . . . . 1114.4 Resumen y lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165 Métodos basados en modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1 Modelos dinámicos de problemas de alta dimensión . . . . . . . . . . . . . . . 1225.2 Agentes de aprendizaje y planificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.3 Entornos de alta dimensión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.4 Resumen y lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142viiviii CONTENIDO5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446 Aprendizaje por refuerzo con dos agentes . . . . . . . . . . . . . . . . . . . . . . . . . 1476.1 Problemas de suma cero con dos agentes . . . . . . . . . . . . . . . . . . . . . . . . . 1506.2 Agentes de autoaprendizaje tabula rasa . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.3 Entornos de autoaprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.4 Resumen y lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1866.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1887 Aprendizaje por refuerzo multiagente . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Autor: Aske Plaat
Editorial: Springer
Publicado: 12/06/2022
Páginas: 406
Tipo de encuadernación: Tapa blanda
Peso: 1.30 lbs
Tamaño: 9.21h x 6.14w x 0.86d
ISBN13: 9789811906374
ISBN10: 9811906378
Categorías BISAC:
- Computadoras | Inteligencia Artificial | General
- Computadoras | Ciencias de la computación
Autor: Aske Plaat
Editorial: Springer
Publicado: 12/06/2022
Páginas: 406
Tipo de encuadernación: Tapa blanda
Peso: 1.30 lbs
Tamaño: 9.21h x 6.14w x 0.86d
ISBN13: 9789811906374
ISBN10: 9811906378
Categorías BISAC:
- Computadoras | Inteligencia Artificial | General
- Computadoras | Ciencias de la computación
Acerca del autor
Aske Plaat es profesor de Ciencia de Datos en la Universidad de Leiden y director científico del Instituto de Ciencias de la Computación Avanzadas de Leiden (LIACS). Es cofundador del Centro de Ciencia de Datos de Leiden (LCDS) e inició SAILS, un programa multidisciplinario sobre inteligencia artificial. Sus intereses de investigación incluyen el aprendizaje por refuerzo, los juegos combinatorios y los sistemas de autoaprendizaje. Es autor de Learning to Play (publicado por Springer en 2020), que cubre específicamente el aprendizaje por refuerzo y los juegos.
Este título no es retornable

