Análisis de Arrepentimiento de Problemas de Bandidos Multibrazo Estocásticos y No Estocásticos


Precio:
Precio de venta$120.00

Descripción

Un problema de bandido multi-brazo - o, simplemente, un problema de bandido - es un problema de asignación secuencial definido por un conjunto de acciones. En cada paso de tiempo, se asigna un recurso unitario a una acción y se obtiene una recompensa observable. El objetivo es maximizar la recompensa total obtenida en una secuencia de asignaciones. El nombre bandido se refiere al término coloquial para una máquina tragaperras (un "bandido de un solo brazo" en la jerga americana). En un casino, se obtiene un problema de asignación secuencial cuando el jugador se enfrenta a muchas máquinas tragaperras a la vez (un "bandido multi-brazo"), y debe elegir repetidamente dónde insertar la siguiente moneda. Los problemas de bandido multi-brazo son los ejemplos más básicos de problemas de decisión secuencial con un compromiso entre exploración y explotación. Este es el equilibrio entre quedarse con la opción que dio las mayores recompensas en el pasado y explorar nuevas opciones que podrían dar mayores recompensas en el futuro. Aunque el estudio de los problemas de bandido se remonta a la década de 1930, los compromisos entre exploración y explotación surgen en varias aplicaciones modernas, como la colocación de anuncios, la optimización de sitios web y el enrutamiento de paquetes. Matemáticamente, un bandido multi-brazo se define por el proceso de recompensa asociado a cada opción. En este libro, el enfoque está en dos casos extremos en los que el análisis del arrepentimiento es particularmente simple y elegante: recompensas independientes e idénticamente distribuidas y recompensas adversarias. Además del escenario básico de un número finito de acciones, también analiza algunas de las variantes y extensiones más importantes, como el modelo de bandido contextual. Esta monografía es una referencia ideal para estudiantes e investigadores interesados en los problemas de bandido.

Autor: S. Bastian Bubeck, Nicolo Cesa-Bianchi, Sebastien Bubeck
Editorial: Now Publishers
Publicado: 12/12/2012
Páginas: 138
Tipo de encuadernación: Tapa blanda
Peso: 0.45lbs
Tamaño: 9.21h x 6.14w x 0.30d
ISBN13: 9781601986269
ISBN10: 1601986262
Categorías BISAC:
- Informática | Inteligencia Artificial | General
- Informática | Ciencias de la Computación
- Matemáticas | Probabilidad y Estadística | General