Preentrenamiento Visión-Lenguaje: Fundamentos, Avances Recientes y Tendencias Futuras


Precio:
Precio de venta$132.00

Descripción

Los humanos perciben el mundo a través de muchos canales, como las imágenes vistas por los ojos o las voces escuchadas por los oídos. Aunque cualquier canal individual pueda ser incompleto o ruidoso, los humanos pueden alinear y fusionar naturalmente la información recopilada de múltiples canales para captar los conceptos clave necesarios para una mejor comprensión del mundo. Una de las principales aspiraciones de la Inteligencia Artificial (IA) es desarrollar algoritmos que doten a las computadoras de la capacidad de aprender eficazmente de datos multimodales (o multicanal). Estos datos son similares a las imágenes y sonidos obtenidos de la visión y el lenguaje que ayudan a los humanos a dar sentido al mundo que nos rodea. Por ejemplo, las computadoras podrían imitar esta capacidad buscando las imágenes más relevantes para una consulta de texto (o viceversa), y describiendo el contenido de una imagen usando lenguaje natural. La Visión y Lenguaje (VL), un área de investigación popular que se encuentra en la intersección de la Visión por Computadora y el Procesamiento del Lenguaje Natural (PNL), tiene como objetivo lograr este objetivo. Esta monografía examina los métodos de preentrenamiento visión-lenguaje (VLP) para la inteligencia multimodal que se han desarrollado en los últimos años. Los enfoques se agrupan en tres categorías: (i) VLP para tareas de imagen-texto, como subtitulado de imágenes, recuperación de imagen-texto, respuesta a preguntas visuales y puesta a tierra visual; (ii) VLP para tareas centrales de visión por computadora, como clasificación de imágenes (de conjunto abierto), detección de objetos y segmentación; y (iii) VLP para tareas de video-texto, como subtitulado de videos, recuperación de video-texto y respuesta a preguntas de videos. Para cada categoría, se presenta una revisión exhaustiva de los métodos de vanguardia y se discuten los avances logrados y los desafíos que aún se enfrentan, utilizando sistemas y modelos específicos como estudios de caso. Además, para cada categoría, se presentan temas avanzados que se están explorando activamente en la comunidad de investigación, como los grandes modelos fundamentales, el modelado unificado, el aprendizaje en contexto de pocas tomas, el conocimiento, la robustez y la visión por computadora en entornos reales, por nombrar algunos.




Autor: Zhe Gan, Linjie Li, Chunyuan Li
Editorial: Now Publishers
Publicado: 12/05/2022
Páginas: 206
Tipo de encuadernación: Tapa blanda
Peso: 0.65 lbs
Tamaño: 9.21 alto x 6.14 ancho x 0.44 profundidad
ISBN13: 9781638281320
ISBN10: 1638281327
Categorías BISAC:
- Informática | Inteligencia Artificial | Visión por Computadora y Reconocimiento de Patrones
- Informática | Desarrollo e Ingeniería de Software | Gráficos por Computadora