MINT : Multi Instance Network, an efficient framework for video object segmentation
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen
Video Object Segmentation consists on segmenting an object along all the frames of a video. The use of temporal and spatial cues are essential signals to bear in mind when dealing with this assignment. This thesis proposes MINT, Multi Instance Network, a method that takes into account shape priors, the location and temporal information to create the segmentation of the object of interest while the inference time per frame is beneath state-of-the-art methods. MINT is able to generate segmentations at 50.51 FPS using the complete model and 81.74 FPS for the Fast version. Furthermore, MINT pushes the task of Video Object Segmentation by processing Multiple Instances in a single forward pass without any post-processing. MINT is trained and tested on the Largest Multi-Instance Video Object Segmentation Dataset, Youtube-VOS, achieving an overall performance of 0.592.
Resumen
"La segmentación de objetos en video consiste en segmentar un objecto a lo largo de los fotogramas de un video. El uso de señales espaciales y temporales son escenciales al momento de abordar esta tarea. Esta tésis propone MINT, Multi-Instance Network, un método que utiliza información de forma, de posición e información temporal para crear la segmentación del objecto de interés mientras que procesa cada fotograma a 50.51 FPS. Además, MINT es capaz de procesar múltiples instancias en una única inferencia sin ningún post procesamiento. MINT es entrenado y validado en la base de datos más grande de segmentación de instancias, Youtube-VOS, consiguiendo un desempeño de 0.592."--Tomado del Formato de Documento de Grado.