La visión por computadora a nivel de video avanza la información empresarial

Este artículo fue una contribución de Can Kocagil, científico de datos de OREDATA.

Del procesamiento visual espacial al espacio-temporal

La clasificación basada en instancias, la segmentación y la detección de objetos en imágenes son cuestiones fundamentales en el contexto de la visión por computadora. A diferencia de la recuperación de información a nivel de imagen, los problemas a nivel de video apuntan a la detección, segmentación y seguimiento de instancias de objetos en el dominio espacio-temporal que tienen dimensiones tanto de espacio como de tiempo.

El aprendizaje del dominio de video es una tarea crucial para la comprensión espacio-temporal en sistemas basados ​​en cámaras y drones con aplicaciones en edición de video, conducción autónoma, seguimiento de peatones, realidad aumentada, visión robótica y mucho más. Además, nos ayuda a decodificar datos sin procesar espacio-temporales para obtener información procesable junto con el video, ya que tiene un contenido más rico en comparación con los datos espaciales visuales. Con la adición de la dimensión temporal a nuestro proceso de decodificación, obtenemos más información sobre

  • Movimiento
  • Variaciones del punto de vista
  • Luces
  • Oclusiones
  • Deformaciones
  • Ambigüedades locales

de los fotogramas de vídeo. Debido a esto, la recuperación de información a nivel de video ha ganado popularidad como área de investigación y atrae a la comunidad a lo largo de las líneas de investigación para la comprensión de videos.

Hablando conceptualmente, los algoritmos de recuperación de información a nivel de video se adaptan principalmente a los procesos a nivel de imagen agregando cabezales adicionales para capturar información temporal. Aparte de las tareas de regresión y clasificación a nivel de video más simples, la detección de objetos de video, el seguimiento de objetos de video, los subtítulos de video y la segmentación de instancias de video son las tareas más comunes.

Para empezar, recordemos el problema de segmentación de instancias a nivel de imagen.

Segmentación de instancias a nivel de imagen

Segmentación de instancias no solo agrupa los píxeles en diferentes clases semánticas, sino que también los agrupa en diferentes instancias de objetos. Por lo general, se adopta un paradigma de dos etapas, que primero genera propuestas de objetos utilizando una Red de propuestas de región (RPN) y luego predice cuadros delimitadores de objetos y máscaras utilizando características de RoI agregadas. Diferente de segmentación semántica, que segmenta solo diferentes clases semánticas, la segmentación de instancias también segmenta las diferentes instancias de cada clase.

Ejemplo de segmentación de instancias

Arriba: Figura izquierda: Segmentación semántica. Figura de la derecha: segmentación de instancias.

Clasificación de video

La tarea de clasificación de video es una adaptación directa de la clasificación de imágenes al dominio de video. En lugar de dar imágenes como entradas, se le dan fotogramas de video al modelo para que aprenda. Por naturaleza, las secuencias de imágenes que están temporalmente correlacionadas se asignan a algoritmos de aprendizaje que incorporan características de información visual tanto espacial como temporal para producir puntuaciones de clasificación.

La idea central es que, dados los fotogramas de vídeo específicos, queremos identificar el tipo de vídeo a partir de clases predefinidas.

Subtítulos de video

Subtítulos de video es la tarea de generar subtítulos para un video al comprender la acción y el evento en el video, lo que puede ayudar en la recuperación del video de manera eficiente a través del texto. La idea aquí es que, dados los fotogramas de video específicos, queremos generar un lenguaje natural que describa el concepto y el contexto del video.

Ejemplo de subtítulos de video

Arriba: ejemplo de subtítulos de video

Crédito de la imagen: Can Kocagil

Los subtítulos de video son un problema multidisciplinario que requiere algoritmos tanto de la visión por computadora (para extraer características) como del procesamiento del lenguaje natural (para mapear las características extraídas al lenguaje natural).

Detección de objetos de video (VOD)

Detección de objetos de video tiene como objetivo detectar objetos en videos, que se propuso por primera vez como parte del desafío visual ImageNet. Aunque la asociación y el suministro de identidad mejoran la calidad de detección, este desafío se limita a métricas de evaluación preservadas espacialmente para detección por fotograma y no requiere detección y seguimiento de objetos conjuntos. Sin embargo, no hay detección, segmentación y seguimiento conjuntos, a diferencia de las tareas semánticas a nivel de video.

Ejemplo de detección de objetos de video

Arriba: detección de objetos de video

Crédito de la imagen: Can Kocagil

La diferencia entre la detección de objetos a nivel de imagen y la detección de objetos de video es que la serie temporal de imágenes se le da al modelo de aprendizaje automático, que contiene información temporal en contraposición a los procesos a nivel de imagen.

Seguimiento de objetos de video (VOT)

El seguimiento de objetos de video es el proceso de localizar los objetos y rastrearlos a lo largo del video. Dado un conjunto inicial de detecciones en el primer fotograma, el algoritmo genera un ID único para cada objeto en cada marca de tiempo e intenta hacer coincidirlos con éxito en todo el video. Por ejemplo, si digo que el objeto en particular tiene un ID de “P1” en el primer fotograma, el modelo intenta predecir el ID de “P1” de ese objeto en particular en los fotogramas restantes.

Seguimiento de objetos de video Las tareas generalmente se clasifican como enfoques de seguimiento basados ​​en detección y sin detección. En los algoritmos de seguimiento basados ​​en la detección, los objetos se detectan y rastrean conjuntamente de modo que la parte de seguimiento mejora la calidad de detección, mientras que en los enfoques sin detección se nos da un cuadro delimitador inicial e intentamos rastrear ese objeto a través de cuadros de video.

Ejemplo de seguimiento de objetos de video

Arriba: seguimiento de objetos de vídeo

Segmentación de instancias de video (VIS)

La segmentación de instancias de video es el tema de investigación de visión por computadora recientemente introducido que tiene como objetivo la detección conjunta, segmentación y seguimiento de instancias en el dominio de video. Debido a que la tarea de segmentación de instancias de video está supervisada, requiere anotaciones de alta calidad orientadas a las personas para los cuadros delimitadores y máscaras de segmentación binaria con categorías predefinidas. Requiere tanto segmentación como seguimiento, y es una tarea más desafiante en comparación con la segmentación de instancias a nivel de imagen. Por lo tanto, a diferencia de las tareas fundamentales de visión por computadora anteriores, la segmentación de instancias de video requiere enfoques multidisciplinarios y agregados. VIS es como una tarea de visión por computadora todo en uno contemporánea que es la composición de problemas generales de visión.

Ejemplo de predicción de segmentación de instancias de video

Arriba: predicción de segmentación de instancias de video

Crédito de la imagen: Can Kocagil

El conocimiento aporta valor: recuperación de información a nivel de video en acción

Reconocer los límites técnicos de las tareas de recuperación de información a nivel de video mejorará la comprensión de las preocupaciones comerciales y las necesidades del cliente desde una perspectiva práctica. Por ejemplo, cuando un cliente dice, “tenemos videos y queremos extraer solo la ubicación de los peatones de los videos”, reconocerá que su tarea es la detección de objetos de video. ¿Qué pasa si quieren localizarlos y rastrearlos en videos? Luego, su problema se traduce en la tarea de seguimiento de objetos de video. Digamos que también quieren segmentarlos en videos. Su tarea ahora es la segmentación de instancias de video. Sin embargo, si un cliente dice que quiere generar subtítulos automáticos para videos, desde un punto de vista técnico, su problema puede formularse como subtítulos de video. Comprender el alcance del proyecto y diseñar los requisitos técnicos del negocio depende del tipo de información que los clientes quieran obtener, y es fundamental que los equipos técnicos formulen el problema como un problema de optimización.

Este artículo fue una contribución de Can Kocagil, científico de datos de OREDATA.

DataDecisionMakers

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir conocimientos e innovación relacionados con los datos.

Si desea leer sobre ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

¡Incluso podría considerar contribuir con un artículo propio!

Leer más de DataDecisionMakers


Source: VentureBeat by venturebeat.com.

*The article has been translated based on the content of VentureBeat by venturebeat.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!