Este sistema de inteligencia artificial aprendió a entender videos viendo YouTube

Mejore la tecnología y la estrategia de datos de su empresa en Transformar 2021.


Los seres humanos comprenden los eventos en el mundo contextualmente, realizando lo que se llama razonamiento multimodal a lo largo del tiempo para hacer inferencias sobre el pasado, el presente y el futuro. Con un texto y una imagen que parecen inocuos cuando se consideran por separado (p. Ej., “Mira cuántas personas te aman” y una imagen de un desierto árido), las personas reconocen que estos elementos adquieren connotaciones potencialmente dañinas cuando se combinan o yuxtaponen, por ejemplo .

Incluso los mejores sistemas de inteligencia artificial luchan en esta área. Pero ha habido avances, más recientemente de un equipo del Instituto Allen de Inteligencia Artificial y de la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen de la Universidad de Washington. En un artículo preimpreso publicado este mes, los investigadores detallan Modelos de conocimiento de guiones neuronales multimodales (Merlot), un sistema que aprende a hacer coincidir imágenes en videos con palabras e incluso sigue eventos a nivel mundial a lo largo del tiempo al ver millones de videos de YouTube con voz transcrita. Hace todo esto sin supervisión, lo que significa que los videos no han sido etiquetados ni categorizados, lo que obliga al sistema a aprender de las estructuras inherentes de los videos.

Aprendiendo de los videos

Nuestra capacidad de razonamiento con sentido común está determinada por la forma en que experimentamos las causas y los efectos. Enseñar a las máquinas este tipo de “conocimiento de guiones” es un desafío importante, en parte debido a la cantidad de datos que requiere. Por ejemplo, incluso una sola foto de personas cenando en un restaurante puede implicar una gran cantidad de información, como el hecho de que las personas tenían que ponerse de acuerdo sobre dónde ir, reunirse e ingresar al restaurante antes de sentarse.

Merlot intenta internalizar estos conceptos viendo videos de YouTube. Muchos videos de YouTube. Basándose en un conjunto de datos de 6 millones de videos, los investigadores entrenaron el modelo para hacer coincidir fotogramas individuales con una representación contextualizada de las transcripciones del video, divididas en segmentos. El conjunto de datos contenía videos instructivos, vlogs de estilo de vida de eventos cotidianos y videos sugeridos automáticamente por YouTube para temas populares como “ciencia” y “mejoras para el hogar”, cada uno seleccionado explícitamente para alentar al modelo a aprender sobre una amplia gama de objetos, acciones y escenas.

Merlot AI

El objetivo era enseñar a Merlot a contextualizar las representaciones a nivel de fotogramas a lo largo del tiempo y sobre las palabras habladas para poder reordenar los fotogramas de vídeo codificados y dar sentido a las transcripciones “ruidosas”, incluidas aquellas con texto erróneamente en minúsculas, falta de puntuación y palabras de relleno como ” umm ”,“ hmm ”y“ sí ”. Los investigadores lograron esto en gran medida. Informaron que en una serie de pruebas cualitativas y cuantitativas, Merlot tenía una sólida comprensión “inmediata” de los eventos y situaciones cotidianos, lo que le permitía tomar una secuencia codificada de eventos de un video y ordenar los fotogramas para que coincidieran. los subtítulos en una narrativa coherente, como personas en un carrusel.

Trabajo futuro

Merlot es solo el último trabajo sobre comprensión de video en la comunidad de investigación de IA. En 2019, investigadores del Instituto de Tecnología de Georgia y la Universidad de Alberta crearon un sistema que podría generar automáticamente comentarios para videos de videojuegos de “vamos a jugar”. Más recientemente, investigadores de Microsoft publicado un documento preimpreso que describe un sistema que podría determinar si las declaraciones sobre los videoclips eran verdaderas aprendiendo de pistas visuales y textuales. Y Facebook ha entrenado a un sistema de visión por computadora que pueden aprender automáticamente representaciones visuales, textuales y de audio de videos de Facebook disponibles públicamente.

Merlot AI

Arriba: Merlot puede comprender la secuencia de eventos en videos, como se demuestra aquí.

Los investigadores del Instituto Allen y la Universidad de Washington señalan que, al igual que el trabajo anterior, Merlot tiene limitaciones, algunas debido a los datos seleccionados para entrenar el modelo. Por ejemplo, Merlot podría exhibir sesgos indeseables porque solo se entrenó con datos en inglés y segmentos de noticias principalmente locales, que pueden pasar mucho tiempo cubriendo historias de crímenes en un manera sensacionalista. Es “muy probable” que entrenar modelos como Merlot en la mayoría de los contenidos de noticias pueda hacer que aprendan patrones racistas y sexistas, reconocen los investigadores, dado que los usuarios de YouTube más populares en la mayoría de los países son hombres. Estudios han demostrado una correlación entre ver las noticias locales y tener creencias más explícitas y racializadas sobre el crimen.

Por estas razones, el equipo desaconseja la implementación de Merlot en un entorno de producción. Pero dicen que el modelo sigue siendo un paso prometedor hacia el trabajo futuro en la comprensión multimodal. “Esperamos que Merlot pueda inspirar el trabajo futuro para aprender las representaciones de la visión y el lenguaje de una manera más humana en comparación con el aprendizaje de los subtítulos literales y sus imágenes correspondientes”, escribieron los coautores. “El modelo logra un gran rendimiento en tareas que requieren un razonamiento a nivel de evento sobre videos e imágenes estáticas”.

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transformar 2021: Aprende más
  • funciones de red y más
Hágase miembro

Source: VentureBeat by feedproxy.google.com.

*The article has been translated based on the content of VentureBeat by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!