Sample Factory de Intel acelera el entrenamiento de aprendizaje de refuerzo en una sola PC

en un papel de preimpresión Esta semana, publicado en Arxiv.org, los investigadores de Intel describen Sample Factory, un sistema que logra un alto rendimiento, superior a 105 5 marcos de entorno por segundo – en aprendizaje reforzado experimentos A diferencia de los servidores distribuidos y las configuraciones de hardware que esos experimentos suelen requerir, Sample Factory está optimizado para configuraciones de una sola máquina, lo que permite a los investigadores lograr lo que los coautores afirman son resultados “sin precedentes” en la capacitación de IA para videojuegos, robótica y otros dominios.

La capacitación de agentes de software de inteligencia artificial en simulación es la piedra angular de la investigación contemporánea sobre el aprendizaje por refuerzo. Pero a pesar de las mejoras en la eficiencia de la muestra de los principales métodos, la mayoría sigue notoriamente hambrienta de datos y computación. El rendimiento ha aumentado debido a la mayor escala de experimentos, en gran parte. Miles de millones de experimentos con entornos complejos ahora son relativamente comunes, y los esfuerzos más avanzados hacen que los agentes tomen billones de acciones en una sola sesión.

Sample Factory apunta a la eficiencia con un algoritmo llamado optimización de política proximal asíncrona, que paraleliza agresivamente la capacitación de agentes y logra un rendimiento de hasta 130,000 FPS (que aquí indica marcos de entorno por segundo) en una PC de una sola GPU. Minimiza el tiempo de inactividad para todos los cálculos al asociar cada carga de trabajo con uno de los tres tipos de componentes: trabajadores de implementación, trabajadores de políticas y estudiantes. Estos componentes se comunican entre sí mediante un protocolo de cola rápida y memoria de hardware compartida. La puesta en cola proporciona la base para la ejecución continua y asíncrona, donde el siguiente paso de cálculo puede iniciarse inmediatamente siempre que haya algo en la cola para procesar.

Intel Sample Factory

VB Transform 2020 en línea – 15-17 de julio. Únase a los principales ejecutivos de IA: Regístrese para la transmisión en vivo gratis.

Para ser claros, Sample Factory no permite experimentos que no se pudieron realizar antes. Pero los acelera para que sean más prácticos en configuraciones de PC única que antes. A toda velocidad, incluso con entornos de múltiples agentes y grandes poblaciones de agentes, Sample Factory puede generar y consumir más de 1 GB de datos por segundo. Una actualización típica de un modelo toma menos de 1 milisegundo.

En experimentos en dos PC, una con una CPU de 10 núcleos y una GPU GTX 1080 Ti y una segunda con una CPU de 36 núcleos de clase servidor y una sola RTX 2080 Ti, los investigadores evaluaron el rendimiento de Sample Factory en tres simuladores: Atari, VizDoom (un juego similar a Doom utilizado para la investigación de IA) y DeepMind Lab (un entorno similar a Quake III). Informan que el sistema superó a los métodos de referencia en la mayoría de los escenarios de entrenamiento después de entre 700 y 2,000 entornos, alcanzando al menos 10,000 fotogramas por segundo.

En una prueba, los investigadores utilizaron Sample Factory para capacitar a un agente para resolver un conjunto de 30 entornos simultáneamente. En otro, entrenaron a ocho agentes en escenarios de “duelo” y “combate a muerte” dentro de VizDoom, después de lo cual los agentes vencieron a los bots del juego en la mayor dificultad en el 100% de los partidos. Y en un tercero, tuvieron ocho agentes luchando entre sí para acumular 18 años de experiencia simulada, lo que permitió a esos agentes derrotar a los bots con script 78 veces de cada 100.

Fábrica de muestra

Arriba: Sample Factory ejecutándose en tiempo real en el entorno VizDoom.

“Nuestro objetivo es democratizar profundamente [reinforcement learning] y hacen posible capacitar a poblaciones enteras de agentes en miles de millones de transiciones ambientales usando hardware de productos ampliamente disponible ”, escribieron los coautores. “Creemos que esta es un área importante de investigación, ya que puede beneficiar a cualquier proyecto que aproveche el modelo sin modelos. [reinforcement learning]. Con nuestra arquitectura de sistema, los investigadores pueden repetir sus ideas más rápido, acelerando así el progreso en el campo ”.

Los modelos de fábrica y de ejemplo están disponibles en GitHub.