Facebook lanza una herramienta de desarrollo de IA basada en NetHack

Los investigadores de Facebook creen que el juego NetHack está bien adaptado a la capacitación, prueba y evaluación de modelos de IA. Hoy, lanzaron NetHack Learning Environment, una herramienta de investigación para evaluar la solidez y la generalización de los agentes de aprendizaje de refuerzo.

Durante décadas, los juegos han servido como puntos de referencia para la IA. Pero las cosas realmente se pusieron en marcha en 2013: el año en que la filial de Google DeepMind demostró un sistema de inteligencia artificial que podía jugar Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro y Q * bert a niveles sobrehumanos. Los avances no solo mejoran el diseño del juego, según personas como la cofundadora de DeepMind, Demis Hassabis. Más bien, están informando el desarrollo de sistemas que algún día podrían diagnosticar enfermedades, predecir complicaciones estructuras proteicasy TC de segmento.

NetHack, que se lanzó por primera vez en 1987, es más sofisticado de lo que se podría suponer. Encarga a los jugadores que desciendan más de 50 niveles de mazmorras para recuperar un amuleto mágico, durante el cual deben usar cientos de elementos y luchar contra monstruos mientras luchan con ricas interacciones entre los dos. Los niveles en NetHack se generan de forma procesal y cada juego es diferente, lo que según los investigadores de Facebook prueba los límites de generalización de la IA actual de última generación.

Entorno de aprendizaje de Facebook NetHack

VB Transform 2020 en línea – 15-17 de julio. Únase a los principales ejecutivos de IA: Regístrese para la transmisión en vivo gratis.

NetHack tiene otra ventaja en su arquitectura ligera. Un mundo de arte ASCII por turnos y un motor de juego escrito principalmente en C captura su complejidad. Olvida todo menos la física más simple al representar símbolos en lugar de píxeles, lo que es importante, permitiendo que los modelos aprendan rápidamente sin desperdiciar recursos computacionales en simular dinámicas o representar observaciones.

De hecho, la capacitación de modelos sofisticados de aprendizaje automático en la nube sigue siendo prohibitivamente costosa. De acuerdo a un informe sincronizado reciente, Grover, de la Universidad de Washington, que está diseñado tanto para la generación como para la detección de noticias falsas, costó $ 25,000 para entrenar en el transcurso de dos semanas. OpenAI acumuló $ 256 por hora para entrenar a su GPT-2 modelo de idioma, y ​​Google gastó un entrenamiento estimado de $ 6,912 BERT, un modelo de transformador bidireccional que redefinió el estado del arte para 11 tareas de procesamiento de lenguaje natural.

Por el contrario, una sola tarjeta gráfica de gama alta es suficiente para entrenar a los agentes de NetHack impulsados ​​por inteligencia artificial cientos de millones de pasos al día utilizando el marco TorchBeast, que admite una mayor escala agregando más tarjetas gráficas o máquinas. Los agentes pueden incluso experimentar miles de millones de pasos en el entorno en un plazo razonable y desafiar los límites de lo que pueden lograr las técnicas actuales de IA.

Entorno de aprendizaje de Facebook NetHack

“NetHack presenta un desafío que está en la frontera de los métodos actuales, sin los costos computacionales de otros entornos de simulación desafiantes. Estándar profundo [reinforcement learning] los agentes que actualmente operan en NetHack exploran solo una fracción del juego general de NetHack “, escribieron los investigadores de Facebook en un preprint publicado esta semana. “El progreso en este nuevo entorno desafiante requerirá [reinforcement learning] agentes para ir más allá del aprendizaje tabula rasa “.

El entorno de aprendizaje de NetHack consta de tres componentes: una interfaz de Python para NetHack utilizando la popular API OpenAI Gym, un conjunto de tareas de referencia y un agente de referencia. Más allá de esto, incluye siete tareas de referencia diseñadas para medir el progreso de los agentes, específicamente:

  • Escalera: desciende a los niveles inferiores de la mazmorra
  • Conjunto: Cuida a tu mascota (mantenla viva y llévala contigo más adentro de la mazmorra)
  • Coma: encuentre fuentes de alimentos no venenosos y cómelos para evitar morir de hambre
  • Oro: recoge oro en toda la mazmorra
  • Scout: mira la mayor cantidad de mazmorras que puedas
  • Puntuación: Consigue una puntuación alta en el juego (por ejemplo, matar monstruos, descender, recoger oro)
  • Oráculo: Alcanza un hito importante, el Oráculo (aparece de 4 a 9 niveles en la mazmorra)

Los coautores señalan que NetHack contiene una gran cantidad de recursos externos, que esperan se utilizarán para mejorar el rendimiento de los agentes. Por ejemplo, existen repositorios de datos de reproducción de jugadores humanos de los que un modelo podría aprender directamente, así como recursos como el oficial Guía de NetHack, el NetHack Wikiy videos en línea y foros de discusión.

“Creemos que el entorno de aprendizaje NetHack inspirará más investigación sobre estrategias de exploración robustas en [reinforcement learning], planificando con horizontes a largo plazo y transfiriendo conocimiento de sentido común de recursos fuera de la simulación “, escribieron los investigadores. “[It] proporciona … agentes con mucha experiencia para aprender de modo que nosotros, como investigadores, podamos pasar más tiempo probando nuevas ideas en lugar de esperar a que lleguen los resultados. Además, creemos que democratiza el acceso para los investigadores en laboratorios con más recursos limitados sin sacrificar el dificultad y riqueza del medio ambiente “.