El aprendizaje por refuerzo hace que los compañeros de equipo de IA de mierda en los juegos cooperativos

Este artículo es parte de nuestro revisiones de trabajos de investigación de IA, una serie de publicaciones que exploran los últimos hallazgos en inteligencia artificial.

La inteligencia artificial ha demostrado que juegos de mesa y video complicados ya no son el dominio exclusivo de la mente humana. Desde el ajedrez hasta Go y StarCraft, los sistemas de inteligencia artificial que utilizan algoritmos de aprendizaje por refuerzo han superado a los campeones mundiales humanos en los últimos años.

Pero a pesar del alto rendimiento individual de los agentes de RL, pueden convertirse en compañeros de equipo frustrantes cuando se combinan con jugadores humanos, según un estudio realizado por investigadores de inteligencia artificial en el Laboratorio Lincoln del MIT. El estudio, que involucró la cooperación entre humanos y agentes de inteligencia artificial en el juego de cartas Hanabi, muestra que los jugadores prefieren los sistemas de inteligencia artificial clásicos y predecibles basados ​​en reglas a los sistemas complejos de RL.

Los hallazgos, presentados en un artículo publicado en arXiv, destacan algunos de los desafíos poco explorados de aplicar el aprendizaje por refuerzo a situaciones del mundo real y pueden tener implicaciones importantes para el desarrollo futuro de sistemas de IA que están destinados a cooperar con los humanos.

Encontrar la brecha en el aprendizaje por refuerzo

Aprendizaje por refuerzo profundo, el algoritmo utilizado por los bots de juego de última generación, comienza proporcionando a un agente un conjunto de posibles acciones en el juego, un mecanismo para recibir comentarios del entorno y un objetivo a perseguir. Luego, a través de numerosos episodios de juego, el agente de RL pasa gradualmente de tomar acciones aleatorias a aprender secuencias de acciones que pueden ayudarlo a maximizar su objetivo.

Las primeras investigaciones sobre el aprendizaje por refuerzo profundo se basaron en que el agente estuviera previamente entrenado con datos de juego de jugadores humanos. Más recientemente, los investigadores han podido desarrollar agentes de RL que pueden aprender juegos desde cero a través del autojuego puro. sin intervención humana.

En su estudio, los investigadores del Laboratorio Lincoln del MIT estaban interesados ​​en descubrir si un programa de aprendizaje por refuerzo que supere a los humanos podría convertirse en un compañero de trabajo confiable para los humanos.

“En un nivel muy alto, este trabajo se inspiró en la pregunta: ¿Qué brechas tecnológicas existen que impiden que el aprendizaje por refuerzo (RL) se aplique a problemas del mundo real, no solo a los videojuegos?” El Dr. Ross Allen, investigador de IA en el Laboratorio Lincoln y coautor del artículo, dijo a TechTalks. “Si bien existen muchas de estas brechas tecnológicas (por ejemplo, el mundo real se caracteriza por la incertidumbre / observabilidad parcial, la escasez de datos, objetivos ambiguos / matizados, escalas de tiempo dispares para la toma de decisiones, etc.), identificamos la necesidad de colaborar con los humanos como brecha tecnológica clave para la aplicación de RL en el mundo real “.

Juegos adversarios vs cooperativos

Una descripción del aprendizaje por refuerzo utilizado por una IA en el juego. dota 2

La investigación reciente aplica principalmente el aprendizaje por refuerzo a los juegos de un solo jugador (p. Ej., Atari Breakout) o juegos adversarios (p. ej., StarCraft, Go), donde la IA se enfrenta a un jugador humano u otro bot de juego.

“Creemos que el aprendizaje por refuerzo es adecuado para abordar problemas en la colaboración humano-IA por razones similares a las que RL ha tenido éxito en la competencia humano-IA”, dijo Allen. “En los dominios competitivos, RL tuvo éxito porque evitó los prejuicios y las suposiciones sobre cómo se debería jugar un juego, en lugar de aprender todo esto desde cero”.

De hecho, en algunos casos, los sistemas de refuerzo han logrado piratear los juegos y encontrar trucos que desconcertaron incluso a los jugadores humanos más talentosos y experimentados. Un ejemplo famoso fue un movimiento realizado por AlphaGo de DeepMind en su enfrentamiento contra el campeón mundial de Go Lee Sedol. Los analistas primero pensaron que la medida fue un error porque iba en contra de las intuiciones de los expertos humanos. Pero el mismo movimiento terminó cambiando el rumbo a favor del jugador de IA y derrotando a Sedol. Allen cree que el mismo tipo de ingenio puede entrar en juego cuando RL se asocia con humanos.

“Creemos que la RL puede aprovecharse para avanzar en el estado del arte de la colaboración humano-IA evitando las suposiciones preconcebidas y los sesgos que caracterizan a los ‘sistemas expertos basados ​​en reglas”, dijo Allen.

Para sus experimentos, los investigadores eligieron Hanabi, un juego de cartas en el que de dos a cinco jugadores deben cooperar para jugar sus cartas en un orden específico. Hanabi es especialmente interesante porque, si bien es simple, también es un juego de cooperación total e información limitada. Los jugadores deben mantener sus cartas al revés y no pueden ver sus caras. En consecuencia, cada jugador puede ver las caras de las tarjetas de sus compañeros de equipo. Los jugadores pueden usar un número limitado de fichas para proporcionarse pistas sobre las cartas que tienen. Los jugadores deben usar la información que ven en las manos de sus compañeros de equipo y las pistas limitadas que conocen sobre su propia mano para desarrollar una estrategia ganadora.

“En la búsqueda de problemas del mundo real, tenemos que empezar de manera simple”, dijo Allen. “Por lo tanto, nos enfocamos en el juego colaborativo de referencia de Hanabi. “

En los últimos años, varios equipos de investigación han explorado el desarrollo de bots de IA que pueden jugar Hanabi. Algunos de estos agentes utilizan IA simbólica, donde los ingenieros proporcionan las reglas del juego de antemano, mientras que otros utilizan el aprendizaje por refuerzo.

Los sistemas de IA se clasifican en función de su desempeño en el juego personal (donde el agente juega con una copia de sí mismo), el juego cruzado (donde el agente se asocia con otros tipos de agentes) y el juego humano (el agente coopera con un humano).

Aprendizaje por refuerzo de Hanabi y sistemas de inteligencia artificial simbólica
Hanabi-reforzamiento-aprendizaje-y-sistemas-de-IA-simbólica

“El juego cruzado con humanos, conocido como juego humano, es de particular importancia ya que mide la formación de equipos entre humanos y máquinas y es la base de los experimentos en nuestro artículo”, escriben los investigadores.

Para probar la eficiencia de la cooperación humano-IA, los investigadores utilizaron SmartBot, el sistema de inteligencia artificial basado en reglas de mayor rendimiento en el juego automático, y Otro-Play, a Hanabi bot que ocupó el puesto más alto en juego cruzado y juego humano entre los algoritmos de RL.

“Este trabajo amplía directamente el trabajo anterior sobre RL para la formación Hanabiagentes. En particular, estudiamos al agente RL ‘Other Play’ del laboratorio de Jakob Foerster ”, dijo Allen. “Este agente fue capacitado de tal manera que lo hizo particularmente adecuado para colaborar con otros agentes que no había conocido durante el entrenamiento. Había producido una actuación de vanguardia en Hanabicuando se combinó con otra IA, no se había encontrado durante el entrenamiento “.

Cooperación humano-IA

En los experimentos, los participantes humanos jugaron varios juegos de Hanabi con un compañero de equipo de IA. Los jugadores estuvieron expuestos tanto a SmartBot como a Other-Play, pero no se les dijo qué algoritmo funcionaba detrás de escena.

Los investigadores evaluaron el nivel de cooperación humano-IA basándose en métricas objetivas y subjetivas. Las métricas objetivas incluyen puntuaciones, tasas de error, etc. Las métricas subjetivas incluyen la experiencia de los jugadores humanos, incluido el nivel de confianza y comodidad que sienten en su compañero de equipo de IA, y su capacidad para comprender los motivos de la IA y predecir su comportamiento.

No hubo diferencia significativa en el desempeño objetivo de los dos agentes de IA. Pero los investigadores esperaban que los jugadores humanos tuvieran una experiencia subjetiva más positiva con Other-Play, ya que había sido entrenado para cooperar con agentes distintos a sí mismo.

“Nuestros resultados nos sorprendieron por la fuerza con la que los participantes humanos reaccionaron al trabajar en equipo con el agente de Other Play. En resumen, lo odiaban ”, dijo Allen.

Según las encuestas de los participantes, los más experimentados Hanabi los jugadores tuvieron una experiencia más pobre con el algoritmo Other-Play RL en comparación con el agente SmartBot basado en reglas. Uno de los puntos clave del éxito en Hanabi es la habilidad de proporcionar pistas sutiles a otros jugadores. Por ejemplo, digamos que la carta “uno de los cuadrados” está sobre la mesa y su compañero de equipo tiene el dos de los cuadrados en su mano. Al señalar la carta y decir “esto es un dos” o “esto es un cuadrado”, le estás diciendo implícitamente a tu compañero de equipo que juegue esa carta sin darle información completa sobre la carta. Un jugador experimentado se daría cuenta de la indirecta de inmediato. Pero proporcionar el mismo tipo de información al compañero de equipo de IA resulta ser mucho más difícil.

“Le di información y él simplemente la tira”, dijo un participante después de sentirse frustrado con el agente de Other-Play, según el periódico. Otro dijo: “En este punto, no sé cuál es el punto”.

Curiosamente, Other-Play está diseñado para evitar la creación de convenciones “secretas” que los agentes de RL desarrollan cuando solo pasan por el autojuego. Esto convierte a Other-Play en un compañero de equipo óptimo para los algoritmos de IA que no formaban parte de su régimen de entrenamiento. Pero todavía tiene suposiciones sobre los tipos de compañeros de equipo que encontrará, señalan los investigadores.

“Notablemente, [Other-Play] asume que los compañeros de equipo también están optimizados para la coordinación de tiro cero. En contraste, humano Hanabi los jugadores normalmente no aprenden con esta suposición. El establecimiento de la convención antes del juego y las revisiones posteriores al juego son prácticas comunes para los humanos. Hanabi jugadores, lo que hace que el aprendizaje humano sea más parecido a la coordinación de pocos disparos ”, señalan los investigadores en su artículo.

Implicaciones para los futuros sistemas de IA

“Nuestros hallazgos actuales dan evidencia de que el desempeño de la tarea objetiva de una IA por sí solo (lo que llamamos ‘auto-juego’ y ‘juego cruzado’ en el documento) puede no correlacionarse con la confianza y la preferencia humana al colaborar con esa IA”, Allen dijo. “Esto plantea la pregunta: ¿qué métricas objetivas se correlacionan con las preferencias humanas subjetivas? Dada la enorme cantidad de datos necesarios para entrenar a agentes basados ​​en RL, no es realmente viable entrenar con humanos en el circuito. Por lo tanto, si queremos capacitar a agentes de IA que sean aceptados y valorados por colaboradores humanos, es probable que necesitemos encontrar funciones objetivas entrenables que puedan actuar como sustitutos de las preferencias humanas o correlacionarse fuertemente con ellas ”.

Mientras tanto, Allen advierte contra la extrapolación de los resultados de la Hanabi experimentar en otros entornos, juegos o dominios que no han podido probar. El documento también reconoce algunos de los límites en los experimentos, que los investigadores están trabajando para abordar en el futuro. Por ejemplo, el grupo de sujetos era pequeño (29 participantes) y se inclinaba hacia personas que tenían habilidades en Hanabi, lo que implica que tenían expectativas de comportamiento predefinidas del compañero de equipo de IA y era más probable que tuvieran una experiencia negativa con el comportamiento excéntrico del agente de RL.

No obstante, los resultados pueden tener importantes implicaciones para el futuro de la investigación del aprendizaje por refuerzo.

“Si los agentes de RL de última generación ni siquiera pueden ser un colaborador aceptable en un juego de alcance tan limitado y estrecho como Hanabi; ¿Realmente deberíamos esperar que las mismas técnicas de RL ‘simplemente funcionen’ cuando se aplican a juegos y situaciones del mundo real más complicados, matizados y con consecuencias? ” Dijo Allen. “Hay muchos rumores sobre el aprendizaje por refuerzo en los campos tecnológicos y académicos; y con razón. Sin embargo, creo que nuestros hallazgos muestran que el notable rendimiento de los sistemas RL no debe darse por sentado en todas las aplicaciones posibles “.

Por ejemplo, podría ser fácil suponer que RL podría usarse para entrenar agentes robóticos capaces de colaborar estrechamente con humanos. Pero los resultados del trabajo realizado en el Laboratorio Lincoln del MIT sugieren lo contrario, al menos dado el estado actual de la técnica, dice Allen.

“Nuestros resultados parecen implicar que se necesita mucho más trabajo teórico y aplicado antes de que los agentes basados ​​en el aprendizaje sean colaboradores efectivos en situaciones complicadas como las interacciones entre humanos y robots”, dijo.

Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.


Source: The Next Web by feedproxy.google.com.

*The article has been translated based on the content of The Next Web by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!