La IA ahora está aprendiendo a evolucionar como formas de vida terrenales

Este artículo es parte de nuestro revisiones de trabajos de investigación de IA, una serie de publicaciones que exploran los últimos hallazgos en inteligencia artificial.

Cientos de millones de años de evolución han bendecido a nuestro planeta con una amplia variedad de formas de vida, cada una inteligente a su manera. Cada especie ha evolucionado para desarrollar habilidades innatas, capacidades de aprendizaje y una forma física que aseguran su supervivencia en su entorno.

Pero a pesar de estar inspirado por la naturaleza y la evolución, el campo de la inteligencia artificial se ha centrado en gran medida en crear los elementos de la inteligencia por separado y fusionarlos después del desarrollo. Si bien este enfoque ha dado excelentes resultados, también ha limitado la flexibilidad de los agentes de IA en algunas de las habilidades básicas que se encuentran incluso en las formas de vida más simples.

en un nuevo papel publicado en la revista científica Nature, los investigadores de inteligencia artificial de la Universidad de Stanford presentan una nueva técnica que puede ayudar a tomar medidas para superar algunos de estos límites. Titulada “Aprendizaje por refuerzo evolutivo profundo”, la nueva técnica utiliza un entorno virtual complejo y aprendizaje por refuerzo para crear agentes virtuales que pueden evolucionar tanto en su estructura física como en sus capacidades de aprendizaje. Los hallazgos pueden tener implicaciones importantes para el futuro de la investigación en inteligencia artificial y robótica.

La evolución es difícil de simular

Crédito: Ben Dickson / TechTalks

En la naturaleza, el cuerpo y el cerebro evolucionan juntos. A lo largo de muchas generaciones, cada especie animal ha pasado por innumerables ciclos de mutación para desarrollar extremidades, órganos y un sistema nervioso que respalde las funciones que necesita en su entorno. Los mosquitos tienen visión térmica para detectar el calor corporal. Los murciélagos tienen alas para volar y un aparato de ecolocalización para navegar por lugares oscuros. Las tortugas marinas tienen aletas para nadar y un sistema detector de campo magnético para viajar distancias muy largas. Los humanos tienen una postura erguida que libera sus brazos y les permite ver el horizonte lejano, manos y dedos ágiles que pueden manipular objetos, y un cerebro que los convierte en las mejores criaturas sociales y solucionadoras de problemas del planeta.

Curiosamente, todas estas especies descendieron de la primera forma de vida que apareció en la Tierra hace varios miles de millones de años. Sobre la base de las presiones de selección causadas por el medio ambiente, los descendientes de esos primeros seres vivos evolucionaron en muchas direcciones diferentes.

Estudiar la evolución de la vida y la inteligencia es interesante. Pero replicarlo es extremadamente difícil. Un sistema de IA que quisiera recrear vida inteligente de la misma manera que lo hizo la evolución tendría que buscar un espacio muy grande de posibles morfologías, lo cual es extremadamente costoso computacionalmente. Necesitaría muchos ciclos de prueba y error paralelos y secuenciales.

Los investigadores de IA utilizan varios atajos y funciones prediseñadas para superar algunos de estos desafíos. Por ejemplo, arreglan la arquitectura o el diseño físico de una IA o un sistema robótico y se enfocan en optimizar los parámetros aprendibles. Otro atajo es el uso de Lamarckiano en lugar de la evolución darwiniana, en la que los agentes de IA transmiten sus parámetros aprendidos a sus descendientes. Otro enfoque más es entrenar diferentes subsistemas de IA por separado (visión, locomoción, lenguaje, etc.) y luego agregarlos juntos en una IA final o un sistema robótico. Si bien estos enfoques aceleran el proceso y reducen los costos de capacitación y la evolución de los agentes de IA, también limitan la flexibilidad y la variedad de resultados que se pueden lograr.

Aprendizaje de refuerzo evolutivo profundo

Estructura de aprendizaje de refuerzo evolutivo profundo
Crédito: Ben Dickson / TechTalks

En su nuevo trabajo, los investigadores de Stanford tienen como objetivo acercar la investigación de la IA al proceso evolutivo real, manteniendo los costos lo más bajos posible. “Nuestro objetivo es dilucidar algunos principios que rigen las relaciones entre la complejidad ambiental, la morfología evolucionada y la capacidad de aprendizaje del control inteligente”, escriben en su artículo.

Su marco se llama Aprendizaje por refuerzo evolutivo profundo. En DERL cada agente usa aprendizaje por refuerzo profundo para adquirir las habilidades necesarias para maximizar sus objetivos durante su vida. DERL utiliza la evolución darwiniana para buscar en el espacio morfológico soluciones óptimas, lo que significa que cuando se genera una nueva generación de agentes de IA, solo heredan los rasgos físicos y arquitectónicos de sus padres (junto con leves mutaciones). Ninguno de los parámetros aprendidos se transmite de generación en generación.

“DERL abre la puerta a la realización de experimentos in silico a gran escala para obtener conocimientos científicos sobre cómo el aprendizaje y la evolución crean de manera cooperativa relaciones sofisticadas entre la complejidad ambiental, la inteligencia morfológica y la capacidad de aprendizaje de las tareas de control”, escriben los investigadores.

Simulando la evolución

Para su marco, los investigadores utilizaron MuJoCo, un entorno virtual que proporciona una simulación física de cuerpos rígidos de alta precisión. Su espacio de diseño se llama UNIversal aniMAL (UNIMAL), en el que el objetivo es crear morfologías que aprendan tareas de locomoción y manipulación de objetos en una variedad de terrenos.

Cada agente del medio está compuesto por un genotipo que define sus extremidades y articulaciones. El descendiente directo de cada agente hereda el genotipo del padre y pasa por mutaciones que pueden crear nuevas extremidades, eliminar las existentes o realizar pequeñas modificaciones en características como los grados de libertad o el tamaño de las extremidades.

Cada agente está capacitado con aprendizaje por refuerzo para maximizar las recompensas en varios entornos. La tarea más básica es la locomoción, en la que el agente es recompensado por la distancia que recorre durante un episodio. Los agentes cuya estructura física es más adecuada para atravesar terrenos aprenden más rápido a usar sus extremidades para moverse.

Para probar los resultados del sistema, los investigadores generaron agentes en tres tipos de terrenos: planos (FT), variables (VT) y terrenos variables con objetos modificables (MVT). El terreno llano ejerce la menor presión de selección sobre la morfología de los agentes. Los terrenos variables, por otro lado, obligan a los agentes a desarrollar una estructura física más versátil que pueda escalar pendientes y sortear obstáculos. La variante MVT tiene el desafío adicional de requerir que los agentes manipulen objetos para lograr sus objetivos.

Los beneficios de DERL

Los beneficios de DERL
Crédito: Ben Dickson / TechTalks
El aprendizaje de refuerzo evolutivo profundo genera una variedad de morfologías exitosas en diferentes entornos

Uno de los hallazgos interesantes del DERL es la diversidad de resultados. Otros enfoques de la IA evolutiva tienden a converger en una solución porque los nuevos agentes heredan directamente el físico y los aprendizajes de sus padres. Pero en DERL, solo los datos morfológicos se transmiten a los descendientes, el sistema termina creando un conjunto diverso de morfologías exitosas, que incluyen bípedos, trípedos y cuadrúpedos con y sin brazos.

Al mismo tiempo, el sistema muestra rasgos del Efecto Baldwin, lo que sugiere que los agentes que aprenden más rápido tienen más probabilidades de reproducirse y transmitir sus genes a la siguiente generación. DERL muestra que la evolución “selecciona a los estudiantes más rápidos sin ninguna presión de selección directa para hacerlo”, según el documento de Stanford.

“Curiosamente, la existencia de este efecto Baldwin morfológico podría explotarse en estudios futuros para crear agentes incorporados con menor complejidad de muestra y mayor capacidad de generalización”, escriben los investigadores.

Los agentes capacitados en DERL se evalúan en una variedad de tareas
Los agentes capacitados en DERL se evalúan en una variedad de tareas

Finalmente, el marco DERL también valida la hipótesis de que entornos más complejos darán lugar a agentes más inteligentes. Los investigadores probaron los agentes evolucionados en ocho tareas diferentes, que incluyen patrullar, escapar, manipular objetos y explorar. Sus hallazgos muestran que, en general, los agentes que han evolucionado en terrenos variables aprenden más rápido y se desempeñan mejor que los agentes de IA que solo han experimentado terrenos planos.

Sus hallazgos parecen estar en consonancia con otros hipótesis de los investigadores de DeepMind que un entorno complejo, una estructura de recompensa adecuada y el aprendizaje reforzado pueden eventualmente conducir al surgimiento de todo tipo de comportamientos inteligentes.

Investigación en IA y robótica

El entorno DERL solo tiene una fracción de las complejidades del mundo real. “Aunque DERL nos permite dar un paso significativo hacia adelante en la ampliación de la complejidad de los entornos evolutivos, una importante línea de trabajo futuro implicará el diseño de entornos evolutivos más abiertos, físicamente realistas y con múltiples agentes”, escriben los investigadores.

En el futuro, los investigadores ampliarán la gama de tareas de evaluación para evaluar mejor cómo los agentes pueden mejorar su capacidad para aprender comportamientos relevantes para los humanos.

El trabajo puede tener implicaciones importantes para el futuro de la inteligencia artificial y la robótica y empujar a los investigadores a utilizar métodos de exploración que son mucho más similares a la evolución natural.

“Esperamos que nuestro trabajo fomente más exploraciones a gran escala del aprendizaje y la evolución en otros contextos para producir nuevos conocimientos científicos sobre la aparición de comportamientos inteligentes de aprendizaje rápido, así como nuevos avances de ingeniería en nuestra capacidad para instanciarlos en máquinas”, los investigadores escribir.

Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo originalaquí.


Source: The Next Web by feedproxy.google.com.

*The article has been translated based on the content of The Next Web by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!