El nuevo modelo de lenguaje de DeepMind patea el trasero de GPT-3

Muévase por encima de GPT-3, hay un nuevo aspirante a la corona de modelo de lenguaje más grande del mundo y es de nuestros viejos amigos de DeepMind.

En la delantera: El equipo británico propiedad de Alphabet que respondió a la pregunta de si los humanos o las computadoras son mejores en el ajedrez de una vez por todas: las maquinas ganaron – ahora ha puesto su mirada en el mundo de los grandes modelos lingüísticos (LLM).

Con ese fin, anunció hoy “Gopher”, un modelo de lenguaje que es aproximadamente un 60% más grande, en términos de parámetros, que GPT-3 y un poco más de una cuarta parte del tamaño del LLM de un billón de parámetros masivo de Google.

Por comunicado de prensa en el blog de DeepMind:

En nuestra investigación, encontramos que las capacidades de Gopher superan los modelos de lenguaje existentes para una serie de tareas clave. Esto incluye el punto de referencia Massive Multitask Language Understanding (MMLU), donde Gopher demuestra un avance significativo hacia el desempeño de expertos humanos con respecto al trabajo anterior.

Fondo: DeepMind logró las mejoras centrándose en áreas donde tenía sentido expandir el tamaño de un modelo de IA.

Cuanto más poder pueda introducir en un modelo para, digamos, comprensión de lectura, mejor. Pero el equipo descubrió que otras áreas de la arquitectura LLM no se beneficiaron tanto de la fuerza bruta.

Al priorizar la forma en que el sistema utiliza y distribuye los recursos, el equipo pudo ajustar sus algoritmos para superar los modelos de vanguardia en el 80% de los puntos de referencia utilizados.

Crédito: Mente profunda

El equipo de DeepMind también publicó artículos sobre la ética y la arquitectura de los LLM, puede leerlos aquí y aquí.

Toma rápida: Parafraseando al gran poeta Montell Jordan: así es como lo haces. En lugar de precipitar el campo hacia la ruina aumentando exponencialmente el tamaño de los modelos hasta que GPT-5 o GPT-6 terminen siendo más grandes que el universo conocido, DeepMind está tratando de exprimir más atracción sexual de modelos más pequeños.

No me malinterpretes, Gopher tiene muchos más parámetros que GPT-3. Pero, cuando consideras eso Se espera que GPT-4 tenga alrededor de 100 billones de parámetros, parece que DeepMind se está moviendo en una dirección más factible.


Source: The Next Web by thenextweb.com.

*The article has been translated based on the content of The Next Web by thenextweb.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!