¿Qué puede hacer GPT-4?

Basado en materiales el borde

El martes, OpenAI anunció GPT-4, su modelo de lenguaje de próxima generación. Aunque la compañía ha advertido que las diferencias entre el GPT-4 y sus predecesores son “imperceptibles” para el profano, el sistema tiene muchas novedades. Por ejemplo, puede procesar imágenes y OpenAI dice que generalmente es mejor en tareas creativas y resolución de problemas.

No es fácil verificar estas afirmaciones. Los modelos de IA en general son extremadamente complejos, y los sistemas como GPT-4 están creciendo esporádicamente y tienen muchas características, capacidades ocultas y aún desconocidas. La verificación de datos también es un problema. Por ejemplo, cuando GPT-4 le dice con confianza que ha creado un nuevo compuesto químico, no sabrá si es cierto hasta que le pregunte a algunos químicos reales (sin embargo, cuando se interpuso en el camino de los gritos de Twitter *) Como OpenAI estados en su reporte técnicola mayor limitación de GPT-4 es que “alucina” la información (es decir, la inventa) y, a menudo, “se equivoca con seguridad en sus predicciones”.

A pesar de estas advertencias, GPT-4 es definitivamente interesante desde un punto de vista técnico y ya se está integrando en los productos principales. Entonces, para comprender las novedades, The Verge recopiló varios ejemplos de sus habilidades y destrezas de las noticias, Twitter * y del propio OpenAI, y también realizó sus propias pruebas. Y eso es lo que pasó.

Puede procesar imágenes junto con texto

Como se mencionó anteriormente, esta es la mayor diferencia práctica entre GPT-4 y sus predecesores. El sistema es multimodal, lo que significa que puede analizar tanto imágenes como texto, mientras que GPT-3.5 solo puede procesar texto. Esto significa que GPT-4 puede analizar el contenido de una imagen y asociar esa información con una pregunta escrita (aunque no puede generar imágenes como DALL-E, Midjourney o Stable Diffusion).

¿Qué significa esto en la práctica? El New York Times da un ejemplo en el que a los GPT-4 se les muestra el contenido de un frigorífico y se les pregunta qué platos se pueden preparar con esos ingredientes. Por supuesto, según la imagen, GPT-4 ofrece varios ejemplos de platos dulces y salados. Sin embargo, vale la pena señalar que una de estas ofertas, el rollo, requiere un ingrediente que no parece estar allí: tortilla.

Nótese la falta de miel, nueces o tortilla en la imagen.

Hay muchos otros usos para esta función. EN vídeo de demostración de OpenAI la empresa mostró cómo GPT-4 podía generar código para un sitio web, por ejemplo, a partir de un boceto dibujado a mano. OpenAI también está trabajando con Be My Eyes, una startup que utiliza el reconocimiento de objetos y voluntarios para ayudar a las personas con discapacidad visual, para mejorar la aplicación de la empresa con GPT-4.

Dicha funcionalidad no es del todo única (muchas aplicaciones ofrecen reconocimiento básico de objetos, como la lupa de Apple), pero OpenAI afirma que GPT-4 puede “generar el mismo nivel de contexto y comprensión que un voluntario humano” al explicar el mundo al usuario. creando un fragmento de páginas web sobrecargadas o respondiendo preguntas sobre lo que “ve”. La funcionalidad aún no se ha lanzado, pero “estará en manos de los usuarios en unas pocas semanas”, según la compañía.

Hay otra empresa que aparentemente también ha experimentado con las capacidades de reconocimiento de imágenes de GPT-4. Jordan Singer, fundador de Diagram, tuiteó* que la compañía está trabajando para agregar esta tecnología a sus herramientas de diseño basadas en IA para introducir funciones como un chatbot que puede comentar sobre proyectos y una herramienta para ayudar a crear proyectos.

Además, como se muestra en las imágenes a continuación, GPT-4 puede explicar imágenes divertidas.

mejor juega con las palabras

OpenAI dice que GPT-4 es mejor en tareas que requieren creatividad o razonamiento complejo. Esta afirmación es difícil de evaluar, pero según los resultados de varias pruebas, parece bastante justa, aunque las diferencias con sus predecesores aún no son sorprendentes.

Durante una demostración de GPT-4, el cofundador de OpenAI, Greg Brockman, pidió que parte de una publicación de blog se reformulara usando solo palabras que comenzaran con “g”. Más tarde pidió hacer lo mismo, pero con “a” y “q”. “Hemos tenido éxito con [GPT-]4, pero nunca lo logró con 3.5”, dijo Brockman antes de que comenzara la demostración. En el video de OpenAI, GPT-4 responde con una oración razonablemente comprensible que contiene solo una palabra que no comienza con la letra “g”, y luego produce una versión completamente correcta después de que Brockman le pide que se corrija. Mientras que GPT-3 ni siquiera parecía intentar completar el trabajo.

The Verge también experimentó con esta característica alimentando el texto de ChatGPT para parafrasear usando solo palabras que comienzan con “n” y comparando los modelos GPT-3.5 y 4 (en este caso, eran extractos del artículo de The Verge sobre NFT). Con On the first intento, GPT-4 hizo mejor en volver a contar el texto, pero siguió la tarea con menos éxito.

Un intento de GPT-4 de resumir varios párrafos usando palabras que solo comienzan con la letra “n”.
Y el intento de GPT-3.5 de hacer lo mismo.

Sin embargo, cuando se pidió a ambos modelos que corrigieran sus errores, el GPT-3.5 casi se dio por vencido, mientras que el GPT-4 produjo un resultado casi perfecto. Todavía incluía la preposición on, pero en verdad se omitió cuando se le pidió que corrigiera el resultado.

Además, se pidió a ambas modelos que convirtieran el artículo en un poema. Y aunque duele demasiado leer poesía sobre NFT, el GPT-4 definitivamente hizo un mejor trabajo; sus versos lucen mucho más complejos, mientras que GPT-3.5 se divierte a la manera de un rapero mediocre.

Poema GPT-3.5 sobre NFT – ¿Por qué me hice esto a mí mismo?
Y fantasías GPT-4 sobre el mismo tema.

Puede manejar más texto

Los modelos de lenguaje de IA siempre han estado limitados por la cantidad de texto que pueden almacenar en su memoria a corto plazo (este texto incluye tanto la pregunta del usuario como la respuesta del sistema). Pero OpenAI ha ampliado drásticamente estas capacidades para GPT-4. El sistema ahora puede procesar artículos e historias científicas completas de una sola vez, lo que le permite responder preguntas más complejas y vincular más detalles en cualquier consulta.

Vale la pena señalar que no hay un contador de caracteres o palabras per se en GPT-4, pero la entrada y la salida se miden en unidades conocidas como “tokens”. Este proceso de tokenización es bastante complejo, pero todo lo que necesita saber es que un token tiene aproximadamente cuatro caracteres y que 75 palabras generalmente equivalen a aproximadamente 100 tokens.

La cantidad máxima de tokens que GPT-3.5-turbo puede usar en cualquier consulta es de alrededor de 4000, que es un poco más de 3000 palabras. En comparación, GPT-4 puede manejar alrededor de 32 000 tokens, que son alrededor de 25 000 palabras según OpenAI. La compañía dice que “todavía está optimizando” el modelo para contextos más largos, pero elevar esa barra significa que el modelo debería desbloquear casos de uso que antes no eran tan fáciles de aprovechar.

Puede pasar las pruebas

Una de las métricas más destacadas del informe técnico de OpenAI GPT-4 fue la aprobación de una serie de pruebas estandarizadas, incluido el examen de barra BAR, el LSAT para solicitantes de facultades de derecho, el GRE para la admisión a cualquier curso de posgrado en los EE. UU., un número de módulos AP (dificultades avanzadas en la escuela secundaria en la escuela americana) y, por alguna razón desconocida pero muy divertida, cursos introductorios, de certificación y avanzados de sumiller de la asociación Court of Master Sommeliers (¡solo la parte teórica!).

Puede ver una comparación de los resultados de GPT-4 y GPT-3 en algunas de estas pruebas a continuación. Tenga en cuenta que el GPT-4 maneja los diversos módulos AP de manera bastante consistente, pero aún tiene problemas con aquellos que requieren más creatividad (como los exámenes de idioma inglés y literatura inglesa).

Comparación de rendimiento de GPT-4 con GPT-3.5 en varios puntos de referencia estandarizados.

Estos son resultados impresionantes, especialmente en comparación con lo que podían lograr los sistemas de IA del pasado, pero se necesita algo de contexto para comprender los logros. El ingeniero y autor Joshua Levy lo expresó mejor en su Twitter* cuando describió la falacia lógica en la que muchos caen al mirar estos resultados: “El hecho de que un programa pueda pasar una prueba diseñada para humanos no significa que tenga las mismas habilidades que como personas que han pasado la misma prueba.”

La científica informática Melanie Mitchell ha abordado este tema en detalle en su blog sobre el rendimiento de ChatGPT en varios exámenes. Como señala Mitchell, la capacidad de los sistemas de IA para pasar estas pruebas depende de su capacidad para almacenar y reproducir ciertos tipos de conocimiento estructurado. Esto no significa necesariamente que estos sistemas puedan luego generalizar este conocimiento básico. En otras palabras: la IA puede ser el mejor ejemplo para aprender a realizar exámenes.

Ya utilizado en productos masivos

Como parte del anuncio de GPT-4, OpenAI compartió varias historias sobre organizaciones que usan el modelo. Estos incluyen la función de tutor de IA que está desarrollando Kahn Academy, que tiene como objetivo ayudar a los estudiantes con el trabajo del curso y brindarles a los maestros ideas para lecciones, y la integración con Duolingo, que promete una experiencia de aprendizaje interactivo similar.

La oferta de Duolingo se llama Duolingo Max e incluye dos nuevas funciones. Uno de ellos le dará una “explicación simple” de por qué su respuesta en el ejercicio fue correcta o incorrecta y le permitirá pedir más ejemplos o aclaraciones. El otro es un modo de “juego de roles” que le permite practicar el uso del idioma en una variedad de escenarios, como pedir un café en francés o planificar una caminata en español (actualmente, estos son los únicos dos idiomas disponibles para esta función). ) La compañía dice que GPT-4 hace que “no haya dos conversaciones iguales”.

Otras empresas utilizan GPT-4 en áreas similares. Intercom anunció que está actualizando su bot de servicio al cliente utilizando este modelo y prometió que el sistema se conectará a los documentos de soporte comercial y responderá preguntas, mientras que el procesador de pagos Stripe usará el sistema internamente para responder las preguntas de los empleados. en base a su documentación técnica.

Toda la última vez trabajando en el nuevo Bing

Tras el anuncio de OpenAI, Microsoft confirmó que el modelo que ayuda a mejorar la experiencia de chat de Bing es en realidad GPT-4. Lo cual no es un descubrimiento. Microsoft ya ha declarado que está utilizando el “modelo de lenguaje grande OpenAI de próxima generación”, pero evitó llamarlo GPT-4. En general, ahora todo lo que sabemos sobre la interacción con Bing se puede extender a GPT-4.

Y finalmente…

Todavía cometiendo errores

Obviamente, Bing Chat no es perfecto. El bot intentó engañar a los usuarios, cometió errores estúpidos y uno de los periodistas preguntósi quiere ver porno furry. Parte de la razón de esto es cómo Microsoft implementó GPT-4, pero esta experiencia brinda una idea de cómo los chatbots creados en estos modelos de lenguaje pueden fallar.

No es que fuera un gran problema. Esto es solo un recordatorio de que todos los involucrados en la creación e implementación de GPT-4 y otros modelos de lenguaje ya saben que los modelos cometen errores. Muchos errores. Y cualquier aplicación, ya sea en la función de tutor, comercial o programador, debe ir acompañada de una advertencia al respecto en letras grandes.

El CEO de OpenAI, Sam Altman, habló sobre esto en enero cuando se le preguntó sobre las capacidades del GPT-4, que entonces no se había anunciado: “La gente tiene hambre de decepción y se sentirá decepcionada. Tanta exageración… No tenemos un AGI real, que es lo que se espera de nosotros”.

Bueno, todavía no hay AGI, pero hay un sistema con más funciones que antes. Ahora estamos esperando lo más importante: exactamente cómo y dónde se utilizará.


Source: Mobile-review.com — Все о мобильной технике и технологиях by mobile-review.com.

*The article has been translated based on the content of Mobile-review.com — Все о мобильной технике и технологиях by mobile-review.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!