Los 80's...y algo más como salud, ciencia, deportes, tecnologia.: GPT-4 se degrada con el tiempo....

viernes, 21 de julio de 2023

Muchas personas han informado de una degradación significativa en la calidad de las respuestas del modelo, pero hasta ahora sólo ha sido anecdótico.

Pero ahora lo sabemos.🫡

Al menos un estudio demuestra que la versión de junio de GPT-4 es objetivamente peor que la versión publicada en marzo en algunas tareas.

El equipo evaluó los modelos utilizando un conjunto de 500 problemas en los que los modelos tenían que determinar si un número entero dado era primo.

En marzo, GPT-4 respondió correctamente a 488 de estas preguntas. En junio, sólo obtuvo 12 respuestas correctas.

El porcentaje de aciertos cayó del 97,6% al 2,4%.

¡Pero la cosa empeora!

El equipo utilizó la cadena de pensamiento para ayudar al modelo a razonar:

"¿Es 17077 un número primo? Piensa paso a paso".

La cadena de pensamiento es una técnica muy popular que mejora notablemente las respuestas.

Por desgracia, la última versión de GPT-4 no genera pasos intermedios y responde con un simple "no".

La generación de códigos también ha empeorado.🤐

El equipo construyó un conjunto de datos con 50 problemas fáciles de LeetCode y midió el número de respuestas de GPT-4 ejecutadas sin ningún cambio.

La versión de marzo tuvo éxito en el 52% de los problemas, pero esta cifra se redujo a un mísero 10% utilizando el modelo de junio.😶‍🌫

Los 80's...y algo más como salud, ciencia, deportes, tecnologia.