Translate

viernes, 21 de julio de 2023

GPT-4 se degrada con el tiempo....

Muchas personas han informado de una degradación significativa en la calidad de las respuestas del modelo, pero hasta ahora sólo ha sido anecdótico.

Pero ahora lo sabemos.🫡

Al menos un estudio demuestra que la versión de junio de GPT-4 es objetivamente peor que la versión publicada en marzo en algunas tareas.

El equipo evaluó los modelos utilizando un conjunto de 500 problemas en los que los modelos tenían que determinar si un número entero dado era primo.

En marzo, GPT-4 respondió correctamente a 488 de estas preguntas. En junio, sólo obtuvo 12 respuestas correctas.

El porcentaje de aciertos cayó del 97,6% al 2,4%.

¡Pero la cosa empeora!

El equipo utilizó la cadena de pensamiento para ayudar al modelo a razonar:

"¿Es 17077 un número primo? Piensa paso a paso".

La cadena de pensamiento es una técnica muy popular que mejora notablemente las respuestas.

Por desgracia, la última versión de GPT-4 no genera pasos intermedios y responde con un simple "no".

La generación de códigos también ha empeorado.🤐

El equipo construyó un conjunto de datos con 50 problemas fáciles de LeetCode y midió el número de respuestas de GPT-4 ejecutadas sin ningún cambio.

 La versión de marzo tuvo éxito en el 52% de los problemas, pero esta cifra se redujo a un mísero 10% utilizando el modelo de junio.😶‍🌫 

No hay comentarios:

La gente está más preocupada que entusiasmada con el crecimiento de la IA

 Según una nueva encuesta de Pew Research , los estadounidenses están más preocupados que antes por la IA en su vida cotidiana 🤔 Algunos p...