2025 iba a ser, según muchas previsiones, el año de los agentes: (IA) inteligencias artificiales capaces de asumir proyectos completos, planificar tareas, coordinar recursos y entregar resultados profesionales sin supervisión humana. El hype no solo estaba en el ambiente: Microsoft hablaba de trabajadores IA.
La realidad es otra, de momento. Un nuevo estudio de Scale AI ha querido comprobar hasta qué punto los grandes modelos actuales pueden desempeñar encargos reales de trabajo. Nada de benchmarks ininteligibles: las pruebas fueron proyectos freelance resales, evaluados por un panel de 40 jueces como si fueran clientes humanos. Abarcaban desde diseño de producto y desarrollo de videojuegos hasta análisis de datos o redacción de textos científicos. Para expertos como Andrej Karpathy, cofundador de OpenAI, los agentes, simplemente, no están ahí.
Cuántos de esos trabajos alcanzarían un nivel «aceptable» para un cliente corriente. El modelo Manus fue el que mejor rendimiento logró, y frente a lo que cabría esperar según las promesas, no fue brillante: solo el 2,5% de sus entregas fueron consideradas aceptables. A partir de ahí, todo fue a menos: Grok alcanzó un 2,1%, Claude se quedó en cifras similares, GPT-5 en un 1,7%, y Gemini 2.5 Pro acabó último 0,8%.

                                    