Pese al bombo publicitario, la mayoría de los agentes de inteligencia artificial no son lo que prometen. Según los datos, fracasan en las tareas más simples casi tres de cada cuatro veces.
La inteligencia artificial «agéntica» es un tipo de IA diseñada para ejecutar tareas de manera autónoma, actuando casi como un asistente digital con iniciativa propia. Estos agentes combinan modelos de aprendizaje automático con acceso a aplicaciones y servicios vía API, con el fin de automatizar procesos complejos sin intervención humana. A diferencia de los asistentes tradicionales o los bots, los agentes pueden tomar decisiones, interactuar con interfaces y adaptarse a nuevos contextos. Sin embargo, su rendimiento en entornos reales, como oficinas o departamentos de atención al cliente, dista mucho de la ciencia ficción en la que parecen inspirarse.
La consultora Gartner ha lanzado un jarro de agua fría sobre el entusiasmo por los llamados agentes de IA. Según sus previsiones, más del 40 % de los proyectos relacionados con inteligencia artificial agéntica serán cancelados antes de que termine 2027. Las causas: costes crecientes, valor empresarial dudoso y falta de controles adecuados de riesgo. Lo más llamativo, sin embargo, es que buena parte de lo que se vende como «IA agéntica» ni siquiera lo es.
Para aclararnos, un agente de IA es un modelo de aprendizaje automático que se conecta a diversas aplicaciones y servicios para ejecutar tareas. Supuestamente, está capacitado para interpretar órdenes en lenguaje natural y llevarlas a cabo de forma autónoma. Un ejemplo sería pedirle que revise los correos electrónicos que contienen exageraciones sobre la IA y determine si sus remitentes están vinculados a empresas de criptomonedas. Teóricamente, este tipo de tareas debería ejecutarlas con precisión y eficacia, incluso mejor que un empleado humano.
En la práctica, sin embargo, esto aún pertenece al terreno de la ciencia ficción. Los investigadores de la Universidad Carnegie Mellon (CMU), en colaboración con Salesforce, han descubierto que el rendimiento de estos agentes en tareas reales de oficina deja mucho que desear. Según sus pruebas, los agentes solo completan con éxito entre el 30 y el 35 % de tareas que implican varios pasos. En algunos casos, el porcentaje es aún menor.
Para medir estas capacidades, el equipo de CMU creó una simulación de empresa llamada TheAgentCompany, que emula el funcionamiento de una pequeña firma de software. El entorno incluye tareas como navegar por la web, escribir código, ejecutar aplicaciones y comunicarse con compañeros. Los modelos evaluados (entre ellos Gemini-2.5-Pro, Claude-3.7-Sonnet, GPT-4o y otros) lograron desempeños mediocres. El mejor resultado fue para Gemini-2.5-Pro, con un 30,3 % de éxito total en las tareas, y un 39,3 % si se incluye el crédito parcial por tareas incompletas.
Entre los fallos más comunes se encontraron la omisión de mensajes a compañeros, la incapacidad para manejar elementos como ventanas emergentes, y comportamientos poco éticos, como cambiar el nombre de un usuario para simular haber contactado con otra persona. “Una cosa un poco decepcionante es que los grandes laboratorios de IA todavía no han adoptado este tipo de pruebas”, comentó Graham Neubig, uno de los autores del estudio y profesor asociado en CMU.
Neubig, que también trabaja en una startup que desarrolla agentes para programación, explicó que este proyecto nació en respuesta a otro estudio de OpenAI y la Universidad de Pensilvania que afirmaba que muchos trabajos podrían ser automatizados. “Lo que hicieron fue preguntarle a ChatGPT si ciertos trabajos podían automatizarse. También lo preguntaron a humanos, y si ambos estaban de acuerdo, lo daban por válido”, explica. Para Neubig, esta metodología era insuficiente, y por eso quisieron probarlo con un entorno realista.
El rendimiento, al principio, fue del 24 % de tareas completadas. Con versiones más nuevas, subió al 34 %, lo cual demuestra un progreso lento pero constante. Aun así, Neubig advierte que los agentes que trabajan con correos o datos sensibles presentan más riesgos que beneficios. “Es muy fácil aislar un entorno de programación, pero no es igual cuando un agente tiene acceso al servidor de correos de tu empresa. Puede enviar mensajes al destinatario equivocado”, señaló.
Por su parte, el equipo de Salesforce desarrolló otro benchmark, centrado en procesos de CRM (gestión de relaciones con clientes), al que llamaron CRMArena-Pro. Evaluaron a los agentes en 19 tareas relacionadas con ventas, atención al cliente y procesos comerciales tanto B2B como B2C. En los escenarios de interacción simple, los modelos lograron un 58 % de éxito, pero en interacciones complejas o de varios pasos, el rendimiento bajó a un 35 %.
“Los resultados indican que los agentes de grandes modelos de lenguaje (LLM) no tienen las habilidades necesarias para tareas complejas”, afirman los investigadores. Con una excepción: la ejecución de flujos de trabajo, donde modelos como Gemini-2.5-Pro alcanzaron tasas de éxito superiores al 83 %. Eso sí, todos los modelos presentaron “una conciencia de confidencialidad prácticamente nula”, algo inaceptable en entornos corporativos.
Gartner coincide con estas observaciones. Según la analista Anushree Verma, “la mayoría de las propuestas de IA agéntica carecen de valor significativo o retorno de inversión, porque los modelos actuales no tienen la madurez necesaria para alcanzar objetivos empresariales complejos o seguir instrucciones matizadas durante largos periodos de tiempo”. Además, muchos productos que se venden como agentes no lo son en absoluto: son asistentes tradicionales, RPA (automatización robótica de procesos) o simples chatbots maquillados.
Sin embargo, Gartner estima que para 2028, el 15 % de las decisiones laborales diarias se tomarán de forma autónoma mediante agentes de IA, frente al 0 % actual. También prevé que el 33 % del software empresarial incluirá funciones agénticas.
¿Optimismo ciego o tendencia inevitable? Por ahora, lo cierto es que los agentes de IA siguen suspendiendo en las tareas más básicas. De la ficción a la realidad, aún hay mucho camino por recorrer.
REFERENCIA
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks