La IA aún no supera a los ingenieros en la gestión de fallos informáticos
Las herramientas de IA progresan rápidamente en la supervisión de sistemas informáticos. Sin embargo, un nuevo estudio realizado por Datadog y la universidad Carnegie Mellon muestra que los ingenieros mantienen una ventaja significativa en la gestión de incidentes complejos. Basado en fallos reales observados en producción, esta prueba compara varios modelos avanzados con especialistas humanos. Los resultados revelan principalmente las limitaciones actuales de los modelos frente a situaciones críticas e imprevistas.

En breve
- Un estudio de Datadog muestra que los modelos de IA siguen siendo menos eficaces que los ingenieros en la gestión de fallos informáticos complejos.
- Las pruebas se basan en 63 incidentes reales y más de 5 millones de puntos de datos procedentes de situaciones de emergencia en producción.
- GPT-5 domina los modelos generalistas con un 62,7 % de precisión, pero los expertos humanos alcanzan aún un 72,7 %.
- Los investigadores creen que la colaboración entre humanos e IA podría mejorar notablemente la respuesta a incidentes en el futuro.
La IA progresa, pero sigue siendo limitada frente a incidentes complejos
Las empresas tecnológicas presentan ahora agentes de IA capaces de analizar automáticamente incidentes de producción, a pesar de los progresos recientes realizados por estos modelos. Estos sistemas deben ayudar a los equipos a detectar anomalías e identificar el origen de los fallos. Sin embargo, el benchmark ARFBench muestra que esta automatización aún es imperfecta. El proyecto se basa en incidentes reales observados durante situaciones de emergencia, con datos validados manualmente para evitar escenarios artificiales.
El estudio se apoya especialmente en varias cifras clave:
- 63 incidentes reales analizados a partir de intercambios en Slack en situación de emergencia.
- 750 preguntas creadas en torno a los incidentes estudiados.
- 142 indicadores de supervisión utilizados en el benchmark.
- Más de 5 millones de puntos de datos examinados.
Las pruebas evalúan tanto la detección de anomalías como la capacidad de los modelos para comprender relaciones complejas entre varias métricas. GPT-5 obtiene un puntaje F1 de 47,5 % en las preguntas más difíciles, manteniendo una precisión global del 62,7 %. Los investigadores también recuerdan que se pierden miles de millones de dólares cada año debido a fallos en los sistemas, lo que refuerza la importancia estratégica de las herramientas de IA en las infraestructuras digitales modernas.
Los ingenieros mantienen una ventaja clara sobre los modelos actuales
Frente a los resultados de los modelos, los ingenieros humanos conservan una mejor precisión global. Los expertos del campo obtuvieron un puntaje del 72,7 %, muy superior a los mejores modelos probados. Incluso los no expertos de Datadog alcanzaron un 69,7 %, más que los sistemas automatizados.
Estos resultados demuestran que los ingenieros interpretan incluso mejor el contexto global de un incidente. Comprenden más fácilmente las interacciones entre varias señales técnicas y los comportamientos inusuales de las infraestructuras.
Ningún modelo de IA ha logrado superar el rendimiento humano de referencia. Sin embargo, algunos sistemas especializados reducen progresivamente la brecha. El modelo híbrido Toto-1.0-QA-Experimental, desarrollado por Datadog, alcanza una precisión del 63,9 %. Este sistema combina un modelo interno de predicción con Qwen3-VL 32B.
En la detección de anomalías, Toto incluso obtiene un puntaje F1 superior en al menos 8,8 puntos frente a otros modelos competidores. Este resultado confirma que un modelo especializado en datos de observabilidad puede responder mejor a una tarea técnica precisa que un sistema generalista.
A pesar de estos avances, los ingenieros siguen siendo esenciales en incidentes críticos. Los modelos a veces pierden el contexto del negocio, ignoran ciertos metadatos o interpretan mal varios indicadores simultáneamente.
Una colaboración entre IA y humanos se vuelve el escenario más creíble
El estudio subraya que los errores de humanos y de modelos son diferentes. Los sistemas de IA detectan ciertas anomalías rápidamente, mientras que los humanos comprenden mejor las situaciones ambiguas y las restricciones operativas.
Los investigadores explican que estas diferencias crean habilidades complementarias. Los modelos a veces pierden detalles de contexto, mientras que los humanos cometen más errores en las marcas temporales precisas o en instrucciones complejas.
Para medir este potencial, los investigadores imaginaron un “oráculo experto” capaz de elegir sistemáticamente la mejor respuesta entre un humano y una IA. En este escenario teórico, la precisión sube a 87,2 %, con un puntaje F1 de 82,8 %.
Este resultado aún no representa un producto concreto. Sin embargo, muestra que una colaboración entre inteligencia artificial e ingenieros podría mejorar mucho la gestión de incidentes informáticos en los próximos años. Por lo tanto, los sistemas automatizados parecen destinados a asistir a los equipos humanos más que a reemplazarlos completamente a corto plazo.
¡Maximiza tu experiencia en Cointribune con nuestro programa "Read to Earn"! Por cada artículo que leas, gana puntos y accede a recompensas exclusivas. Regístrate ahora y comienza a acumular beneficios.
Journaliste et rédacteur web passionné par l’univers des cryptomonnaies et des technologies Web3. J’y traite les dernières tendances et actualités afin de proposer un contenu de haute qualité à un large public du secteur.
Las ideas y opiniones expresadas en este artículo pertenecen al autor y no deben tomarse como consejo de inversión. Haz tu propia investigación antes de tomar cualquier decisión de inversión.