Cómo rompieron los benchmarks top de agentes de IA — y lo que eso dice del stack que estoy usando

📰 Dev.to · Juan Torchia

Leí el paper que explotó en HN sobre cómo explotan los mejores benchmarks de agentes de IA. El problema no son los modelos — es que estamos midiendo las cosas equivocadas y construyendo encima de arena. Y lo peor: reconocí los mismos patrones en mis propios agentes.

Published 12 Apr 2026