MegaTrain: entrenar LLMs de 100B+ parámetros en una sola GPU (y por qué tuve que cerrar la laptop)
📰 Dev.to · Juan Torchia
Leí el título y pensé que era clickbait. Me senté, leí el paper, y tuve que levantarme a caminar. MegaTrain propone entrenar modelos de 100B+ parámetros en una sola GPU con full precision. No lo voy a usar mañana. Pero cambia quién puede hacer qué — y eso me importa.
DeepCamp AI