OXRL Study: Post-Training Algorithm Rankings Invert with Model Scale, Loss Modifications Offer Negligible Gains

📰 Dev.to · gentic news

A controlled study of 51 post-training algorithms across 240 runs finds algorithm performance rankings completely invert between 1.5B and 7B parameter

Published 23 Mar 2026