Como podemos explicar a extrema irregularidade induzida pelo RLVR? Como é possível que tenhamos modelos que são de nível mundial em competições de programação, mas que, ao mesmo tempo, apresentem bugs extremamente previsíveis e dívida técnica por toda a base de código?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
