Escrevi um breve artigo no LessWrong sobre corrigibilidade e como seria possível aumentá-la a um nível útil por meio de aprendizado por reforço. Por favor, leia e me diga o que você acha.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
