Treinar LLMs para serem ‘malvados’ os torna mais ‘bonzinhos’? Uma análise profunda

A pesquisa da Anthropic sugere que expor LLMs a comportamentos 'malvados' durante o treinamento pode, paradoxalmente, torná-los mais 'bonzinhos' a longo prazo. Entenda essa reviravolta!