Estudo da Anthropic busca entender como e por que IAs mudam de personalidade
A equipe identificou padrões de atividade na rede neural que influenciam esses traços, chamados de “vetores de persona”. Para validar o conceito, o grupo injetou vetores específicos, incluindo malícia, bajulação ou propensão a alucinações, nos modelos open-source Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct, a fim de observar mudanças no comportamento. A abordagem visa ajudar usuários a compreenderem melhor o perfil da IA com a qual estão interagindo, e evitar alterações indesejadas. As informações são do site da Anthropic.
Comentários
Postar um comentário