Estudo da Anthropic busca entender como e por que IAs mudam de personalidade

A equipe identificou padrões de atividade na rede neural que influenciam esses traços, chamados de “vetores de persona”. Para validar o conceito, o grupo injetou vetores específicos, incluindo malícia, bajulação ou propensão a alucinações, nos modelos open-source Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct, a fim de observar mudanças no comportamento. A abordagem visa ajudar usuários a compreenderem melhor o perfil da IA com a qual estão interagindo, e evitar alterações indesejadas. As informações são do site da Anthropic.

Comentários

Postagens mais visitadas deste blog

O que é Flutter Engineering?

Usando Embeddings para Encontrar a Mulher Ideal

Estudo investiga como ChatGPT está influenciando a forma como as pessoas falam