Modelos generativos de linguagem têm impacto controverso, mas sua tecnologia é fascinante para estudo. Damien Boureille utilizou computadores antigos, como um IBM dos anos 60 e um PDP-11, para treinar um algoritmo transformer. O objetivo era inverter uma lista de dígitos, tarefa simples em Python, mas complexa para transformers. Para adaptar-se à memória limitada de 32KB do PDP-11, ele usou aritmética de ponto fixo e tabelas de consulta. O treinamento foi otimizado com taxas de aprendizado ajustadas manualmente e gradiente descendente estocástico, alcançando 100% de precisão em 350 passos. Isso reduziu o tempo de treinamento de horas para cerca de cinco minutos. O projeto demonstra que nem sempre é necessário um datacenter poderoso para executar tarefas úteis. Modelos grandes podem rodar em hardware simples, como ESP32 ou PCs comuns. Essa abordagem amplia o entendimento dos modelos e seu potencial de uso acessível.
Fonte: https://hackaday.com/2026/03/29/training-a-transformer-with-1970s-era-technology/
Comentários
Postar um comentário