Modelos de inteligência artificial (IA) têm sucesso em exames padronizados, como os de direito e finanças, mas falham em aplicar esse conhecimento em tarefas práticas do mundo real. Advogados já foram multados por textos jurídicos gerados por IA que continham erros graves e citações falsas. Isso revela uma falha dos testes atuais, que não medem o entendimento real das situações complexas. Para avaliar o conhecimento genuíno da IA, especialistas sugerem avaliações interativas, que permitiriam verificar se a IA compreende ou apenas imita. Um exemplo é uma entrevista com um especialista renomado, que exploraria a habilidade do sistema em lidar com ambiguidades e contradições. Testes assim seriam mais eficazes que provas específicas por tarefa, pois visam medir o conhecimento geral da IA. Avaliar a IA dessa forma reduziria vieses e garantiria um uso mais confiável em contextos sensíveis. A ideia é que painéis de especialistas avaliem a IA para garantir sua aptidão multidisciplinar e ética, como em julgamentos públicos de alto impacto. Essa abordagem pode impulsionar a confiança no uso da IA, evitando riscos decorrentes de seu uso indevido.
Fonte: https://www.nature.com/articles/d41586-025-03471-0
Comentários
Postar um comentário