Acertos e dúvidas sobre o Projecto Brasiliano de IA
Quando o projecto estava em processo de elaboração, eu fui convidado para participar de uma das oficinas porquê um dos especialistas convidados. Junto com outros pesquisadores, alertei bastante da premência de promovermos a geração e disponibilização de conjuntos de dados nacionais para o treinamento de grandes modelos com foco no português.
Nossa preocupação é que, embora os modelos comerciais porquê ChatGPT e Gemini “falem” a nossa língua, muitas vezes isso ocorre por meio de traduções. Esse processo pode resultar em uma imposição cultural e subjetiva das línguas dominantes, porquê o inglês, gerando respostas incorretas e enviesadas.
Fiquei feliz em ver que a nossa inquietação foi contemplada, mas ainda tenho dúvidas de porquê as coisas vão intercorrer. O documento prevê a construção de um padrão de linguagem (LLM) robusto para português em 12 meses, mas não deixa nenhuma pista de porquê isso será feito.
Quem vai desenvolver o padrão? Vamos apostar em um vencedor pátrio? O padrão será disponibilizado em qual licença? Aliás, esse é um ponto de atenção. O documento não cita explicitamente a influência e premência de modelos de código lhano, que é um fator estratégico e fundamental para o progressão da espaço no Brasil.
Outra questão que passou batida é a colaboração com os países líderes neste setor. O projecto cita ações de compartilhamento da infraestrutura brasileira com outros países emergentes, mas o que podemos fazer com aqueles que lideram o desenvolvimento da tecnologia?
Eu sei que o projecto visa justamente trazer autonomia, mas o país não está só e a inovação não acontece no vácuo. O Brasil deve pensar também em ações estratégicas de colaboração e intercâmbio com quem está na frente nesta corrida.