A nova base de dados reforça que a inteligência artificial não precisa estar sob controle de grandes corporações e pode ser acessível a todos (Getty Images) (Getty Images)
Redação Exame
Publicado em 2 de outubro de 2025 às 18h26.
A Wikimedia Deutschland anunciou nesta quarta-feira o Wikidata Embedding Project, uma nova base de dados que amplia o acesso das informações da Wikipedia e plataformas associadas a modelos de inteligência artificial (IA).
O sistema utiliza busca semântica baseada em vetores, que permite aos computadores compreender o significado e as relações entre palavras, aplicando essa técnica às quase 120 milhões de entradas da Wikipedia.
Integrado ao Model Context Protocol (MCP), padrão que facilita a comunicação entre IA e fontes de dados, o projeto permite consultas em linguagem natural por grandes modelos de linguagem (LLMs).
O projeto foi desenvolvido em parceria com a empresa de busca neural Jina.AI e a fornecedora de dados em tempo real DataStax, subsidiária da IBM.
Até então, os dados da Wikidata eram acessíveis apenas via pesquisas por palavras-chave ou consultas SPARQL, uma linguagem especializada.
A nova ferramenta funciona melhor com sistemas de retrieval-augmented generation (RAG), permitindo que modelos de IA incorporem informações externas verificadas por editores da Wikipedia.
A base de dados oferece contexto semântico detalhado: ao pesquisar “cientista”, por exemplo, o sistema retorna listas de físicos nucleares, pesquisadores do Bell Labs, traduções da palavra para outros idiomas, imagens licenciadas de cientistas e conceitos relacionados, como “pesquisador” e “acadêmico”.
O banco de dados é público e disponível na plataforma Toolforge. Um webinar para desenvolvedores será realizado em 9 de outubro.
O lançamento ocorre em um momento de grande demanda por fontes de dados confiáveis para treinar modelos de IA. Embora sistemas de treinamento estejam mais sofisticados, eles ainda dependem de dados cuidadosamente selecionados para garantir precisão.
Dados da Wikipedia são considerados mais confiáveis que conjuntos massivos, como o Common Crawl.
Em alguns casos, a busca por dados de qualidade tem gerado custos bilionários. Em agosto, a Anthropic concordou em pagar US$ 1,5 bilhão para encerrar um processo de autores cujas obras foram usadas como material de treinamento.
Para Philippe Saadé, gerente do projeto Wikidata AI, a iniciativa mostra que IA poderosa não precisa estar sob controle de poucas empresas. “O projeto pode ser aberto, colaborativo e servir a todos”, afirmou à imprensa.
De olho em quem deseja ingressar nesse mercado, a EXAME e Saint Paul apresentam o pré-MBA em Inteligência Artificial para Negócios, um treinamento introdutório ao seu curso de pós-graduação, por apenas R$37.
Ao final dos quatro encontros virtuais, que totalizam uma carga horária de 3 horas, todos os participantes receberão um certificado de conclusão do treinamento assinado pela Saint Paul e EXAME para incluir no currículo.
Veja, abaixo, os principais temas abordados:
Para aproveitar essa oportunidade única e garantir uma vaga, é só clicar no link abaixo. Mas é preciso correr, pois as vagas são limitadas.