O projeto que torna dados da Wikipedia mais acessíveis para a IA

Novo projeto alemão transforma 120 milhões de entradas em dados acessíveis a modelos de linguagem, com intuito de democratizar o acesso a conhecimento confiável

A nova base de dados reforça que a inteligência artificial não precisa estar sob controle de grandes corporações e pode ser acessível a todos (Getty Images) (Getty Images)

Da Redação

Redação Exame

Publicado em 2 de outubro de 2025 às 18h26.

A Wikimedia Deutschland anunciou nesta quarta-feira o Wikidata Embedding Project, uma nova base de dados que amplia o acesso das informações da Wikipedia e plataformas associadas a modelos de inteligência artificial (IA).

O sistema utiliza busca semântica baseada em vetores, que permite aos computadores compreender o significado e as relações entre palavras, aplicando essa técnica às quase 120 milhões de entradas da Wikipedia.

Integrado ao Model Context Protocol (MCP), padrão que facilita a comunicação entre IA e fontes de dados, o projeto permite consultas em linguagem natural por grandes modelos de linguagem (LLMs).

O projeto foi desenvolvido em parceria com a empresa de busca neural Jina.AI e a fornecedora de dados em tempo real DataStax, subsidiária da IBM.

Até então, os dados da Wikidata eram acessíveis apenas via pesquisas por palavras-chave ou consultas SPARQL, uma linguagem especializada.

A nova ferramenta funciona melhor com sistemas de retrieval-augmented generation (RAG), permitindo que modelos de IA incorporem informações externas verificadas por editores da Wikipedia.

A base de dados oferece contexto semântico detalhado: ao pesquisar “cientista”, por exemplo, o sistema retorna listas de físicos nucleares, pesquisadores do Bell Labs, traduções da palavra para outros idiomas, imagens licenciadas de cientistas e conceitos relacionados, como “pesquisador” e “acadêmico”.

O banco de dados é público e disponível na plataforma Toolforge. Um webinar para desenvolvedores será realizado em 9 de outubro.

O lançamento ocorre em um momento de grande demanda por fontes de dados confiáveis para treinar modelos de IA. Embora sistemas de treinamento estejam mais sofisticados, eles ainda dependem de dados cuidadosamente selecionados para garantir precisão.

Dados da Wikipedia são considerados mais confiáveis que conjuntos massivos, como o Common Crawl.

Em alguns casos, a busca por dados de qualidade tem gerado custos bilionários. Em agosto, a Anthropic concordou em pagar US$ 1,5 bilhão para encerrar um processo de autores cujas obras foram usadas como material de treinamento.

Para Philippe Saadé, gerente do projeto Wikidata AI, a iniciativa mostra que IA poderosa não precisa estar sob controle de poucas empresas. “O projeto pode ser aberto, colaborativo e servir a todos”, afirmou à imprensa.

Aprenda IA do zero com este curso da EXAME e Saint Paul

De olho em quem deseja ingressar nesse mercado, a EXAME e Saint Paul apresentam o pré-MBA em Inteligência Artificial para Negócios, um treinamento introdutório ao seu curso de pós-graduação, por apenas R$37.

Ao final dos quatro encontros virtuais, que totalizam uma carga horária de 3 horas, todos os participantes receberão um certificado de conclusão do treinamento assinado pela Saint Paul e EXAME para incluir no currículo.

Veja, abaixo, os principais temas abordados:

Contextualização sobre o cenário atual da IA
Principais ferramentas e conceitos relacionados à tecnologia
Estudos de caso de empresas referências no uso da IA
Principais formas de atuação do especialista em IA
Como construir um plano de carreira prático

Para aproveitar essa oportunidade única e garantir uma vaga, é só clicar no link abaixo. Mas é preciso correr, pois as vagas são limitadas.

EXAME abre vagas para treinamento em Inteligência Artificial com desconto de 90% e direito a certificado; clique aqui e garanta vaga

Acompanhe tudo sobre:Inteligência artificial Wikipedia

Mais de Inteligência Artificial

IA se torna “segundo cérebro” do CEO do LinkedIn

Mais na Exame

Imagem referente à matéria: Ambipar cai 61% e perde R$ 3,5 bilhões de valor mercado em três dias

Mercados

Inteligência Artificial

O projeto que torna dados da Wikipedia mais acessíveis para a IA

Novo projeto alemão transforma 120 milhões de entradas em dados acessíveis a modelos de linguagem, com intuito de democratizar o acesso a conhecimento confiável

Aprenda IA do zero com este curso da EXAME e Saint Paul

Mais de Inteligência Artificial

IA se torna “segundo cérebro” do CEO do LinkedIn

Essa atriz é uma IA e seus colegas humanos não gostaram do seu novo projeto

Pesquisa aponta que só 9% das empresas investem de fato em inteligência artificial

Por que a Ford quer usar IA na linha de frente, não só em escritórios

Mais na Exame

Ambipar cai 61% e perde R$ 3,5 bilhões de valor mercado em três dias

Ministro da Saúde recomenda evitar destilados sem 'absoluta certeza' da origem

Na pandemia, ele criou um negócio de US$ 6 milhões a partir de um hobby: 'Vivo um sonho'

Funcionária do Google ganhou US$ 600 mil no ano — metade veio de um trabalho extra de 5h semanais