No artigo, a DeepSeek também se defendeu das alegações de "destilação" de modelos de IA da OpenAI, uma técnica na qual um sistema de IA aprende com outro, aproveitando os investimentos de tempo e poder de computação sem incorrer nos mesmos custos
Redator
Publicado em 19 de setembro de 2025 às 11h09.
Em janeiro, o lançamento do modelo de código aberto R1, da empresa chinesa de inteligência artificial DeepSeek, chocou o mundo e provocou queda nas ações e perdas significativas para empresas de tecnologia. No entanto, na época, não se sabia quanto havia custado o treinamento desse modelo – apenas estimativas entre 3% e 5% do ChatGPT, da OpenAI. Agora, a DeepSeek revelou que o gasto foi de apenas US$ 294 mil.
Se, em julho, seis meses após o lançamento do modelo da DeepSeek, a empresa enfrentava desafios para se manter relevante no mercado de IA, a revelação do custo significativamente abaixo dos valores reportados por concorrentes dos EUA reacendeu o debate sobre o papel de Pequim na corrida global pela IA. A atualização da empresa sediada em Hangzhou foi publicada em um artigo revisado por pares na prestigiada revista científica Nature, nesta quarta-feira, 17.
Esse custo de treinamento do R1, considerado de raciocínio avançado, é muito mais baixo em comparação aos gastos com versões de gigantes como a OpenAI, cujo CEO Sam Altman revelou, em 2023, que o treinamento de seus modelos fundacionais custou "muito mais" do que US$ 100 milhões.
Ou seja, considerando US$ 100 milhões para o ChatGPT e US$ 294 mil para o R1, o modelo da DeepSeek teria custado não 3% ou 5%, mas menos de 0,3% do valor investido pela OpenAI. Além disso, o artigo revelou que a chinesa usou 512 chips Nvidia H800 para treinar seu modelo.O treinamento de grandes modelos de linguagem (LLMs), que alimentam chatbots de IA, envolve o uso de clusters de chips poderosos por semanas ou meses para processar vastos volumes de texto e código. No caso da DeepSeek, isso foi feito com os chips H800, que foram projetados pela Nvidia para o mercado chinês após os Estados Unidos proibirem, em outubro de 2022, a exportação de chips mais poderosos, como os H100 e A100, para a China.
Apesar da alegação da empresa de que usou legalmente os chips H800, a DeepSeek foi acusada por autoridades dos EUA de ter acesso a grandes volumes dos chips H100, adquiridos antes das restrições de exportação. A empresa, no entanto, negou essas alegações e reiterou que os chips usados foram mesmo aqueles menos potentes.
Em um documento complementar ao artigo publicado na Nature, a DeepSeek reconheceu, pela primeira vez, que possui chips A100 e revelou que os utilizou nas fases preparatórias do desenvolvimento do R1. "Em nossa pesquisa sobre o DeepSeek-R1, usamos os GPUs A100 para preparar os experimentos com um modelo menor", escreveram os pesquisadores. Após essa fase inicial, o modelo R1 foi treinado por um total de 80 horas em um cluster de 512 chips H800, acrescentaram.
No artigo, a DeepSeek também se defendeu das acusações de "destilação" de modelos da OpenAI, uma técnica na qual um sistema de IA aprende com outro, aproveitando os investimentos de tempo e poder de computação sem incorrer nos mesmos custos.
Em janeiro, a empresa havia afirmado ter usado a IA de código aberto Llama, da Meta, em algumas versões destiladas de seus próprios modelos. No artigo, a DeepSeek explicou que os dados de treinamento para o modelo V3 foram baseados em páginas da web que continham respostas geradas por modelos da OpenAI, o que fez com que o modelo adquirisse conhecimentos de outras IAs indiretamente – ou seja, de modo não intencional, mas acidental.