Conecte-se conosco

Tecnologia

DeepSeek V3: O modelo chinês que já assombra os gigantes da IA

Publicado a

em

Com desempenho superior e custo reduzido, start-up da China desafia o OpenAI e Meta e reposiciona a potência asiática no cenário global de inteligência artificial

A DeepSeek, uma start-up de Hangzhou, na China, virou assunto global ao lançar o DeepSeek V3 no dia 26 de dezembro de 2024. Esse modelo de inteligência artificial (IA), conhecido como modelo de linguagem de grande escala (LLM), desafia gigantes como OpenAI e Meta ao apresentar resultados impressionantes em testes de desempenho, tudo isso com um custo reduzido e uma abordagem de código aberto.

O DeepSeek V3 tem 671 bilhões de parâmetros — ou seja, está entre os maiores modelos de IA do mundo. Parâmetros são as variáveis internas que ajudam a IA a entender e responder de forma mais precisa às tarefas. Quanto mais parâmetros, maior o potencial do modelo. E, nesse quesito, o V3 se destaca: é 1,6 vezes maior que o Llama 3.1 da Meta, que tem 405 bilhões de parâmetros.

Apesar de seu tamanho e complexidade, o DeepSeek V3 foi treinado em apenas 55 dias, utilizando GPUs Nvidia H800, e custou cerca de US$ 5,58 milhões — um valor impressionantemente baixo se comparado a outros modelos do mercado, como o GPT-4 da OpenAI. Esse treinamento aconteceu mesmo com as restrições impostas pelos EUA, que limitaram o acesso de empresas chinesas a chips avançados.

O que o DeepSeek V3 consegue fazer?

O modelo foi projetado para realizar tarefas baseadas em texto, como codificação, tradução, redação de textos e e-mails, sempre a partir de comandos descritivos.

Anúncio

E não é só isso: ele superou concorrentes renomados, como o GPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic, em competições de codificação na plataforma Codeforces. Em outro teste, o Aider Polyglot, ele se destacou ao criar códigos que se integram perfeitamente a sistemas já existentes.

Além disso, o DeepSeek V3 foi treinado com um conjunto de dados gigantesco de 14,8 trilhões de tokens (cada 1 milhão de tokens equivale a cerca de 750 mil palavras). Isso garante que ele tenha uma compreensão profunda e capacidade de lidar com dados complexos.

Código aberto, mas nem tanto

A DeepSeek disponibilizou o modelo como open weights, ou seja, os desenvolvedores podem baixar os parâmetros treinados e ajustá-los para suas necessidades, incluindo usos comerciais.

No entanto, a empresa não liberou o código completo de treinamento nem os detalhes da arquitetura, mantendo parte da tecnologia como propriedade intelectual. O lançamento foi anunciado pela empresa no X. (antigo Twitter).

A abordagem de código aberto foi elogiada por especialistas, como Andrej Karpathy, cofundador da OpenAI, que comentou no X: “DeepSeek está fazendo parecer fácil… com um modelo de ponta treinado com um orçamento risível.”

Anúncio
Um marco para a IA chinesa

O lançamento do DeepSeek V3 é mais do que um avanço tecnológico. Ele mostra o potencial da China em competir de igual para igual com gigantes do Vale do Silício, mesmo sob sanções internacionais. A abordagem eficiente e inovadora da DeepSeek reflete a determinação do país em liderar o campo da IA.

A chegada do DeepSeek V3 mexe com o mercado global de IA. Com desempenho superior e custo muito mais baixo, ele pressiona empresas como OpenAI e Meta a repensarem suas estratégias. Além disso, o modelo reforça a competitividade da China em um setor que está moldando o futuro da tecnologia e da economia mundial.

A DeepSeek, fundada em 2023 por Liang Wenfeng, é financiada pelo fundo de hedge High-Flyer Capital Management, que também aposta pesado em IA para suas estratégias de mercado. A empresa já havia causado impacto com lançamentos anteriores, mas o V3 é, sem dúvida, seu maior trunfo até agora.

O futuro é agora

Com o DeepSeek V3, a inteligência artificial não é mais exclusividade das gigantes da tecnologia. A combinação de acessibilidade, poder e inovação torna este modelo um divisor de águas, marcando o início de uma nova fase na corrida global pela liderança em IA.


*Revista Fórum

Anúncio