DeepSeek-V3, é um modelo de Mixture-of-Experts (MoE) com 671 bilhões de parâmetros, dos quais 37 bilhões são ativados para cada token. Este modelo representa uma evolução significativa na família DeepSeek, visando reduzir a lacuna entre os modelos de código aberto e os modelos fechados que dominam o mercado atualmente.
Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) passaram por avanços significativos, aproximando-se cada vez mais da Inteligência Artificial Geral (AGI). Enquanto os modelos proprietários, como aqueles desenvolvidos por OpenAI e Google, continuam evoluindo, o ecossistema de código aberto também tem avançado rapidamente. Algumas das principais famílias de modelos open-source incluem:
O objetivo do DeepSeek-V3 é elevar o padrão dos modelos de código aberto, aproximando seu desempenho dos modelos fechados mais avançados.
O DeepSeek-V3 foi projetado com dois componentes principais para maximizar eficiência e reduzir custos:
Essas arquiteturas já haviam sido validadas no DeepSeek-V2, mas foram aprimoradas no V3 para oferecer: ✅ Treinamento eficiente – Redução de custos computacionais sem comprometer a performance.
✅ Inferência rápida – Uso de representações latentes e cache para otimizar a geração de tokens.
✅ Balanceamento de carga sem perda auxiliar – Estratégia pioneira para distribuir especialistas de forma eficiente, evitando penalizações na qualidade do modelo.
✅ Treinamento Multi-Token Prediction – Nova abordagem que permite prever múltiplos tokens simultaneamente, acelerando o aprendizado.
Para ampliar ainda mais as capacidades do modelo, o DeepSeek-V3 foi pré-treinado em um dataset massivo contendo 14,8 trilhões de tokens de alta qualidade, incluindo: