Zuckerberg anuncia Llama 4, novo modelo de IA do WhatsApp que promete ser melhor do que ChatGPT

Zuckerberg anuncia Llama 4, novo modelo de IA do WhatsApp que promete ser melhor do que ChatGPT

A Meta lançou no último sábado os dois primeiros modelos da família Llama 4, marcando sua estreia na tecnologia de mistura de especialistas (MoE). Os novos modelos, denominados Llama 4 Scout e Llama 4 Maverick, representam uma mudança significativa na abordagem da empresa para o desenvolvimento de inteligência artificial.

O Llama 4 Scout possui 17 bilhões de parâmetros ativos com 16 especialistas e pode operar em uma única GPU NVIDIA H100. Já o Llama 4 Maverick, também com 17 bilhões de parâmetros ativos, conta com 128 especialistas e exige mais recursos computacionais.

Você também pode gostar dos artigos abaixo:

Chega de Ghibli! Veja 10 estilos incríveis para transformar suas fotos com o ChatGPT – Simpsons, LEGO, Pixel Art e mais
Nem eles escaparam! Confira alguns memes que entraram na trend do Estúdio Ghibli

A arquitetura MoE divide tarefas complexas em partes menores, atribuindo cada uma a subsistemas neurais especializados. Essa abordagem permite que os modelos processem informações de forma mais eficiente, ativando apenas uma fração do total de parâmetros durante o uso, o que reduz custos e latência de operação.

489528324 1866126614188079 2353760794201377773 n.png? nc cat=106&ccb=1 7& nc sid=e280be& nc ohc=589b2OgjpKQQ7kNvwGDpWPC& nc oc=AdmKWDWnmdi5c4ZObuMPfCbKnGj7WA75e5Whlpwoh6Q99z3YVo97T5sTJWNj6niR2sWvfROhijMO3 OdnkVOx HV& nc zt=14& nc ht=scontent.fjpa2 1

Os novos modelos são baseados no Llama 4 Behemoth, ainda em treinamento, que conta com 288 bilhões de parâmetros ativos, 16 especialistas e quase dois trilhões de parâmetros totais. A Meta afirma ter atingido 390 TFLOPs por GPU durante o processo de treinamento, utilizando precisão FP8 e 32 mil GPUs.

O conjunto de dados de treinamento incluiu mais de 30 trilhões de tokens, mais que o dobro da mistura usada no Llama 3, abrangendo texto, imagens e vídeos diversos. A empresa também desenvolveu uma nova técnica de treinamento chamada MetaP, que permite definir parâmetros críticos como taxas de aprendizado por camada e escalas de inicialização.

Uma característica destacada pela Meta é o esforço para corrigir a tendência dos modelos de linguagem de produzirem respostas alinhadas com o pensamento político de esquerda. Segundo a empresa, o Llama 4 foi projetado para ser “dramaticamente mais equilibrado” em relação a tópicos políticos e sociais controversos, recusando responder a menos tópicos e apresentando inclinação política em taxa comparável ao modelo Grok da X AI.

488655517 650996354186993 1043942188415715102 n.png? nc cat=105&ccb=1 7& nc sid=e280be& nc ohc=jk8wIewED7gQ7kNvwEgs3BC& nc oc=Adk7Uy64Q4Mu5 hIuWqrvLsEGLRb7DOG wME27k5ncaVHzv MygtCmcUao rs3AGEVyIOKnkskYi7lUa8u0zO3HO& nc zt=14& nc ht=scontent.fjpa2 1

Os novos modelos também introduzem recursos multimodais, permitindo processar texto e imagens simultaneamente com uma técnica chamada “fusão precoce”. O Llama 4 Scout suporta um contexto de entrada de 10 milhões de tokens, um avanço significativo em relação aos 128 mil do Llama 3.

O desenvolvimento incluiu proteções contra uso indevido, com a criação do sistema Generative Offensive Agent Testing (GOAT), que simula interações adversariais para identificar vulnerabilidades. Segundo a Meta, isso permite que os testadores humanos se concentrem em áreas adversariais mais inovadoras.

Os modelos estão disponíveis para download no site da Meta e no Hugging Face, mantendo o compromisso da empresa com o código aberto, embora a Open Source Initiative tenha contestado essa classificação por restrições impostas a usuários da União Europeia.

O que você pensa sobre essa nova geração de modelos de inteligência artificial? Compartilhe sua opinião nos comentários.

Fonte: Meta

Leave A Comment

You must be logged in to post a comment.

Back to Top