Meta lanza Llama 4: inteligencia artificial multimodal al alcance de todos

Meta ha dado un salto gigantesco en la evolución de la inteligencia artificial con el lanzamiento de Llama 4, una familia de modelos que marca el inicio de una nueva era: la era de la IA multimodal verdaderamente abierta, eficiente y con una capacidad de contexto nunca antes vista. ¿Listos para descubrir por qué Llama 4 Scout, Maverick y Behemoth están redefiniendo lo que esperamos de un modelo de lenguaje? Comenzamos!! 👇👇

El renacimiento multimodal de Meta: Bienvenidos al universo Llama 4

Con el lanzamiento de Llama 4, Meta presenta al mundo una serie de modelos de última generación diseñados no solo para comprender lenguaje natural, sino también para integrar imágenes, videos y razonamiento avanzado. Y lo mejor: son de código abierto y están al alcance de todos a través de llama.com y Hugging Face.

Scout y Maverick: los exploradores de la nueva frontera

Llama 4 Scout es un modelo de 17 mil millones de parámetros activos con arquitectura mixture-of-experts (MoE), que logra hazañas tecnológicas sorprendentes como un contexto de entrada de 10 millones de tokens, ideal para tareas como la lectura y análisis de enormes volúmenes de texto o código. Con tan solo una GPU NVIDIA H100, Scout supera ampliamente a modelos como Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1, liderando su clase.

Por otro lado, Llama 4 Maverick también cuenta con 17 mil millones de parámetros activos pero con 128 expertos, logrando un rendimiento de primer nivel en benchmarks de razonamiento, codificación e imagen, superando incluso a gigantes como GPT-4o y Gemini 2.0 Flash. Su desempeño en aplicaciones conversacionales es tal que ha alcanzado un puntaje de 1417 ELO en LMArena, convirtiéndose en el nuevo modelo generalista estrella de Meta.

Ambos modelos han sido destilados a partir de Llama 4 Behemoth, el titán de 288 mil millones de parámetros activos que aún se encuentra en entrenamiento, pero ya logra superar a GPT-4.5, Claude 3 Sonnet y Gemini 2.0 Pro en pruebas exigentes como MATH-500 o GPQA Diamond.

Multimodalidad desde la raíz: arquitectura de vanguardia

Llama 4 es la primera familia de modelos de Meta diseñada para ser nativamente multimodal, gracias a la técnica de early fusion, que permite integrar texto, imágenes y videos desde las primeras etapas del entrenamiento. La arquitectura incluye capas densas alternadas con capas MoE, y una innovadora estructura de atención sin embeddings posicionales, denominada iRoPE, que facilita el manejo de contextos casi infinitos.

Scout, por ejemplo, ha sido entrenado para analizar hasta ocho imágenes simultáneamente y destaca por su capacidad de image grounding, es decir, entender dónde se encuentran los objetos mencionados por el usuario dentro de una imagen.

Un entrenamiento riguroso para una IA más precisa y versátil

Meta ha rediseñado su pipeline de post-entrenamiento para lograr un modelo más equilibrado en capacidades lingüísticas, razonamiento e interpretación visual. Se ha priorizado un enfoque de aprendizaje por refuerzo continuo (online RL), utilizando prompts difíciles filtrados dinámicamente, lo que permitió un gran salto cualitativo en el rendimiento del modelo.

Además, la técnica MetaP permitió optimizar parámetros cruciales como las tasas de aprendizaje por capa, mejorando la eficiencia en la generalización y transferencia entre configuraciones distintas. Todo esto acompañado por entrenamiento en más de 30 billones de tokens, incluyendo 200 idiomas.

Behemoth: el modelo maestro

Aunque aún está en fase de entrenamiento, Llama 4 Behemoth se perfila como uno de los LLM más poderosos del mundo, con 2 billones de parámetros totales y un enfoque refinado para enseñar a modelos más pequeños a través de co-destilación. Esta estrategia ha demostrado ser clave para mejorar los resultados en tareas avanzadas de razonamiento y codificación. Behemoth representa el futuro de los modelos de IA a gran escala.

Compromiso con la seguridad, la equidad y la transparencia

Meta no solo se ha enfocado en el rendimiento, sino también en garantizar que Llama 4 sea un modelo seguro, balanceado y confiable. Se han implementado múltiples herramientas de mitigación, como Llama Guard y Prompt Guard, para proteger contra ataques maliciosos y reducir el sesgo ideológico. Los avances en este sentido son significativos: Llama 4 reduce la tasa de rechazos arbitrarios y responde con mayor neutralidad frente a temas controversiales, alcanzando niveles comparables a modelos como Grok.

Además, se ha adoptado una estrategia de red-teaming automatizado con GOAT (Generative Offensive Agent Testing), que permite simular interacciones con actores adversariales para evaluar riesgos con mayor cobertura y eficiencia.

Conclusión:

Con Llama 4 Scout y Maverick, Meta no solo entrega modelos de altísimo nivel técnico, sino que apuesta por una inteligencia artificial verdaderamente abierta, accesible y personalizada. Su arquitectura innovadora, entrenamiento robusto, capacidades multimodales y enfoque en la seguridad y equidad hacen de Llama 4 una piedra angular en el desarrollo de la próxima generación de aplicaciones inteligentes.

Para más información : 👇👇

https://ai.meta.com/blog/llama-4-multimodal-intelligence/


Deja un comentario

También te podría Interesar :