Meta ha presentado Muse Spark, el primer modelo de IA producido por sus Meta Superintelligence Labs, la nueva unidad de investigación de IA que creó el año pasado y en la que ha invertido miles de millones de dólares en personal y equipamiento.

El modelo, según las pruebas comparativas que Meta publicó, es competitivo con los principales modelos de IA de OpenAI, Anthropic y Google en muchas tareas, aunque no las supera en todos los ámbitos. Aún así, si los resultados de las pruebas comparativas se mantienen cuando los prueban expertos independientes, Muse Spark parece devolver a Meta a la carrera de la IA después de que su último modelo de IA, Llama 4, que se lanzó en abril de 2025, fuera ampliamente criticado como un fracaso. Este fue el caso de los puntos de referencia Llama 4 de Meta, en los que la compañía admitió más tarde haber utilizado versiones especializadas inéditas del modelo, ajustadas para tareas específicas, para mejorar las puntuaciones de los puntos de referencia en esas áreas, mientras que la versión general disponible para todos los usuarios no funcionó tan bien.

Y hay otro problema. Pocas personas podrán utilizar el nuevo modelo Meta fuera del ecosistema de productos de la empresa. A diferencia de los modelos de IA anteriores de Meta, que se lanzaron como modelos de “peso abierto”, lo que significa que cualquiera podía descargar los modelos de forma gratuita y ejecutarlos en su propio equipo, así como modificarlos y ajustarlos como quisiera, Muse Spark es, al menos por el momento, principalmente una herramienta interna de Meta.

El modelo actualmente impulsa el asistente Meta AI en la aplicación Meta AI independiente de la compañía y en meta.ai. La compañía dijo que lo implementará en WhatsApp, Instagram, Facebook, Messenger y las gafas Ray-Ban AI de Meta en las próximas semanas. También dijo que ofrecerá el modelo en una “vista previa privada” a socios seleccionados a través de una interfaz de programación de aplicaciones (API). Eso hace que Muse Spark sea aún más propietario que los modelos propietarios pagados ofrecidos por los rivales de Meta. (Meta dijo en una publicación de blog que espera poder abrir futuras versiones del modelo).

Muse Spark es el primer modelo de razonamiento de Meta, lo que significa que puede trabajar en un proceso paso a paso, utilizando diferentes estrategias si su enfoque inicial no funciona. Todos los modelos anteriores de la empresa fueron diseñados para producir una respuesta instantánea basada en la capacitación del modelo. Muse Spark también es un modelo multimodal que puede recibir y generar texto e imágenes. El modelo también admite el uso de otras herramientas de software y puede ayudar a orquestar el trabajo de múltiples subagentes, según una publicación de blog técnica publicada por Meta.

En su blog que anuncia el nuevo modelo, Meta describe Muse Spark como “pequeño y rápido por diseño, pero lo suficientemente capaz de razonar a través de preguntas complejas en ciencia, matemáticas y salud”. Describe el modelo como el primero de una serie de nuevos modelos, en los que Muse Spark se utiliza para validar la arquitectura y el régimen de entrenamiento que Meta está utilizando, antes de que la empresa lo amplíe a modelos más grandes e incluso más potentes de la misma familia.

El modelo también tiene un modo de “Contemplación” o “Pensamiento” en el que puede activar subagentes para razonar sobre diferentes partes de una tarea en paralelo. Meta dijo en un blog técnico que publicó sobre el nuevo modelo que este modo permite a Muse Spark "competir con los modos de razonamiento extremo de modelos de vanguardia como Gemini Deep Think y GPT Pro".

Los resultados comparativos publicados junto con el lanzamiento muestran una imagen de un modelo que es competitivo pero no dominante. Por ejemplo, en el punto de referencia GPQA Diamond, que se supone que evalúa la habilidad de razonamiento a nivel de doctorado, Muse Spark obtuvo una puntuación del 89,5%, ligeramente por detrás del 94,3% de Gemini 3.1 Pro, así como del 92,7% y 92,8% que obtuvieron Claude Opus 4.6 de Anthropic y GPT-5.4 de OpenAI, respectivamente. En un punto de referencia de salud líder, HealthBench Hard, Muse Spark superó a todos los modelos rivales con una puntuación del 42,8%, que fue mucho mejor que Opus 4.6 o Gemini 3.1 Pro, y ligeramente mejor que GPT-5.4.

Meta reconoció las brechas de desempeño. Su publicación técnica en el blog afirma que la compañía continúa "invirtiendo en áreas con brechas de desempeño actuales".