Meta представила Muse Spark, первую модель ИИ, созданную ее Meta Superintelligence Labs, новым исследовательским подразделением ИИ, которое она создала в прошлом году и потратила миллиарды долларов на персонал и оборудование.

По результатам тестов, опубликованных Meta, эта модель конкурирует с ведущими моделями ИИ от OpenAI, Anthropic и Google по многим задачам, хотя и не превосходит их по всем направлениям. Тем не менее, если результаты тестов подтвердятся при тестировании независимыми экспертами, Muse Spark, похоже, вернет Meta в гонку ИИ после того, как ее последняя модель ИИ, Llama 4, выпущенная в апреле 2025 года, была широко раскритикована как неудачная.

Однако в прошлом Meta была уличена в манипулировании опубликованными результатами тестов модели ИИ, чтобы заставить ее казаться более функциональной, чем на самом деле была версия, доступная большинству пользователей. Так было с тестами Llama 4 от Meta, в которых компания позже призналась, что использовала специализированные, неизданные версии модели, точно настроенные для конкретных задач, для повышения результатов тестов в этих областях, в то время как общая версия, доступная всем пользователям, не показала таких же хороших результатов.

И есть еще одна загвоздка. Мало кто сможет использовать новую мета-модель за пределами собственной продуктовой экосистемы компании. В отличие от предыдущих моделей искусственного интеллекта Meta, которые были выпущены как модели «открытого веса» — то есть каждый мог бесплатно загрузить модели и запускать их на своем собственном оборудовании, а также модифицировать и настраивать их по своему желанию — Muse Spark, по крайней мере на данный момент, в первую очередь является собственным инструментом для Meta.

В настоящее время модель используется в помощнике Meta AI в автономном приложении Meta AI компании и на meta.ai. Компания заявила, что в ближайшие недели внедрит ее в WhatsApp, Instagram, Facebook, Messenger и очки Meta Ray-Ban AI. Компания также заявила, что предложит модель в «частной предварительной версии» для выбора партнеров через интерфейс прикладного программирования (API). Это делает Muse Spark еще более запатентованным, чем платные проприетарные модели, предлагаемые конкурентами Meta. (В своем блоге компания Meta сообщила, что надеется открыть исходный код будущих версий модели.)

Muse Spark — это первая модель рассуждения Meta. Это означает, что она может выполнять процесс поэтапно, используя разные стратегии, если первоначальный подход не сработал. Все предыдущие модели компании были разработаны для мгновенного получения ответа на основе обучения модели. Muse Spark также является мультимодальной моделью, которая может принимать и выводить как текст, так и изображения. Модель также поддерживает использование других программных инструментов и может помочь организовать работу нескольких субагентов, согласно техническому сообщению в блоге, опубликованному Meta.

В своем посте в блоге, анонсирующем новую модель, Meta описывает Muse Spark как «маленькую и быструю по конструкции, но достаточно способную решать сложные научные вопросы, математика и здоровье». В нем описывается модель как первая в серии новых моделей, при этом Muse Spark используется для проверки архитектуры и режима обучения, которые использует Meta, прежде чем компания масштабирует ее до более крупных и еще более мощных моделей того же семейства.

Модель также имеет режим «Созерцание» или «Размышление», в котором она может запускать субагенты для параллельного рассмотрения различных частей задачи. В техническом блоге, посвященном новой модели, Meta сообщила, что этот режим позволяет Muse Spark «конкурировать с экстремальными режимами рассуждения передовых моделей, таких как Gemini Deep Think и GPT Pro».

Результаты тестов, опубликованные одновременно с запуском, рисуют картину конкурентоспособной, но не доминирующей модели. Например, в тесте GPQA Diamond, который должен проверять навыки рассуждения на уровне доктора философии, Muse Spark набрал 89,5%, что немного отстает от Gemini 3.1 Pro с 94,3%, а также 92,7% и 92,8%, которые набрали Claude Opus 4.6 от Anthropic и GPT-5.4 от OpenAI соответственно. В ведущем тесте здоровья HealthBench Hard Muse Spark превзошла все конкурирующие модели с результатом 42,8 %, что намного лучше, чем у Opus 4.6 или Gemini 3.1 Pro, и немного лучше, чем у GPT-5.4.

Мета признала недостатки в производительности. В техническом сообщении блога говорится, что компания продолжает «инвестировать в области, где текущие проблемы производительности».