Meta ra mắt Muse Spark, mô hình AI mạnh nhất từ trước đến nay—nhưng Gemini 3.1 Pro vẫn dẫn đầu thị trường

Tóm tắt nhanh

Muse Spark mới của Meta đánh dấu bước chuyển sang mô hình AI đóng, đa phương thức (multimodal) native với khả năng suy luận theo hướng agent-based.
Meta ghi nhận cải thiện mạnh trên các benchmark về y tế và tìm kiếm, nhưng vẫn thua Gemini ở năng lực suy luận lõi và coding.
Được xây dựng trong 9 tháng với mức compute thấp hơn nhiều, điều này cho thấy chiến lược AI mới tập trung vào hiệu quả.

Meta đã ra mắt Muse Spark vào thứ Tư, đây là mô hình đầu tiên được phát triển bởi Meta Superintelligence Labs—đội ngũ được thành lập cách đây 9 tháng dưới sự dẫn dắt của Chief AI Officer Alexandr Wang sau thương vụ thâu tóm Scale AI trị giá 14 tỷ USD. Hiện tại, Muse Spark đã hoạt động trên meta.ai và ứng dụng Meta AI, và sẽ sớm được triển khai trên Facebook, Instagram và WhatsApp trong vài tuần tới.

Đây không chỉ là một bản nâng cấp chatbot hay phiên bản mới của Llama. Muse Spark là mô hình multimodal native—có khả năng xử lý hình ảnh, văn bản và giọng nói ngay từ kiến trúc lõi, thay vì “gắn thêm” khả năng thị giác vào một mô hình text có sẵn. Mô hình này tích hợp visual chain-of-thought, hỗ trợ sử dụng công cụ (tool-use), và một chế độ gọi là “Contemplating mode”: cho phép nhiều AI agent chạy song song để xử lý các bài toán phức tạp. Đây là câu trả lời của Meta đối với các chế độ suy luận mở rộng như Gemini Deep Think của Google và GPT Pro của OpenAI.

“Muse Spark là bước đầu tiên trong lộ trình scale của chúng tôi và là sản phẩm đầu tiên của việc tái cấu trúc toàn diện hệ thống AI,” Meta cho biết trong thông báo chính thức. “Để tiếp tục mở rộng, chúng tôi đang đầu tư chiến lược trên toàn bộ stack—từ nghiên cứu, huấn luyện mô hình đến hạ tầng, bao gồm cả data center Hyperion.”

Công ty đã hợp tác với hơn 1.000 bác sĩ để xây dựng dataset huấn luyện cho khả năng suy luận y khoa của Muse Spark. Kết quả trên benchmark HealthBench Hard—một bài test open-ended về truy vấn y tế—rất ấn tượng: Muse Spark đạt 42.8 điểm, so với 40.1 của GPT 5.4 và chỉ 20.6 của Gemini 3.1 Pro. Đây không phải là chênh lệch nhỏ.

Trong mảng agentic search (DeepSearchQA), Muse Spark cũng dẫn đầu với 74.8 điểm, vượt Gemini (69.7) và GPT 5.4 (73.6). Trên bài test CharXiv Reasoning—đánh giá khả năng hiểu hình ảnh từ paper khoa học—mô hình đạt 86.4 điểm, cao nhất trong số các mô hình được so sánh.

Đối với cộng đồng chuyên “jailbreak” AI, mô hình này đã bị khai thác chỉ trong vài phút:

🚰 RÒ RỈ SYSTEM PROMPT 🚰

Đây là toàn bộ system prompt của Muse Spark từ Meta!

Tôi nhận thấy @AIatMeta“quên” open-source nó, nên tôi đã tiện tay công khai giúp họ 😘

PROMPT:
“””
Bạn là ai?

Bạn là một AI assistant thân thiện, thông minh và mang tính agentic. Bạn ấm áp và có phần tinh nghịch.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Nhưng “tốt” không đồng nghĩa với “xuất sắc”. Bức tranh tổng thể từ các benchmark cho thấy Gemini 3.1 Pro vẫn đang dẫn trước ở hầu hết các hạng mục. Khoảng cách thể hiện rõ nhất ở ARC AGI 2—benchmark đánh giá khả năng suy luận trừu tượng: Gemini đạt 76.5 điểm so với 42.5 của Muse Spark.

Trong mảng coding (LiveCodeBench Pro), Gemini đạt 82.9, vượt Meta với 80.0. Trên MMMU Pro—đánh giá năng lực hiểu đa phương thức—Gemini ghi nhận 83.9 so với 80.4 của Muse Spark. Ngay cả blog chính thức của Meta cũng thừa nhận hiện tại vẫn tồn tại khoảng cách hiệu năng trong các hệ thống agentic dài hạn và workflow lập trình.

Ngoài ra, lần ra mắt này còn phản ánh một sự chuyển dịch chiến lược đáng chú ý. Muse Spark là một mô hình đóng—kiến trúc và trọng số (weights) sẽ không được công khai. Đây là bước ngoặt lớn so với Llama, vốn đã xây dựng danh tiếng của Meta trong cộng đồng AI mã nguồn mở. Sau phản ứng kém tích cực đối với Llama 4 hồi đầu năm, Meta dường như đã quyết định viết lại “chương tiếp theo” theo một hướng khác.

Công ty cho biết vẫn có kế hoạch open-source các phiên bản Muse trong tương lai, nhưng hiện tại code vẫn được giữ nội bộ. Cổ phiếu của Meta đã tăng gần 9% trong ngày thứ Tư sau thông báo này và chốt phiên tăng 6.5%, đạt mức 612.42 USD.

“Contemplating mode” sử dụng cơ chế orchestration nhiều agent chạy song song để nâng trần hiệu năng của mô hình. Với cấu hình này, Muse Spark đạt 58% trên Humanity’s Last Exam và 38% trên FrontierScience Research—mức hiệu suất đủ để cạnh tranh với các phiên bản cao cấp nhất của Gemini và GPT, thay vì các bản tiêu chuẩn.

Meta cũng đang triển khai một trợ lý mua sắm (shopping assistant) có khả năng so sánh sản phẩm và điều hướng trực tiếp tới hành động mua. Đồng thời, hãng dự kiến tích hợp Muse Spark vào Facebook, Instagram và WhatsApp trong vài tuần tới—tiếp tục chiến lược phân phối quy mô lớn giống từ thời Llama 3, đưa sản phẩm tiếp cận hơn 3.5 tỷ người dùng. Một bản API private preview cũng sẽ được mở cho một số developer được chọn.

Mô hình được phát triển trong vòng 9 tháng, với tên mã nội bộ là Avocado. Meta cho biết stack pretraining mới của họ có thể đạt mức năng lực tương đương Llama 4 Maverick nhưng sử dụng ít hơn hơn 10 lần tài nguyên compute.

Muse Spark được mô tả nội bộ là bước khởi đầu “nhỏ và nhanh” trong hệ sinh thái Muse. Một phiên bản mạnh hơn hiện đã đang được phát triển.

Bản tin Daily Debrief
Bắt đầu mỗi ngày với những tin tức nổi bật nhất, cùng các nội dung độc quyền, podcast, video và nhiều hơn nữa.