Tóm lại
- Mercury 2 của Inception Labs tạo ra khoảng 1.000 token mỗi giây và đạt 90 điểm trên AIME 2026
- DiffusionGemma gần đây của Google đạt tốc độ tương tự nhưng hoạt động kém hơn ở điểm chuẩn.
- DiffusionGemma miễn phí và có trọng lượng mở trên Ôm mặt. Mercury 2 là mô hình API đóng, có tính phí.
Inception Labs đã giới thiệu Mercury 2 vào thứ năm, gọi đây là mô hình ngôn ngữ lập luận nhanh nhất thế giới. Theo thông báo của công ty, nó tạo ra khoảng 1.000 mã thông báo mỗi giây—các đoạn văn bản mà mô hình AI đọc và viết—so với khoảng 89 mã thông báo mỗi giây đối với Claude Haiku 4.5 Reasoning của Anthropic và 71 mã thông báo đối với GPT-5 Mini của OpenAI.
Điều đó đặt nó vào cùng khung tốc độ mà sau này Google sẽ yêu cầu Khuếch tánGemma.
Chào mừng đến với kỷ nguyên khuếch tán.
Chúng tôi đặt cược vào thế hệ song song nhiều năm trước, khi đó là một ý tưởng trái ngược. Thật tuyệt vời khi thấy ngành công nghiệp này xuất hiện.
Mercury 2 tiếp tục dẫn đầu Pareto về chất lượng, tốc độ và chi phí trong số các LLM phổ biến có sẵn công khai. pic.twitter.com/qSHuiR7vmH
— Khởi đầu (@_inception_ai) Ngày 18 tháng 6 năm 2026
Cả hai mô hình đều đạt được điều đó bằng cách loại bỏ cách viết bằng máy đánh chữ. Một chatbot tiêu chuẩn viết một từ, kiểm tra những gì nó vừa viết, sau đó viết từ tiếp theo, lặp lại cho đến khi câu trả lời kết thúc. Thay vào đó, mô hình Khuếch tán sẽ lấp đầy một khối văn bản bằng các mã thông báo giữ chỗ ngẫu nhiên và xóa nhiễu trên một số đường truyền song song—cùng một thủ thuật biến tĩnh thành ảnh trong các trình tạo hình ảnh như Khuếch tán ổn định—cho đến khi toàn bộ khối khóa thành phản hồi hoàn tất cùng một lúc.
Nơi hai người phân kỳ là những gì tồn tại trong quá trình đó. Trên AIME 2026—được xây dựng từ các bài toán có thật trong Kỳ thi Toán mời của Mỹ và được tính điểm khi phần trăm giải đúng—Mercury 2 đạt 90%. Google đã thử nghiệm DiffusionGemma trên cùng một bộ, đạt 69,1%, trong khi Gemma 4 tiêu chuẩn, không khuếch tán đạt 88,3% trong cùng một bài kiểm tra.
Trên GPQA, điểm chuẩn khoa học cấp tiến sĩ cũng đạt điểm tương tự, hai mô hình gần như bằng nhau: Mercury 2 ở mức 77% so với 73,2% của DiffusionGemma. Tuy nhiên, hướng dẫn dành cho nhà phát triển của chính Google khuyến nghị tiêu chuẩn Gemma 4 cho các ứng dụng yêu cầu chất lượng tối đa, thừa nhận rằng DiffusionGemma đã vượt qua nó.
Yêu cầu về tốc độ cũng được áp dụng bên ngoài phòng thí nghiệm. Augment Code, một công ty đại lý mã hóa AI, đã đổi Mercury 2 lấy Claude Opus 4.7 của Anthropic trên đại lý phụ nén ngữ cảnh của nó và nhận thấy độ trễ giảm 82% và chi phí giảm 90%, trong khi vẫn báo cáo chất lượng đầu ra tương tự, theo một báo cáo. nghiên cứu trường hợp chung.
Inception được xây dựng dựa trên nghiên cứu của người sáng lập Stefano Ermon, một giáo sư Stanford, người đồng tác giả một số kỹ thuật khuếch tán dựa trên điểm số cung cấp năng lượng cho các trình tạo hình ảnh ngày nay. Vòng tài trợ trị giá 50 triệu USD của công ty khởi nghiệp đã thu hút sự ủng hộ từ chi nhánh đầu tư mạo hiểm của Nvidia và các nhà đầu tư cá nhân Andrew Ng và Andrej Karpathy.
Đối với những người dùng không rành về kỹ thuật, điều quan trọng nhất mà hầu hết mọi người không nhận thấy cho đến khi họ cảm nhận được đó là “dòng chảy”. Các mô hình truyền thống khiến bạn phải chờ đợi giữa những suy nghĩ trong một phiên dài. Các mô hình phân tán như thế này khiến AI có cảm giác như đang theo kịp bạn—tự động hoàn thành ngay lập tức, lặp lại mã hoặc kế hoạch nhanh chóng và các tác nhân phụ có thể xử lý công việc khối lượng lớn nhàm chán mà không kéo toàn bộ hệ thống xuống.
Lớp tác nhân phụ đó là sự thay đổi kiến trúc thú vị. Các hệ thống AI phức tạp không còn là một mô hình thông minh khổng lồ nữa. Chúng là tập hợp những người trợ giúp chuyên biệt: một người dùng để suy luận sâu, một số người dùng để tóm tắt nhanh, định tuyến, tra cứu công cụ, kiểm tra đầu ra, v.v. Các mô hình tuần tự khiến các cuộc gọi tiện ích đó trở nên tốn kém và chậm chạp. Những phương pháp khuếch tán song song làm cho chúng rẻ và đủ nhanh để sử dụng tùy ý.
Cảnh báo thực tế dành cho người dùng thông thường: Đây vẫn là những điều tốt nhất cho các phần quy trình làm việc có khối lượng lớn, nhạy cảm với tốc độ thay vì lý do biên giới khó khăn nhất (nơi mà các mô hình AR lớn nhất hiện tại có thể vẫn có lợi thế). Mercury 2 không phải là phiên bản mở nên hiện tại nó là API/đám mây. Và giống như phiên bản của Google, toàn bộ hệ sinh thái (thời gian chạy cục bộ, khung tác nhân) vẫn đang bắt kịp để làm cho nó liền mạch ở mọi nơi.
Các trường hợp sử dụng xuất hiện ngay lập tức: lập trình nhanh theo thời gian thực và “mã hóa rung cảm” trong đó mô hình theo kịp các chỉnh sửa của bạn, hệ thống hỗ trợ hoặc mã hóa đa tác nhân nơi diễn ra nhiều cuộc gọi phụ nhanh, giao diện giọng nói không bị lag và bất kỳ dự đoán tự động hoàn thành hoặc hành động tiếp theo nào có độ trễ nhạy cảm. Ở quy mô lớn, chi phí và năng lượng tiết kiệm được nhờ thông lượng cao hơn trên phần cứng tiêu chuẩn sẽ tăng lên nhanh chóng.
Những con số Cổ phiếu khởi đầu (và các đánh giá độc lập) giải thích vấn đề một cách trực quan: Mercury 2 nằm trong góc phần tư “nhanh và tốt” đối với các mô hình phổ biến, đẩy những gì từng yêu cầu phần cứng kỳ lạ xuống các GPU thông thường.
Bản tin tóm tắt hàng ngày
Bắt đầu mỗi ngày với những tin tức hàng đầu ngay bây giờ, cùng với các tính năng độc đáo, podcast, video và hơn thế nữa.

