Baidu cho biết AI mới của họ đã vượt qua nhiều mô hình hàng đầu hiện nay trong khi chi phí xây dựng thấp hơn tới 94%.

Tóm tắt nhanh

Baidu cho biết chi phí pre-training của ERNIE 5.1 chỉ bằng khoảng 6% so với các mô hình AI tương đương.
Dù vậy, mô hình này hiện xếp hạng thứ 4 toàn cầu trên bảng xếp hạng LMArena Search.
Baidu đã nén mô hình xuống chỉ còn khoảng một phần ba số lượng tham số của phiên bản tiền nhiệm ERNIE 5.0 mà vẫn giữ được hiệu năng cấp flagship.

Baidu — “Google của Trung Quốc” — chính thức ra mắt ERNIE 5.1 vào cuối tuần trước, và con số gây chú ý nhất gần như không thể bỏ qua: mô hình này có chi phí huấn luyện thấp hơn khoảng 94% so với các hệ thống AI cùng quy mô.

Để dễ hình dung, việc huấn luyện một mô hình AI tiên tiến hiện nay thường tiêu tốn từ hàng triệu cho đến hàng tỷ USD chi phí tính toán. Baidu — công ty đang kiểm soát hơn 76% thị phần tìm kiếm tại Trung Quốc và được niêm yết trên Nasdaq với mã BIDU — tuyên bố rằng họ đã đạt được cùng cấp độ hiệu năng với chỉ khoảng 1/20 chi phí thông thường.

Bí quyết nằm ở kỹ thuật được gọi là “multi-dimensional elastic pre-training.” Thay vì xây dựng ERNIE 5.1 từ đầu, Baidu đã trích xuất một sub-network tối ưu hóa từ kiến trúc ERNIE 5.0 hiện có — phiên bản được phát hành vào tháng 1/2026 — rồi tiến hành nén mô hình lại. Tổng số tham số giảm xuống còn khoảng một phần ba so với bản gốc. Các tham số hoạt động thực tế (những tham số trực tiếp xử lý hội thoại) cũng bị cắt giảm một nửa. Kết quả là một mô hình gọn nhẹ hơn nhưng vẫn kế thừa được nền tảng tri thức của phiên bản lớn hơn mà không cần lặp lại toàn bộ chi phí huấn luyện ban đầu.

Trên bảng xếp hạng LMArena Search Arena — nơi người dùng thực tế so sánh các mô hình AI trong các tác vụ tìm kiếm web trực tiếp và được chấm điểm dựa trên sở thích của con người — ERNIE 5.1 đạt điểm số 1.223, đứng thứ 4 toàn cầu và đứng đầu trong số tất cả các mô hình AI Trung Quốc. Khả năng agentic của mô hình — tức mức độ xử lý tốt các tác vụ nhiều bước như điền bảng tính hoặc tự động duyệt web — cũng vượt qua DeepSeek-V4-Pro, mô hình từng được xem là chuẩn mực AI hàng đầu trước đó tại Trung Quốc.

Cái tên ERNIE có thể nghe khá xa lạ với nhiều người phương Tây, nhưng tại Trung Quốc đây thực sự là một mô hình rất lớn. Baidu ra mắt Ernie Bot vào tháng 8/2023, và chatbot này đã đạt 100 triệu người dùng tại Trung Quốc vào tháng 12 cùng năm — nhanh hơn hầu hết các đối thủ nội địa, dù vẫn chậm hơn kỷ lục toàn cầu của ChatGPT khi đạt cùng cột mốc chỉ trong hai tháng.

Khía cạnh tối ưu hiệu suất này gợi nhớ tới điều mà DeepSeek đã tạo ra cho ngành AI vào tháng 1/2025. Khi startup Trung Quốc này phát hành R1 — mô hình đạt hiệu năng tương đương OpenAI o1 nhưng có chi phí truy vấn thấp hơn tới 98% — sự kiện đó đã khiến vốn hóa thị trường của NVIDIA bốc hơi khoảng 600 tỷ USD và buộc mọi phòng lab AI lớn phải suy nghĩ lại về việc liệu “đốt compute” có còn là chiến lược khả thi duy nhất hay không. ERNIE 5.1 kể một câu chuyện tối ưu hiệu quả theo hướng khác — ở khâu huấn luyện thay vì inference — nhưng thông điệp cốt lõi vẫn giống nhau: các phòng lab AI Trung Quốc đang liên tục tìm ra cách “làm nhiều hơn với ít tài nguyên hơn.”

Quy trình hậu huấn luyện của Baidu cũng rất đáng chú ý. Công ty đã xây dựng một hệ thống reinforcement learning gồm bốn giai đoạn mang tên MOPD (Multi-Teacher On-Policy Distillation). Thay vì cố gắng dạy mọi kỹ năng cùng lúc — điều thường tạo ra “hiệu ứng bập bênh”, ví dụ như cải thiện khả năng toán học nhưng lại làm giảm khả năng viết sáng tạo — Baidu huấn luyện song song các mô hình chuyên gia riêng biệt cho lập trình, suy luận và các tác vụ agentic, sau đó chưng cất toàn bộ những kỹ năng này vào một mô hình thống nhất duy nhất. Một giai đoạn reinforcement learning trực tuyến cuối cùng được sử dụng để xử lý các cuộc hội thoại mở và nội dung sáng tạo, nhằm giữ lại những khả năng mà quá trình distillation khó có thể truyền tải đầy đủ.

Về lý thuyết, điều này có nghĩa là tất cả các kỹ năng sẽ được cân bằng về mức độ thành thạo mà không có kỹ năng nào được ưu tiên hơn kỹ năng khác.

Trên GPQA (Graduate-Level Google-Proof Q&A — một benchmark dùng để đo lường khả năng của mô hình trong việc trả lời các câu hỏi khoa học cấp chuyên gia mà không thể tìm kiếm đơn giản trên Google), ERNIE 5.1 đã tiến gần đến hiệu năng của các mô hình closed-source hàng đầu phương Tây.

Trên AIME26 — kỳ thi American Invitational Mathematics Examination phiên bản 2026, dùng để kiểm tra khả năng giải quyết vấn đề nâng cao trong điều kiện thi đấu — mô hình đạt điểm 99,6% khi sử dụng cơ chế suy luận có hỗ trợ công cụ (tool-assisted reasoning), chỉ xếp sau Gemini 3.1 Pro.

Baidu cho biết ERNIE 5.1 hiện đang được triển khai trên hơn 10 nền tảng sáng tạo và agentic tại Trung Quốc, bao gồm các nền tảng AI roleplay và các công cụ tạo phim ngắn tự động. Mô hình hiện có thể truy cập tại ernie.baidu.com và thông qua API trên nền tảng AI Cloud của Baidu.

Baidu sẽ tổ chức hội nghị nhà phát triển thường niên Create 2026 vào ngày 13–14/5 tại Bắc Kinh, nơi công ty dự kiến trình diễn những ứng dụng công nghiệp mới nhất của ERNIE. Sự kiện này sẽ là dữ liệu tiếp theo cho thấy Baidu đang muốn thúc đẩy mô hình này mạnh mẽ đến mức nào vào thị trường doanh nghiệp và thị trường toàn cầu.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất hiện tại, cùng các bài viết độc quyền, podcast, video và nhiều nội dung hấp dẫn khác.