AI MiMo 2.5 Pro mới của Xiaomi có thể nhìn, nghe và hành động — tất cả trong một mô hình

Tóm tắt nhanh:

Xiaomi ra mắt MiMo-V2.5 và V2.5-Pro, tích hợp khả năng xử lý văn bản, hình ảnh, âm thanh và video trong một mô hình AI đa phương thức duy nhất.
Phiên bản Pro cạnh tranh với các mô hình hàng đầu về coding và agent, đồng thời cải thiện đáng kể hiệu suất token và chi phí.
Các mô hình mới cho thấy bước tiến nhanh của Xiaomi trong AI, với kế hoạch mã nguồn mở và liên tục nâng cấp sau khi được đón nhận mạnh trên các nền tảng như OpenRouter.

Xiaomi vừa tiếp tục ra mắt một dòng mô hình AI mới.

Chỉ vài tuần trước, công ty đã giới thiệu MiMo-V2-Pro — một mô hình trillion-parameter từng âm thầm xuất hiện trên OpenRouter dưới tên “Hunter Alpha” trước khi Xiaomi công bố chính thức. Từ một cái tên vô danh, mô hình này nhanh chóng vươn lên nhóm hàng đầu chỉ sau một đêm. Chúng tôi đã thử nghiệm và đánh giá rất ấn tượng.

Giờ đây, Xiaomi quay trở lại với MiMo-V2.5 và MiMo-V2.5-Pro — bộ đôi mô hình mới bổ sung những gì thế hệ trước chưa có trong cùng một hệ thống: khả năng “nhìn”, “nghe” và xử lý video. Ngoài ra, công ty cũng dự định sẽ mã nguồn mở các mô hình này trong thời gian tới.

Trước đó, V2-Pro chỉ hỗ trợ văn bản và code. Khả năng đa phương thức từng tồn tại ở MiMo-V2-Omni, nhưng là một sản phẩm riêng với điểm benchmark thấp hơn. MiMo-V2.5 đã hợp nhất tất cả vào một mô hình duy nhất — nhanh hơn, mạnh hơn và tích hợp sẵn khả năng hiểu hình ảnh, video và âm thanh.

Điều này quan trọng hơn tưởng tượng đối với người dùng phổ thông. Ví dụ, giờ đây bạn có thể chụp ảnh tủ lạnh và yêu cầu AI gợi ý món ăn, tải video hướng dẫn để nhận tóm tắt từng bước, hoặc ghi âm cuộc họp để trích xuất các đầu việc — tất cả trong một hệ thống, không cần chuyển đổi giữa nhiều công cụ hay mô hình khác nhau.

Xiaomi cho biết MiMo-V2.5-Pro là “bước nhảy vọt lớn” so với V2-Pro về khả năng agent, kỹ thuật phần mềm phức tạp và các tác vụ dài hạn. Công ty cho rằng mô hình này hiện ngang tầm các hệ thống hàng đầu như Claude Opus 4.6 và GPT-5.4 trong nhiều bài test coding và agent — dù vẫn còn khoảng cách ở các bài toán suy luận khó.

Hai phiên bản phục vụ mục đích khác nhau:

MiMo-V2.5-Pro: phiên bản mạnh nhất, có thể tự động hoàn thành các tác vụ chuyên môn với hơn 1.000 lần gọi công cụ — những công việc có thể mất nhiều ngày nếu do con người thực hiện. Tốc độ 60–80 token/giây, chi phí $1 input / $3 output mỗi triệu token.
MiMo-V2.5: phiên bản phổ thông, nhanh hơn (100–150 token/giây), rẻ hơn ($0.40 / $2), và hỗ trợ đầy đủ đa phương thức (hình ảnh, âm thanh, video).

Cả hai đều có context window lên tới 1 triệu token (~750.000 từ trong một cuộc hội thoại).

Về benchmark, MiMo-V2.5-Pro đạt 57,2% trên SWE-bench Pro — gần mức cao nhất thị trường, trong khi mức trung bình chỉ khoảng 25%. Kết quả tương tự trên τ3-bench và ClawEval, tiệm cận các mô hình hàng đầu. Tuy nhiên, ở bài test học thuật khó như Humanity’s Last Exam, mô hình đạt 48%, thấp hơn mức 58,7% của GPT-5.4.

Điểm nổi bật nhất là hiệu quả token:

V2.5-Pro dùng ít hơn 42% token so với Kimi K2.6 với hiệu năng tương đương
V2.5 dùng gần một nửa token so với Muse Spark

Đối với các hệ thống vận hành quy mô lớn, điều này đồng nghĩa tiết kiệm chi phí đáng kể.

Trong các tác vụ đa phương thức, MiMo-V2.5 đạt hiệu năng ngang với GPT-5.4 và Gemini 3.1 Pro, đồng thời tiệm cận tiêu chuẩn của Opus 4.6.

Kể từ tháng 12/2025, Xiaomi đã hoàn thành ba lần ra mắt mô hình lớn: đầu tiên là MiMo-V2-Flash tối ưu hiệu suất, tiếp đến là bộ ba V2-Pro/Omni/TTS vào tháng 3, và hiện tại là dòng V2.5. Công ty đã cam kết đầu tư ít nhất 8,7 tỷ USD vào AI trong ba năm tới, được CEO Lei Jun công bố ngay sau khi V2-Pro ra mắt — và tốc độ phát hành cho thấy nguồn ngân sách này đã bắt đầu được triển khai mạnh mẽ.

Bối cảnh cũng giúp lý giải tốc độ này. Theo Digital Applied, tính đến đầu tháng 4, các mô hình của Xiaomi chiếm khoảng 21% tổng lưu lượng trên OpenRouter — tăng hơn 42% chỉ trong 7 ngày. Khi một mô hình trước đó của bạn trở thành một trong những lựa chọn cạnh tranh nhất trên nền tảng định tuyến AI lớn nhất thế giới, bạn vừa có nguồn lực, vừa có áp lực để liên tục cải tiến với tốc độ cao.

Điều này có thể đến từ làn sóng bùng nổ của công cụ AI dạng agent Hermes và thỏa thuận của nó với Xiaomi, cho phép người dùng truy cập miễn phí MiMo V2-Pro trong thời gian giới hạn. Khoảng thời gian đó hiện đã kết thúc, nhưng mức độ “hype” là đủ để đưa Xiaomi vào cuộc chơi.

Những ai muốn sử dụng Hermes miễn phí hiện có thể thử Step 3.5 Flash thông qua Nous API hoặc dùng OpenRouter với các model miễn phí nhưng bị giới hạn hơn.

Chính sách giá token cũng đã được cập nhật. MiMo-V2.5 sử dụng mức 1x credit, còn MiMo-V2.5-Pro là 2x. Xiaomi không còn áp dụng hệ số phí bổ sung khi sử dụng context window 1 triệu token, giúp việc xử lý tài liệu dài trở nên rẻ hơn đáng kể. Người dùng hiện tại cũng được reset toàn bộ credit như một phần thưởng ra mắt.

Xiaomi cho biết model đã có mặt trên AI Studio của hãng. Tuy nhiên, khi thử truy cập ngay sau khi ra mắt, vẫn chưa khả dụng. Dù vậy, model đã hoạt động trên MiMo API — nơi phần lớn developer sẽ sử dụng.

Công ty cũng cho biết đang huấn luyện thế hệ tiếp theo, với “khả năng suy luận sâu hơn, tích hợp công cụ chặt chẽ hơn và bám sát thực tế hơn.” Với tốc độ phát triển hiện tại của Xiaomi, có lẽ bản nâng cấp tiếp theo sẽ đến sớm hơn nhiều người nghĩ.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất hiện tại, cùng các nội dung độc quyền, podcast, video và nhiều hơn nữa.