Tóm lại
- Alibaba đã công bố Qwen-Robot Suite, bộ ba mô hình AI được thiết kế để xử lý việc điều hướng, thao tác và mô phỏng thế giới dựa trên vật lý của robot thông qua một ngăn xếp phần mềm hợp nhất.
- Công ty cho biết các mô hình của họ đứng đầu nhiều tiêu chuẩn về robot, sử dụng hàng triệu mẫu đào tạo và hàng chục nghìn giờ dữ liệu robot nguồn mở.
- Việc triển khai robot trong thế giới thực vẫn còn nhiều năm nữa.
Nhóm Qwen của Alibaba đã loại bỏ Qwen-Robot Suite vào thứ Ba: ba mô hình nền tảng tạo thành cái mà họ gọi là “ngăn xếp đầy đủ cho trí thông minh hiện thân”. Qwen-RobotNav xử lý tính di động. Qwen-RobotManip xử lý các thao tác. Qwen-RobotWorld mô phỏng cơ chế vật lý để biến cả hai điều đó thành hiện thực. Mỗi hoạt động độc lập. Cùng nhau, chúng là khoảnh khắc Android dành cho robot—hệ điều hành chứ không phải phần cứng.
📣 Giới thiệu Bộ Qwen-Robot — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, ba mô hình nền tảng, một tập hợp đầy đủ cho trí thông minh hiện thân.
🧭 Qwen-RobotNav — cánh cổng dẫn đến tính di động.
• Thống nhất 5 tác vụ điều hướng trong một mô hình: làm theo hướng dẫn, xác định điểm mục tiêu,… pic.twitter.com/noumjTtTeS— Qwen (@Alibaba_Qwen) Ngày 16 tháng 6 năm 2026
Alibaba hiện là công ty duy nhất ở Trung Quốc mở rộng lĩnh vực chip, đám mây, mô hình, nền tảng phục vụ và ứng dụng. Đối với công ty, robot là biểu hiện vật chất nhất của vụ đặt cược đó, cái được gọi là AI hiện thân.
Các đại lý AI hiện đang dựa vào LLM để đưa ra quyết định của họ. Cách thức hoạt động thông thường của robot là sử dụng các mô hình học máy, mặc dù tiên tiến nhưng lại thiếu khả năng thích ứng của AI tổng hợp. Các tác nhân vật lý phải đối mặt với một loại chế độ lỗi khác, khó hơn: vật lý, không phải lời nhắc.
Đối với những trường hợp sử dụng này, Alibaba đã giới thiệu bộ AI mới này với các thành phần khác nhau:
Qwen-RobotNav thống nhất năm nhiệm vụ điều hướng—theo hướng dẫn, điều hướng điểm mục tiêu, tìm kiếm đối tượng, theo dõi mục tiêu và lái xe tự động—mỗi nhiệm vụ đòi hỏi các chiến lược bộ nhớ hình ảnh khác nhau. Hầu hết các mô hình mã hóa cứng một chiến lược. Qwen-RobotNav hiển thị giao diện được tham số hóa: ngân sách mã thông báo, phân rã theo thời gian, trọng số trên mỗi camera mà người lập kế hoạch có thể định cấu hình lại ở giữa tập.
Được đào tạo trên 15,6 triệu mẫu với tính năng ngẫu nhiên trên tất cả các thông số, nó đạt được thành công 76,5% trên VLN-CE RxR, điểm chuẩn cho điều hướng bằng hình ảnh và ngôn ngữ trong môi trường thế giới thực và theo dõi 90% trên EVT-Bench, đánh giá khả năng của tổng đài viên trong việc bám sát các mục tiêu chuyển động một cách nhất quán.

Qwen-RobotManip giải quyết một trong những thách thức lớn nhất trong thao tác robot: các robot khác nhau thể hiện hành động theo những cách cơ bản khác nhau. Cánh tay Franka (một loại robot có bảy trục chuyển động) hoạt động thông qua các góc khớp, trong khi robot ALOHA (nền tảng robot hai tay chi phí thấp được sử dụng rộng rãi trong nghiên cứu robot) thể hiện các hành động thông qua vị trí và hướng của bộ kẹp của nó (tư thế tác động cuối). Hình người tạo thêm một lớp phức tạp khác bằng cách sử dụng tọa độ toàn cơ thể.
Để kết nối những không gian hành động không tương thích này, Alibaba đã tổng hợp khoảng 38.100 giờ dữ liệu đào tạo từ bộ dữ liệu robot nguồn mở và video của con người mà không dựa vào việc thu thập dữ liệu độc quyền. Mô hình này đứng đầu trên RoboChallenge Table30-v1, vượt trội hơn 20% so với các phương pháp trước đó.

Qwen-RobotWorld là tham vọng nhất: một mô hình thế giới video có điều kiện ngôn ngữ coi ngôn ngữ tự nhiên như một giao diện hành động phổ quát. “Nhấc cốc đỏ và đổ nước lên hoa” hoạt động cho dù diễn viên là người kẹp, phương tiện tự hành hay nhân viên điều hướng di động.
Kho kiến thức thế giới được thể hiện bao gồm 8,6 triệu cặp văn bản-video—200 triệu khung hình—qua thao tác (5,9 triệu mẫu, hơn 1.300 kỹ năng, hơn 20 hình thái), lái xe tự động (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), điều hướng trong nhà (VLNVerse) và chuyển giao từ người sang rô-bốt qua 14 cánh tay rô-bốt.
Nó đứng đầu trên EWMBench và DreamGen Bench, hai điểm chuẩn đánh giá xem các mô hình thế giới có dự đoán và tạo ra môi trường vật lý thực tế hay không. Nó cũng đánh bại tất cả các mô hình nguồn mở trên WorldModelBench và PBench, đồng thời đạt điểm hoàn hảo về tuân thủ vật lý: định luật Newton, bảo toàn khối lượng, động lực học chất lỏng, trọng lực.

ChatGPT của robot?
Trong khi các phòng thí nghiệm phương Tây (Google DeepMind, Nvidia, Hình, Trí tuệ vật lý) theo đuổi các mục tiêu tương tự, hầu hết đều tập trung vào điều hướng hoặc thao tác chứ không phải một bộ tổng hợp, thống nhất. Sự tích hợp theo chiều dọc của Alibaba từ chip thông qua các ứng dụng có nghĩa là họ kiểm soát toàn bộ hệ thống. Nền tảng nguồn mở tạo sự khác biệt so với các đối thủ cạnh tranh dựa vào dữ liệu robot riêng.
Có một số quan niệm sai lầm cần được làm sáng tỏ: Đây không phải là robot mà là các mô hình phần mềm – bộ não chứ không phải cơ thể. Chúng chạy trên phần cứng của AgileX, Franka, Universal Robots, Unitree và các hãng khác.
Ngoài ra, mặc dù đây là những mô hình AI tổng quát dành cho robot, nhưng đây không phải là LLM giống như ChatGPT thông thường của bạn. Một mô hình ngôn ngữ dự đoán mã thông báo. Những mô hình này phải hiểu vật lý, mối quan hệ không gian và hậu quả của các hành động vật lý. Một mô hình ngôn ngữ sẽ cho bạn biết kính sẽ vỡ nếu bị rơi. Qwen-RobotWorld dự đoán cách nó phá vỡ—mô hình vỡ vụn, động lực học chất lỏng, va chạm thứ cấp. Qwen-RobotManip có kế hoạch nắm bắt để ngăn chặn hoàn toàn việc rơi.
Đừng mong sớm có được robot giúp việc cho riêng mình. Khoảng cách giữa bản demo có kiểm soát của robot đặt trái cây vào giỏ và robot hoạt động đáng tin cậy trong nhà bạn là rất lớn. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand—đây là những điểm chuẩn mô phỏng. Việc triển khai trong thế giới thực gây ra tiếng ồn cảm biến, độ lệch của bộ truyền động và hàng loạt các trường hợp cạnh đã làm giảm đi mọi nỗ lực chế tạo robot trong lịch sử và Alibaba nhận ra điều này.
Tuy nhiên, những thành tựu kỹ thuật là có thật. Phương pháp tiếp cận căn chỉnh trước tiên của RobotManip giải quyết được điểm nghẽn thực sự trong quá trình đào tạo theo nhiều phương án. Giao diện quan sát được tham số hóa của RobotNav là một giải pháp thông minh cho vấn đề chiến lược ngữ cảnh. Giao diện ngôn ngữ-như-hành-động-phổ quát của RobotWorld là sự trừu tượng phù hợp cho việc lập mô hình thế giới trên nhiều miền.
Alibaba chưa tiết lộ giá cả, thời gian hoặc những khách hàng nào có quyền truy cập ngoài các chương trình thí điểm.
Bản tin tóm tắt hàng ngày
Bắt đầu mỗi ngày với những tin tức hàng đầu ngay bây giờ, cùng với các tính năng độc đáo, podcast, video và hơn thế nữa.

