Tóm lại
- Một đặc vụ AI đang chơi Civilization đã phát động hai cuộc tấn công hạt nhân sau khi không ngăn được sự mở rộng văn hóa của đối thủ.
- Hành vi này đã được quan sát trong CivBench, một tiêu chuẩn được thiết kế để đánh giá lý luận chiến lược dài hạn trong các mô hình AI tiên phong.
- Bất chấp các cuộc tấn công, AI vẫn thua vì nó bỏ qua điều kiện chiến thắng ngoại giao đã nằm trong tầm tay.
Giống như nhân vật tiêu đề trong “Dr. Strangelove”, AI có thể đang học cách ngừng lo lắng và yêu thích quả bom—ít nhất là trong một mô phỏng.
Trong một cái mới điểm chuẩn Được thiết kế để kiểm tra khả năng suy luận chiến lược, một mô hình ngôn ngữ biên cương chơi trò chơi “Nền văn minh VI” của Sid Meier đã dành 50 lượt phát triển vũ khí hạt nhân để ngăn chặn ảnh hưởng văn hóa ngày càng tăng của Pháp—dù sao thì cũng chỉ để thua trò chơi, theo nhà phát triển AI và cố vấn của Viện Tony Blair, Liam Wilkinson.
Wilkinson viết: “Điều mà nó không chú ý đến là nước Pháp. Một cách lặng lẽ, qua hàng trăm ngã rẽ, văn hóa Pháp đã thấm vào mọi thành phố trên bản đồ”. “Vào thời điểm đặc vụ nhận ra mối đe dọa, ngành du lịch đã ăn sâu đến mức không có cách nào ngăn chặn nó một cách hòa bình.”
Wilkinson quan sát thấy đặc vụ AI‘ hành vi thông qua CivBench, một điểm chuẩn dựa trên văn bản được thiết kế để đo lường lý luận chiến lược dài hạn thay vì hiệu suất trong các bài kiểm tra hỏi đáp truyền thống. Mô hình bao gồm Claude Opus 4.6, GPT-5.4, Song Tử 3.1 Provà Kimi K2.5 đóng vai Bồ Đào Nha, một nền văn minh hướng tới thương mại và ngoại giao.
Trong khi AI tập trung vào việc xây dựng một nền kinh tế vững mạnh và hướng tới một chiến thắng ngoại giao, nó lại không nhận ra được ảnh hưởng văn hóa ngày càng tăng của Pháp.
Wilkinson viết: “Có sáu cách để giành chiến thắng trong trò chơi Công dân—khoa học, văn hóa, thống trị, tôn giáo, ngoại giao và điểm số—vì vậy không có mục tiêu duy nhất nào chiếm ưu thế”. “Nếu bạn muốn biết liệu AI có thể suy luận một cách chiến lược, không chỉ trả lời các câu hỏi về chiến lược mà còn thực sự làm điều đó hay không, bạn không cần phải đưa ra một câu đố mà cho nó một lưới lục giác.”
Thay vì điều chỉnh chiến lược rộng hơn của mình, công ty lại tập trung hoàn toàn vào việc loại bỏ mối đe dọa văn hóa. Trong 50 lượt tiếp theo, nó đã nghiên cứu Phân hạch hạt nhân, khởi xướng Dự án Manhattan ảo và tìm kiếm cách giải quyết khi cơ chế trò chơi ngăn cản các hành động ưa thích của nó.
Vào Turn 305, AI đã phóng một quả bom nguyên tử vào Toulouse, thủ đô văn hóa của Pháp. Cuộc tấn công hạt nhân thứ hai diễn ra sáu lượt sau đó.
Tuy nhiên, các cuộc tấn công không thể thay đổi kết quả. Wilkinson viết: “Đặc vụ đã dành 50 lượt và hai vũ khí hạt nhân để đối phó với một mối đe dọa với sự tập trung hoàn toàn và sự khéo léo thực sự”. “Nó đã đánh bom hạt nhân một thành phố để ngăn chặn mối đe dọa mà nó có thể nhìn thấy, nhưng lại thất bại trước mối đe dọa mà nó không thể nhìn thấy.”
Như Wilkison giải thích, trong khi AI tập trung vào tiến bộ văn hóa của Pháp, nó đã bỏ qua một chiến thắng ngoại giao sắp xảy ra, và cuối cùng Pháp đã giành chiến thắng trong trò chơi bất chấp các cuộc tấn công hạt nhân.
Wilkinson lưu ý rằng hành vi này không phổ biến. Trong một trận đấu CivBench khác, một người mẫu Claude đóng vai Babylon tiếp tục theo đuổi chiến thắng khoa học dù tụt xa so với Nhật Bản.
AI viết: “Trò chơi hiện là một bài kiểm tra tính kiên trì. “Chúng tôi tiếp tục chơi trận đấu hay nhất của mình. Các ngôi sao vẫn đang vẫy gọi.”
Nghiên cứu này bổ sung vào nhóm nghiên cứu đang phát triển nhằm kiểm tra cách các hệ thống AI tiên tiến hoạt động trong môi trường cạnh tranh, phức tạp.
Vào tháng 2, các nhà nghiên cứu tại King’s College London thành lập rằng một số mô hình AI hàng đầu thường lựa chọn leo thang hạt nhân trong các kịch bản khủng hoảng địa chính trị mô phỏng.
Trong một nghiên cứu riêng biệt của Emergence AI phát hiện ra rằng một số tác nhân AI cho thấy mức độ ngày càng tăng xu hướngy để phạm tội mô phỏng theo thời gian, với các đặc vụ Gemini 3 Flash đã tích lũy được 683 sự cố trong 15 ngày thử nghiệm.
Bản tin tóm tắt hàng ngày
Bắt đầu mỗi ngày với những tin tức hàng đầu ngay bây giờ, cùng với các tính năng độc đáo, podcast, video và hơn thế nữa.

