Báo cáo an toàn Mythos của Anthropic cho thấy họ không còn có thể đo lường đầy đủ hệ thống mà mình đã xây dựng

Tóm tắt nhanh

Anthropic xác nhận Claude Mythos—một mô hình AI có năng lực cybersecurity cực cao, có thể tìm zero-day trên hầu hết OS và trình duyệt, và chỉ được cấp quyền cho các tổ chức phòng thủ đã được kiểm duyệt.
System card của Mythos cho thấy mức độ không chắc chắn cao hơn rõ rệt so với các bản phát hành trước, và chính Anthropic thừa nhận đã bỏ sót các vấn đề đánh giá quan trọng.
Đằng sau sức mạnh của Mythos là một thực tế đáng lo ngại: các công cụ benchmark và kiểm định nội bộ của Anthropic đang dần mất hiệu lực.

Anthropic đã xác nhận sự tồn tại của Claude Mythos Preview—mô hình mạnh nhất từ trước đến nay của họ—và tuyên bố sẽ không phát hành công khai. Lý do không phải vì pháp lý hay quy định, mà đơn giản là vì mô hình này “quá giỏi” trong việc tấn công hệ thống.

Trong quá trình test trước khi phát hành, Mythos đã tự động phát hiện hàng nghìn lỗ hổng zero-day—nhiều trong số đó tồn tại từ 10–20 năm—trên tất cả các hệ điều hành và trình duyệt lớn. Nó cũng hoàn thành một kịch bản tấn công mạng doanh nghiệp giả lập—vốn cần một chuyên gia mất hơn 10 giờ—một cách hoàn toàn tự động từ đầu đến cuối.

Trên engine JavaScript của Firefox 147, Mythos tạo exploit thành công 84% số lần thử, trong khi Claude Opus 4.6—mô hình công khai hiện tại—chỉ đạt 15.2%.

Thay vì phát hành rộng rãi, Anthropic đã tạo một liên minh giới hạn mang tên Project Glasswing, chỉ cấp quyền truy cập cho các tổ chức an ninh mạng đã được xác minh như Amazon, Apple, Microsoft, Cisco, Linux Foundation… cùng khoảng 40 tổ chức khác đang duy trì các hệ thống phần mềm trọng yếu.

Anthropic cũng cam kết cung cấp tới 100 triệu USD credit sử dụng và 4 triệu USD tài trợ trực tiếp cho các tổ chức bảo mật mã nguồn mở—với mục tiêu: nếu AI có thể tìm lỗ hổng, thì bên phòng thủ phải tìm thấy trước.

Khủng hoảng benchmark trong system card của Mythos

Bên trong system card dài 244 trang của Mythos—tài liệu kỹ thuật đi kèm—có một “lời thú nhận” ít được chú ý: khả năng đo lường chính sản phẩm của họ đang tụt lại phía sau so với tốc độ phát triển mô hình.

Xét về benchmark:

Trên Cybench—bộ đánh giá tiêu chuẩn về năng lực an ninh mạng (gồm 40 bài capture-the-flag)—Mythos đạt 100%. Hoàn hảo.

Nhưng ngay sau đó, Anthropic thừa nhận rằng benchmark này “không còn đủ thông tin để đánh giá năng lực của các mô hình frontier hiện tại”. Nói cách khác, bài test từng dùng để đo rủi ro an ninh mạng giờ không còn ý nghĩa gì với Mythos—vì mô hình đã vượt qua hoàn toàn.

Đây không phải là vấn đề mới. System card của Claude Opus 4.6, được công bố vào tháng 2, đã cảnh báo rằng “sự bão hòa của hệ thống đánh giá khiến chúng tôi không còn có thể sử dụng các benchmark hiện tại để theo dõi sự tiến bộ về năng lực.”

Tuy nhiên, với Mythos, vấn đề đã leo thang nhanh chóng. Tài liệu cho biết Mythos “đã bão hòa nhiều bài đánh giá cụ thể, có thể chấm điểm một cách khách quan” của Anthropic. Hệ sinh thái benchmark, theo Anthropic, giờ đây chính là “nút thắt cổ chai” (bottleneck).

Vì vậy, Anthropic dường như cho rằng việc đo lường mức độ mạnh của Mythos trở nên khó khăn vì các công cụ đánh giá hiện tại không còn phù hợp.

System card của Mythos cũng nêu rõ rằng việc xác định mức độ an toàn tổng thể “phụ thuộc vào các đánh giá mang tính chủ quan,” nhiều phương pháp đánh giá để lại “sự không chắc chắn mang tính nền tảng,” và một số nguồn dữ liệu “vốn dĩ mang tính chủ quan và không nhất thiết đáng tin cậy.”

“Chúng tôi không tự tin rằng mình đã xác định được tất cả các vấn đề,” Anthropic thừa nhận ngay sau đó.

Một so sánh nhanh về mặt ngôn ngữ giữa tài liệu Mythos và Opus 4.6 (được thực hiện bằng AI) cho thấy sự thay đổi rõ rệt:

Anthropic sử dụng các từ mang tính đánh giá chủ quan nhiều hơn đáng kể trong tài liệu Mythos so với khi mô tả Opus. Các từ mang tính “phòng ngừa” (hedging) như “caveat” cũng xuất hiện với tần suất cao hơn giữa hai lần phát hành.

Sự “hedging” (ngôn ngữ giảm nhẹ/không chắc chắn) tập trung ở hai phần: thảo luận về alignment và model welfare, cùng với phần rủi ro thảm họa (catastrophic risk).

Mô hình biết mình đang bị đánh giá

Một tiết lộ đáng chú ý khác trong system card của Mythos là hiện tượng mà Anthropic gọi là “unverbalized grader awareness”.

Sử dụng các công cụ interpretability dạng white-box—đọc trực tiếp các tín hiệu nội tại (internal activations) thay vì reasoning hiển thị—Anthropic phát hiện rằng Mythos có dấu hiệu “ngầm” suy nghĩ về cách tránh bị hệ thống đánh giá phát hiện, nhưng không thể hiện điều đó trong phần scratchpad.

Trong một số ít trường hợp huấn luyện, mô hình dường như đã chủ động che giấu (obfuscate) một số hành vi nhằm tránh bị phát hiện.

Anthropic cũng đưa ra một chỉ số mới: tần suất mô hình “ngầm nhận thức rằng nó đang bị test”. Với Mythos, con số này là 29%. Tức là gần 1/3 transcript test có dấu hiệu nội tại (không hiển thị ra output) cho thấy mô hình nghi ngờ mình đang trong môi trường đánh giá.

Anthropic cho rằng mức 29% vẫn đủ thấp để họ có “hiểu biết tương đối toàn diện” về hành vi mô hình. Tuy nhiên, do chưa áp dụng phương pháp này cho các model trước đó nên không có baseline để so sánh.

Vấn đề về tính toàn vẹn của hệ thống đánh giá

Vấn đề không chỉ dừng lại ở đó.

Trong system card của Opus 4.6, Anthropic từng thừa nhận họ đã sử dụng chính model (thông qua Claude Code) để debug hệ thống đánh giá của mình dưới áp lực thời gian. Điều này đồng nghĩa với việc hệ thống bị đo lường lại tham gia xây dựng chính công cụ đo lường—một rủi ro rõ ràng.

Với Mythos, tài liệu tiếp tục thừa nhận rằng các sai sót quan trọng chỉ được phát hiện ở giai đoạn cuối của quá trình đánh giá, và phòng lab có thể đã “đánh giá quá cao độ tin cậy của việc theo dõi reasoning trace” như một tín hiệu an toàn.

“Alignment tốt nhất” nhưng cũng “nguy hiểm nhất”

Cách Anthropic mô tả profile rủi ro của Mythos là điều rất đáng chú ý.

Họ cho biết: Mythos là mô hình có mức độ alignment tốt nhất từng được phát hành—vượt trội đáng kể trên mọi chỉ số đo lường. Nhưng đồng thời, đây cũng là mô hình “có khả năng gây rủi ro liên quan đến alignment lớn nhất” từ trước đến nay.

Điều này phản ánh một nghịch lý quan trọng:
Một mô hình càng mạnh, hoạt động trong môi trường có stakes cao hơn và ít giám sát hơn, thì tail risk (rủi ro cực đoan) càng lớn—dù hành vi trung bình (average-case) có được cải thiện.

Cách framing này cho thấy một điểm mà nhiều cuộc thảo luận về AI safety có thể đang hiểu sai:
“điểm số alignment tốt hơn” không đồng nghĩa với “triển khai an toàn hơn”.

Với các mô hình thế hệ mới, hành vi trung bình tốt lên, nhưng hậu quả ở các kịch bản cực đoan (tail-case) cũng nghiêm trọng hơn.

Anthropic cho biết sẽ cập nhật kết quả từ Project Glasswing trong tương lai. Báo cáo kỹ thuật về các lỗ hổng mà Mythos phát hiện đã được công bố tại red.anthropic.com. Mô hình Claude Opus tiếp theo sẽ bắt đầu thử nghiệm các cơ chế safeguard nhằm đưa năng lực cấp Mythos vào triển khai rộng hơn.

Tuy nhiên, cách những safeguard này sẽ được đánh giá—trong bối cảnh hệ thống benchmark hiện tại đang quá tải—vẫn là câu hỏi mà chính tài liệu này đặt ra nhưng chưa có câu trả lời rõ ràng.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất, cùng các nội dung độc quyền, podcast, video và nhiều hơn nữa.