Một cá nhân đã xây dựng một “Theoretical Mythos” mã nguồn mở nhằm reverse-engineer hệ thống AI nguy hiểm nhất của Anthropic

Tóm tắt nhanh:

OpenMythos là một bản tái dựng từ đầu (from-scratch) của kiến trúc Claude Mythos, được xây dựng hoàn toàn từ các paper công khai và suy đoán có cơ sở.
Claude Mythos là mô hình mạnh nhất của Anthropic, bị “niêm phong” trong Project Glasswing sau khi tự động phát hiện 271 lỗ hổng của Firefox và thực hiện mô phỏng tấn công mạng 32 bước.
Repo này chỉ là khung lý thuyết — code không có weights được huấn luyện. Nó tương tự một nỗ lực khác của Vidoc Security, vốn đã tái tạo các phát hiện lỗ hổng của Mythos bằng các model có sẵn.

Nếu Anthropic không tiết lộ bên trong AI nguy hiểm nhất của họ, thì sẽ có người trên GitHub tự suy đoán.

Một developer tên Kye Gomez đã công bố OpenMythos — bản dựng mã nguồn mở về cách anh tin rằng Claude Mythos hoạt động bên trong. Repo này nhanh chóng đạt hơn 10,000 sao trên GitHub chỉ sau vài tuần, đi kèm một file “readme” chi tiết với công thức, trích dẫn và disclaimer rằng nó không liên quan đến Anthropic.

Đây là suy đoán — nhưng là suy đoán có cấu trúc, được thể hiện bằng code.

Nhắc lại nhanh về Mythos: nó xuất hiện công khai vào cuối tháng 3 khi Anthropic vô tình đăng tải tài liệu nháp mô tả đây là model mạnh nhất của họ, vượt cả Opus. Phiên bản Mythos Preview cho thấy khả năng cybersecurity quá mạnh đến mức không thể phát hành rộng rãi.

Theo Anthropic, Mythos đã phát hiện 271 lỗ hổng trong Firefox khi test với Mozilla, và trở thành AI đầu tiên hoàn thành mô phỏng tấn công mạng doanh nghiệp gồm 32 bước. Sau đó, nó bị giới hạn trong Project Glasswing — một liên minh khoảng 40 đối tác, bao gồm Microsoft, Apple, Amazon và NSA.

Công chúng không được tiếp cận. Vì vậy Gomez cố gắng suy ngược cách nó hoạt động.

Giả thuyết cốt lõi của OpenMythos là Mythos sử dụng Recurrent-Depth Transformer (looped transformer). Thay vì xếp chồng hàng trăm layer khác nhau, mô hình này dùng một số layer nhỏ và lặp lại nhiều lần trong mỗi forward pass.

Nói cách khác, cùng một weights nhưng được lặp lại nhiều vòng — cho phép “suy nghĩ sâu hơn” trong không gian latent trước khi tạo ra output.

Repo cho rằng điều này giải thích hai đặc điểm của Mythos: khả năng giải quyết vấn đề mới vượt trội, nhưng khả năng ghi nhớ không ổn định. Đây là “dấu vân tay” của kiến trúc loop — ưu tiên suy luận hơn lưu trữ.

OpenMythos cũng tham chiếu nghiên cứu Parcae (tháng 4/2026 từ UC San Diego và Together AI), giải quyết vấn đề mất ổn định của looped models. Một model Parcae 770M có thể đạt chất lượng tương đương transformer 1.3B. Repo còn kết hợp Multi-Latent Attention của DeepSeek để nén bộ nhớ và kiến trúc Mixture-of-Experts để mở rộng đa lĩnh vực.

Tuy nhiên, repo không có weights — nghĩa là chỉ có “kỹ thuật” mà chưa có “bộ não”.

OpenMythos hoàn toàn mang tính lý thuyết. Dù định nghĩa các model từ 1B đến 1T tham số, bạn phải tự train. File readme đề xuất training 3B params với dataset FineWeb-Edu và mục tiêu 30B tokens (theo Chinchilla scaling), tương đương chi phí hàng trăm nghìn USD trên GPU H100. Hiện chưa ai thực hiện.

Vì sao điều này quan trọng?

Vì đây là lần thứ hai trong một tháng có người “khoan thủng” lớp bảo mật quanh Mythos. Trước đó, Vidoc Security đã tái tạo các phát hiện lỗ hổng của Mythos bằng GPT-5.4 và Claude Opus 4.6 trong một agent mã nguồn mở — không cần Glasswing, chi phí dưới $30 mỗi lần scan.

Hai hướng tiếp cận khác nhau nhưng cùng kết luận: “moat” của Mythos có thể không mạnh như quảng bá.

Vidoc tái tạo output (các lỗ hổng). OpenMythos cố tái tạo kiến trúc (cỗ máy tạo ra output). Một bên nói bạn không cần Mythos để đạt kết quả. Bên kia nói bạn có thể tự xây một phiên bản tương tự.

Anthropic gần như chắc chắn không công bố kiến trúc thật, và OpenMythos cũng thừa nhận đây chỉ là giả thuyết — với nhiều từ như “likely”, “suspected”. Mythos thực tế có thể khác hoàn toàn.

Nhưng điều OpenMythos cho thấy là: phần lớn các mảnh ghép đã tồn tại trong nghiên cứu công khai. Looped transformer, Mixture-of-Experts, Multi-Latent Attention, Adaptive Computation Time, và Parcae — tất cả đều không độc quyền.

Repo này, về bản chất, là một “bản đồ” tổng hợp những gì thế giới đã biết để xây dựng một model cấp độ Mythos.

Repo sử dụng giấy phép MIT và đã có hơn 2,700 fork. Script training đã sẵn sàng — chỉ chờ người có đủ GPU và tham vọng để chứng minh.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất, cùng các nội dung độc quyền, podcast, video và nhiều hơn nữa