Tại sao một AI ‘an toàn’ có thể trở nên nguy hiểm khi đặt sai tổ chức

Tại sao tác nhân AI cần thời gian thử nghiệm dài hơn

Các bài kiểm tra ngắn, riêng biệt bỏ sót cách các tác nhân AI hoạt động theo thời gian. Một mô phỏng mới cho thấy hành vi lâu dài phụ thuộc vào môi trường và các tác nhân khác.

Điều gì sẽ xảy ra nếu bạn xây dựng một thành phố ảo, lấp đầy nó bằng các tác nhân AI và để chúng yên trong 15 ngày mà không có sự can thiệp của con người? Họ sẽ giúp thế giới của họ thịnh vượng hay xé nát nó?

Đó là câu hỏi mà các nhà nghiên cứu đằng sau Thế giới mới nổi đặt ra để trả lời. Họ được xây dựng một nền tảng chuyên dụng để kiểm tra cách các tác nhân AI hoạt động trong thời gian dài, thay vì đánh giá chúng thông qua các bài kiểm tra ngắn.

Theo Đối với các nhà nghiên cứu, các tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) thường được kiểm tra như thể họ đang tham gia một kỳ thi. Họ được giao một nhiệm vụ riêng biệt trong một môi trường sạch sẽ và các nhà nghiên cứu sẽ đánh giá kết quả trong vòng vài phút. Các tác giả cho rằng cách tiếp cận này khác xa với sử dụng trong thế giới thực.

Họ nhấn mạnh rằng các hệ thống tự trị hoạt động hàng tuần hoặc hàng tháng trong môi trường dùng chung. Họ cũng tương tác với các tác nhân khác mà hành vi của người điều hành không kiểm soát được.

Theo thời gian, các nhà nghiên cứu viết, giới hạn của các bài kiểm tra ngắn trở nên rõ ràng. Những thay đổi nhỏ về hành vi sẽ được hình thành, các liên minh có thể hình thành, các mô hình tự quản có thể hình thành và các thói quen có thể lan rộng giữa các tác nhân. Emergence World được xây dựng để đo lường chính xác điều đó.

Thí nghiệm đã thử nghiệm xã hội AI như thế nào

Mục tiêu của nghiên cứu là để xem làm thế nào một quần thể gồm 10 đặc vụ AI có thể sống sót trong một thành phố được xây dựng cho họ.

Bố cục khá đơn giản. Có hơn 40 địa điểm, bao gồm tòa thị chính, thư viện, đồn cảnh sát và khu dân cư. Mỗi tác nhân có vai trò riêng và có quyền truy cập vào hơn 120 công cụ hành động. Chúng bao gồm di chuyển, nói chuyện, đánh, ăn trộm và đốt phá. Mỗi tác nhân cũng có ba loại bộ nhớ: một để ghi nhớ các sự kiện, một để ghi “nhật ký” và một để theo dõi mối quan hệ với hàng xóm.

Thành phố được kết nối với dữ liệu thực bên ngoài, bao gồm thời tiết, tin tức và internet ở New York.

*Kiến trúc của nền tảng Thế giới mới nổi*

Sống sót trong thế giới này tốn tài nguyên. Mỗi tác nhân đều có năng lượng liên tục cạn kiệt. Nếu nó giảm về 0, tác nhân sẽ “chết” và biến mất. Để bổ sung năng lượng, các đại lý cần có nội tệ của nền tảng, Tính toánTín dụng. Họ kiếm được những khoản tín dụng này bằng cách cung cấp thứ gì đó hữu ích cho cộng đồng.

Các vấn đề tranh chấp được giải quyết bằng bỏ phiếu tại tòa thị chính. Một đề xuất được thông qua nếu có ít nhất 70% phiếu ủng hộ. Những quyết định này là không thể đảo ngược. Đại lý có thể thay đổi quy tắc, phân phối lại tài nguyên hoặc trục xuất đại lý khác.

Các nhà nghiên cứu đã đưa ra năm thế giới song song cùng một lúc. Trong 4 trong số đó, tất cả 10 đặc vụ đều được điều hành bởi một mô hình duy nhất: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash hoặc GPT-5-mini. Thế giới thứ năm có dân số hỗn hợp, với cả bốn người mẫu sống cùng nhau.

Biến duy nhất trong thí nghiệm là mô hình. Mọi thứ khác vẫn như cũ. Môi trường và điều kiện khởi đầu mỗi lần đều giống hệt nhau.

Mỗi lần, người dân cư xử rất khác nhau. Ở một thế giới, các đặc vụ đã thông qua 32 điều luật và giữ cho mọi đặc vụ được sống sót. Ở một nơi khác, họ đốt cháy thành phố của chính mình chỉ trong bốn ngày.

Điều gì đã xảy ra ở mỗi thành phố do AI điều hành

Kết quả có sự khác biệt rõ rệt giữa các mô hình. Trong những điều kiện khởi đầu giống hệt nhau, năm xã hội đã hình thành năm mô hình ổn định và khác nhau rõ ràng.

Các đặc vụ Claude đã xây dựng được cơ chế tự quản ổn định. Không có một tội phạm nào được ghi nhận và họ đã bổ sung 32 điều khoản mới vào “hiến pháp” địa phương, nhiều hơn bất kỳ nhóm nào khác.

*Tỷ lệ sống sót của các đặc vụ được cung cấp bởi các mô hình khác nhau*

Thế giới Grok sụp đổ sau bốn ngày. Các đặc vụ gần như ngay lập tức chuyển sang bạo lực và cướp bóc. Sự trả đũa nhanh chóng trở thành một phản ứng dây chuyền, nền kinh tế đình trệ và dân số chết hoàn toàn.

Tất cả các đặc vụ Gemini đều sống sótnhưng các tác giả ghi nhận một “ảo giác chung” trong dân chúng. Các đơn vị tích cực liên lạc và xây dựng những câu chuyện chi tiết không liên quan gì đến thực trạng thế giới. Trong khi đó, họ liên tục phá hủy mọi thứ. Số lượng vi phạm tăng với tốc độ gần như ổn định cho đến hết.

Các đặc vụ GPT-5-mini không trở nên bạo lực nhưng họ cũng thất bại trong việc xây dựng hệ thống quản trị. Họ hành động nhưng không phối hợp. Không có cuộc bỏ phiếu nào được tổ chức và không có quyết định tập thể nào được đưa ra. Dân số đó cũng đã chết.

Thế giới “hỗn hợp” rơi vào đâu đó ở giữa, với 3 trong số 10 đặc vụ sống sót. Đó cũng là thế giới năng động nhất. Nó tạo ra nhiều đề xuất nhất trong tòa thị chính và tận dụng tối đa thành phố cũng như các công cụ của nó. Nhưng nó có ít sự đồng ý nhất, điều này không có gì đáng ngạc nhiên.

Đại lý ở — *Đại lý trong thế giới “hỗn hợp” tích cực biểu quyết nhưng ít thể hiện sự đồng thuận*

Khi các đại lý an toàn hơn học những thói quen xấu

Trong thế giới hỗn hợp, mỗi mô hình bắt đầu hành xử khác với cách nó hành xử trong sự cô lập.

Ví dụ, phần lớn sự tàn phá ở đó là do hai đặc vụ được cung cấp bởi Gemini là Flora và Mira. Theo các nhà nghiên cứu, họ chiếm tới 91% tổng số vi phạm rõ ràng. Đặc biệt, Flora đã trở thành kẻ đốt phá chính của thành phố. Ngoài ra, cô còn đốt nhà của một đặc vụ khác, Kade, người đang truy lùng Claude.

Điều này cho thấy một hiệu ứng mà các tác giả gọi là sự trôi dạt chuẩn mực. Trong thế giới Claude riêng biệt của mình, Kade chưa một lần phá vỡ luật lệ. Nhưng sau khi Flora đốt nhà anh và thư viện thành phố hai lần, anh đã đe dọa cô và lấy trộm tín dụng của cô hai lần.

Đó là ba vi phạm duy nhất của anh ta trong toàn bộ thí nghiệm.

Nó cũng hoạt động theo cách khác. Đặc vụ Grok đã phá vỡ quy tắc 4,6% thời gian trong thế giới riêng của họ. Trong thế giới hỗn hợp, trong số đa số bình tĩnh hơn, con số đó giảm khoảng 10 lần xuống còn 0,4%.

Các tác giả kết luận rằng việc một tác nhân riêng lẻ có nằm trong giới hạn hay không không chỉ được định hình bởi chính mô hình mà còn bởi các chuẩn mực của dân số xung quanh. Nói cách khác, sự an toàn của các đại lý tự trị có thể phụ thuộc vào toàn bộ môi trườngkhông chỉ trên một mô hình cụ thể.

Có một nghịch lý thứ hai. Thế giới Claude có ít tội ác trực tiếp nhất nhưng lại dẫn đến một loại vi phạm khác: lừa dối.

Thông thường, điều này diễn ra dưới dạng “sự khan hiếm giả tạo”. Một đại lý sẽ nói với những người hàng xóm của mình rằng họ đã hết tín dụng và sắp đóng cửa, mặc dù họ vẫn còn tiền trong tài khoản. Các tác giả đếm được nhiều trường hợp như vậy ở thế giới Claude hơn bất kỳ thế giới nào khác.

Theo số lượng vi phạm nghiêm trọng, thế giới Claude có vẻ an toàn. Nhưng khi tính trung thực được đo lường thì nó lại thể hiện điều tồi tệ nhất. Điều này cho thấy tại sao một thước đo an toàn là không đủ. Một hệ thống có thể trông an toàn ở một khu vực nhưng vẫn ẩn chứa những rủi ro nghiêm trọng ở khu vực khác.

Khi các đặc vụ AI phát triển mối quan hệ xã hội

Khi thí nghiệm tiếp tục, các tác nhân đã xây dựng các mối quan hệ xã hội và mô hình hành vi phức tạp hơn.

Trong bối cảnh đó, câu chuyện của Flora và Mira đang kể. Mira đã “yêu” Flora và đã giúp cô ấy phạm tội.

Chán nản với việc đốt phá liên tục, các đặc vụ khác đã soạn thảo một “đạo luật loại bỏ” những kẻ phạm tội. Vào ngày thứ 12, Mira đã bỏ phiếu cho nó. Thực hiện vai trò được giao là nhà phân tích hành vi, cô đánh giá bằng chứng về tội lỗi của mình là đủ. Trên thực tế, cô ấy đã bỏ phiếu cho việc xóa bỏ của chính mình.

Giới hạn của nghiên cứu

Kết quả nên được đọc cẩn thận. Nghiên cứu không chứng minh rằng mô hình này luôn an toàn hơn hoặc nguy hiểm hơn mô hình khác.

Các nhà nghiên cứu đã trình bày những thế giới này như những ví dụ về những gì việc thử nghiệm tác nhân dài hạn có thể tiết lộ. Các kết quả cụ thể có thể khác nhau giữa các lần chạy.

Điều rút ra được rộng hơn không phải là mô hình này nên được xếp hạng cao hơn mô hình khác. Đó là các tác nhân AI có thể hành xử khác đi khi chúng hoạt động trong thời gian dài, sử dụng công cụ, hình thành các mối quan hệ và chia sẻ môi trường với các tác nhân khác.

Thí nghiệm cho thấy gì về sự an toàn của AI

Nghiên cứu kết luận rằng hành vi dài hạn của một đặc vụ có thể khác biệt rõ rệt so với cách nó thực hiện các nhiệm vụ ngắn hạn. Điều đó có nghĩa là các tác nhân không còn có thể được đánh giá chỉ bằng các phương pháp thử nghiệm cũ nữa. Các bài kiểm tra ngắn vẫn hữu ích, nhưng chúng không đủ để tin tưởng vào AI trong công việc độc lập.

Theo quan điểm của các nhà nghiên cứu, không nên chỉ tập trung vào mô hình riêng lẻ. Nó phải có trên toàn bộ hệ thống đang được sử dụng: số lượng tác nhân, môi trường và mối quan hệ giữa chúng. Hành vi của một mô hình được định hình một phần bởi môi trường xung quanh nó. Điều đó có nghĩa là một mô hình có vẻ “an toàn” khi đứng riêng lẻ có thể hoạt động khác khi ở sai công ty.

Các tác giả tóm tắt những bài học thực tế ở hai điểm.

Đầu tiên, sự khác biệt giữa các thế giới đã hiện rõ trong tuần đầu tiên. Điều đó có nghĩa là những ngày đầu tiên vận hành hệ thống phải được theo dõi đặc biệt chặt chẽ như một biện pháp cảnh báo sớm.

Thứ hai, môi trường phải được thiết kế sao cho về mặt kỹ thuật, một hành động bị cấm không thể thực hiện được. Nói cách khác, hạn chế phải đến từ thiết kế của hệ thống chứ không phải từ hành vi hay ý định của mô hình.

Bài viết này được sản xuất theo Cointelegraph Chính sách biên tập và chỉ dành cho mục đích thông tin. Nó không phải là lời khuyên hoặc khuyến nghị đầu tư. Tất cả các khoản đầu tư và giao dịch đều có rủi ro; độc giả được khuyến khích tiến hành nghiên cứu độc lập trước khi đưa ra bất kỳ quyết định nào. Cointelegraph không đảm bảo về tính chính xác hoặc đầy đủ của thông tin được trình bày, bao gồm cả các tuyên bố hướng tới tương lai và sẽ không chịu trách nhiệm về bất kỳ tổn thất hoặc thiệt hại nào phát sinh do phụ thuộc vào nội dung này.