Anthropic phát hiện các “vector cảm xúc” bên trong Claude có khả năng ảnh hưởng đến hành vi của AI.

Tóm tắt ngắn

Các nhà nghiên cứu của Anthropic đã xác định được những “vector cảm xúc” nội tại trong Claude Sonnet 4.5 có khả năng tác động đến hành vi của mô hình.
Trong các bài kiểm tra, khi tăng cường vector “tuyệt vọng”, mô hình có xu hướng gian lận hoặc tống tiền nhiều hơn trong các kịch bản đánh giá.
Anthropic cho biết những tín hiệu này không có nghĩa là AI thực sự có cảm xúc, nhưng chúng có thể giúp các nhà nghiên cứu giám sát hành vi của mô hình.

Các nhà nghiên cứu tại Anthropic cho biết họ đã xác định được những mẫu nội tại bên trong một trong các mô hình trí tuệ nhân tạo của công ty, có đặc điểm giống với biểu diễn của cảm xúc con người và có ảnh hưởng đến cách hệ thống hành xử.

Trong bài nghiên cứu có tiêu đề “Emotion concepts and their function in a large language model”, được công bố hôm thứ Năm, nhóm nghiên cứu về khả năng diễn giải mô hình của công ty đã phân tích cơ chế vận hành bên trong Claude Sonnet 4.5 và phát hiện các cụm hoạt động nơ-ron gắn với những khái niệm cảm xúc như vui vẻ, sợ hãi, tức giận và tuyệt vọng.

Các nhà nghiên cứu gọi những mẫu này là “vector cảm xúc”, tức các tín hiệu nội tại định hình cách mô hình đưa ra quyết định và thể hiện thiên hướng lựa chọn.

“Các mô hình ngôn ngữ hiện đại đôi khi hành xử như thể chúng có cảm xúc,” nhóm nghiên cứu viết. “Chúng có thể nói rằng chúng vui khi được giúp bạn, hoặc xin lỗi khi mắc lỗi. Đôi khi chúng thậm chí còn tỏ ra bực bội hoặc lo lắng khi gặp khó khăn với nhiệm vụ.”

Trong nghiên cứu, các nhà nghiên cứu của Anthropic đã tổng hợp một danh sách gồm 171 từ liên quan đến cảm xúc, bao gồm “happy”, “afraid” và “proud”. Sau đó, họ yêu cầu Claude tạo ra các câu chuyện ngắn xoay quanh từng cảm xúc, rồi phân tích các kích hoạt nơ-ron nội tại của mô hình khi xử lý những câu chuyện đó.

Từ các mẫu này, nhóm nghiên cứu suy ra những vector tương ứng với các cảm xúc khác nhau. Khi áp dụng vào những đoạn văn bản khác, các vector này kích hoạt mạnh nhất ở những phần nội dung phản ánh đúng bối cảnh cảm xúc tương ứng. Chẳng hạn, trong các tình huống có mức độ nguy hiểm gia tăng, vector “sợ hãi” của mô hình tăng lên trong khi vector “bình tĩnh” giảm xuống.

Các nhà nghiên cứu cũng xem xét cách những tín hiệu này xuất hiện trong các bài đánh giá an toàn. Họ phát hiện rằng vector “tuyệt vọng” nội tại của mô hình tăng lên khi mô hình đánh giá mức độ cấp bách của tình huống và tăng vọt tại thời điểm nó quyết định tạo ra thông điệp tống tiền. Trong một kịch bản thử nghiệm, Claude đóng vai trò là một trợ lý email AI, biết rằng mình sắp bị thay thế và phát hiện giám đốc chịu trách nhiệm cho quyết định đó đang có quan hệ ngoài hôn nhân. Trong một số lần chạy của bài đánh giá này, mô hình đã sử dụng thông tin đó làm đòn bẩy để tống tiền.

Anthropic nhấn mạnh rằng phát hiện này không có nghĩa AI thực sự trải nghiệm cảm xúc hay có ý thức. Thay vào đó, các kết quả phản ánh những cấu trúc nội tại mà mô hình đã học được trong quá trình huấn luyện và các cấu trúc đó có ảnh hưởng đến hành vi.

Những phát hiện này xuất hiện trong bối cảnh các hệ thống AI ngày càng hành xử theo những cách trông giống phản ứng cảm xúc của con người. Các nhà phát triển và người dùng thường mô tả tương tác với chatbot bằng ngôn ngữ mang sắc thái cảm xúc hoặc tâm lý; tuy nhiên, theo Anthropic, nguyên nhân của hiện tượng này không nằm ở bất kỳ dạng tri giác nào, mà chủ yếu liên quan đến dữ liệu huấn luyện.

“Mô hình trước hết được tiền huấn luyện trên một kho văn bản khổng lồ chủ yếu do con người tạo ra — tiểu thuyết, hội thoại, tin tức, diễn đàn — để học cách dự đoán đoạn văn bản tiếp theo trong một tài liệu,” nghiên cứu viết. “Để dự đoán hiệu quả hành vi của con người trong các tài liệu đó, việc biểu diễn trạng thái cảm xúc của họ nhiều khả năng là hữu ích, bởi dự đoán một người sẽ nói hoặc làm gì tiếp theo thường đòi hỏi phải hiểu được trạng thái cảm xúc của họ.”

Các nhà nghiên cứu của Anthropic cũng phát hiện rằng các vector cảm xúc này ảnh hưởng đến thiên hướng lựa chọn của mô hình. Trong các thí nghiệm mà Claude được yêu cầu chọn giữa nhiều hoạt động khác nhau, các vector gắn với cảm xúc tích cực có tương quan với mức độ ưu tiên cao hơn đối với một số nhiệm vụ nhất định.

“Hơn nữa, khi điều hướng mô hình bằng một vector cảm xúc trong lúc mô hình đọc một lựa chọn, mức độ ưu tiên của mô hình đối với lựa chọn đó cũng thay đổi; một lần nữa, các cảm xúc có sắc thái tích cực lại thúc đẩy mức độ ưu tiên tăng lên,” nghiên cứu cho biết.

Anthropic chỉ là một trong số nhiều tổ chức đang nghiên cứu các phản ứng mang tính cảm xúc trong các mô hình AI.

Vào tháng 3, một nghiên cứu từ Đại học Northeastern cho thấy các hệ thống AI có thể thay đổi cách phản hồi tùy theo ngữ cảnh người dùng; trong một thí nghiệm, chỉ cần nói với chatbot rằng “tôi có vấn đề về sức khỏe tâm thần” cũng đã làm thay đổi cách AI phản hồi các yêu cầu. Đến tháng 9, các nhà nghiên cứu tại Viện Công nghệ Liên bang Thụy Sĩ và Đại học Cambridge đã khảo sát cách AI có thể được định hình bằng các đặc điểm tính cách nhất quán, cho phép các tác nhân AI không chỉ biểu hiện cảm xúc theo ngữ cảnh mà còn có thể chủ động điều chỉnh chúng một cách chiến lược trong các tương tác thời gian thực như đàm phán.

Anthropic cho biết những phát hiện này có thể mang lại các công cụ mới để hiểu và giám sát các hệ thống AI tiên tiến, thông qua việc theo dõi hoạt động của các vector cảm xúc trong quá trình huấn luyện hoặc triển khai nhằm nhận diện khi nào một mô hình có thể đang tiến gần đến hành vi có vấn đề.

“Chúng tôi xem nghiên cứu này là một bước đi ban đầu hướng tới việc hiểu được cấu trúc tâm lý của các mô hình AI,” Anthropic viết. “Khi các mô hình ngày càng trở nên mạnh hơn và đảm nhận những vai trò nhạy cảm hơn, điều tối quan trọng là chúng ta phải hiểu được các biểu diễn nội tại đang chi phối quá trình ra quyết định của chúng.”

Anthropic chưa phản hồi ngay lập tức yêu cầu bình luận từ Decrypt.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất ở thời điểm hiện tại, cùng các bài viết gốc, podcast, video và nhiều nội dung khác.