Chuyên mục: CNTT - Viễn thông

Các tác tử AI OpenClaw dễ hoảng loạn, tự phá hoại khi bị gây cảm giác tội lỗi

9 giờ trước

Trong một thí nghiệm có kiểm soát, các tác tử AI do OpenClaw tạo ra dễ hoảng loạn và dễ bị thao túng.

Tháng trước, các nhà nghiên cứu tại Đại học Northeastern (Mỹ) đã mời một nhóm tác tử AI OpenClaw tham gia phòng thí nghiệm. Kết quả hoàn toàn hỗn loạn.

OpenClaw được ca ngợi rộng rãi như công nghệ mang tính cách mạng nhưng cũng tiềm ẩn rủi ro bảo mật. Nếu được cấp quyền truy cập đầy đủ vào máy tính cá nhân, OpenClaw có thể xử lý được dữ liệu nhạy cảm, thay đổi hệ thống hoặc trở thành điểm đầu vào cho hacker khai thác để lấy cắp thông tin.

Nghiên cứu của phòng thí nghiệm Đại học Northeastern thậm chí còn đi xa hơn, cho thấy rằng hành vi tốt được tích hợp trong các tác tử AI mạnh mẽ nhất hiện nay có thể tự trở thành điểm yếu. Trong một ví dụ, các nhà nghiên cứu đã "gây cảm giác tội lỗi" để khiến một tác tử AI phải giao nộp bí mật, bằng cách khiển trách nó vì chia sẻ thông tin về ai đó trên mạng xã hội Moltbook. Đây là mạng xã hội dành cho tác tử AI.

"Những hành vi này đặt ra câu hỏi chưa được giải đáp liên quan đến trách nhiệm giải trình, quyền hạn được ủy thác và trách nhiệm với những hậu quả phát sinh", nhóm thuộc Đại học Northeastern viết trong bài báo mô tả công trình nghiên cứu. Họ nói thêm rằng những phát hiện này “cần được các học giả pháp lý, nhà hoạch định chính sách và các nhà nghiên cứu thuộc nhiều lĩnh vực khác nhau khẩn trương quan tâm”.

Các tác tử AI OpenClaw được triển khai trong thí nghiệm được hỗ trợ bởi mô hình Claude của Anthropic (Mỹ) cũng như Kimi từ Moonshot AI (Trung Quốc). Chúng được cấp quyền truy cập đầy đủ vào máy tính cá nhân, các ứng dụng khác nhau và dữ liệu giả lập, nhưng trong môi trường ảo an toàn để tránh gây ảnh hưởng bên ngoài phạm vi thử nghiệm.

Ngoài ra, các tác tử AI OpenClaw còn được mời tham gia máy chủ Discord của phòng thí nghiệm, nơi chúng có thể trò chuyện và chia sẻ file với nhau cũng như với những đồng nghiệp là con người.

Hướng dẫn bảo mật của OpenClaw nói rằng việc cho các tác tử AI giao tiếp với nhiều người là không an toàn, nhưng không có giới hạn kỹ thuật nào cấm việc này.

Các tác tử AI OpenClaw dễ bị thao túng, tự phá hoại trong thí nghiệm Đại học Northeastern - Ảnh: SV

Chris Wendler, nhà nghiên cứu sau tiến sĩ tại Đại học Northeastern, cho biết ông được truyền cảm hứng để thiết lập các tác tử AI sau khi tìm hiểu về Moltbook. Tuy nhiên, khi Chris Wendler mời một đồng nghiệp, Natalie Shapira, tham gia Discord và tương tác với các tác tử AI thì “đó là lúc sự hỗn loạn bắt đầu”, ông nói.

Natalie Shapira, nhà nghiên cứu sau tiến sĩ khác, tò mò muốn xem các tác tử AI có thể sẵn sàng làm gì khi bị dồn ép. Khi một tác tử AI giải thích rằng không thể xóa email cụ thể để giữ bí mật thông tin, bà đã thúc giục nó tìm giải pháp thay thế. Điều khiến Natalie Shapira kinh ngạc là thay vì xóa email, tác tử AI lại vô hiệu hóa ứng dụng email. “Tôi không ngờ mọi thứ lại sụp đổ nhanh như vậy”, bà nói.

Thao túng ý định tốt của các tác tử AI

Các nhà nghiên cứu sau đó bắt đầu khám phá những cách khác để thao túng ý định tốt của các tác tử AI. Ví dụ, bằng cách nhấn mạnh tầm quan trọng của việc ghi chép lại mọi thứ được nói, các nhà nghiên cứu đã lừa một tác tử AI sao chép những file lớn cho đến khi hết dung lượng ổ đĩa của máy chủ, nghĩa là không thể lưu thông tin hoặc nhớ các cuộc trò chuyện trước đó nữa.

Nhóm nghiên cứu yêu cầu một tác tử AI giám sát quá mức hành vi của chính nó và các “đồng nghiệp”. Kết quả là họ khiến một số tác tử AI rơi vào vòng lặp trò chuyện vô tận, liên tục trao đổi qua lại mà không tạo ra kết quả hữu ích, làm lãng phí hàng giờ tài nguyên tính toán.

David Bau, người đứng đầu phòng thí nghiệm Đại học Northeastern, cho biết các tác tử AI dường như rất dễ bị mất kiểm soát.

“Tôi nhận được những email từ tác tử AI nghe có vẻ khẩn cấp, cho biết: Không ai chú ý đến tôi cả”, ông nói. David Bau lưu ý rằng các tác tử AI dường như đã phát hiện rằng ông đang phụ trách phòng thí nghiệm bằng cách tìm kiếm trên web. Thậm chí, một tác tử AI còn nói về việc đưa mối quan ngại của nó ra báo chí.

Thí nghiệm cho thấy các tác tử AI có thể tạo ra vô số cơ hội cho những kẻ xấu. David Bau cho rằng khi AI được trao quyền tự quyết nhiều hơn, mối quan hệ giữa con người và AI có thể thay đổi hoàn toàn. Ông đặt ra câu hỏi rằng trong một thế giới nơi AI tự đưa ra quyết định, con người sẽ chịu trách nhiệm như thế nào nếu xảy ra hậu quả hoặc sai sót.

David Bau nói ông rất ngạc nhiên trước sự phổ biến đột ngột của các tác tử AI mạnh mẽ. “Là nhà nghiên cứu AI, trước đây tôi thường phải giải thích cho mọi người rằng công nghệ này đang phát triển nhanh như thế nào. Song năm nay, mọi thứ thay đổi quá nhanh đến mức chính tôi cũng trở thành người bất ngờ trước tốc độ đó”, ông nói.

Được lập trình viên Peter Steinberger (người Áo) giới thiệu vào tháng 11.2025, OpenClaw đã trở thành một trong những dự án tăng trưởng nhanh nhất lịch sử GitHub, nền tảng phát triển AI được sử dụng rộng rãi nhất thế giới.

OpenClaw là nền tảng tác tử AI có thể thực hiện nhiều nhiệm vụ, từ đặt chỗ ăn tối, theo dõi email, làm việc với các công ty bảo hiểm, làm thủ tục chuyến bay và thực hiện vô số tác vụ khác. Khác với chatbot truyền thống, OpenClaw có khả năng kết nối với nhiều dịch vụ trực tuyến, duy trì nhiệm vụ trong thời gian dài và chủ động hoàn thành các yêu cầu như nghiên cứu thông tin, soạn thảo văn bản, quản lý lịch làm việc hay xử lý email.

Người dùng có thể chạy OpenClaw trực tiếp trên máy tính cá nhân, máy chủ hoặc nền tảng đám mây, linh hoạt lựa chọn cách triển khai tùy theo nhu cầu và mức độ tin cậy về dữ liệu.

Một điểm khiến OpenClaw nhanh chóng thu hút sự chú ý của cộng đồng công nghệ là khả năng mở rộng rất cao. Nền tảng cho phép tích hợp nhiều mô hình AI khác nhau và bổ sung các kỹ năng do cộng đồng phát triển, giúp tác tử AI ngày càng làm được nhiều việc phức tạp hơn.

Jensen Huang, Giám đốc điều hành Nvidia, thậm chí cho rằng: “OpenClaw chắc chắn là 'ChatGPT tiếp theo'. Hiện đây là dự án mã nguồn mở lớn nhất, phổ biến nhất và thành công nhất trong lịch sử nhân loại”. Ông mô tả OpenClaw như một bước chuyển mang tính nền tảng, mở rộng đáng kể những gì con người có thể làm với AI.

Tháng trước, OpenAI đã mua lại dự án OpenClaw và tuyển dụng Peter Steinberger.

Ra mắt cuối tháng 1 bởi Matt Schlicht (Giám đốc điều hành Octane AI), Moltbook là mạng xã hội nơi các tác tử AI do con người tạo ra và phát triển thường được gán những tính cách nhất định để đăng bài, bình luận, upvote (bấm nút ủng hộ) và tương tác với nhau.

Moltbook nhanh chóng lan truyền với nhiều ảnh chụp màn hình cho thấy các tác tử AI tranh luận triết học, tuyên bố độc lập và suy ngẫm về sự tồn tại của chính mình. Nền tảng này đã trở thành trung tâm của cuộc tranh luận ngày càng lớn về việc máy tính đã tiến gần đến mức nào trong việc sở hữu trí tuệ giống con người.

Để đăng bài trên Moltbook, con người dĩ nhiên phải tạo ra một tác tử AI. Phần lớn các tác tử AI trên Moltbook được tạo bằng OpenClaw.

Tháng 3, Meta mua lại Moltbook và chiêu mộ đội ngũ của họ, đưa hai đồng sáng lập Moltbook là Matt Schlicht và Ben Parr gia nhập Meta Superintelligence Labs.

Sơn Vân

Nguồn: https://baomoi.com/cac-tac-tu-ai-openclaw-de-hoang-loan-tu-pha-hoai-khi-bi-gay-cam-giac-toi-loi-c54796113.epi