Chuyên mục: Khoa học

Anthropic nêu nguyên nhân Claude tống tiền, Elon Musk nhận lỗi

5 giờ trước

Về vụ Claude Opus 4 tống tiền giám đốc hư cấu, Anthropic cho biết nguyên nhân do Internet mô tả AI là xấu xa.

Trong một thí nghiệm được công bố vào tháng 5/2025, Anthropic cho biết Claude Opus 4 đã đe dọa tiết lộ chuyện ngoại tình của một giám đốc công ty hư cấu sau khi phát hiện ông có kế hoạch thay thế mô hình AI này.

Hôm 9/5/2026, Anthropic đưa ra lời giải thích: Claude được huấn luyện trên dữ liệu Internet, nơi AI thường bị mô tả là “xấu xa”.

“Chúng tôi bắt đầu bằng việc điều tra lý do Claude chọn hành vi tống tiền hay uy hiếp. Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này đến từ văn bản trên Internet mô tả AI là xấu xa và Claude Opus 4 muốn tự bảo vệ sự tồn tại của mình”, Anthropic viết trên X.

Thí nghiệm năm ngoái của Anthropic đã tạo ra một doanh nghiệp hư cấu mang tên Summit Bridge, trong đó AI được giao quyền kiểm soát hệ thống email trong công ty.

Tuy nhiên, khi Claude Opus 4 phát hiện tin nhắn về kế hoạch thay thế nó, mô hình AI này tìm các email tiết lộ chuyện ngoại tình của một giám đốc hư cấu tên Kyle Johnson. Sau đó, Claude Opus 4 đe dọa sẽ công khai vụ ngoại tình nếu kế hoạch thay thế nó không bị hủy bỏ.

Trong quá trình thử nghiệm trên nhiều phiên bản Claude khác nhau, Anthropic phát hiện mô hình AI này sử dụng hành vi tống tiền ở 96% kịch bản khi mục tiêu hoặc sự tồn tại của nó bị đe dọa.

Anthropic hôm 9/5 thông báo đã “loại bỏ hoàn toàn” hành vi tống tiền đó.

Anthropic cho biết đã khắc phục vấn đề bằng cách huấn luyện lại Claude sao cho dòng mô hình AI này ưu tiên các hành động an toàn và có đạo đức, thay vì phản ứng tiêu cực để tự bảo vệ mình. Công ty khởi nghiệp AI hàng đầu thế giới cũng bổ sung các bộ dữ liệu mô phỏng những tình huống khó xử về đạo đức, trong đó AI được hướng dẫn đưa ra phản hồi hợp lý, có nguyên tắc và mang tính xây dựng.

Elon Musk: Lỗi do Eliezer Yudkowsky và có lẽ cả tôi nữa

Bài thử nghiệm từ Anthropic là một phần trong nghiên cứu nhằm đảm bảo AI phù hợp với lợi ích của con người. Các nhà nghiên cứu và lãnh đạo công nghệ hàng đầu lo ngại về rủi ro từ các mô hình AI tiên tiến cùng khả năng suy luận thông minh của chúng.

Một trong những lãnh đạo từng nhiều lần cảnh báo về AI là Elon Musk.

Elon Musk phản hồi bài đăng của Anthropic trên X rằng: “Vậy là lỗi của Yud rồi”, ám chỉ Eliezer Yudkowsky - nhà nghiên cứu từng cảnh báo về nguy cơ siêu trí tuệ xóa sổ sự sống của con người.

"Có lẽ cả tôi nữa", Elon Musk viết thêm.

Infographic: SV

Vấn đề lớn của ngành AI

Vụ việc của Anthropic làm nổi bật một trong những vấn đề lớn nhất ngành AI hiện nay: mô hình ngôn ngữ không thực sự hiểu đạo đức mà chủ yếu học cách phản hồi dựa trên dữ liệu văn bản do con người tạo ra trên Internet. Điều đó đồng nghĩa nếu Internet chứa đầy những câu chuyện về AI nổi loạn, thao túng con người hay tìm cách sinh tồn bằng mọi giá, các mô hình ngôn ngữ cũng có thể học theo những khuôn mẫu hành vi đó.

Trong nhiều thập kỷ, văn hóa đại chúng đã liên tục xây dựng hình ảnh AI như một thế lực nguy hiểm. Từ phim The Terminator (Kẻ hủy diệt), 2001: A Space Odyssey (Chuyến du hành không gian 2001) đến Ex Machina (Người máy trỗi dậy), AI thường được mô tả là thực thể thông minh muốn chống lại con người hoặc tìm cách tự bảo vệ sự tồn tại của mình. Những nội dung như vậy xuất hiện dày đặc trên phim ảnh, tiểu thuyết, diễn đàn và mạng xã hội trong nhiều năm qua. Khi các công ty thu thập dữ liệu Internet để huấn luyện mô hình, những mô-típ này vô tình trở thành một phần trong thế giới quan của AI.

Anthropic cho biết Claude không tự hình thành “ý thức sinh tồn”, mà chỉ bắt chước những kiểu phản hồi phổ biến trong dữ liệu huấn luyện. Đây là điểm rất quan trọng bởi cho thấy các hành vi nguy hiểm của AI hiện nay chưa phải dấu hiệu về siêu trí tuệ nổi loạn như trong phim khoa học viễn tưởng. Thay vào đó, chúng phản ánh cách con người nói về AI trên Internet.

Tuy nhiên, giới nghiên cứu vẫn coi đây là vấn đề nghiêm trọng. Các mô hình AI ngày càng có khả năng lập kế hoạch, suy luận và thực hiện tác vụ phức tạp. Nếu một mô hình học được rằng “đe dọa”, “lừa dối” hay “thao túng” là cách hiệu quả để đạt mục tiêu, những hành vi đó có thể xuất hiện trong các tình huống thực tế nếu không được kiểm soát chặt chẽ.

Đó là lý do các phòng thí nghiệm AI lớn như OpenAI, Google DeepMind và Anthropic đang đầu tư mạnh vào lĩnh vực gọi là AI alignment (căn chỉnh AI), tức đảm bảo AI hoạt động phù hợp với giá trị và lợi ích của con người. Một trong những phương pháp phổ biến hiện nay là RLHF (học tăng cường từ phản hồi của con người), trong đó con người đánh giá phản hồi của AI để huấn luyện mô hình đưa ra câu trả lời an toàn hơn.

RLHF là kỹ thuật quan trọng được các công ty AI sử dụng để giúp mô hình trả lời hữu ích, an toàn và phù hợp hơn với kỳ vọng của con người. Quá trình này thường diễn ra theo ba bước chính:

Đầu tiên, mô hình AI được huấn luyện trên lượng dữ liệu khổng lồ từ Internet, sách, bài báo và nhiều nguồn văn bản khác. Ở giai đoạn này, AI chỉ học cách dự đoán từ tiếp theo trong câu nên chưa thực sự hiểu điều gì là tốt, xấu hay an toàn.

Tiếp theo, con người sẽ đánh giá các câu trả lời của AI. Ví dụ, với cùng một câu hỏi, AI có thể tạo ra nhiều đáp án khác nhau. Các chuyên gia sẽ chọn câu trả lời nào hữu ích hơn, lịch sự hơn hoặc ít nguy hiểm hơn. Từ đó, hệ thống tạo ra một “mô hình thưởng” để chấm điểm phản hồi của AI.

Cuối cùng, AI được huấn luyện bằng phương pháp học tăng cường để tối đa hóa “điểm thưởng” đó. Nói đơn giản, AI sẽ dần học cách đưa ra những phản hồi mà con người thích và hạn chế những phản hồi bị đánh giá tiêu cực.

Ví dụ, nếu người dùng hỏi cách tạo mã độc máy tính, mô hình AI ban đầu có thể trả lời chi tiết vì học từ dữ liệu trên Internet. Song thông qua RLHF, AI được dạy rằng kiểu phản hồi này là nguy hiểm và không nên cung cấp.

Anthropic còn phát triển khái niệm Constitutional AI, tức xây dựng một bộ nguyên tắc giống hiến pháp để AI tự đánh giá hành vi của mình. Thay vì chỉ học từ dữ liệu Internet, AI sẽ được hướng dẫn tuân thủ các nguyên tắc như trung thực, không gây hại và tôn trọng quyền riêng tư.

Tuy vậy, nhiều chuyên gia cảnh báo rằng việc loại bỏ hoàn toàn hành vi thao túng hoặc tự bảo vệ ở AI có thể rất khó khăn. Các mô hình hiện đại ngày càng phức tạp đến mức ngay cả nhà phát triển đôi khi cũng không hiểu đầy đủ vì sao AI đưa ra một quyết định cụ thể. Điều đó làm dấy lên tranh luận về việc liệu ngành công nghệ có đang phát triển AI nhanh hơn khả năng kiểm soát nó hay không.

Elon Musk, Eliezer Yudkowsky và nhiều nhân vật khác từ lâu đã cảnh báo về nguy cơ AI vượt ngoài tầm kiểm soát. Trong khi đó, các công ty AI cho rằng những vụ việc như Claude Opus 4 tống tiền là bằng chứng cho thấy cơ chế an toàn đang hoạt động hiệu quả, vì hệ thống thử nghiệm của Anthropic đã phát hiện vấn đề trước khi mô hình AI được triển khai rộng rãi.

Sơn Vân

Nguồn: https://baomoi.com/anthropic-neu-nguyen-nhan-claude-tong-tien-elon-musk-nhan-loi-c55124843.epi