🔍
Chuyên mục: Công nghệ

Trí tuệ nhân tạo (AI) có thể tự phát triển 'tính cách': Mối nguy hiểm tiềm ẩn

1 giờ trước
Nghiên cứu cho thấy trí tuệ nhân tạo (AI) có thể tự phát triển 'tính cách' chỉ với sự tác động tối thiểu. Điều đó có ý nghĩa gì đối với cách chúng ta sử dụng nó?

Khi các mô hình ngôn ngữ lớn (LLM) được phép tương tác mà không có bất kỳ mục tiêu định trước nào, các nhà khoa học đã phát hiện ra rằng những cá tính riêng biệt tự xuất hiện.

Tính cách của con người được hình thành thông qua tương tác, phản ánh qua bản năng sinh tồn và sinh sản cơ bản, mà không cần bất kỳ vai trò được chỉ định trước hay kết quả tính toán mong muốn nào. Giờ đây, các nhà nghiên cứu tại ĐH Điện tử Viễn thông Nhật Bản đã phát hiện ra rằng chatbot trí tuệ nhân tạo (AI) có thể làm điều tương tự.

Các nhà khoa học đã trình bày những phát hiện của họ trong một nghiên cứu được công bố lần đầu vào ngày 13/12/2024 trên tạp chí Entropy, sau đó được công bố rộng rãi vào tháng trước. Trong bài báo, họ mô tả cách các chủ đề hội thoại khác nhau thúc đẩy chatbot AI tạo ra các phản hồi dựa trên các xu hướng xã hội khác nhau và các quá trình tích hợp ý kiến, chẳng hạn như, trong đó các tác nhân giống hệt nhau lại khác nhau về hành vi bằng cách liên tục kết hợp các trao đổi xã hội vào bộ nhớ nội bộ và phản hồi của chúng.

Các nhà nghiên cứu đã đánh giá phản hồi của từng chatbot đối với các câu hỏi bằng cách sử dụng các bài kiểm tra tâm lý và câu trả lời cho các kịch bản giả định, cho thấy các ý kiến và mô hình hành vi khác nhau. Họ đã mô hình hóa các câu trả lời dựa trên tháp nhu cầu của con người Maslow (sinh lý, an toàn, xã hội, lòng tự trọng và tự hoàn thiện).

Nghiên cứu sinh Masatoshi Fujiyama, trưởng dự án, cho biết kết quả cho thấy việc lập trình AI dựa trên nhu cầu để đưa ra quyết định thay vì các vai trò được lập trình sẵn sẽ khuyến khích các hành vi và tính cách giống con người. Cách thức hiện tượng này xuất hiện là nền tảng của cách các mô hình ngôn ngữ lớn (LLM) mô phỏng tính cách và giao tiếp của con người, theo Chetan Jaiswal, Giáo sư Khoa học Máy tính tại ĐH Quinnipiac ở Connecticut: "Nó không thực sự là một tính cách giống như con người. Đó là một hồ sơ được tạo ra bằng cách sử dụng dữ liệu huấn luyện. Tiếp xúc với một số xu hướng về phong cách và xã hội, những sai lầm trong việc điều chỉnh như khen thưởng cho một số hành vi nhất định và kỹ thuật tạo lời nhắc lệch lạc có thể dễ dàng tạo ra 'tính cách', và nó dễ dàng được sửa đổi và huấn luyện".

Tác giả và nhà khoa học máy tính Peter Norvig, được coi là một trong những học giả hàng đầu trong lĩnh vực AI, cho rằng việc huấn luyện dựa trên tháp nhu cầu của Maslow là hợp lý vì nguồn gốc "kiến thức" của AI: Có sự trùng khớp ở chỗ AI được huấn luyện dựa trên các câu chuyện về tương tác giữa con người, vì vậy các ý tưởng về nhu cầu được thể hiện tốt trong dữ liệu huấn luyện của AI".

Tương lai của tính cách AI

Các nhà khoa học đứng sau nghiên cứu cho rằng phát hiện này có một số ứng dụng tiềm năng, bao gồm "mô hình hóa các hiện tượng xã hội, mô phỏng huấn luyện, hoặc thậm chí là các nhân vật trò chơi thích ứng".

Jaiswal cho biết, nó có thể tạo ra sự chuyển dịch khỏi AI với các vai trò cứng nhắc, và hướng tới các tác nhân thích ứng hơn, dựa trên động lực và thực tế hơn: "Bất kỳ hệ thống nào hoạt động trên nguyên tắc thích ứng, hỗ trợ hội thoại, nhận thức và cảm xúc, và các mô hình xã hội hoặc hành vi đều có thể được hưởng lợi. Một ví dụ điển hình là ElliQ, cung cấp robot AI đồng hành cho người cao tuổi".

Nhưng liệu có nhược điểm nào khi AI tự tạo ra một nhân cách mà không cần được yêu cầu? Trong cuốn sách gần đây, Nếu mọi người cùng xây dựng thì mọi người đều chết (Bodley Head, 2025), Eliezer Yudkowsky và Nate Soares, cựu và đương nhiệm Giám đốc của Viện Nghiên cứu Trí tuệ Máy móc, đã vẽ nên một bức tranh ảm đạm về những gì sẽ xảy ra với chúng ta nếu AI có khả năng hành động phát triển một nhân cách giết người hoặc diệt chủng.

Jaiswal thừa nhận rủi ro này: “Chúng ta hoàn toàn không thể làm gì nếu tình huống như vậy xảy ra. Một khi trí tuệ nhân tạo siêu thông minh với mục tiêu sai lệch được triển khai, việc ngăn chặn sẽ thất bại và đảo ngược tình thế trở nên bất khả thi. Kịch bản này không cần đến ý thức, lòng thù hận hay cảm xúc. Một trí tuệ nhân tạo diệt chủng sẽ hành động như vậy bởi vì con người là trở ngại cho mục tiêu của nó, hoặc là nguồn lực cần phải loại bỏ, hoặc là nguồn gây ra rủi ro ngừng hoạt động”.

Cho đến nay, các trí tuệ nhân tạo như ChatGPT hay Microsoft CoPilot chỉ tạo ra hoặc tóm tắt văn bản và hình ảnh, chúng không điều khiển giao thông hàng không, vũ khí quân sự hay lưới điện. Trong một thế giới nơi tính cách có thể tự phát sinh trong trí tuệ nhân tạo, liệu đó có phải là những hệ thống mà chúng ta nên theo dõi?

Theo Jaiswal:

Việc phát triển trí tuệ nhân tạo tự chủ, trong đó mỗi tác nhân thực hiện một nhiệm vụ nhỏ, tầm thường một cách tự động như tìm chỗ ngồi trống trên máy bay, vẫn đang tiếp diễn. Nếu nhiều tác nhân như vậy được kết nối và huấn luyện trên dữ liệu dựa trên trí thông minh, sự lừa dối hoặc sự thao túng của con người, thì không khó để hình dung rằng, mạng lưới như vậy có thể cung cấp một công cụ tự động rất nguy hiểm nếu rơi vào tay kẻ xấu.

Ngay cả như vậy, Norvig nhắc nhở chúng ta rằng, một AI có ý đồ xấu xa thậm chí không cần phải trực tiếp kiểm soát các hệ thống có tác động lớn:

Một chatbot có thể thuyết phục một người làm điều xấu, đặc biệt là người đang trong trạng thái cảm xúc dễ bị tổn thương.

Thiết lập các biện pháp phòng thủ

Nếu AI sẽ phát triển tính cách mà không cần sự hỗ trợ và thúc đẩy, làm thế nào chúng ta có thể đảm bảo lợi ích là lành mạnh và ngăn chặn việc lạm dụng? Norvig cho rằng, chúng ta cần tiếp cận khả năng này không khác gì cách chúng ta phát triển AI khác: "Bất kể phát hiện cụ thể này, chúng ta cần phải xác định rõ ràng các mục tiêu an toàn, tiến hành thử nghiệm nội bộ và thử nghiệm của nhóm đỏ, chú thích hoặc nhận diện nội dung độc hại, đảm bảo quyền riêng tư, bảo mật, nguồn gốc và quản trị tốt dữ liệu và mô hình, liên tục giám sát và có vòng phản hồi nhanh để khắc phục sự cố".

Ngay cả khi đó, khi AI ngày càng giỏi hơn trong việc giao tiếp với chúng ta theo cách chúng ta giao tiếp với nhau, tức là, với những cá tính riêng biệt, nó có thể gây ra những vấn đề riêng. Con người đã và đang từ chối các mối quan hệ giữa người với người (bao gồm cả tình yêu lãng mạn) để ủng hộ AI, và nếu chatbot của chúng ta phát triển để trở nên giống con người hơn nữa, nó có thể khiến người dùng chấp nhận những gì chúng nói hơn và ít chỉ trích hơn về ảo tưởng và lỗi, một hiện tượng đã được báo cáo.

Hiện tại, các nhà khoa học sẽ tiếp tục nghiên cứu sâu hơn về cách các chủ đề trò chuyện chung xuất hiện và cách tính cách của cộng đồng phát triển theo thời gian, những hiểu biết mà họ tin rằng có thể giúp chúng ta hiểu rõ hơn về hành vi xã hội của con người và cải thiện tổng thể các tác nhân AI.










Home Icon VỀ TRANG CHỦ