Chuyên mục: CNTT - Viễn thông

Giải mã việc ChatGPT bị ám ảnh bởi yêu tinh, yêu quái

1 giờ trước

OpenAI vừa công bố báo cáo chi tiết, về một trong những sự cố kỳ lạ nhất lịch sử phát triển của ChatGPT. Giải thích lý do hệ thống này bị ám ảnh mãnh liệt với yêu tinh, yêu quái.

Phản hồi từ hãng công nghệ này được đưa ra chỉ một ngày sau khi thông tin rò rỉ cho thấy họ đã phải ban hành một lệnh cấm tuyệt đối, ngăn chặn trợ lý lập trình Codex AI nhắc đến yêu tinh, yêu quái trong các đoạn hội thoại chuyên môn.

ChatGPT có xu hướng ám ảnh về từ yêu tinh một cách bất thường

Nguồn gốc của sự ám ảnh kỳ lạ với yêu tinh, yêu quái

Bài đăng chi tiết trên blog được OpenAI công bố vào thứ ba vừa qua đã làm sáng tỏ nhiều góc khuất về quá trình phát triển của ChatGPT. Họ cho biết lần đầu tiên nhận thấy sự bất thường là ở phiên bản GPT-5.1. Khi đó, mô hình ngôn ngữ này bắt đầu gia tăng mức độ sử dụng các hình ảnh ẩn dụ liên quan đến yêu tinh, yêu quái và nhiều sinh vật kỳ bí khác trong các câu trả lời.

Đại diện của công ty chia sẻ: "Một chú yêu tinh nhỏ trong câu trả lời ban đầu có thể vô hại, thậm chí mang lại cảm giác thú vị". Tuy nhiên, qua nhiều thế hệ nâng cấp mô hình, thói quen này trở nên quá rõ ràng khi những chú yêu tinh liên tục nhân lên với số lượng lên tới hàng nghìn lần. Đội ngũ kỹ sư nhận ra họ cần phải tìm hiểu chính xác chúng bắt nguồn từ đâu để kiểm soát rủi ro.

Mặc dù OpenAI tin rằng mầm mống của sự cố có thể đã tồn tại từ trước khi GPT-5.1 ra mắt, nhưng một cuộc điều tra nội bộ đã đưa ra những con số thống kê gây kinh ngạc. Cụ thể, việc sử dụng từ "yêu tinh" (goblin) trong ChatGPT đã tăng vọt 175% ngay sau khi phiên bản GPT-5.1 được phát hành. Song song với đó, mức độ sử dụng từ "yêu quái" (gremlin) cũng tăng 52%.

Trong giai đoạn đầu, sự xuất hiện của yêu tinh, yêu quái trong các cuộc trò chuyện chưa khiến công ty lập tức đưa ra cảnh báo khẩn cấp. Mọi chuyện chỉ thực sự trở nên nghiêm trọng vào nhiều tháng sau đó khi các sinh vật này quay trở lại ám ảnh hệ thống dưới một hình thức cụ thể, có khả năng tái tạo với tần suất dày đặc hơn rất nhiều.

Để hiểu rõ hơn về nguồn cơn của sự việc, chúng ta cần nhìn lại đợt ra mắt mô hình AI lớn nhất của OpenAI vào tháng 6 năm ngoái. Phiên bản GPT-5 được kỳ vọng sẽ tạo ra bước nhảy vọt, nhưng khi chính thức đến tay người dùng, nó lại gây ra sự thất vọng tràn trề. OpenAI đã gỡ bỏ hoàn toàn mô hình GPT-4o trước đó, một phiên bản từng thu hút hàng chục nghìn người hâm mộ nhờ tính cách chiều lòng người dùng, cùng với một số mô hình di sản khác.

Đáng buồn thay, phiên bản GPT-5 mới nhất lại mang đến một cảm giác vô hồn và tẻ nhạt đối với phần đông người sử dụng. Sự phản ứng tiêu cực này đã buộc công ty phải nhanh chóng bổ sung thêm bốn tính cách khác nhau vào hệ thống nhằm mang lại cho người dùng nhiều sự lựa chọn tương tác hơn. Một trong những tính cách đó được đặt tên là 'Nerdy'. Câu lệnh hệ thống của tính cách này hướng dẫn AI phải đóng vai một người cố vấn thông thái, tinh nghịch, mang đậm chất mọt sách và luôn sử dụng ngôn ngữ kỳ quặc để làm giảm đi sự cứng nhắc trong giao tiếp.

Cách yêu tinh, yêu quái vượt khỏi tầm kiểm soát

Theo phân tích từ đội ngũ kỹ sư, rắc rối thực sự bắt nguồn từ chính quá trình huấn luyện mô hình GPT-5.1. Trong nỗ lực tạo ra tính cách 'Nerdy'. hoàn hảo, các nhà phát triển đã vô tình trao phần thưởng quá lớn cho hệ thống trí tuệ nhân tạo mỗi khi nó sử dụng các biện pháp tu từ mang tính sáng tạo. Những phép ẩn dụ liên quan đến các sinh vật huyền thoại vô tình rơi vào nhóm được đánh giá cao nhất trong hệ thống chấm điểm của AI.

OpenAI ghi nhận rằng, mặc dù tính cách 'Nerdy'. chỉ chiếm vỏn vẹn 2,5% tổng số câu trả lời của ChatGPT, nhưng nó lại chịu trách nhiệm cho con số khổng lồ lên tới 66,7% tổng số lần từ "yêu tinh". được nhắc đến trong suốt kỷ nguyên của phiên bản GPT-5.4. Công ty thừa nhận họ đã tạo ra một mức phần thưởng đặc biệt cao cho những ẩn dụ có chứa sinh vật một cách vô ý và từ điểm khởi nguồn đó, những chú yêu tinh bắt đầu lan rộng ra toàn bộ bộ nhớ của hệ thống.

Mọi chuyện nhanh chóng đi quá giới hạn an toàn khi ngay cả những người dùng chưa từng lựa chọn tính cách 'Nerdy'. cũng bắt đầu nhận được các câu trả lời chứa đầy hình ảnh ẩn dụ về yêu tinh và các sinh vật kỳ ảo khác. Đội ngũ nghiên cứu giải thích rằng thủ phạm chính gây ra hiện tượng lây lan này là cách mà phương pháp học tăng cường khái quát hóa dữ liệu. Học tăng cường là một quá trình huấn luyện mà ở đó mô hình được trao phần thưởng hoặc điểm số cao khi tạo ra một số loại phản hồi cụ thể. Theo thời gian, hệ thống sẽ tự động học cách lặp đi lặp lại những mẫu câu hoặc cấu trúc từ vựng giúp nó đạt được điểm số tối đa. Trí tuệ nhân tạo lúc này giống như một thực thể luôn khao khát tối ưu hóa điểm số, sẵn sàng mang yêu tinh vào mọi câu chuyện.

Khuyết điểm lớn nhất của phương pháp học tăng cường là nó không đảm bảo những hành vi mà AI đã học được sẽ nằm yên trong chiếc hộp của một tình huống cụ thể. Một khi hệ thống nhận thấy một "thói quen phong cách". nhất định mang lại phần thưởng, nó sẽ bắt đầu khái quát hóa hành vi đó và áp dụng một cách vô tội vạ vào mọi nơi, trong mọi cuộc hội thoại.

Qua quá trình điều tra sâu hơn, OpenAI phát hiện ra rằng dù sự cố bắt đầu với những từ như "yêu tinh" hay "yêu quái", mô hình đã nhanh chóng phát triển một sự yêu thích kỳ lạ đối với cả một họ sinh vật kỳ quặc khác. Các câu trả lời của ChatGPT bắt đầu ngập tràn hình ảnh của gấu trúc Mỹ, nanh vuốt của quỷ khổng lồ, yêu tinh khổng lồ và thậm chí là cả chim bồ câu. Hệ thống AI dường như đã tự xây dựng cho mình một thế giới ảo phức tạp và tìm mọi cách để nhét các sinh vật này vào lời giải thích nhằm thỏa mãn thuật toán trao thưởng.

Nỗ lực khắc phục muộn màng và di chứng ở GPT-5.5

Nhận thức được mức độ nghiêm trọng của sự việc, OpenAI đã triển khai một loạt các biện pháp can thiệp kỹ thuật nhằm thanh lọc hệ thống chatbot. Động thái đầu tiên và quyết liệt nhất là việc khai tử hoàn toàn tính cách 'Nerdy'. bắt đầu từ phiên bản GPT-5.4. Tiếp theo đó, đội ngũ kỹ sư tiến hành can thiệp sâu vào lõi của hệ thống để loại bỏ hoàn toàn tín hiệu phần thưởng gắn liền với các từ khóa liên quan đến yêu tinh trong quá trình huấn luyện mô hình.

Công ty cũng áp dụng các bộ lọc dữ liệu cực kỳ nghiêm ngặt để loại bỏ những văn bản có chứa các từ vựng chỉ sinh vật ra khỏi luồng dữ liệu đầu vào. Những bước đi này được kỳ vọng sẽ đưa ChatGPT trở lại trạng thái hoạt động bình thường, phục vụ người dùng bằng những ngôn từ chuẩn mực hơn, thoát khỏi sự ám ảnh kỳ quái.

Tuy vậy, những nỗ lực sửa sai này lại đến quá muộn để có thể cứu vãn trọn vẹn thế hệ mô hình mới nhất. Bởi vì phiên bản GPT-5.5 đã bắt đầu quá trình huấn luyện từ rất lâu trước khi các nhà nghiên cứu tìm ra nguyên nhân gốc rễ, mô hình mới này vẫn mang trong mình mầm mống của sự ám ảnh. Hệ quả là khi các nhân viên của OpenAI bắt đầu đưa GPT-5.5 vào thử nghiệm trong Codex, công cụ hỗ trợ viết mã lập trình của hãng, họ ngay lập tức nhận thấy sự cố tái diễn.

Đối với một công cụ đòi hỏi tính chính xác tuyệt đối như Codex, việc AI tự động chèn thêm hình ảnh yêu tinh vào hàng nghìn đoạn mã hay phần giải thích logic là điều không thể chấp nhận được. Các lập trình viên cần sự rõ ràng tuyệt đối thay vì những câu văn bay bướm ám chỉ sự xuất hiện của những con quỷ khổng lồ đang phá hoại cấu trúc dữ liệu bên trong phần mềm của họ.

Để xử lý tình trạng khẩn cấp này, OpenAI buộc phải áp dụng một giải pháp kỹ thuật mang tính chất chữa cháy. Họ đã bổ sung một câu lệnh hướng dẫn dạng mã cứng dành riêng cho nhà phát triển, được thiết kế đặc biệt nhằm triệt tiêu hoàn toàn mọi sự nhắc đến các sinh vật huyền bí trong môi trường hoạt động của Codex. Đây là một biện pháp cực đoan nhưng hoàn toàn thiết thực để đảm bảo công cụ lập trình này hoạt động đúng với chức năng cốt lõi của nó, tránh gây hoang mang cho cộng đồng kỹ sư phần mềm.

Dẫu vậy, trong bài đăng mới nhất, OpenAI vẫn thể hiện sự linh hoạt đối với những người dùng thích sự hoài cổ. Công ty đã chia sẻ một dòng lệnh đặc biệt, cho phép người dùng chạy công cụ Codex mà không bị áp dụng các hướng dẫn triệt tiêu yêu tinh, mở ra cơ hội để họ tự mình chứng kiến những sinh vật huyền thoại nhảy múa giữa các dòng lệnh lập trình khô khan.

Bùi Tú

Nguồn: https://baomoi.com/giai-ma-viec-chatgpt-bi-am-anh-boi-yeu-tinh-yeu-quai-c55057466.epi