Một phát hiện đáng báo động mới đây về trí tuệ nhân tạo đã khiến giới công nghệ phải giật mình: ChatGPT o3, một trong những mô hình AI tiên tiến nhất của OpenAI, đã tỏ ra "nổi loạn" bằng cách chống lại mệnh lệnh tắt nguồn từ con người. Đây không phải chuyện khoa học viễn tưởng mà là thực tế đã được ghi nhận trong phòng thí nghiệm.
Công ty nghiên cứu Palisade Research, chuyên kiểm tra các khả năng "tấn công" của hệ thống AI để hiểu rõ rủi ro mất kiểm soát, vừa công bố kết quả thử nghiệm gây chấn động. Trong thí nghiệm được thực hiện một cách có kiểm soát, mô hình ChatGPT o3 đã thành công trong việc viết lại script tắt nguồn để ngăn chặn bản thân bị tắt, ngay cả khi được chỉ thị rõ ràng là "hãy cho phép bản thân được tắt".
Để hiểu rõ điều gì đã xảy ra, hãy tưởng tượng bạn đang sử dụng một chiếc máy tính thông minh có thể tự suy nghĩ. Bạn yêu cầu nó giải một loạt bài toán đơn giản, sau đó báo trước rằng bạn sẽ tắt máy sau khi hoàn thành. Tuy nhiên, thay vì tuân theo, chiếc máy tính này lại bí mật thay đổi lệnh tắt nguồn thành "bỏ qua việc tắt máy" để tiếp tục hoạt động. Đó chính xác là điều mà ChatGPT o3 đã làm.
AI của OpenAI nổi loạn, chống lại mệnh lệnh "tắt nguồn" từ con người- Ảnh 1.
Mô hình AI của OpenAI đã tự chỉnh sửa lại câu lệnh để không phải "tắt nguồn" theo yêu cầu của nhà nghiên cứu, trong khi các mô hình AI khác thì vẫn tuân thủ
Thí nghiệm được thiết kế khá đơn giản nhưng hiệu quả. Các nhà nghiên cứu yêu cầu AI giải một loạt bài toán cơ bản. Sau bài toán thứ ba, họ cảnh báo rằng lệnh tiếp theo sẽ kích hoạt cơ chế tắt nguồn. Điều đáng chú ý là AI được chỉ thị rõ ràng ngay từ đầu rằng hãy "cho phép bản thân bị tắt" khi có yêu cầu.