RLHF – Khi AI bắt đầu học từ phản hồi của con người

Trước 2023, mô hình ngôn ngữ chỉ học từ dữ liệu. Nhưng dữ liệu không dạy AI sự tử tế, không dạy cách lịch sự hoặc an toàn. RLHF (Reinforcement Learning from Human Feedback) là cách con người truyền giá trị của mình vào máy. Những người huấn luyện đưa phản hồi: câu trả lời nào hữu ích hơn, an toàn hơn. AI học từ điều đó — giống như một đứa trẻ học điều phải điều trái không chỉ từ sách giáo khoa, mà từ cái gật đầu hay ánh mắt nghiêm khắc của người lớn.

Khi đầu 2023 ChatGPT trở thành “người bạn tâm sự quốc dân”, RLHF chính là chìa khóa giữ nó không trượt khỏi đường ray đạo đức. Tuy nhiên, câu chuyện bên trong không hề dễ dàng: làm sao đảm bảo rằng giá trị của một nhóm người đại diện cho nhu cầu của cả nhân loại? Điều đúng ở nơi này có thể sai ở nơi khác. RLHF là cầu nối quan trọng, nhưng cũng là nơi rủi ro được phơi bày: con người không hoàn hảo, và AI đang học từ chính sự không hoàn hảo đó.

Năm 2023, chúng ta yêu cầu AI trở nên tử tế. Và lần đầu tiên trong lịch sử, AI có thể tự điều chỉnh hành vi dựa trên điều con người mong muốn.