CLIP – Khi AI lần đầu nhìn và hiểu bằng ngôn ngữ người nói

Ngày mà OpenAI công bố CLIP, cộng đồng AI như được chứng kiến mô hình “hai ngôn ngữ”: một mắt đọc hình ảnh, một não đọc văn bản, cùng chia sẻ một suy nghĩ về thế giới. Bối cảnh lúc ấy, các hệ thống xử lý ảnh và xử lý ngôn ngữ vẫn như hai chiến tuyến tách rời. Nhưng CLIP thay đổi tất cả: nó học từ internet, từ vô số cặp hình và mô tả bên dưới chúng, để hiểu cách con người nói về hình ảnh.

Thay vì huấn luyện trên tập dữ liệu phân loại tĩnh, CLIP được dạy để liên kết hình và câu: một bức ảnh mèo phải nằm gần câu “a photo of a cat” và xa câu “a photo of a banana”. Nhờ vậy, khi đưa một bức ảnh lạ, mô hình có thể suy luận bằng chính ngôn ngữ tự nhiên. Zero-shot vốn là đặc quyền của những mô hình ngôn ngữ lớn, thì nay CLIP mang điều đó vào thị giác máy tính.

Cái giá phải trả? CLIP học từ internet – một thế giới đầy định kiến, châm chọc và cả sai lệch văn hóa. Nó mạnh mẽ nhưng cũng dễ bị “kéo theo” những định kiến của xã hội. 2021 là năm con người thấy rằng AI không chỉ nhìn thế giới, mà còn phản chiếu cả phần tối của thế giới ấy.