CLIP – Khi AI có đôi mắt biết… đọc

Trong văn chương có câu: “Một bức tranh có thể nói hơn ngàn lời.” Nhưng với máy, hàng chục năm qua, hình ảnh và văn bản gần như sống trong hai thế giới tách biệt. Đến khi CLIP xuất hiện, ranh giới đó bắt đầu tan biến.

CLIP được huấn luyện bằng hàng trăm triệu cặp hình – chú thích từ internet. Nó học cách nối kết từ và ảnh trong cùng một không gian ý nghĩa. Khi nhìn một bức ảnh con mèo đội mũ, nó có thể chọn chính xác mô tả phù hợp mà không cần học trước tác vụ đó. Khả năng zero-shot mạnh mẽ khiến cộng đồng choáng váng.

2021 là năm mọi người lần đầu cảm nhận được tương lai nơi AI có thể “nhìn” và “đọc” đồng thời. Thậm chí, CLIP còn thể hiện một chút… sáng tạo: nếu caption hơi mơ hồ, nó chọn kết quả không chỉ chính xác mà còn hợp lý trong bối cảnh. Vẫn còn sai, vẫn bị bias từ dữ liệu web, nhưng nó đặt nền móng quan trọng: trí tuệ đa phương thức không còn là nghiên cứu xa vời.

CLIP khiến người ta tin rằng: một ngày nào đó, AI có thể hiểu thế giới giống cách chúng ta nhìn và kể về nó.