Multimodal GPT – Khi AI bắt đầu đọc hình, xem video và hiểu thế giới như chúng ta

Cuối 2023, một kiểm thử đơn giản khiến cộng đồng choáng váng: người dùng chụp ảnh tủ lạnh của mình và hỏi “Tôi nấu gì được từ những thứ này?”. AI không chỉ nhận ra từng món ăn xuất hiện trong ảnh — trứng, cà chua, tương ớt — mà còn đề xuất một thực đơn hoàn chỉnh, kèm hướng dẫn nấu chi tiết. Multimodal GPT chính là bước chuyển mình từ mô hình ngôn ngữ sang trợ lý hiểu môi trường vật lý.

Trong quá khứ, ngôn ngữ và thị giác tồn tại như hai thế giới tách biệt. Cuối 2023, ranh giới đó bị xóa mờ: AI có thể đọc biểu đồ, phân tích ảnh chụp X-quang, trích thông tin từ văn bản scan. Người dùng kể lại cảm giác lạ lẫm khi AI bắt đầu hiểu được thứ mình đang nhìn, không chỉ thứ mình đang đọc.

Nhưng đi kèm là những dấu hỏi đạo đức: nếu AI có thể phân tích mặt người, cảm xúc và cảnh quan — giới hạn quyền riêng tư sẽ ở đâu? Cuối 2023, nhân loại vừa vui mừng chào đón một siêu trợ lý đa giác quan, vừa dè chừng khi nhận ra nó có thể nhìn thấu chúng ta.