Synthetic Data – Khi AI bắt đầu tự tạo dữ liệu để huấn luyện chính mình

Một kỹ sư kể rằng họ đã hết dữ liệu chất lượng cao cho mô hình. Lúc đó, ý tưởng nổi lên: để AI tự tạo dữ liệu mới. Mô hình mạnh sinh ra văn bản, hình ảnh, thậm chí cả dữ liệu ngành chuyên sâu để mô hình khác hoặc chính nó học tiếp. Đây là câu chuyện của Synthetic Data — dữ liệu tổng hợp.

Giữa 2023, synthetic data trở thành chiến lược giải phóng AI khỏi nút thắt dữ liệu thật. Nó rẻ hơn, nhanh hơn, và có thể bảo vệ quyền riêng tư tốt hơn vì không dựa trên thông tin cá nhân. Nhưng đồng thời, một mối nguy tiềm ẩn xuất hiện: nếu AI học quá nhiều từ chính sản phẩm của AI, tri thức sẽ tự nhiễu như photocopy qua nhiều lớp trở nên mờ dần.

Cộng đồng bắt đầu lo lắng về sự thuần khiết của tri thức. 2023 gieo một câu hỏi dài về sau: khi mô hình huấn luyện mô hình, ranh giới giữa hiểu biết thật và ảo giác tập thể sẽ nằm ở đâu?