GPT đầu tiên và khả năng sinh ngôn ngữ tổng quát

GPT (Generative Pre-trained Transformer) là lần đầu tiên thế giới NLP chứng kiến một mô hình: (1) Học từ dữ liệu lớn không nhãn (2) Có thể tinh chỉnh nhẹ cho bất kỳ nhiệm vụ nào (3) Sinh ra ngôn ngữ tự nhiên chảy trôi và hợp ngữ cảnh

Kiến trúc Transformer kết hợp cơ chế attention tự sinh đã thay thế hạn chế của LSTM — mô hình không còn phải xử lý tuần tự từng token mà có thể nắm bắt phụ thuộc xa hiệu quả. GPT học dự đoán token tiếp theo, từ đó tự hiểu ngữ cảnh theo cách tự nhiên vốn có của ngôn ngữ.

Điểm ấn tượng là tính “one-to-many”: chỉ cần một mô hình và vài dòng tinh chỉnh là giải được nhiều bài toán như tóm tắt, phân loại, hỏi đáp. Lần đầu tiên, NLP có một “bộ não dùng chung”.

Nhưng thời điểm 2018, GPT vẫn còn dang dở: – Chỉ hỗ trợ ngữ cảnh một chiều, thiếu khả năng hiểu từ hai phía – Khả năng suy luận còn nông – Hay “bịa” thông tin khi thiếu kiến thức

Câu hỏi lớn được đặt ra: liệu một mô hình sinh ngôn ngữ có thể trở thành nền tảng thống trị mọi tác vụ NLP?

Dù chưa hoàn hảo, GPT đã mở ra kỷ nguyên mô hình ngôn ngữ lớn — nơi dữ liệu và compute trở thành vũ khí chiến lược.