DeBERTa – Tái sắp xếp ngữ nghĩa để hiểu người tốt hơn

Thỉnh thoảng trong nghiên cứu có những khoảnh khắc đơn giản nhưng thay đổi cục diện. Một kỹ sư Microsoft nhìn vào cách BERT mã hóa câu và tự hỏi: “Nếu vị trí từ và ý nghĩa của từ đang bị trộn lẫn quá nhiều thì sao?” DeBERTa xuất hiện từ một hoài nghi như thế.

Thay vì gộp embedding vị trí và embedding từ vựng ngay từ đầu, DeBERTa giữ chúng tách biệt đủ lâu để mô hình học đâu là “từ nói gì” và “nó đứng ở đâu”. Kết quả? Khả năng hiểu ngữ nghĩa rõ ràng hơn, đặc biệt trong những câu rối rắm mà người đọc cũng phải nhíu mày.

Năm 2020, DeBERTa khiến cộng đồng chú ý khi liên tục leo bảng xếp hạng GLUE và SuperGLUE. Một số người nói rằng nó “dọn sạch những điểm mù của BERT”. Số khác thì thấy nó gợi nhớ một chân lý xưa: không phải lúc nào cứ thêm nhiều tầng, nhiều tham số mới là cải tiến. Đôi khi, chỉ cần đặt câu hỏi “Tại sao lại như vậy?” cũng đủ để dịch chuyển chuẩn mực của thế giới NLP.