Published on

Tăng cường dữ liệu văn bản – Chiến lược sống còn cho ngôn ngữ ít tài nguyên

Authors
  • avatar
    Name
    Hyper One Team
    Twitter

Tăng cường dữ liệu văn bản – Chiến lược sống còn cho ngôn ngữ ít tài nguyên

Trong năm 2018, vấn đề dữ liệu gắn nhãn hạn chế trở thành rào cản lớn không chỉ với các ngôn ngữ nhỏ mà ngay cả tiếng Anh trong các miền chuyên ngành. Các kỹ thuật tăng cường dữ liệu (Data Augmentation) được đẩy mạnh nghiên cứu: thay từ đồng nghĩa, xáo trộn cấu trúc, back-translation…

Lợi ích thấy rõ: mô hình học được khả năng khái quát tốt hơn, giảm overfitting. Đặc biệt, back-translation đóng vai trò chủ chốt vì giúp mô hình học các cấu trúc tương đương về nghĩa nhưng khác về bề mặt biểu đạt.

Rủi ro cũng đáng kể: – Dễ tạo nhiễu làm sai lệch dữ liệu thật – Không phải mọi tác vụ đều áp dụng tốt – Chưa có chuẩn đánh giá mức độ “tự nhiên” của dữ liệu sinh ra

Trong 2018, augmentation là giải pháp “cứu cánh”, giúp duy trì sự phát triển NLP tại những nơi tài nguyên còn yếu.