Published on

Học tăng cường dữ liệu văn bản: thực nghiệm và giới hạn năm 2018

Authors
  • avatar
    Name
    Hyper One Team
    Twitter

Học tăng cường dữ liệu văn bản: thực nghiệm và giới hạn năm 2018

Trong môi trường dữ liệu thực tế, đặc biệt với các ngôn ngữ ít tài nguyên, rào cản lớn là số lượng mẫu huấn luyện hạn chế. Năm 2018, “Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs” đã trình bày các kỹ thuật tăng cường dữ liệu văn bản: từ chèn nhiễu, thay thế từ đồng nghĩa, tới back-translation và tách cấu trúc cú pháp. :contentReference[oaicite:1]1
Thực nghiệm cho thấy khi nhân dữ liệu lên gấp 5 thì độ chính xác có thể tăng từ 4,3 % tới 21,6 % trên các tác vụ phân loại cảm xúc, sử dụng mạng LSTM, bi-LSTM và XGBoost như baseline.
Nhưng giới hạn rõ: hiệu quả phụ thuộc vào chất lượng dữ liệu tăng, nhiễu có thể phản tác dụng; kỹ thuật chưa có chuẩn hóa rộng và chi phí vẫn cao hơn nhiều so với xử lý ảnh.
Kết luận: tăng cường dữ liệu văn bản là chọn lựa bắt buộc với ngôn ngữ ít tài nguyên nhưng không thể thay thế việc thu thập và xử lý dữ liệu chuyên biệt.