- Published on
ELECTRA – Hiệu quả huấn luyện cao hơn trong cùng tài nguyên
- Authors

- Name
- Hyper One Team
ELECTRA – Hiệu quả huấn luyện cao hơn trong cùng tài nguyên
- Ý tưởng mới năm 2019 ELECTRA đặt câu hỏi:
Tại sao ta chỉ học từ token bị che, trong khi phần lớn token bị bỏ phí?
Thay vì dự đoán token bị mask, ELECTRA:
- Generator tạo token thay thế
- Discriminator học phân biệt “thật hay giả” → Học từ 100% token, hiệu quả vượt xa masked LM.
- Kết quả 2019
- Mô hình nhỏ đạt kết quả tương tự mô hình lớn trong cùng tài nguyên
- Điểm GLUE tăng đáng kể trong budget thấp
- Hạn chế
- Đào tạo phức tạp hơn
- Nhạy cảm với lỗi của Generator
- Sinh ngôn ngữ kém GPT-2
- Tác động ELECTRA đặt trọng tâm vào hiệu năng thực tế hơn benchmark → quan điểm đúng đắn cho ứng dụng công nghiệp.