Blog Tags Projects About

Published on: Thứ Năm, 26 tháng 9, 2019

ALBERT – Nén mô hình nhưng không giảm trí tuệ

Authors

Name
Hyper One Team
Twitter

ALBERT – Nén mô hình nhưng không giảm trí tuệ

Vấn đề đặt ra năm 2019 Mô hình ngày càng lớn → khó áp dụng doanh nghiệp: GPU đắt đỏ, độ trễ tăng cao. Google thiết kế ALBERT với sứ mệnh: giảm tham số – giữ hiệu năng.
Chiến lược kỹ thuật ALBERT sử dụng 2 ý tưởng chính:

Factorized Embedding: tách embedding thành hai ma trận nhỏ → giảm mạnh tham số
Cross-layer weight sharing: chia sẻ trọng số giữa các lớp Transformer Nhờ đó, ALBERT-base chỉ còn ~12M tham số, so với 110M của BERT-base.

Thử nghiệm năm 2019 ALBERT đứng top GLUE và SQuAD thời điểm công bố. Điều này chứng minh mô hình không cần quá lớn để mạnh mẽ.
Hạn chế chưa giải được

Weight sharing làm giảm tính linh hoạt giữa các tầng
Khi mở rộng tác vụ sinh văn bản → hiệu năng chưa vượt GPT-2
Chưa giải bài toán interpretability

Ý nghĩa thực tế ALBERT là mô hình đầu tiên khiến cộng đồng xem “tối ưu tài nguyên” là hướng phát triển thay vì chỉ đua kích thước.

Discuss on Twitter • View on GitHub