Longformer – Vượt giới hạn độ dài của chuỗi văn bản

Vấn đề Transformer truyền thống có độ phức tạp attention O(n²) → xử lý văn bản dài rất chậm. Nhiều tác vụ yêu cầu đọc tài liệu dài như luật, nghiên cứu khoa học cần giải pháp mới.
Giải pháp của Longformer Sử dụng cơ chế sparse attention: bán kính chú ý cục bộ + global tokens cho vị trí quan trọng. Điều này giảm chi phí xuống gần O(n), cho phép xử lý văn bản dài hàng nghìn từ.
Kết quả Longformer đạt hiệu quả tốt trong summarization và QA trên tài liệu dài, vượt BERT ở các tác vụ cần ngữ cảnh mở rộng.
Hạn chế Cần thiết kế cẩn thận token global. Không phải tác vụ nào cũng hưởng lợi khi chuỗi ngắn.
Ứng dụng Giải quyết bài toán tiền đề cho NLP chuyên sâu tài liệu dài, hợp pháp hóa, y tế, nghiên cứu.