Stanford Question Answering Dataset và tiến bộ hỏi đáp tự động

Hệ thống hỏi đáp (QA) là bài toán thể hiện rõ nhất khả năng hiểu ngôn ngữ. Đầu 2019, nhiều nghiên cứu tập trung vào SQuAD, đặc biệt SQuAD v2.0 — bổ sung câu hỏi không có đáp án để kiểm tra mô hình biết thừa nhận “không biết”. Đây là bước tiến quan trọng vì trước đó nhiều mô hình “trả lời đại” ngay cả khi câu hỏi không liên quan. Học cách từ chối trả lời sai khó hơn nhiều so với tìm đúng đáp án. Các mô hình Transformer như BERT đột phá mạnh:

Dự đoán vị trí đáp án chuẩn xác hơn
Giảm trả lời sai có chủ đích
Một số metric vượt người anotator Nhưng thách thức đặt ra: đúng vị trí đoạn văn ≠ hiểu toàn diện. Cần nâng cấp sang QA có reasoning, suy luận đa bước. Đây là hướng nghiên cứu mở rộng sau 2019.