Published on

Wav2Vec 2.0 – Khi AI học lắng nghe chẳng khác gì con người

Authors
  • avatar
    Name
    Hyper One Team
    Twitter

Wav2Vec 2.0 – Khi AI học lắng nghe chẳng khác gì con người

Trong một căn phòng thu, nhà nghiên cứu nhìn dãy sóng âm và băn khoăn: “Những đoạn im lặng, những âm gãy, tiếng môi chạm nhau… có ý nghĩa không?” Trước 2021, mô hình nhận dạng giọng nói đa phần phải dựa vào dữ liệu gán nhãn thủ công – rất tốn kém. Nhưng Wav2Vec 2.0 chấp nhận một thử thách ngược đời: học mà không cần ai dạy.

Mô hình nghe hàng nghìn giờ âm thanh thô, tự dự đoán phần bị che mất, tự rút ra quy luật của lời nói. Điều này giống như em bé học tiếng mẹ đẻ: trước khi hiểu từ ngữ, bé học nhịp điệu và sự liên tục của âm thanh.

Khi được tinh chỉnh trên dữ liệu nhỏ gọn, Wav2Vec 2.0 vượt qua các hệ thống truyền thống cần hàng tấn nhãn. Đặc biệt hữu ích cho ngôn ngữ ít dữ liệu – nơi không ai có thời gian ngồi gõ từng câu thoại. 2021 là năm AI không chỉ nói – mà biết lắng nghe theo cách tự nhiên hơn.