Hệ thống AI có khả năng nhận dạng giọng nói tốt hơn con người
10/11/2020
KH&CN nước ngoài
Các nhà nghiên cứu của Học viện Công nghệ Karlsruhe (KIT) đã thành công trong việc phát triển hệ thống AI có khả năng nhận dạng giọng nói chính xác hơn cả con người, nhanh hơn nhiều hệ thống khác.
Theo dõi và sao chép chính xác một cuộc trò chuyện là một công việc khá khó khăn đối với con người cũng như công nghệ AI. Khi người ta trao đổi, sẽ có những khoảng dừng, tiếng lắp bắp, đoạn ngập ngừng, tiếng cười, tiếng ho,…. Thông thường, các âm thanh này được tạo ra không rõ ràng, khiến việc ghi chú chính xác nội dung cuộc trò chuyện trở nên khó khăn.
Nhóm nghiên cứu đã phát triển một trình phiên dịch, tự động dịch trực tiếp các bài giảng đại học từ tiếng Đức (hoặc tiếng Anh) sang các ngôn ngữ khác để phục vụ các sinh viên nước ngoài. Giáo sư Alex Waibel cho biết: " Nhận dạng giọng nói tự phát là thành phần quan trọng nhất của hệ thống này. Trình phiên dịch bài giảng đã được sử dụng trong các giảng đường của KIT từ năm 2012, tuy nhiên nó vẫn còn bị lỗi và có chậm trễ trong nhận dạng giọng nói, khiến bản dịch khó hiểu. Hiện nay, tỷ lệ lỗi của hệ thống đã giảm xuống chỉ còn 5,0% (tỷ lệ lỗi của con người đến khoảng 5,5%.)”.
Ngoài độ chính xác, tốc độ xử lý của hệ thống cũng rất quan trọng, để sinh viên có thể theo dõi kịp thời bài giảng trực tiếp. Các nhà nghiên cứu hiện đã thành công trong việc giảm độ trễ này xuống còn một giây. Đây là độ trễ nhỏ nhất mà hệ thống nhận dạng giọng nói đạt được cho đến nay. Tỷ lệ lỗi và độ trễ được đo qua việc sử dụng các bài kiểm tra đã được chuẩn hóa và quốc tế công nhận, được các nhà nghiên cứu AI sử dụng rộng rãi khi xây dựng ứng dụng nhận dạng giọng nói.
Nhận dạng giọng nói nhanh với độ chính xác cao là rất cần thiết trong công nghệ nhận dạng giọng nói.
Diệu Huyền (CESTI) - Theo Techxplore.com