Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring

Bài viết Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring trình bày các nội dung chính sau: Hệ thống nhận dạng tiếng nói sử dụng kỹ thuật RNN-LM Rescoring; Ảnh hưởng của rescoring weight đến chất lượng nhận dạng. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI SỬ DỤNG KỸ THUẬT RNN LANGUAGE MODEL RESCORING Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. G

Thể loại Tài liệu miễn phí Cơ sở dữ liệu

Số trang 3

Ngày tạo 4/9/2023 2:07:32 AM +00:00

Loại tệp PDF

Kích thước 0.27 M

Tên tệp

Tải Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ... (.pdf)

Xem mẫu

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI SỬ DỤNG KỸ THUẬT RNN LANGUAGE MODEL RESCORING Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG để tận dụng được ưu điểm của RNNLM ta thực hiện theo cách như sau: Hiện nay chúng ta đang sử dụng mô hình ngôn ngữ n-gram để phục vụ cho bài toán  Bước 1: Dùng n-gram LM để nhận nhận dạng tiếng nói. Mô hình n-gram được dạng. Tuy nhiên trong trường hợp này xây dựng bằng việc dự đoán xác suất của từ ta không chỉ đưa ra 1 kết quả nhận tiếp theo dựa trên (n-1) từ phía trước nó. dạng tốt nhất (1-best) mà ta đưa ra một Điều này được thực hiện bằng việc thống kê không gian các kết quả có thể có các mẫu từ liền nhau trong tập văn bản huấn (decoding lattice). luyện. Mô hình n-gram có kiến trúc đơn giản,  Bước 2: Sử dụng mô hình RNN-LM để dễ dàng tích hợp vào hệ thống nhận dạng dựa thay đổi trọng số (rescore) của decoding trên framework FST như Kaldi [1]. Tuy lattice và từ đó tìm ra kết quả tốt nhất nhiên n-gram có nhược điểm là mô hình hóa đưa cho người dùng. về ngôn ngữ không mạnh, ví dụ: 2. HỆ THỐNG NHẬN DẠNG TIẾNG NÓI  Do n nhỏ thường là 3, 4, 5 do đó ta SỬ DỤNG KỸ THUẬT RNN-LM không thể lưu trữ được những long RESCORING history của một từ, mà trong thực tế, đôi khi một từ phụ thuộc cả vào những từ Hình 1 mô tả sơ đồ hệ thống nhận dạng sử trước xa nó. dụng kỹ thuật RNN-LM rescoring.  N-gram được ước lượng thuần túy dựa Quá trình huấn luyện: n-gram LM và vào việc đếm tần suất các cặp từ trong tập RNN-LM được huấn luyện sử dụng tập text văn bản huấn luyện. Trong đó, các từ là từ nguồn web như sfive kết hợp với transcript các thực thể độc lập không có mối liên hệ từ Youtube. Về nguyên tắc ta có thể sử dụng về ngữ nghĩa. các nguồn text khác nhau để huấn luyện 2 Để khắc phục nhược điểm đó, đã có nhiều LM này. Cũng lưu ý rằng thời gian huấn nghiên cứu khác nhau nhằm xây dựng mô luyện của RNN-LM lâu hơn rất nhiều lần mô hình ngôn ngữ tốt hơn, trong đó phổ biến hình n-gram (lên đến khoảng 2 tuần với 3GB nhất là RNN-LM (Recurrent Neural Network dữ liệu text). Language Model) [2]. Mô hình này dựa trên Quá trình triển khai (decode): Ta sử dụng mạng học sâu nhằm giải quyết những nhược mô hình nhận dạng thông thường với mô điểm của mô hình n-gram. Tuy nhiên bởi vì hình ngôn ngữ n-gram để sinh ra lattices. Sau RNNLM có thể lưu trữ một lịch sử vô hạn đó ta sử dụng RNN-LM để rescore lattice để các từ phía trước nên nó không thể trực tiếp tạo ra lattice mới. Cuối cùng ta tìm kết quả kết hợp với mô hình âm học và từ điển phát nhận dạng bằng cách tìm đường đi tốt nhất âm thành một static decoding graph. Do vậy trên lattice mới. 96
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 Hình 1. Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring Hệ thống Bộ test 1hkehet bmhh fpt vcson vivos vlsp2019 vlsp2018 voicenote Mô hình gốc 8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39 +RNNLM rescoring 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29 Relative Improvement 17.5% 16.0% 4.1% 11.3% 2.4% 6.8% 10.4% 9.8% Bảng 1. Word Error Rate (%) cho bởi hệ thống nhận dạng gốc và sau khi sử dụng RNNLM rescoring với các tập test khác nhau Về nguyên tắc giải pháp này sử dụng cho Ta sử dụng 3000 giờ dữ liệu Youtube kết nhận dạng offline. Có nghĩa là khi bước 1 ta hợp với kỹ thuật data augmentation để huấn nhận dạng hết 1 câu để sinh ra lattice sau đó luyện mô hình âm học (acoustic model). ta mới áp dụng lattice rescoring trên lattice Mô hình n-gram được huấn luyện từ đó. Tuy nhiên, ta có thể tăng tốc quá trình đó webtext (2.3GB) được lấy từ sfive kết hợp bằng cách kết hợp cả code nhận dạng và code với 210 MB text từ transcript của Youtube. rescoring trên cùng 1 code để ta không phải Trong khi RNN-LM được huấn luyện chỉ với ghi lattice xuống ổ cứng. 210MB từ dữ liệu Youtube (do thời gian hạn chế). Mô hình RNN-LM train với toàn bộ dữ 3. THÍ NGHIỆM liệu đang được thực hiện hi vọng sẽ cho kết 3.1. Thiết lập thí nghiệm quả tốt hơn. Rescoring Test set weight 1hkehet bmhh FPT vcson vivos vlsp2019 vlsp2018 voicenote 0 (no-rescoring) baseline 8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39 0.30 7.65 13.10 15.77 12.15 5.63 19.89 3.81 20.03 0.40 7.48 12.78 15.62 11.94 5.63 19.76 3.78 19.77 0.50 7.29 12.59 15.70 11.86 5.74 19.60 3.75 19.7 0.60 7.21 12.42 15.83 11.78 5.79 19.60 3.77 19.55 97
Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 0.70 7.12 12.26 16.01 11.78 5.94 19.66 3.79 19.34 0.80 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29 0.90 7.14 12.28 16.67 11.76 6.24 19.93 3.79 19.33 0.99 7.14 12.36 16.86 11.88 6.50 20.14 3.86 19.33 1.00 7.14 12.38 16.83 11.87 6.49 20.15 3.86 19.33 Bảng 2. Ảnh hưởng của rescoring weight đến sai số nhận dạng (WER) trên bộ test khác nhau (các giá trị được gạchchân là điểm mô hình đạt kết quả tốt nhất) gần với dữ liệu huấn luyện của RNNLM 3.2. Kết quả thí nghiệm với các tập test (Youtube transcript) như 1hkehet, bmhh, khác nhau vcson thì rescoring weight tối ưu thường cao Kết quả thử nghiệm kỹ thuật RNNLM ~ 0.8 tức với những tập test đó ảnh hưởng rescoring trên các tập test khác nhau rất khả của mô hình. quan. Sai số được giảm rất đáng kể trên đa số các tập, đặc biệt các tập test có phong 4. KẾT LUẬN cách nói chuyện đối thoại như Youtube như Trong nghiên cứu này ta đã thành công 1hkehet (1 giờ kể hết), bmhh (bạn muốn trong việc sử dụng kỹ thuật sử dụng mô hình hẹn hò), vcson (vợ chồng son), tập thời sự ngôn ngữ trên mạng nơ ron hồi quy (RNN- như VLSP 2018, và thậm chí tập dữ liệu LM) để nâng cao chất lượng nhận dạng. Thử thực tế voicenote. Sau đây ta sẽ cùng xem nghiệm trên các tập test khác nhau cho kết xét ảnh hưởng của các tham số đến quá quả rất khả quan, sai số giảm đi rõ rệt. Trong trình rescoring. thời gian tới ta sẽ nghiên cứu cách thức để tối 3.3. Ảnh hưởng của rescoring weight ưu thời gian xử lý trong khi vẫn giữ được đến chất lượng nhận dạng chất lượng của kỹ thuật LMRNN rescoring. Cách thức hoạt động của RNNLM 5. TÀI LIỆU THAM KHẢO rescoring đó là thay thế một phần hoặc hoàn [1] Povey, Daniel, et al. "The Kaldi speech toàn điểm số cho bởi n-gram LM trong recognition toolkit." IEEE 2011 workshop lattice thông qua một tham số rescoring on automatic speech recognition and weight. Khi tham số này bằng 0 có nghĩa là understanding. No. CONF. IEEE Signal chúng ta không sử dụng rescoring và khi Processing Society, 2011. bằng 1 tức chúng ta thay thế hoàn toàn n- [2] Tomas Mikolov, Stefan Kombrink, Anoop gram bằng RNNLM. Deoras, Lukar Burget, and Jan Cernocky, Bảng 2 mô tả chi tiết sự ảnh hưởng của “Rnnlm-recurrent neural network language rescoring weight đến các bộ test khác nhau, modeling toolkit,” in Proc. of the 2011 ta có thể thấy rằng với các bộ test khác nhau ASRU Workshop, 2011, pp. 196-201. giá trị tối ưu của rescoring weight sẽ khác nhau. Đó là do đặc tính ngôn ngữ của các bộ test khác nhau. Ta có thể thấy với các tập test 98

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường