Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI
SỬ DỤNG KỸ THUẬT RNN
LANGUAGE MODEL RESCORING
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG để tận dụng được ưu điểm của RNNLM ta
thực hiện theo cách như sau:
Hiện nay chúng ta đang sử dụng mô hình
ngôn ngữ n-gram để phục vụ cho bài toán Bước 1: Dùng n-gram LM để nhận
nhận dạng tiếng nói. Mô hình n-gram được dạng. Tuy nhiên trong trường hợp này
xây dựng bằng việc dự đoán xác suất của từ ta không chỉ đưa ra 1 kết quả nhận
tiếp theo dựa trên (n-1) từ phía trước nó. dạng tốt nhất (1-best) mà ta đưa ra một
Điều này được thực hiện bằng việc thống kê không gian các kết quả có thể có
các mẫu từ liền nhau trong tập văn bản huấn (decoding lattice).
luyện. Mô hình n-gram có kiến trúc đơn giản, Bước 2: Sử dụng mô hình RNN-LM để
dễ dàng tích hợp vào hệ thống nhận dạng dựa thay đổi trọng số (rescore) của decoding
trên framework FST như Kaldi [1]. Tuy lattice và từ đó tìm ra kết quả tốt nhất
nhiên n-gram có nhược điểm là mô hình hóa đưa cho người dùng.
về ngôn ngữ không mạnh, ví dụ:
2. HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
Do n nhỏ thường là 3, 4, 5 do đó ta
SỬ DỤNG KỸ THUẬT RNN-LM
không thể lưu trữ được những long
RESCORING
history của một từ, mà trong thực tế, đôi
khi một từ phụ thuộc cả vào những từ Hình 1 mô tả sơ đồ hệ thống nhận dạng sử
trước xa nó. dụng kỹ thuật RNN-LM rescoring.
N-gram được ước lượng thuần túy dựa Quá trình huấn luyện: n-gram LM và
vào việc đếm tần suất các cặp từ trong tập RNN-LM được huấn luyện sử dụng tập text
văn bản huấn luyện. Trong đó, các từ là từ nguồn web như sfive kết hợp với transcript
các thực thể độc lập không có mối liên hệ từ Youtube. Về nguyên tắc ta có thể sử dụng
về ngữ nghĩa. các nguồn text khác nhau để huấn luyện 2
Để khắc phục nhược điểm đó, đã có nhiều LM này. Cũng lưu ý rằng thời gian huấn
nghiên cứu khác nhau nhằm xây dựng mô luyện của RNN-LM lâu hơn rất nhiều lần mô
hình ngôn ngữ tốt hơn, trong đó phổ biến hình n-gram (lên đến khoảng 2 tuần với 3GB
nhất là RNN-LM (Recurrent Neural Network dữ liệu text).
Language Model) [2]. Mô hình này dựa trên Quá trình triển khai (decode): Ta sử dụng
mạng học sâu nhằm giải quyết những nhược mô hình nhận dạng thông thường với mô
điểm của mô hình n-gram. Tuy nhiên bởi vì hình ngôn ngữ n-gram để sinh ra lattices. Sau
RNNLM có thể lưu trữ một lịch sử vô hạn đó ta sử dụng RNN-LM để rescore lattice để
các từ phía trước nên nó không thể trực tiếp tạo ra lattice mới. Cuối cùng ta tìm kết quả
kết hợp với mô hình âm học và từ điển phát nhận dạng bằng cách tìm đường đi tốt nhất
âm thành một static decoding graph. Do vậy trên lattice mới.
96
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
Hình 1. Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring
Hệ thống Bộ test
1hkehet bmhh fpt vcson vivos vlsp2019 vlsp2018 voicenote
Mô hình gốc 8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39
+RNNLM
rescoring 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29
Relative
Improvement 17.5% 16.0% 4.1% 11.3% 2.4% 6.8% 10.4% 9.8%
Bảng 1. Word Error Rate (%) cho bởi hệ thống nhận dạng gốc và sau khi sử dụng RNNLM
rescoring với các tập test khác nhau
Về nguyên tắc giải pháp này sử dụng cho Ta sử dụng 3000 giờ dữ liệu Youtube kết
nhận dạng offline. Có nghĩa là khi bước 1 ta hợp với kỹ thuật data augmentation để huấn
nhận dạng hết 1 câu để sinh ra lattice sau đó luyện mô hình âm học (acoustic model).
ta mới áp dụng lattice rescoring trên lattice Mô hình n-gram được huấn luyện từ
đó. Tuy nhiên, ta có thể tăng tốc quá trình đó webtext (2.3GB) được lấy từ sfive kết hợp
bằng cách kết hợp cả code nhận dạng và code với 210 MB text từ transcript của Youtube.
rescoring trên cùng 1 code để ta không phải Trong khi RNN-LM được huấn luyện chỉ với
ghi lattice xuống ổ cứng. 210MB từ dữ liệu Youtube (do thời gian hạn
chế). Mô hình RNN-LM train với toàn bộ dữ
3. THÍ NGHIỆM liệu đang được thực hiện hi vọng sẽ cho kết
3.1. Thiết lập thí nghiệm quả tốt hơn.
Rescoring Test set
weight 1hkehet bmhh FPT vcson vivos vlsp2019 vlsp2018 voicenote
0 (no-rescoring)
baseline
8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39
0.30 7.65 13.10 15.77 12.15 5.63 19.89 3.81 20.03
0.40 7.48 12.78 15.62 11.94 5.63 19.76 3.78 19.77
0.50 7.29 12.59 15.70 11.86 5.74 19.60 3.75 19.7
0.60 7.21 12.42 15.83 11.78 5.79 19.60 3.77 19.55
97
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
0.70 7.12 12.26 16.01 11.78 5.94 19.66 3.79 19.34
0.80 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29
0.90 7.14 12.28 16.67 11.76 6.24 19.93 3.79 19.33
0.99 7.14 12.36 16.86 11.88 6.50 20.14 3.86 19.33
1.00 7.14 12.38 16.83 11.87 6.49 20.15 3.86 19.33
Bảng 2. Ảnh hưởng của rescoring weight đến sai số nhận dạng (WER) trên bộ test khác
nhau (các giá trị được gạchchân là điểm mô hình đạt kết quả tốt nhất)
gần với dữ liệu huấn luyện của RNNLM
3.2. Kết quả thí nghiệm với các tập test
(Youtube transcript) như 1hkehet, bmhh,
khác nhau
vcson thì rescoring weight tối ưu thường cao
Kết quả thử nghiệm kỹ thuật RNNLM ~ 0.8 tức với những tập test đó ảnh hưởng
rescoring trên các tập test khác nhau rất khả của mô hình.
quan. Sai số được giảm rất đáng kể trên đa
số các tập, đặc biệt các tập test có phong 4. KẾT LUẬN
cách nói chuyện đối thoại như Youtube như Trong nghiên cứu này ta đã thành công
1hkehet (1 giờ kể hết), bmhh (bạn muốn trong việc sử dụng kỹ thuật sử dụng mô hình
hẹn hò), vcson (vợ chồng son), tập thời sự ngôn ngữ trên mạng nơ ron hồi quy (RNN-
như VLSP 2018, và thậm chí tập dữ liệu LM) để nâng cao chất lượng nhận dạng. Thử
thực tế voicenote. Sau đây ta sẽ cùng xem nghiệm trên các tập test khác nhau cho kết
xét ảnh hưởng của các tham số đến quá quả rất khả quan, sai số giảm đi rõ rệt. Trong
trình rescoring. thời gian tới ta sẽ nghiên cứu cách thức để tối
3.3. Ảnh hưởng của rescoring weight ưu thời gian xử lý trong khi vẫn giữ được
đến chất lượng nhận dạng chất lượng của kỹ thuật LMRNN rescoring.
Cách thức hoạt động của RNNLM 5. TÀI LIỆU THAM KHẢO
rescoring đó là thay thế một phần hoặc hoàn
[1] Povey, Daniel, et al. "The Kaldi speech
toàn điểm số cho bởi n-gram LM trong
recognition toolkit." IEEE 2011 workshop
lattice thông qua một tham số rescoring on automatic speech recognition and
weight. Khi tham số này bằng 0 có nghĩa là understanding. No. CONF. IEEE Signal
chúng ta không sử dụng rescoring và khi Processing Society, 2011.
bằng 1 tức chúng ta thay thế hoàn toàn n- [2] Tomas Mikolov, Stefan Kombrink, Anoop
gram bằng RNNLM. Deoras, Lukar Burget, and Jan Cernocky,
Bảng 2 mô tả chi tiết sự ảnh hưởng của “Rnnlm-recurrent neural network language
rescoring weight đến các bộ test khác nhau, modeling toolkit,” in Proc. of the 2011
ta có thể thấy rằng với các bộ test khác nhau ASRU Workshop, 2011, pp. 196-201.
giá trị tối ưu của rescoring weight sẽ khác
nhau. Đó là do đặc tính ngôn ngữ của các bộ
test khác nhau. Ta có thể thấy với các tập test
98
nguon tai.lieu . vn