Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
THEO KIẾN TRÚC END2END
Đỗ Văn Hải
Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. MỞ ĐẦU áp dụng đầu tiên trong bài toán dịch máy.
Trong bài toán này, đầu vào là một chuỗi các
Mô hình nhận dạng tiếng nói phổ biến nhất
từ của ngôn ngữ nguồn, đầu ra là một chuỗi
hiện nay dựa trên kiến trúc lai (hybrid) giữa
các từ của ngôn ngữ đích. Chiều dài chuỗi
mô hình Markov ẩn (HMM - Hidden Markov
đầu vào và đầu ra có thể khác nhau. Công
Model) và mô hình mạng nơ ron sâu (DNN -
nghệ E2E cho nhận dạng tiếng nói được
Deep Neural Network) được đề xuất vào năm
nghiên cứu và phát triển trong khoảng 3 năm
2012 [1]. Mô hình lai này sử dụng HMM để
gần đây, đầu vào hệ thống là một chuỗi các
mô hình hóa thông tin về thời gian của tiếng
vector đặc trưng được trích chọn từ tín hiệu
nói, trong khi DNN được sử dụng để mô hình
tiếng nói, đầu ra là chuỗi các từ hay ký tự
về phân bố các đặc trưng không gian của
nhận dạng. Với thiết kế hệ thống trong một
tiếng nói (mô hình âm học). Ngoài ra để hệ
mô hình đơn như vậy đã loại bỏ sự phức tạp
thống nhận dạng hybrid có thể hoạt động
về kiến trúc cũng như giảm sự cần thiết của
được ta cần có từ điển phát âm để tạo ánh xạ
các chuyên gia về ngôn ngữ trong khi xây
từ mức từ sang mức âm vị và mô hình ngôn
dựng hệ thống. Trong khi xây dựng hệ thống
ngữ để lưu trữ những thông tin tri thức về
ASR truyền thống ta cần xây dựng và tối ưu
ngữ pháp về quy luật phân bố của các từ
riêng các mô hình âm học, ngôn ngữ, từ điển
trong một lĩnh vực hay một ngôn ngữ. Trải
phát âm. Do đó, hệ thống E2E có thể triển
qua hơn 8 năm phát triển, mô hình lai đã có
khai nhanh với các ngôn ngữ mới mà không
nhiều biến thể để nâng cao độ chính xác cũng
cần nhiều đến sự giúp đỡ của các chuyên gia
như giảm thời gian huấn luyện. Tuy nhiên
ngôn ngữ. Do đó, đây là ưu điểm rất lớn mà
các module của mô hình nhận dạng lai được
các tập đoàn đa quốc gia muốn tập trung
thiết kế và tối ưu độc lập do đó khi lắp ghép
nghiên cứu, phát triển.
lại với nhau lại có thể không đưa ra được mô
Do công nghệ E2E thực hiện học ánh xạ từ
hình tổng thể tối ưu nhất. Mặt khác việc thiết
chuỗi các vector đặc trưng của file audio đầu
kế mỗi module lại cần có kiến thức chuyên
vào đến các từ hay ký tự ở đầu ra, mà không
gia ví dụ như việc từ điển phát âm cần
cần biết trước đến những ràng buộc, hiểu biết
chuyên gia sâu về ngôn ngữ để định nghĩa
về âm học cũng như ngôn ngữ. Để học được
ánh xạ cũng như định nghĩa tập âm vị phù
ánh xạ này đủ tốt, cần rất nhiều dữ liệu huấn
hợp với ngôn ngữ, vùng miền.
luyện. Do đó, đây là cách tiếp cận đầy hứa
Trong những năm gần đây, nổi lên một
hẹn trong tương lai khi dữ liệu cũng như
cách tiếp cận mới trong nhận dạng tiếng nói
năng lực tính toán càng ngày càng tăng lên.
đang được các nhóm nghiên cứu lớn đang
Nghiên cứu của đại học Kyoto [2] chỉ ra
nghiên cứu phát triển đó là nhận dạng tiếng
rằng với ít dữ liệu huấn luyện mô hình E2E
nói dựa trên kiến trúc end-to-end (E2E).
cho kết quả kém hơn khá nhiều so với mô
Công nghệ E2E được dựa trên cơ chế từ
hình lại. Tuy nhiên khi tăng dữ liệu huấn
chuỗi đến chuỗi (sequence to sequence) được
luyện lên, mô hình E2E có thể tiệm cận với
74
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
chất lượng của mô hình lai. Điều này có thể
được giải thích mô hình mô hình E2E phải
tự học ánh xạ từ âm thanh ra các từ (ký tự)
một cách trực tiếp do vậy để đạt chất lượng
tốt nó yêu cầu rất nhiều dữ liệu huấn luyện
cho mô hình.
Ở trên phương diện xây dựng các sản
phẩm thực tế, các hãng như Google,
Microsoft đều đưa ra các mô hình E2E của
mình. Ví dụ trong nghiên cứu [3] Google đã
sử dụng 12.000 giờ dữ liệu huấn luyện. Kết
quả thử nghiệm trên cả tập voice search và
tập dictation, mô hình E2E đều cho kết quả
tốt hơn mô hình hybrid. Hãng Microsoft
trong nghiên cứu [4] sử dụng 65.000 giờ dữ
liệu huấn luyện. Với lượng dữ liệu này, mô
hình E2E của Microsoft cho kết quả tốt hơn
khá nhiều so với mô hình lai rất mạnh của họ.
2. XÂY DỰNG MÔ HÌNH NHẬN DẠNG Hình 1. Kiến trúc của Conformer encoder [5]
TIẾNG VIỆT 2.2. Lựa chọn đơn vị biểu diễn (token)
2.1. Lựa chọn kiến trúc mô hình Để huấn luyện được mô hình E2E ASR
Từ những kết quả đáng khích lệ ở trên, trước hết ta cần định nghĩa “đơn vị” để mã
chúng tôi nghiên cứu thử nghiệm kiến trúc hóa đầu ra của hệ thống (token). Đơn giản
nhận dạng E2E cho tiếng Việt, với mục tiêu nhất token là các ký tự (character), hoặc cao
tiệm cận và tiến tới thay thế mô hình hybrid nhất token là mức từ (word) với tiếng Việt là
truyền thống. Dựa trên khảo sát về các nghiên âm tiết (syllable). Với cách sử dụng token là
cứu về các kiến trúc E2E khác nhau chúng tôi ký tự thì số lượng token tương đối ít, tuy
chọn kiến trúc Conformer ra mắt vào tháng nhiên nếu sử dụng là mức từ thì có thể lên
10/2020 của Google để thử nghiệm [5]. đến hàng chục thậm chí trăm nghìn từ với
Kiến trúc Conformer là sự kết hợp giữa tiếng Anh, hoặc cỡ trên 10k từ với tiếng Việt.
kiến trúc Transformer and mạng nơ ron tích Đây là một số lượng rất lớn và trong đó rất
chập (Convolution neural network - CNN) đã nhiều token có rất ít thậm chí không tồn tại
được sử dụng rộng rãi trong các bài toán về trong tập huấn luyện, dẫn đến chúng ít có khả
xử lý ngôn ngữ tự nhiên và thị giác máy. năng xuất hiện khi giải mã. Một giải pháp
Bằng việc kết hợp hai kiến trúc này với nhau, trung lập được sử dụng rộng rãi nhất hiện nay
chúng ta có thể tận dụng được sức mạnh của đó là mã hóa các token dưới dạng subword
mỗi phương pháp như Transformer có ưu thế như BPE (byte pair encoding). BPE là một
trong việc mô hình hóa những nội dung theo dạng mã hóa đã được sử dụng trong dịch máy
chuỗi dài trong khi CNN lại rất hiệu quả và bây giờ là nhận dạng tiếng nói E2E. Với
trong việc phân tích những đặc trưng ở mức BPE, ta có thể định nghĩa trước số lượng
cục bộ. token mà ta mong muốn tất nhiên lớn hơn số
Hình 1 mô tả kiến trúc của Conformer ký tự và nhỏ hơn số lượng từ. Tuy nhiên mã
encoder, chi tiết về các khối Convolution hóa theo BPE thuần túy dựa trên thống kê từ
module, Multi-Headed self-attention module, dữ liệu (data driven), mà không cần kiến thức
Feed forward module chúng ta có thể xem gì về ngôn ngữ. Tuy nhiên với tiếng Việt là
trong bài báo của Google [5]. một ngôn ngữ có thể đánh vần đề đọc chính
75
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
xác, do đó chúng tôi sử sụng một cách tiếp hình hybrid truyền thống. Việc thử nghiệm
cận khác dựa trên ngữ âm bằng cách tách các kiến trúc end2end cho bài toán nhận dạng
âm tiết ra thành các âm cơ bản1. Từ các âm tiếng nói tiếng Việt cho kết quả ban đầu rất
này có thể lắp được thành các từ trong tiếng khả quan, mô hình end2end cho kết quả tốt
Việt thậm chí cả các từ viết tắt, vay mượn hơn hybrid truyền thống ở tất cả các tập thử
(do nó mã cả các ký tự đơn). nghiệm. Chứng tỏ đây là một cách tiếp cận
đầy tiềm năng đặc biệt khi lượng dữ liệu
3. THỬ NGHIỆM huấn luyện cũng như năng lực tính toán ngày
Chúng tôi thử nghiệm với 1,4 triệu câu một lớn.
trong tập huấn luyện, tương đương với
5. TÀI LIỆU THAM KHẢO
khoảng 1500 giờ dữ liệu. Sử dụng kiến trúc
Conformer với có kích thước trung bình [1] Hinton, Geoffrey, et al. "Deep neural
(medium size) với 29,1M tham số. networks for acoustic modeling in speech
Kết quả thử nghiệm được tính dựa theo sai recognition: The shared views of four
số từ (WER%) cho bởi hai mô hình hybrid và research groups." IEEE Signal processing
E2E trên các bộ thử nghiệm nội bộ khác nhau magazine 29.6 (2012): 82-97.
[2] Ueno, Sei, et al. "Acoustic-to-word
được miêu tả ở Bảng 1.
attention-based model complemented with
Bảng 1. So sánh sai số từ (%) của character-level CTC-based model." 2018
mô hình Hybrid và mô hình E2E. IEEE International Conference on
Acoustics, Speech and Signal Processing
Tập thử nghiệm (ICASSP). IEEE, 2018.
Mô hình Voice Meeting [3] Chiu, Chung-Cheng, et al. "State-of-the-art
mhkh bmhh vcs vlsp2019
note note speech recognition with sequence-to-
Hybrid 8,62 14,58 13,21 21,23 21,06 11,29 sequence models." 2018 IEEE International
Conference on Acoustics, Speech and
E2E 6,05 12,27 10,24 16,70 16,37 10,25 Signal Processing (ICASSP). IEEE, 2018.
[4] Li, Jinyu, et al. "On the comparison of
Ta có thể thấy rằng sai số trên tất cả các popular end-to-end models for large scale
tập thử nghiệm đều giảm mạnh khi sử dụng speech recognition." arXiv preprint
mô hình E2E chứng tỏ đây là một cách tiếp arXiv:2005.14327 (2020).
cận đầy hứa hẹn cho bài toán nhận dạng tiếng [5] Gulati, Anmol, et al. "Conformer:
nói tiếng Việt. Trong thời gian tới, chúng tôi Convolution-augmented transformer for
speech recognition." In Proceedings of
tiếp tục nghiên cứu hoàn thiện các vấn đề với
INTERSPEECH (2020).
mô hình E2E như:
Tăng cường khả năng nhận dạng với từ
chuyên môn, vay mượn, nước ngoài.
Nghiên cứu khả năng sử dụng thêm đặc
trưng tần số cơ bản (pitch) nhằm mô hình hóa
thanh điệu tốt hơn cho bài toán tiếng Việt.
4. KẾT LUẬN
Trong nghiên cứu này, chúng tôi trình bày
cách tiếp cận mới cho nhận dạng tiếng nói
dựa trên kiến trúc end2end và so sánh với mô
1
https://mltav.asn.au/vietnamese/images/documents/
Van/wa-van.pdf
76
nguon tai.lieu . vn