Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end

Bài viết Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end trình bày cách tiếp cận mới cho nhận dạng tiếng nói dựa trên kiến trúc end2end và so sánh với mô hình hybrid truyền thống. Việc thử nghiệm kiến trúc end2end cho bài toán nhận dạng tiếng nói tiếng Việt cho kết quả ban đầu rất khả quan, mô hình end2end cho kết quả tốt hơn hybrid truyền thống ở tất cả các tập thử nghiệm. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 XÂY DỰNG MÔ HÌNH NHẬN DẠNG

Thể loại Tài liệu miễn phí Kỹ thuật lập trình

Số trang 3

Ngày tạo 4/9/2023 12:50:51 AM +00:00

Loại tệp PDF

Kích thước 0.21 M

Tên tệp

Tải Xây dựng mô hình nhận dạng tiếng nói tiếng Việt th... (.pdf)

Xem mẫu

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT THEO KIẾN TRÚC END2END Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. MỞ ĐẦU áp dụng đầu tiên trong bài toán dịch máy. Trong bài toán này, đầu vào là một chuỗi các Mô hình nhận dạng tiếng nói phổ biến nhất từ của ngôn ngữ nguồn, đầu ra là một chuỗi hiện nay dựa trên kiến trúc lai (hybrid) giữa các từ của ngôn ngữ đích. Chiều dài chuỗi mô hình Markov ẩn (HMM - Hidden Markov đầu vào và đầu ra có thể khác nhau. Công Model) và mô hình mạng nơ ron sâu (DNN - nghệ E2E cho nhận dạng tiếng nói được Deep Neural Network) được đề xuất vào năm nghiên cứu và phát triển trong khoảng 3 năm 2012 [1]. Mô hình lai này sử dụng HMM để gần đây, đầu vào hệ thống là một chuỗi các mô hình hóa thông tin về thời gian của tiếng vector đặc trưng được trích chọn từ tín hiệu nói, trong khi DNN được sử dụng để mô hình tiếng nói, đầu ra là chuỗi các từ hay ký tự về phân bố các đặc trưng không gian của nhận dạng. Với thiết kế hệ thống trong một tiếng nói (mô hình âm học). Ngoài ra để hệ mô hình đơn như vậy đã loại bỏ sự phức tạp thống nhận dạng hybrid có thể hoạt động về kiến trúc cũng như giảm sự cần thiết của được ta cần có từ điển phát âm để tạo ánh xạ các chuyên gia về ngôn ngữ trong khi xây từ mức từ sang mức âm vị và mô hình ngôn dựng hệ thống. Trong khi xây dựng hệ thống ngữ để lưu trữ những thông tin tri thức về ASR truyền thống ta cần xây dựng và tối ưu ngữ pháp về quy luật phân bố của các từ riêng các mô hình âm học, ngôn ngữ, từ điển trong một lĩnh vực hay một ngôn ngữ. Trải phát âm. Do đó, hệ thống E2E có thể triển qua hơn 8 năm phát triển, mô hình lai đã có khai nhanh với các ngôn ngữ mới mà không nhiều biến thể để nâng cao độ chính xác cũng cần nhiều đến sự giúp đỡ của các chuyên gia như giảm thời gian huấn luyện. Tuy nhiên ngôn ngữ. Do đó, đây là ưu điểm rất lớn mà các module của mô hình nhận dạng lai được các tập đoàn đa quốc gia muốn tập trung thiết kế và tối ưu độc lập do đó khi lắp ghép nghiên cứu, phát triển. lại với nhau lại có thể không đưa ra được mô Do công nghệ E2E thực hiện học ánh xạ từ hình tổng thể tối ưu nhất. Mặt khác việc thiết chuỗi các vector đặc trưng của file audio đầu kế mỗi module lại cần có kiến thức chuyên vào đến các từ hay ký tự ở đầu ra, mà không gia ví dụ như việc từ điển phát âm cần cần biết trước đến những ràng buộc, hiểu biết chuyên gia sâu về ngôn ngữ để định nghĩa về âm học cũng như ngôn ngữ. Để học được ánh xạ cũng như định nghĩa tập âm vị phù ánh xạ này đủ tốt, cần rất nhiều dữ liệu huấn hợp với ngôn ngữ, vùng miền. luyện. Do đó, đây là cách tiếp cận đầy hứa Trong những năm gần đây, nổi lên một hẹn trong tương lai khi dữ liệu cũng như cách tiếp cận mới trong nhận dạng tiếng nói năng lực tính toán càng ngày càng tăng lên. đang được các nhóm nghiên cứu lớn đang Nghiên cứu của đại học Kyoto [2] chỉ ra nghiên cứu phát triển đó là nhận dạng tiếng rằng với ít dữ liệu huấn luyện mô hình E2E nói dựa trên kiến trúc end-to-end (E2E). cho kết quả kém hơn khá nhiều so với mô Công nghệ E2E được dựa trên cơ chế từ hình lại. Tuy nhiên khi tăng dữ liệu huấn chuỗi đến chuỗi (sequence to sequence) được luyện lên, mô hình E2E có thể tiệm cận với 74
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 chất lượng của mô hình lai. Điều này có thể được giải thích mô hình mô hình E2E phải tự học ánh xạ từ âm thanh ra các từ (ký tự) một cách trực tiếp do vậy để đạt chất lượng tốt nó yêu cầu rất nhiều dữ liệu huấn luyện cho mô hình. Ở trên phương diện xây dựng các sản phẩm thực tế, các hãng như Google, Microsoft đều đưa ra các mô hình E2E của mình. Ví dụ trong nghiên cứu [3] Google đã sử dụng 12.000 giờ dữ liệu huấn luyện. Kết quả thử nghiệm trên cả tập voice search và tập dictation, mô hình E2E đều cho kết quả tốt hơn mô hình hybrid. Hãng Microsoft trong nghiên cứu [4] sử dụng 65.000 giờ dữ liệu huấn luyện. Với lượng dữ liệu này, mô hình E2E của Microsoft cho kết quả tốt hơn khá nhiều so với mô hình lai rất mạnh của họ. 2. XÂY DỰNG MÔ HÌNH NHẬN DẠNG Hình 1. Kiến trúc của Conformer encoder [5] TIẾNG VIỆT 2.2. Lựa chọn đơn vị biểu diễn (token) 2.1. Lựa chọn kiến trúc mô hình Để huấn luyện được mô hình E2E ASR Từ những kết quả đáng khích lệ ở trên, trước hết ta cần định nghĩa “đơn vị” để mã chúng tôi nghiên cứu thử nghiệm kiến trúc hóa đầu ra của hệ thống (token). Đơn giản nhận dạng E2E cho tiếng Việt, với mục tiêu nhất token là các ký tự (character), hoặc cao tiệm cận và tiến tới thay thế mô hình hybrid nhất token là mức từ (word) với tiếng Việt là truyền thống. Dựa trên khảo sát về các nghiên âm tiết (syllable). Với cách sử dụng token là cứu về các kiến trúc E2E khác nhau chúng tôi ký tự thì số lượng token tương đối ít, tuy chọn kiến trúc Conformer ra mắt vào tháng nhiên nếu sử dụng là mức từ thì có thể lên 10/2020 của Google để thử nghiệm [5]. đến hàng chục thậm chí trăm nghìn từ với Kiến trúc Conformer là sự kết hợp giữa tiếng Anh, hoặc cỡ trên 10k từ với tiếng Việt. kiến trúc Transformer and mạng nơ ron tích Đây là một số lượng rất lớn và trong đó rất chập (Convolution neural network - CNN) đã nhiều token có rất ít thậm chí không tồn tại được sử dụng rộng rãi trong các bài toán về trong tập huấn luyện, dẫn đến chúng ít có khả xử lý ngôn ngữ tự nhiên và thị giác máy. năng xuất hiện khi giải mã. Một giải pháp Bằng việc kết hợp hai kiến trúc này với nhau, trung lập được sử dụng rộng rãi nhất hiện nay chúng ta có thể tận dụng được sức mạnh của đó là mã hóa các token dưới dạng subword mỗi phương pháp như Transformer có ưu thế như BPE (byte pair encoding). BPE là một trong việc mô hình hóa những nội dung theo dạng mã hóa đã được sử dụng trong dịch máy chuỗi dài trong khi CNN lại rất hiệu quả và bây giờ là nhận dạng tiếng nói E2E. Với trong việc phân tích những đặc trưng ở mức BPE, ta có thể định nghĩa trước số lượng cục bộ. token mà ta mong muốn tất nhiên lớn hơn số Hình 1 mô tả kiến trúc của Conformer ký tự và nhỏ hơn số lượng từ. Tuy nhiên mã encoder, chi tiết về các khối Convolution hóa theo BPE thuần túy dựa trên thống kê từ module, Multi-Headed self-attention module, dữ liệu (data driven), mà không cần kiến thức Feed forward module chúng ta có thể xem gì về ngôn ngữ. Tuy nhiên với tiếng Việt là trong bài báo của Google [5]. một ngôn ngữ có thể đánh vần đề đọc chính 75
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 xác, do đó chúng tôi sử sụng một cách tiếp hình hybrid truyền thống. Việc thử nghiệm cận khác dựa trên ngữ âm bằng cách tách các kiến trúc end2end cho bài toán nhận dạng âm tiết ra thành các âm cơ bản1. Từ các âm tiếng nói tiếng Việt cho kết quả ban đầu rất này có thể lắp được thành các từ trong tiếng khả quan, mô hình end2end cho kết quả tốt Việt thậm chí cả các từ viết tắt, vay mượn hơn hybrid truyền thống ở tất cả các tập thử (do nó mã cả các ký tự đơn). nghiệm. Chứng tỏ đây là một cách tiếp cận đầy tiềm năng đặc biệt khi lượng dữ liệu 3. THỬ NGHIỆM huấn luyện cũng như năng lực tính toán ngày Chúng tôi thử nghiệm với 1,4 triệu câu một lớn. trong tập huấn luyện, tương đương với 5. TÀI LIỆU THAM KHẢO khoảng 1500 giờ dữ liệu. Sử dụng kiến trúc Conformer với có kích thước trung bình [1] Hinton, Geoffrey, et al. "Deep neural (medium size) với 29,1M tham số. networks for acoustic modeling in speech Kết quả thử nghiệm được tính dựa theo sai recognition: The shared views of four số từ (WER%) cho bởi hai mô hình hybrid và research groups." IEEE Signal processing E2E trên các bộ thử nghiệm nội bộ khác nhau magazine 29.6 (2012): 82-97. [2] Ueno, Sei, et al. "Acoustic-to-word được miêu tả ở Bảng 1. attention-based model complemented with Bảng 1. So sánh sai số từ (%) của character-level CTC-based model." 2018 mô hình Hybrid và mô hình E2E. IEEE International Conference on Acoustics, Speech and Signal Processing Tập thử nghiệm (ICASSP). IEEE, 2018. Mô hình Voice Meeting [3] Chiu, Chung-Cheng, et al. "State-of-the-art mhkh bmhh vcs vlsp2019 note note speech recognition with sequence-to- Hybrid 8,62 14,58 13,21 21,23 21,06 11,29 sequence models." 2018 IEEE International Conference on Acoustics, Speech and E2E 6,05 12,27 10,24 16,70 16,37 10,25 Signal Processing (ICASSP). IEEE, 2018. [4] Li, Jinyu, et al. "On the comparison of Ta có thể thấy rằng sai số trên tất cả các popular end-to-end models for large scale tập thử nghiệm đều giảm mạnh khi sử dụng speech recognition." arXiv preprint mô hình E2E chứng tỏ đây là một cách tiếp arXiv:2005.14327 (2020). cận đầy hứa hẹn cho bài toán nhận dạng tiếng [5] Gulati, Anmol, et al. "Conformer: nói tiếng Việt. Trong thời gian tới, chúng tôi Convolution-augmented transformer for speech recognition." In Proceedings of tiếp tục nghiên cứu hoàn thiện các vấn đề với INTERSPEECH (2020). mô hình E2E như: Tăng cường khả năng nhận dạng với từ chuyên môn, vay mượn, nước ngoài. Nghiên cứu khả năng sử dụng thêm đặc trưng tần số cơ bản (pitch) nhằm mô hình hóa thanh điệu tốt hơn cho bài toán tiếng Việt. 4. KẾT LUẬN Trong nghiên cứu này, chúng tôi trình bày cách tiếp cận mới cho nhận dạng tiếng nói dựa trên kiến trúc end2end và so sánh với mô 1 https://mltav.asn.au/vietnamese/images/documents/ Van/wa-van.pdf 76

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường