Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG PHƯƠNG NGỮ VÙNG MIỀN CHO TIẾNG NÓI TIẾNG VIỆT Dương Quang Tiến1, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG nhau cho bài toán nhận dạng vùng miền với kho ngữ liệu tiếng Việt. Dữ liệu bao gồm Việt Nam là đất nước đa dạng về phương 3.000 tệp âm thanh được thu thập từ các ngữ. Với mỗi vùng khác nhau, người dân sẽ chương trình quảng cáo, chương trình truyền có cách phát âm tiếng Việt riêng - cụ thể trên hình, các cuộc phỏng vấn và nhiều nguồn lãnh thổ Việt Nam là 3 miền Bắc, Trung, khác, được áp dụng các phương pháp tiền xử Nam, khác nhau ở cả phát âm, ngữ điệu, âm lý, trích xuất đặc trưng, sau đó triển khai so vực, hay cả từ vựng. sánh hai phương pháp phân loại bằng rừng Bài toán nhận dạng vùng miền đóng góp ngẫu nhiên (Random Forest) và mô hình vai trò quan trọng trong bài toán nhận dạng mạng nơ-ron tích chập (Convolutional Neural tiếng nói. Tính năng nhận dạng vùng miền bổ Network - CNN) với đầu vào được xử lý ở sung cho công nghệ trợ lý ảo, hay các tổng trên. Thử nghiệm với rừng ngẫu nhiên cho đài tự động, mang lại những lợi ích quan kết quả độ chính xác là 62,2% trên tập kiểm trọng cho toàn bộ ngành công nghệ xử lý tra. Kết quả của mạng nơ ron tích chập vượt tiếng nói tổng quan [1]. Một số nghiên cứu trội hơn với độ chính xác 73,9%. về phân loại vùng miền tiếng nói đã được phát triển gần đây, tiêu biểu trong đưa ra các 2. PHƯƠNG PHÁP TRIỂN KHAI kết quả tốt nhưng với các ngôn ngữ nước ngoài. Trong phạm vi tiếng Việt, theo hiểu Các tệp trong kho ngữ liệu được gán nhãn biết của chúng tôi, vẫn chưa có nhiều kết quả phân loại thành 3 loại vùng giọng miền Bắc, nổi trội trong bài toán phân loại vùng miền miền Trung và miền Nam. Bộ dữ liệu âm phương ngữ. thanh có nhiễu nền, gồm 3.000 tệp định dạng Trong nghiên cứu này, chúng tôi trình bày .wav lấy mẫu ở tần số 22.050Hz, tách thành sự so sánh hai phương pháp học máy khác 2.400 tệp cho huấn luyện mô hình, 300 tệp Hình 1. Phân bổ về thời lượng và số lượng nhãn của tập dữ liệu 116
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 cho tập phát triển và 300 tệp kiểm tra mô Kiến trúc mô hình lấy cảm hứng bởi mạng hình. Hầu hết các tệp tin có độ dài dưới Wavenet [4], được thiết kế như Hình 2. 3 giây, nhưng có một số nhỏ các tệp đặc biệt Mô hình được huấn luyện với 100 epoch, dài hơn 60 giây (đặc biệt là một số tệp có độ batch size 16, thuật toán tối ưu Adam. Kết dài thậm chí 9 phút hoặc lên đến 11 phút). quả dự đoán trên một file âm thanh gồm Phân bố thời lượng âm thanh và số lượng các nhiều đoạn nhỏ, sẽ lấy nhãn dựa theo đoạn có nhãn mỗi loại được biểu diễn trên Hình 1. chứa xác suất về độ tin cậy cao nhất để lấy Trước khi được đưa vào sử dụng, các tệp định kết quả dự đoán cho toàn bộ đoạn âm thanh dạng .wav được tiền xử lý với phép nhấn mạnh của tệp. Hàm mất mát được sử dụng là hàm (pre-emphasis) để tăng cường tín hiệu dễ bị Cross-Entropy nhiễu, lọc nhiễu nền dưới cường độ 30dB. Sau đó toàn bộ các tệp âm thanh được phân thành 3. THỬ NGHIỆM VÀ KẾT QUẢ các đoạn nhỏ dài 2 giây (tăng cường được tổng Tham số về số lượng cây cho rừng ngẫu số lượng dữ liệu), xếp chồng lên nhau 1 giây nhiên có giá trị 200 được xác định bằng để trích xuất các đặc trưng. Xgboost. Mô hình mạng học sâu có tổng Phương pháp sử dụng phân loại bằng rừng 220.710 tham số, 1.088 tham số không được ngẫu nhiên thường lấy đầu vào là đặc trưng học. Môi trường được sử dụng để phát triển là về MFCC của âm thanh. Một số nghiên cứu Tensorflow 2.0, Keras, toàn bộ quá trình huấn về tiếng nói tiếng Việt sử dụng MFCC đã cho luyện và kiểm tra chạy trên Google Colab Pro. những kết quả tốt như [2], [3]. Tuy nhiên Các công cụ tiền xử lý và trích chọn đặc trưng trong nghiên cứu này, chúng tôi bổ sung đặc sử dụng thư viện Librosa. Phương thức đánh trưng MFCC ghép nối với các đặc trưng về giá là độ chính xác (accuracy) và ma trận sắc độ, cao độ, tỷ lệ vượt mức 0 (Zero- nhầm lẫn (confusion matrix). crossing rate) và năng lượng của tín hiệu. Các vector đặc trưng này được duỗi thành 1 Bảng 1. Độ chính xác của hai phương pháp chiều, sau đó được ghép nối (concatenated) phân loại lại với nhau, để tăng chiều dài đặc trưng, từ Tập Tập Tập đó tăng độ hiệu quả cho phân loại. Mô hình huấn phát kiểm luyện triển tra Rừng ngẫu nhiên 98,6% 58,1% 62,2% Mạng tích chập 94,1% 76,1% 73,9% Từ Bảng 1 ta có thể thấy mô hình mạng tích chập vượt trội hơn với kết quả độ chính xác lên tới 76,1% trên tập phát triển, 73,9% trên tập kiểm tra. Rừng ngẫu nhiên cho kết quả lần lượt là 58,1% và 62,2% trên tập phát triển và tập kiểm tra. Để giảm quá khớp (overfitting) với phương pháp phân loại rừng ngẫu nhiên, các phương pháp cắt tỉa nhánh, định nghĩa Hình 2. Cấu trúc mạng tích chập chiều sâu tối đa của cây đã được sử dụng. Số liệu như bảng 1 là kết quả nằm trong dự tính Phương pháp phân loại bằng mạng nơ-ron khi mạng tích chập phát huy được lợi thế về tích chập sử dụng đầu vào là Mel-spectrogram việc học được những đặc trưng về quan hệ phụ khi biến đổi Fourier các đoạn âm thanh 2s và thuộc giữa các âm trong một mẫu, trong khi lọc các âm có tần số ngoài khoảng 50-8000hz rừng ngẫu nhiên chỉ đơn giản đưa ra quyết (dải âm mà con người sử dụng để giao tiếp). định dưới dạng nhiều cây nhị phân và không 117
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 a. Rừng ngẫu nhiên b. Mạng tích chập Hình 3. Ma trận nhầm lẫn của hai phương pháp phân loại làm được điều này. Đi sâu vào phân tích sự một dạng dữ liệu mang tính liên tục. Kết quả nhầm lẫn các nhãn với ma trận nhầm lẫn với từng loại vùng miền cũng mang lại một (confusion matrix - Hình 3) về điểm khác số đánh giá về xu hướng hòa trộn tiếng nói - biệt giữa hai phương pháp, đối với phân loại phương ngữ. Đây là một bộ dữ liệu còn nhiều rừng ngẫu nhiên, các nhãn miền Bắc và miền thách thức, và với các nghiên cứu tiếp theo sẽ Nam ít bị gán nhầm hơn do số lượng dữ liệu nhắm vào việc khắc phục các vấn đề dữ liệu nhiều hơn hẳn, nhưng với đặc trưng nhạy với như kiểm tra lại các nhãn dễ nhầm lẫn, hay nhiễu và ảnh hưởng bởi phân bố dữ liệu, nên nâng cấp chiến lược huấn luyện cũng như kết quả tổng quan còn kém, đặc biệt là đối với kiến trúc mô hình, để có thể đem lại những các mẫu miền Trung. Mô hình mạng nơ-ron kết quả trong tương lai. tích chập sẽ bị ảnh hưởng nhiều bởi tính chất quan hệ phụ thuộc trong đặc trưng của dữ liệu, 5. TÀI LIỆU THAM KHẢO khiến cho các nhãn miền Nam và miền Bắc dễ [1] Fadi Biadsy, “Automatic Dialect and bị nhầm lẫn với nhau hơn. Điều này xảy ra do Accent Recognition and its application to xu thế phát triển về du lịch, văn hóa, giúp hai Speech Recognition”, Columbia University, miền được coi là phát triển hơn này pha trộn pp. 13-14. 2011. tiếng nói và từ vựng với nhau, trong khi miền [2] V. H. Do, N. F. Chen, B. P. Lim, and M. Trung riêng biệt lại có những đặc biệt trong cả Hasegawa-Johnson, “Analysis of mismatched phát âm và kho từ vựng riêng. transcriptions generated by humans and machines for under-resourced languages,” in 4. KẾT LUẬN INTERSPEECH, 2016, pp. 3863-3867. [3] V. H. Do, N. F. Chen, B. P. Lim, and M. Nghiên cứu của chúng tôi trình bày quá Hasegawa-Johnson, “Speech recognition of trình tiền xử lý, trích chọn đặc trưng, đưa ra under-resourced languages using và so sánh hai phương pháp học máy phân mismatched transcriptions,” in IALP, 2016, loại vùng miền trong tiếng nói tiếng Việt : pp. 112–115. Rừng ngẫu nhiên - phân loại với học máy [4] Oord, Aaron van den, et al. "Wavenet: A thuần, và mô hình mạng tích chập - mô hình generative model for raw audio." arXiv phân loại học sâu. So sánh nghjmn iêng về preprint arXiv:1609.03499 (2016). mô hình học sâu với kết quả tốt hơn, thể hiện được thế mạnh về huấn luyện những đặc trưng mang tính liên kết, phụ thuộc nhau trong tần số của người nói, khi tiếng nói là 118
nguon tai.lieu . vn