Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN MÔ HÌNH NHẬN DẠNG TIẾNG NÓI BĂNG RỘNG Đỗ Văn Hải, Phạm Thanh Bình, Nguyễn Thị Phương Thảo Trường Đại học Thủy lợi 1. MỞ ĐẦU Trong nghiên cứu này, chúng tôi đề xuất phương pháp có thể tận dụng dữ liệu băng Trong hệ thống nhận dạng tiếng nói tín hẹp để nâng cao chất lượng nhận dạng cho hiệu được ghi âm thường được lấy mẫu ở tần mô hình băng rộng. Có thể chất lượng của tín số 16kHz (tín hiệu băng rộng) dùng trong các hiệu băng hẹp không bằng dữ liệu dữ liệu ứng dụng ghi âm thông thường. Tuy nhiên băng rộng tuy nhiên với số lượng lớn và loại trong hệ thống điện thoại, tần số lấy mẫu chỉ dữ liệu khác biệt, ta vẫn hi vọng dữ liệu băng là 8kHz (tín hiệu băng hẹp). Thông thường hẹp sẽ bổ sung thêm thông tin để vào để tăng hai loại dữ liệu này được sử dụng độc lập cường chất lượng mô hình băng rộng. nhau để huấn luyện ra hai loại mô hình nhận dạng tiếng nói riêng biệt. 2. PHƯƠNG PHÁP TIẾP CẬN Hình 1 miêu tả tín hiệu của một file tiếng nói băng rộng có tần số lấy mẫu 16kHz Một vấn đề đặt ra là làm sao có thể sử (fmax = 8kHz ở dưới) và vẫn nguồn âm thanh dụng dữ liệu băng rộng với dữ liệu băng hẹp đó nhưng lấy mẫu ở 8kHz (hình trên). Ta khi mà toàn bộ phổ thông tin tiếng nói từ thấy rằng với tín hiệu có tần số lấy mẫu 8kHz 4-8kHz của tín hiệu băng hẹp bị mất hết thì toàn bộ phổ (spectrum) tín hiệu từ 4kHz Hình 1. Xuất phát từ ý tưởng các bộ khử nhiễu đến 8kHz bị mất. (denoiser) được phát triển gần đây khi ta đưa đầu vào là tín hiệu tiếng nói có nhiễu đầu ra sẽ là tín hiệu tiếng nói sạch [1], chúng ta có thể xây dựng một bộ tái tạo (reconstructor) từ tín hiệu băng hẹp lên tín hiệu băng rộng sử dụng cơ chế tương tự với các denoiser. Trong nghiên cứu này, chúng tôi sử dụng đầu vào của bộ tái tạo sẽ là tín hiệu băng hẹp đầu ra sẽ là tín hiệu băng rộng được tái tạo lại từ tín hiệu băng hẹp. Để huấn luyện “việc tái tạo” này ta thực hiện quy trình huấn luyện sử dụng mô hình mạng nơ ron nhân tạo như Hình 2. Bộ dữ liệu được sử dụng là bộ dữ liệu băng rộng (16kHz) mà không cần có bất cứ nhãn (label) gì. Dữ liệu này được chuyển thành dữ liệu băng hẹp bằng cách giảm tần số lấy mẫu từ 16kHz xuống 8kHz (down Hình 1. Spectrogram của tín hiệu tiếng nói sample) để làm đầu vào huấn luyện cho bộ tái băng hẹp ở trên (tần số lấy mẫu 8kHz) tạo. Đầu ra của bộ tái tạo là tín hiệu băng và băng rộng ở dưới rộng ban đầu. Với cách huấn luyện này, bộ 80
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 tái tạo sẽ học được bổ sung những phổ tín  Mô hình 3: mô hình huấn luyện dùng hiệu bị cắt trong tín hiệu băng hẹp. 20.000 câu huấn luyện băng rộng. Bảng 1. Sai số từ của các mô hình khác nhau Mô WER Dữ liệu hình (%) 1 Băng rộng 10.000 câu 36,23 Hình 2. Quá trình huấn luyện cho bộ tái tạo 2 Băng rộng 10.000 câu + 32,08 băng hẹp 10.000 câu Tuy nhiên khi áp dụng mô hình này để tái 3 Băng rộng 20.000 câu 31,84 tạo tín hiệu băng rộng áp dụng vào nhận dạng tiếng nói thì kết quả không tốt. Một trong những nguyên nhân có thể là việc tái tạo tín Tất cả các mô hình được huấn luyện sử hiệu băng rộng đã gây méo (distortion) so với dụng kiến trúc TDNN-LSTM kết hợp với mô tín hiệu băng rộng gốc. Do vậy để giảm sự hình ngôn ngữ 4-gram [2] với công cụ được méo này ta thay vì tái tạo toàn bộ phổ tín hiệu sử dụng là Kaldi [3]. băng rộng như trên Hình 2, ta đề xuất phương Kết quả thử nghiệm với bộ thử nghiệm pháp thực hiện ở miền tần số thay vì ở miền băng rộng độc lập được trình bày ở Bảng 1. thời gian như sau: Chúng tôi sử dụng chỉ số sai số từ  Bóc tách tín hiệu băng rộng thành hai (WER - Word Error Rate1) để đánh giá chất thành phần riêng biệt 0-4kHz và 4-8kHz. lượng hệ thống nhận dạng. Kết quả so sánh  Đầu ra của mạng nơ ron trên Hình 2 là mô hình 1 và 2, ta thấy rằng bằng việc sử phổ tín hiệu 4-8kHz thay vì 0-8kHz như cách dụng thêm dữ liệu băng hẹp như phương tiếp cận trước. pháp đề xuất đã làm giảm sai số từ 36,23%  Tái tạo phần phổ từ 4-8k từ tín hiệu băng xuống con 32,08%. Chú ý rằng mô hình 2 hẹp dùng mạng nơ ron. cho kết quả tiệm cận với mô hình 3 tức mô  Sau đó kết hợp 2 phần phổ tín hiệu lại hình sử dụng toàn bộ 20.000 câu dữ liệu tức là: từ 0-4kHz lấy từ tín hiệu băng hẹp gốc băng rộng để huấn luyện. (by pass) và phần phổ 4-8kHz được tái tạo 3.2. Thử nghiệm với tập dữ liệu lớn và nhờ mạng nơ ron trên Hình 2. lượng dữ liệu tái tạo khác nhau Do đó với cách tiếp cận này ta đã làm Như phần 3.1 đã chỉ ra phương pháp đề giảm méo được tín hiệu tái tạo, ta chỉ tái tạo xuất cho hiệu quả cao với tập dữ liệu huấn phần phổ bị mất thay vì tái tạo toàn bộ phổ luyện nhỏ (10.000 đến 20.000 câu). Tuy tín hiệu. nhiên trong các hệ thống nhận dạng tiếng nói 3. THỬ NGHIỆM thực tế, người ta sử dụng hàng trăm nghìn đến hàng triệu câu dữ liệu huấn luyện. Trong 3.1 Thử nghiệm với tập dữ liệu huấn phần này chúng ta sẽ nghiên cứu thử nghiệm luyện nhỏ với tập dữ liệu lớn hơn nhiều lần để đánh giá Trước hết ta thử nghiệm mô hình nhận độ hiệu quả của phương pháp đề xuất trong dạng với dữ liệu nhỏ. thực tế. Ngoài ra ta sẽ xem xét ảnh hưởng của  Mô hình 1: mô hình huấn luyện chỉ dùng mô hình khi sử dụng dữ liệu băng hẹp được 10.000 câu huấn luyện băng rộng. tái tạo khác nhau.  Mô hình 2: dùng 10.000 câu huấn luyện băng rộng kết hợp với 10.000 câu huấn luyện băng hẹp được tái tạo như trong phần 2. 1 https://en.wikipedia.org/wiki/Word_error_rate 81
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0  Mô hình yt310k: sử dụng 310.000 câu mục đích là bổ sung thông tin còn thiếu hụt băng rộng để huấn luyện. Dữ liệu này được trong dữ liệu băng rộng chứ không thể thay lấy từ Youtube. thế dữ liệu băng rộng được. Tỷ lệ trộn dữ liệu  Mô hình yt310k+ipcc150k: sử dụng băng rộng và băng hẹp hợp lý là 1:1 sẽ đảm 310.000 câu băng rộng để huấn luyện kết hợp bảo được chất lượng nhận dạng cũng như với 150.000 câu huấn luyện băng hẹp được thời gian huấn luyện mô hình. tái tạo như trong phần 2. Dữ liệu băng hẹp được lấy từ tổng đài thoại (ipcc). Tương tự 4. KẾT LUẬN mô hình yt310k+ipcc310k, yt310k+ipcc460k Trong nghiên cứu này, chúng tôi đã xây là mô hình khi kết hợp với 310.000 và dựng được một phương pháp nhằm tận dụng 460.000 câu băng hẹp vào tập huấn luyện. dữ liệu băng hẹp để nâng cao chất lượng của Kết quả thử nghiệm với bốn mô hình trên mô hình nhận dạng tiếng nói băng rộng. Các sáu tập kiểm thử khác nhau được trình bày thử nghiệm khác nhau đã chỉ ra rằng, sử dụng trên Hình 3. Trục tung là sai số từ WER(%). thêm dữ liệu băng hẹp luôn mang lại sự cải thiện cho mô hình băng rộng. Qua nghiên cứu này, ta cũng thấy rằng, mặc dù dữ liệu băng hẹp về mặt băng thông ít hơn so với dữ liệu băng rộng, tuy nhiên về mặt đặc thù dữ liệu thì dữ liệu băng hẹp được thu thập từ các cuộc trò chuyện qua điện thoại, đây là loại dữ liệu chưa từng xuất hiện trong tập dữ liệu băng rộng như từ Youtube, ghi âm,… Do đó, việc bổ sung dữ liệu băng hẹp vào dữ liệu băng rộng giúp tăng độ đa dạng của dữ liệu huấn luyện lên rất nhiều. 5. TÀI LIỆU THAM KHẢO [1] Yu, Cheng, et al. "Speech enhancement based on denoising autoencoder with multi- Hình 3. Sai số từ (%) của của 4 mô hình với branched encoders." IEEE/ACM các bộ thử nghiệm khác nhau. Transactions on Audio, Speech, and Language Processing 28 (2020): 2756-2769. Ta có thể thấy rằng việc bổ sung dữ liệu [2] Povey, D., Hadian, H., Ghahremani, P., Li, băng hẹp (ipcc) làm giảm sai số đi đáng kể (3 K., & Khudanpur, S. (2018, April). A time- cột sau so với cột đầu tiên). Trong đó việc bổ restricted self-attention layer for ASR. In sung 310.000 câu băng hẹp làm giảm sai số 2018 IEEE International Conference on đi tương đối so với chỉ bổ sung 150.000 câu. Acoustics, Speech and Signal Processing Tuy nhiên nếu ta tiếp tục bổ sung dữ liệu (ICASSP) (pp. 5874-5878). IEEE. băng hẹp lên thành 460.000 câu thì sai số có [3] Povey, Daniel, et al. "The Kaldi speech giảm tuy nhiên mức độ nhỏ hơn. Điều này recognition toolkit." IEEE 2011 workshop on automatic speech recognition and cũng hợp lý bởi vì mô hình chính là băng understanding. No. CONF. IEEE Signal rộng và các tập thử nghiệm cũng là băng rộng Processing Society, 2011. chứ không phải băng hẹp nên dữ liệu băng hẹp được thêm vào dữ liệu huấn luyện mang 82
nguon tai.lieu . vn