Xem mẫu

  1. HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) Đánh Giá Hiệu Quả Cập Nhật Nhiễu Trực Tuyến Trong Các Thuật Toán Nâng Cao Chất Lượng Tiếng Nói Đào Văn Lân, Hoàng Văn Phúc và Vũ Hỏa Tiễn Trường Đại học Kỹ thuật Lê Quý Đôn, 236 Hoàng Quốc Việt, Hà Nội, Việt Nam Email: kqha1025@gmail.com, phuchv@mta.edu.vn, hoatien57@yahoo.com Tóm tắt – ực hiện kh o sát và hiệu quả nhiễu trực tuyến được mô tả trong ph n III. Cuối cùng đ ệu qu của việc cập nhật nhiễu trực tuyến theo thời ph n V là nh ng kết luận. gian trong các thuật toán nâng cao chấ lượng tiếng nói. Việc kh s v đ được thực hiện cho ba dạng thuật toán chính là: thuật toán dựa trên mô hình thống kê; thuật toán không II. QUY TẮC CẬP NHẬT NHIỄU TRỰC TUYẾN gian con (subspace); thuật toán trừ phổ. Bên cạ đ Trong các tài liệu [1, 3, 4, 7, 15, 6 đ đưa ra một số ũ đề xuấ p ươ p p chọn giá trị ưỡng quyế định tín phương pháp cập nhật nhiễu theo thời gian trong các thuật toán hiệu phù hợp với mỗi ứng dụng cụ thể xử lý nâng cao chất lượng tiếng nói. Từ khóa- Speech enhancement, statistical model based methods, Cập nhật nhiễu trực tuyến là phương pháp thực hiện liên tục subspace algorithms, spectral-subtractive algorithms. việc cập nhật phổ của nhiễu trong các chu kỳ trích mẫu song song với việc thực hiện các thuật toán xử lý tín hiệu tiếng nói. Căn cứ để thực hiện việc cập nhật nhiễu trực tuyến là phát hiện I. GIỚI THIỆU tiếng nói (VAD: Voice Activity Detection) để cập nhật phổ nhiễu trong các khoảng chu kỳ không có tiếng nói. Hiện nay, có rất nhiều nghiên cứu liên quan đến việc xử lý tiếng nói ứng dụng trong nhận dạng con người, nhận dạng nội Trong các thuật toán dựa trên mô hình thống kê [1], vấn đề dung tiếng nói, chuyển tiếng nói sang văn bản, chuyển từ tiếng đặt ra trong việc nâng cao chất lượng tiếng nói là phải đề ra nói sang tiếng nói như các tài liệu - đ đề cập được khung mô tả mang tính thống kê, là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu và Hình là sơ đồ khối tổng quát của các ứng dụng xử lý số chúng ta mong muốn tìm ra được một phương pháp ước lượng tín hiệu tiếng nói. Sau khi chuyển đổi từ tương tự sang số tuyến tính hoặc phi tuyến với các tham số có lợi đó là hệ (ADC), tín hiệu đ u vào bao gồm cả tín hiệu có ích (tiếng nói) chuyển đổi tín hiệu sạch. và nhiễu từ nhiều nguồn khác nhau (như tiếng ô tô, xe máy, tiếng ồn tại nhà máy… ). Vì thế tất cả các ứng dụng đều sử Quy luật cập nhật nhiễu trực tuyến đối với các thuật toán dụng khối tiền xử lý, nhằm nâng cao chất lượng tiếng nói trước dựa trên mô hình thống kê [1, 2, 8, 9, 5 được quyết định bởi khi áp dụng các thuật toán ứng dụng cụ thể. Trong khối tiền xử các công thức (1) và (2). lý việc cập nhật nhiễu (noise update) có ý nghĩa rất quan H1 trọng, ảnh hưởng đến chất lượng của các thuật toán nâng cao 1 N 1  (1) chất lượng tiếng nói.  log  k  N k 1  H0 N ậ dạ ườ N ậ dạ ộ du 1   k k  ế Với  k  exp   ( ế í ệu v , ễu) K ố â ề xử lý a ấ ……. í ệu a 1  k 1   k  lượ ế C u ể ừ ế sa vă Dk (i) (1   ).Yk2 (i)  Dk (i  1)  (2) C u ể ế sa ế Trong đó γk, ξk tương ứng với tỷ số tín hiệu/nhiễu (SNR) tiên nghiệm và hậu nghiệm [15]. Hình 1. Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói. N là số điểm thực hiện thuật toán FFT. Mục đích chính của bài báo này là khảo sát đánh giá hiệu H1 là giả thiết rằng tín hiệu đ u vào gồm tín hiệu có ích là quả của việc cập nhật nhiễu trực tuyến đối với các thuật toán tiếng nói, còn H0 là giả thiết rằng tín hiệu đ u vào chỉ có nhiễu. nâng cao chất lượng tiếng nói trong khối tiền xử lý nâng cao chất lượng tiếng nói như được mô tả trong hình 1. Nội dung δ là giá trị ngưỡng quyết định tín hiệu vào chỉ có nhiễu hay tiếp theo của bài báo, trong ph n tác giả sẽ giới thiệu qui tắc gồm cả tín hiệu có ích. cập nhật nhiễu trực tuyến và kết quả thực nghiệm Đánh giá Dk(i) là công suất phổ của nhiễu tại khung thứ i (t n số k). ISBN: 978-604-67-0635-9 178 178
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Yk2 (i ) là công suất phổ của tín hiệu gồm cả tiếng nói và Tiêu chí để đánh giá chất lượng của các thuật toán nâng cao chất lượng tiếng nói theo [1, 5] gồm độ méo tín hiệu tiếng nói nhiễu. (SIG), nền nhiễu (BAK) và hiệu ứng tổng thể (OVL). β là hằng số làm mịn (smoothing constant) chọn trong dải Trong bài báo này tác giả đề xuất phương pháp tìm giá trị (0
  3. HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Từ kết quả khảo sát thực nghiệm trên các hình 2-4 cho thấy, Kết quả khảo sát thuật toán nâng cao chất lượng tiếng nói đối với các thuật toán nâng cao chất lượng tiếng nói dựa trên trừ phổ với các giá trị δ khác nhau thể hiện trên hình 5. Từ mô hình thống kê, khi δ = 0,9, cho hiệu quả nâng cao chất nh ng kết quả đó ta rút ra nhận xét là đối với thuật toán trừ phổ lượng tiếng nói tốt nhất theo các tiêu chí SIG, BAK, OVL theo thì giá trị δ=5,5 cho hiệu quả nâng cao chất lượng tiếng nói là các bảng 1-3. tốt nhất theo cả ba tiêu chí đ dẫn ra trong các bảng 1-3. §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi MMSE theo delta 3.5 Khi khảo sát thuật toán nâng cao chất lượng tiếng nói 3.4 không gian con với các giá trị δ khác nhau ta nhận được kết 3.3 quả như trên hình 6 Từ đó ta thấy với giá trị δ=1 thì kết quả SIG 3.2 BAK của thuật toán nâng cao chất lượng tiếng nói không gian con tốt OVL nhất theo cả ba tiêu chí đ nêu 3.1 3 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi trõ phæ theo delta 3.6 2.9 SIG 3.4 BAK 2.8 OVL 2.7 3.2 2.6 3 2.5 2.8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 delta 2.6 Hình 2. ết quả khảo sát chất lượng thuật toán MMSE theo δ. 2.4 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE theo delta 3.5 2.2 3.4 2 3.3 1.8 SIG 0 1 2 3 4 5 6 7 8 9 10 delta 3.2 BAK OVL Hình 5. Đồ thị khảo sát chất lượng thuật toán trừ phổ theo δ. 3.1 3 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi kh«ng gian con theo delta 3.4 2.9 3.3 SIG 2.8 3.2 BAK OVL 2.7 3.1 2.6 3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 delta 2.9 Hình 3. ết quả khảo sát chất lượng thuật toán LogMMSE theo δ. 2.8 2.7 §å thÞ kh¶o s¸t thuËt to¸n n©ng cao chÊt l- îng tiÕng nãi LogMMSE-SPU theo delta 3.3 2.6 3.2 2.5 3.1 SIG 0 1 2 3 4 5 6 7 8 9 10 BAK delta 3 OVL Hình 6. Đồ thị khảo sát chất lượng thuật toán không gian con theo δ. 2.9 2.8 IV. KẾT LUẬN 2.7 Trong bài báo này nhóm tác giả đ thực hiện nghiên cứu, 2.6 khảo sát và đánh giá hiệu quả của các thuật toán nâng cao chất 2.5 lượng tiếng nói sử dụng phương pháp cập nhật nhiễu trực tuyến Ngoài ra bài báo cũng đề xuất phương pháp lựa chọn 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 giá trị δ phù hợp trên cơ sở đánh giá các tiêu chí S và delta OVL, để các thuật toán đạt được hiệu quả thực thi cao nhất. Hình 4. ết quả khảo sát chất lượng thuật toán LogMMSE-SPU theo δ. 180 180
  4. HộiHội ThảoThảo Quốc Quốc Gia Gia 2015về 2015 vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Trong các nghiên cứu tiếp theo nhóm tác giả sẽ tiến hành [10] Mitra, V.; Franco, H.; Graciarena, M.; Vergyri, D., “Medium-duration modulation cepstral feature for robust speech recognition,” 2014 IEEE hiện thực hóa các thuật toán nâng cao chất lượng tiếng nói cập International Conference on Acoustics, Speech and Signal Processing nhật nhiễu trực tuyến này vào các ứng dụng, cụ thể như nhận (ICASSP), pp.1749-1753, May 2014. dạng tiếng nói có tính tới các đặc điểm của tiếng Việt. [11] Sultana, R.; Palit, R., “A survey on Bengali speech-to-text recognition techniques,” 2014 9th International Forum on Strategic Technology (IFOST), pp.26-29, Oct. 2014. TÀI LIỆU THAM KHẢO [12] M.P. Admane, R. Jasutkar, “Speech to text and accelerometer based [1] Philipos C.Loizou, Speech enhancement: theory and practice, second smart phone interaction system,” 2014 International Conference on edition, Publisher of Engineering and Environmental Sciences CRC Information Communication and Embedded Systems (ICICES), pp.1-4, Press, Baco Raton, Florida, 2013. Feb. 2014. [2] Yang Lu; P.C. Loizou, “Speech enhancement by combining statistical [13] Faizullah Ansari, M.D.; Shaji, R.S.; SivaKarthick, T.J.; Vivek, S.; estimators of speech and noise,” 2010 IEEE International Conference on Aravind, A., “Multilingual speech to speech translation system in Acoustics Speech and Signal Processing (ICASSP), vol., no., pp.4754- bluetooth environment,” 2014 International Conference on Control, 4757, March 2010. Instrumentation, Communication and Computational Technologies [3] Dubey, Rajesh Kumar; Kumar, Arun, “Comparison of subjective and (ICCICCT), pp.1055-1058, Jul. 2014. objective speech quality assessment for different degradation / noise [14] Seung Yun; Young-Jik Lee; Sang-Hun Kim, “Multilingual speech-to- conditions,” 2015 International Conference on Signal Processing and speech translation system for mobile consumer devices,” IEEE Communication (ICSC), vol., no., pp.261-266, March 2015. Transactions on Consumer Electronics, vol.60, no.3, pp.508-516, Aug. [4] Yi Hu; Loizou, P.C., “Subjective Comparison of Speech Enhancement 2014. Algorithms,” 2006 IEEE International Conference on Acoustics, Speech [15] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, “A statistical model- and Signal Processing, 2006. ICASSP 2006 Proceedings, vol.1, May based voice activity detection,” IEEE Signal Processing Letters, vol.6, 2006. no.1, pp.1-3, Jan. 1999. [5] TU “Perceptual evaluation of speech quality (PESQ) and objective [16] Mittal, U.; Phamdo, N., “Signal/noise KLT based approach for method for end-to-end speech quality assessment of narrowband enhancing speech degraded by colored noise,” IEEE Transactions on telephone networks and speech codecs ” TU-T Recommendation 862, Speech and Audio Processing, vol.8, no.2, pp.159-167, Mar 2000. 2000. [17] Berouti, M.; Schwartz, R.; Makhoul, J., “Enhancement of speech [6] Speech noise reference database: corrupted by acoustic noise,” IEEE International Conference on http://ecs.utdallas.edu/loizou/speech/noizeus. Acoustics, Speech, and Signal Processing (ICASSP '79), vol.4, pp.208- [7] Kisoo Kwon; Jong Won Shin; Sonowat, S.; Inkyu Choi; Nam Soo Kim, 211, Apr. 1979. “Speech enhancement combining statistical models and NMF with [18] Yi Hu; Loizou, P.C., “A generalized subspace approach for enhancing update of speech and noise bases,” 2014 IEEE International Conference speech corrupted by colored noise,” IEEE Transactions on Speech and on Acoustics, Speech and Signal Processing (ICASSP), pp.7053-7057, Audio Processing, vol.11, no.4, pp.334-341, Jul. 2003. May. 2014. [19] Yi Hu; Loizou, P.C., “A subspace approach for enhancing speech [8] Y. Ephraim, “Statistical-model-based speech enhancement systems,” corrupted by colored noise,” 2002 IEEE International Conference on Proceedings of the IEEE , vol.80, no.10, pp.1526-1555, Oct. 1992. Acoustics, Speech, and Signal Processing (ICASSP), vol.1, pp.I-573-I- [9] Y Ephraim and D alah “Speech enhancement using a minimum 576, May 2002. mean-square error log-spectral amplitude estimator ” EEE Trans [20] Yi Hu; P.C. Loizou, “Speech enhancement based on wavelet Acoust. Speech Signal Processing, vol. ASSP-33, pp. 443-445, Apr. thresholding the multitaper spectrum,” IEEE Transactions on Speech 1985. and Audio Processing, vol.12, no.1, pp.59-67, Jan. 2004. 181 181
nguon tai.lieu . vn