Nâng cao tín hiệu tiếng nói bằng giảm nhiễu phi tuyến dựa vào miền Wavelet

Trong bài báo này, các thuật toán nâng cao tiếng nói được đề xuất bởi việc dùng biến đổi các gói wavelet để tang khả năng phân tích tín hiệu. Trong khi đó, phương pháp lọc thống kê cảm quan dựa trên wavelet cũng được khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn và thuật toán nén tối toán được áp dụng để nén nhiễu. Các phương pháp đánh giá khách quan dùng PESQ và SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề xuất đạt được những kết quả tốt về chất lượng khi so sánh với các th

Thể loại Tài liệu miễn phí Điện - Điện tử

Số trang 6

Ngày tạo 4/8/2023 3:57:43 AM +00:00

Loại tệp PDF

Kích thước 0.61 M

Tên tệp

Tải Nâng cao tín hiệu tiếng nói bằng giảm nhiễu phi tu... (.pdf)

Xem mẫu

HộiHội Thảo Thảo QuốcGia Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông (ECIT 2015) (ECIT 2015) Nâng Cao Tín Hiệu Tiếng Nói Bằng Giảm Nhiễu Phi Tuyến Dựa Vào Miền Wavelet Tuan V. Tran Tuan V. Pham Faculty of Electronic and Telecommunication Faculty of Electronic and Telecommunication Danang University of Science and Technology Center of Excellence Da Nang, Viet Nam Danang University of Science and Technology tuantran.kl@engineer.com Da Nang, Viet Nam pvtuan@dut.udn.vn Tóm tắt— Trong bài báo này, các thuật toán nâng cao tiếng bày một thuật toán sẽ giúp tối thiểu hóa việc méo tiếng nói bị nói được đề xuất bởi việc dùng biến đổi các gói wavelet để gây bởi nhiễu dư được đề cập trong [4]. Trong khi đó, tang khả năng phân tích tín hiệu. Trong khi đó, phương Kirubagari vaf Subathra là dùng sự kết hợp của phương pháp pháp lọc thống kê cảm quan dựa trên wavelet cũng được tối thiểu hóa sai số bình phương và bộ lọc trừ để nâng cao chất khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn lượng tiếng nói đề cập trong [5]. Phương pháp biến đổi và thuật toán nén tối toán được áp dụng để nén nhiễu. Các Wavelet Dual tree complex được đề xuất bởi Tasmaz trong bài phương pháp đánh giá khách quan dùng PESQ và báo [6]. Một kỹ thuật khác dựa trên Wavlet là Robust hybrid SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề adaptive perceptual wavelet packet threshold được đề xuất bởi xuất đạt được những kết quả tốt về chất lượng khi so sánh Jain B và được đề cập trong [7]. với các thuật toán khác trong miền tần số. Bên cạnh đó, Trong bài báo này, một thuật toán được đề xuất dựa vào việc việc đánh giá chủ quan được thực hiện bằng việc dùng sử dụng phân tích gói wavelet để hỗ trợ cho quá trình phân Mean Opinion Score (MOS) và kết quả đạt được từ việc tích tín hiệu, các thuật toán ước lượng nhiễu cũng sẽ được sử kiểm tra này không những cho thấy có cùng kết luận với dụng để xác định các ngưỡng tốt hơn và cuối cùng các thuật phương pháp đánh giá khách quan và còn khẳng định toán giảm nhiễu là được dùng để hoàn thành hệ thống nâng trong việc tin tưởng hơn vào độ chính xác của các phương cao tín hiệu tiếng nói. Sơ đồ của thuật toán đã đề xuất là được pháp đánh giá khách quan. mô tả trong hình 1.1 phía dưới: Từ khóa—Wavelet Packet, Percentile Filter, Voice Activity Detection , Wavelet thresholding, Wavelet Shrinking. I. GIỚI THIỆU Vẫn đề xử lý tiếng nói khi bị anh hưởng bởi nhiều loại nhiễu vẫn còn là một thách thức lớn và các thuật toán nâng cao tiếng nói vẫn đang được phát triển và nghiên cứu để hỗ trợ tốt hơn cho các ứng dụng như nhận dạng tiếng nói, nhận dạng người nói. Tại bài báo này, thuật toán nâng cao tiếng nói dựa vào việc phân tích các gói wavelet và kết hợp với các kỹ thuật để đạt được các ngưỡng nhiễu tốt hơn là được đề xuất để giảm nhiễu trong tiếng nói. Có nhiều phương pháp đã được tiếp cận để thực hiện việc giảm nhiễu cho việc nâng cao tiếng nói như: Thực hiện việc phân tích tín hiệu nhiễu và nén nhiễu bị ảnh hưởng bởi nhiễu Gaussian và nhiễu trong thực tế dùng bộ lọc hồi qui được đề suất bởi Suman M và Khan H trong [1]; một kỹ thuật khác mà McCallum M và Guillemin B muốn giới thiệu trong bài báo sô [2] thuật toán Bayesian STSA đã dùng một mô hình tiếng nói a stochastic – deterministic để làm một sự tiên đoán trước các thông tin bằng việc xem xét non-zero mean. Việc ước tiếng nói tại các băng con tương đồng với sự giảm nhiễu thông qua việc xử lý MVDR là một kỹ thuật khác được Schasse A và Hình 1.1: Sơ đồ thuật toán Martin R đề xuất trong [3]. Yong Zhang, Yi Liu cũng đã trình 169 ISBN: 978-604-67-0635-9 169
HộiHội Thảo Thảo QuốcGia Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông (ECIT 2015) (ECIT 2015) Bài báo này được chia thành năm phần. Phân II sẽ nói về các Trong đó, I0(.) và I1(.) là ký hiệu cho các hàm Bessel bậc 0 và thuật toán giảm nhiễu trong miền tần số và việc cập nhật nhiễu. Các thuật toán trong miền wavelet được giới thiệu trong 1 và  k được định nghĩa như sau : phần III. Kế tiếp, phần bốn sẽ cho chúng ta thấy các kết quả của thí nghiệm. Kết luận và các hướng nghiên cứu trong tương k lai được thể hiện ở phần V. vk  k (2.6) 1 k II. GIẢM NHIỄU TRONG MIỀN TẦN SỐ Chủ đề nghiên cứu trong bài báo này là về nhiễu cộng. Khi Với  k và k được định nghĩa như a priori SNR và a nhìn vào hình 2.1, nhiễu trong tín hiệu tiếng nói y (n) nhận từ posteriori SNR: microphone được tạo ra từ tín hiệu sạch x (n) đã được cộng với nhiễu nền d (n): k    x (k ) E X ( k ) 2  (2.7)    d (k ) E D( k ) 2  2 2 Yk Yk k   d (k )   E D( k ) 2  (2.8) Hình 2.1: Mô hình nhiễu cộng b) Log-MMSE A. MMSE and Log-MMSE MMSE sẽ dàng thực hiện theo toán hoc nhưng nó không mang Kết quả được đề xuất trong [2] là một trong nhiều nghiên cứu đến chúng ta ý nghĩa về việc cải thiện chất lượng của tiếng chỉ ra rằng biên độ phổ trong thời gian ngắn có ảnh hưởng nói. Lý do là vì tiếng nói có rất nhiều thành phần biên độ thấp mạnh đến chất lượng và tính dễ nghe của tiếng nói. Bởi vậy, nhưng mà các thành phần này đống vai trò quyết định chất một vài nhà nghiên cứu đã đề xuất các phương pháp optimal lượng và độ dễ nghe của tiếng nói. Do đó, Ephraim và Malah non-linear để cải thiện phổ từ phổ tín hiệu nhiễu. đã đề xuất một phương pháp có ý nghĩa hơn đó là việc dùng Log- MMSE [8]: a) Minimum Mean Sequare Error (MMSE) Ước lượng phổ biên độ MMSE(Minimum Mean Square Error)   e  E  log X k   log Xˆ k  2    (2.9) tối thiểu hóa sai số bình phương trung bình giữa biên độ thật và biên độ ước lượng: Khi đó, Xˆ k  exp E ln  X k YK    e  E  X  Xˆ  k 2 k  (2.1) (2.10) k  1  exp( t )  Xˆ k  exp  dt  Yk Trong đó, Xˆ k và X k là biên độ phổ ước lượng và phổ biên  k  1  2  k t   B. Các kỹ thuật ước lượng và cập nhật nhiễu độ thật của tín hiệu sạch tại tần số  k (chỉ số k dùng thay a) Voice Activity Detection (VAD)  k để đơn giản trong ký hiệu). Nhiễu sẽ được ước lượng lúc ban đầu bằng cách lấy trung bình biên độ phổ của tín hiệu bị nhiễu: 1 M 1  Xˆ k  E Xk Yk    Xk p( Xk Yk )d Xk    2 p( Xk ,xk Yk )dxkd Xk (2.2) Di ( )  Y ( )i 0 0 0 X k M i 0 (2.11) Sau đó chúng ta sẽ thực hiện so sánh biên độ phổ của nhiễu Với các hàm mật độ xác suất: được ước lượng với biên độ phổ của tín hiệu bị nhiễu: 1  1 2 (2.3) N(i)  0.9N(i 1)  0.1N(i) (2.12) p (Yk | X k ,  xk )  exp  Yk  X k e j xk   d ( k )  d ( k )  Nếu T 12dB [9] thì frame đó không phải là frame có tiếng Xk  X k 2  (2.4) p ( X k ,  xk )  exp   nói, khi đó ta có thể cập nhật lại nhiễu đã được ước lượng  x (k )   x (k )  Và áp dụng định lý Bayes ta có được ước lượng của phổ biên trước đó the công tức. VAD thực hiện tốt trong môi trường độ tiếng nói tăng cường: nhiễu ổn định nhưng không tốt trong môi trường thực tế do đó Xˆ k  E[ X k | Yk ] (2.5) bộ lục percentile được để xuất để khắc phục nhược điểm trên.  vk v v v  exp( k )[(1v  k )I0 ( k ) v  k I1 ( k )] Yk b) Percentile Filter 2 k 2 2 2 170 170
Hội HộiThảo Thảo Quốc Gia 2015 Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thôngvà và Công Công Nghệ Nghệ Thông Thông Tin (ECIT Tin (ECIT 2015)2015) Bộ lọc Percentile Filter [10] đã được đề xuất cho việc ước số của nó bởi các thuật toán xác định ngưỡng, những ngưỡng lượng phổ của nhiễu trong miền tần số. Thuật toán này sẽ sau khi ước lượng sẽ được dùng để nén các hệ số nhiễu của tất được thực hiện theo các bước sau: cả các kênh của Wavelet. Cuối cùng, tín hiệu đã xử lý sẽ được Step 1 : Tại mỗi frame λ, tính Y ( , k )2 của khung tiếng nói bị phục hồi bởi Wavelet Packet Recovery và nó có thể thực hiện như hình sau: nhiễu, hệ số làm mượt  (, k) , và phổ công suất đã dược làm trơn P(, k) . 2 P (  , k )   P (   1, k )  (1   ) Y ( , k ) (2.13) Trong đó:  ( , k )   max . c ( ) 1  P(  1, k ) / ˆ d2 (  1, k )  1 2 1  c ( )  2 M 1 M 1  1    P (   1, k ) /  Y (  , k )  1  2  k 0 k 0  (2.14) ˆ d2 (  1, k ) là ước lượng nhiễu tại khung   1 Hình 3.1: Sơ đồ thuật toán của PSWF Step 2: Ước lượng nhiễu bằng Percentile Filter: B. Các thuật toán xác định ngưỡng Gọi Ds (i ) là giá trị tại mỗi vị trí trong Nf frames lưu trữ bởi Hai phương pháp phổ biến sử dụng ngương wavelet là ngưỡng bộ đêm b. Trong khi đó i chỉ số chạy của các khung λ liên tiếp cứng và ngưỡng mềm. Ngưỡng mềm sẽ nén các hệ số. có được trong bộ nhớ đệm b. Thực hiện ước lượng percentile a) Thuật toán xác định ngưỡng cứng Thuật toán ngưỡng cứng thực hiện như biểu thức sau: mức nhiễu như sau: - Sắp xếp Ds (i ) theo thứ tự tăng dần qua toàn bộ đệm (3.1) thứ b để có Ds (i ') with i’= [1, 2, 3… N f ]. b) Thuật toán xác định ngưỡng mềm Thuật toán ngưỡng mềm được định nghĩa như sau: Xác định mức ngưỡng thích nghi Tq ( b ) (i ) bằng cách lấy phần trăm q (b)th theo công thức: Tq (b ) (i)  Ds (i ') | i '   q(b) N f  q(b) được lựa chọn sao cho thích nghi với mỗi bộ đệm để đạt (3.2) được mức ước lượng tốt nhất. Tiếp theo q(b) được định nghĩa: C. Giảm nhiễu thích nghi theo µ - Law q(b)  i ' If Ds (i ')  Ds (i ' 4)   (2.15) Một thuật toán khác nhằm giảm nhiễu dựa trên Wavelet và nó Hệ số q=0.35 được chọn sau khi thực hiện các bước như trên. được biết như một sự cải thiện của thuật toán ngưỡng cứng Giả sử rằng nhiễu không thay đổi nhanh bằng tiếng nói theo như hình 3.2 theo µ-law. Qui luật của việc nén là được thể thời gian, mức ngưỡng của nhiễu ước lượng theo phần trăm được làm phẳng bằng cách áp dụng mô hình hồi qui bậc 1 với hiện bởi hàm posteriori  k ,i như sau: hệ số α là 0.96: 1 , if  k ,i  1   Tq ( b ) (i )   Tq ( b 1) (i  1)  (1   )Tq ( b ) (i ) (2.16) H k ,i   (1   k ,i ) k , i  1 sgn Yk ,i ( p ) , if  k ,i  1   k ,i  k , i (3.3) III. GIẢM NHIỄU DỰA VÀO PHẦN TÍCH GÓI WAVELET Trong đó: A. Phương pháp dùng bộ lọc wavelet thống kê có tính cảm quan  Y k , i ( p) và áp dụng tham số  k , i được định  k, i  Phương pháp này được đề xuất dựa trên việc phân tích tín hiệu k , i nhiễu của Wavelet Packet Decomposition khi đó các mức nhiễu sẽ được ước ượng từ mỗi gói wavelet tương đông với hệ nghĩa bởi [2]: 171 171
HộiHội Thảo Quốc Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông vàCông Thông và CôngNghệ Nghệ Thông Thông TinTin (ECIT (ECIT 2015) 2015)  ~  max| Y ( p ) | A. Kết quả đánh giá khách quan   k ,i  p k ,i (3.4)  k ,i  exp  ~  ~  max{  k ,i }   k ,i  i  Trong đó, Hàm mũ exp tự thích nghi với chính nó bởi nhiễu ~ được làm trơn và chuẩn hóa  k ,i với hằng số độ dốc  5.8. Hình 4.1: Các thuậ toán nén nhiễu được đánh giá bởi PESQ với môi trường nhiễu BABBLE Trong hình 4.1, kết quả của phương pháp PESQ đã cho thấy rằng các thuật toán trong miền tần số có kết quả tốt hơn các thuật toán trong miền wavelet. Kết quả này thật sự ấn tượng với thuật toán NSS-PF. Trong miền wavelet thì thuật toán Shrinking – UT – PF có một kết quả cũng tốt và nó cũng cho thấy hiệu quả hơn các thuật toán khác trong miền wavelet. SoftTh – PF đã có một kết quả không như mong đợi khi nó được dùng để xử lý nhiễu trong môi trường nhiễu BABBLE. B. Kết quả đánh giá chủ quan Hình 3.2: Đặc tuyên hàm nén nhiễu trong miền wavelet. IV. KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ Các thuật toán trong miền wavelet và các thuật toán đã được cải thiện trong miền tần số là được sử dụng để xử lý các tín hiệu nhiễu, các tín hiệu nhiễu này cung được xây dựng trên cơ sở dữ theo tiêu chuẩn IEEE. Những mẫu tín hiệu tiếng nói này sẽ được cộng vào các loại nhiễu khác nhau như CAR, BABBLE, WHITE, STREET và TRAIN. Hơn nữa, nhiều mức nhiễu khác nhau sẽ cho ra kết quả chính xác hơn. Những kết Với biểu đồ hình 4.2, chúng ta có thể thấy rằng kết quả sau khi quả này sẽ được đánh giá thông qua các phương pháp đánh giá chúng ta thực hiện khảo sát để hoàn thành việc đánh giá chủ khách quan là PESQ và SegSNR, bởi vì những phương pháp quan. Chúng ta có thể có một cái nhìn tổng quát hơn khi nhìn này có độ ổn định và tin cậy cao [11] nên được IEEE khuyến vào biểu đồ này, kết quả chỉ ra rằng thuật toán Shrinking – UT cáo nên sử dụng để đánh giá các tín hiệu đã tăng cường. Hình – PF 4.2: làm Biểu việc rất đồ tốtso vàsánh khảquả đạt kết năng tốtxử khilýthuật nhiễutoán các này thuật toán được Những tín hiệu đã được tăng cường cũng được sử dụng đẻ hỗ dùng để xử lý tín hiệuvới mức tại nhiễu SNRcác– môi 5dB trường nhiễu khác trợ cho việc đánh giá chủ quan với phương pháp Mean nhau mà chúng ta đang xét, đặc biệt là xử lý tốt với loại nhiễu Opinion Score (MOS). WHITE. Nếu chúng ta so sánh kết quả đánh giá giữa đánh giá khách quan và đánh giá chủ quan, chúng ta sẽ thấy chúng gần như có cùng kết quả ví dụ như kết quả của Shrinking – UT – PF đạt được kết quả cao với tín hiệu nhiễu do BABBLE. 172 172
HộiHội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) C. So sánh kết quả đánh giá khách quan và chủ quan câu thoại đã được cộng nhiễu ban đầu. Sau đó tiến hành tính giá trị trung bình các chỉ số trên cơ sở 30 câu ứng với 4 mức SNR trong 5 môi trường nhiễu, bởi vậy chúng tôi có thể nói rằng kết quả kiểm tra của chúng tôi được đảm bảo. Những thuật toán cũng được phân tích và so sánh hiệu suất của việc xử lý trực tiếp bởi các phương pháp đánh giá khách quan như: IS, CEP, LLR, WSS, PESQ và SNRseg. Sự đánh giá đã cho thấy rằng các thuậ toán trong miền tần số như MMSE-PF cho chúng ta kết quả hay hiệu suất xử lý tốt với sự giảm nhiễu lớn nhất và trong miền Wavelet là thuật toán Shrinking – UT –PF cho chúng ta thấy được kết quả tốt hơn những thuật toán khác, đặc biệt là khi thuật toán này được dùng để xử lý nhiễu WHITE. Hơn nữa, thuật toán này còn nén tốt hơn, ít tác động xấu đến tín hiệu như gây méo tín hiệu và đảm bảo được tính dễ nghe của tín hiệu sau khi xử lý. Trong tương lai chúng tôi vẫn muốn nghiên cứu sâu hơn để cải thiện hơn giải pháp này cho việc tối ưu hơn nữa khả năng nén nhiễu trong miền wavelet và tiếp tục so sánh với các thuật toán trong miền tần số để đánh giá hiệu quả của việc nâng cao tín hiệu cho người nghe. Chúng tôi cũng đã thực hiện việc đánh giá chủ quan và kết quả mà chúng tôi đạt được từ sự đánh giá này giúp cho chúng tôi tin rằng những phương pháp đánh giá khách quan như PESQ, SegSNR là đáng tin cậy bởi vậy chúng tôi hoàn toàn tin tưởng những phương pháp này khi sử dụng đánh giá trong thí nghiệm. LỜI CÁM ƠN Chúng tôi muốn gửi lời cám ơn đặc biệt đến PGS.TS Phạm Văn Tuấn và ThS. Võ Thị Diệu Hanh. Nghiên cứu này đã cho thấy những thách thức và khó khan khi thực hiện. Tất cả Hình 4.3: Biểu đồ so sánh khả năng xử lý nhiễu và sự chúng tôi thật sự không thể hoàn thành nghiên cứu này nếu tương đồng của 2 phương pháp đánh giá tại SNR – 5dB không có sự giúp đỡ của họ. Thông qua việc quan sát hình ảnh ở trên tại mức 5dB và so TÀI LIỆU THAM KHẢO sánh với biểu đồ phía dưới chúng ta có thể nhận ra được sự tương đồng giữa đánh giá khách quan và đánh giá chủ quan. [1] Suman, M. ; K.L. Univ., Guntur, India ; Khan, Đặc biệt, hình ảnh ở trên cho thấy các thuật toán trong miền H. ; Latha, M.M. ; Kumari, D.A. “Performance analysis tần số như LogMMSE-PF và NSS-PF đã đạt được kết quả xử lý tốt với nhiễu BABBLE, những thanh Error bar ở dưới của of enhanced noisy compressed speech signal corrupted những thuật toán này là khá tương đồng và trong biểu đồ phía by Gaussian and real world noise using recursive dưới chúng ta cũng thấy được kết quả tương tự. Thuật toán Shrinking – UT – PF (Optimal Shrinking) trong biểu đồ phía filter”,IEEE, p 340-348, Jan 2015. dưới cho chúng ta thấy kết quả lớn nhất nhưng nó lại có sự [2] Tasmaz, H.; Elektrik-Elektron. Muhendisligi Bolumu, chênh lệch lớn bởi vậy kết quả này sẽ ít sự chính xác nhưng cũng gần với kết quả đánh giá chủ quan. Adiyaman Univ. Muhendislik Fak., Adyaman, Turkey, V. KẾT LUẬN “Dual tree complex wavelet transform based speech Với bài báo này, chúng tôi đã trình bày kết quả và đề xuất giải enhancement”, IEEE, p 823 – 826, May 2015. pháp mới để cải thiện chất lượng tiếng nói dựa vào các [3] Schasse, A.; Inst. of Commun. Acoust, Ruhr-Univ. phương pháp ước lượng và giảm nhiễu phi tuyến tối ưu cả trong miền tần số và miền wavelet. Nội dung của sự nghiên Bochum, Bochum, Germany; Martin, R., “Estimation cứu này được tập trung vào việc nén nhiễu trong miền wavelet of Subband Speech Correlations for Noise Reduction với ngưỡng mềm and ngưỡng cứng. Bên cạnh đó, những thuật toán ước lượng như Percentile Filter được tích hợp vào bên via MVDR Processing”, IEEE, p 1355 – 1365, July trong các hàm nén nhiễu để phát triển các thuật toán như: 2014. NSS_PF, LogMMSE-PF, MMSE-PF, HardThr-PF, SoftThr- PF and Shrinking-UT-PF. Bằng việc dùng một cơ sở dữ liệu [4] Yong Zhang; ShenZhen Key Lab. of Intell. Media & lớn gồm 3600 câu thoại đã được xử lý giảm nhiễu so với 600 Speech, Peking Univ. ShenZhen Res. Inst., Shenzhen, 173 173
HộiHội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) China ; Yi Liu, “A novel perceptual distortion [10] Pham T.V., Gernot Kubin, Erhard Rank, "Robust minimization speech enhancement algorithm”, IEEE, p Speech Recognition Using Adaptive Noise Threshold 1- 6, July 2014. Estimation and Wavelet Shrinkage", Proc. IEEE ICCE, [5] Kirubagari, B.; Dept. of Comput. Sci. & Eng., Hoi an, Vietnam, p 04-06, Feb 2008. Annamalai Univ., Annamalai Nagar, India ; Palanivel, [11] Hu Y. and Loizou P.C., “Evaluation of Objective S. ; Subathra, N., “Speech enhancement using Quality Measures for Speech Enhancement”, IEEE, p minimum mean square error filter and spectral 229 -238, Jan 2008. subtraction filter”, IEEE, p 1 – 7, Feb 2014. [12] Cohen I., “Speech enhancement using a noncausal a [6] McCallum, M.; Dept. of Electr. & Comput. Eng., Univ. Priori SNR estimator”, IEEE Signal Processing Letters, of Auckland, Auckland, New Zealand; Guillemin, B. vol. 11, no.9, pp 725-728, Sept 2004. “Stochastic-Deterministic MMSE STFT Speech [13] Singh, S.; Dept. of Electr. Eng., Indian Inst. of Technol. Enhancement with General A Priori Information”, Roorkee, Roorkee, India; Tripathy, M. ; Anand, R.S., IEEE, p 1445 – 1457, July 2013. “A fuzzy mask based on wavelet packet for improving [7] Jain, B.; Poornima Coll. of Eng., Sitapura, speech quality and intelligibility”, IEEE, p 1 – 4, Feb India; Bansal, A.K., “Robust hybrid adaptive 2014. perceptual wavelet packet threshold to enhance speech [14] Pham T.V., Gernot Kubin, "WPD-based Noise in adverse noisy environment”, IEEE, p 1 – 6, May Suppression Using Nonlinearly Weighted Threshold 2014. Quantile Estimation and Optimal Wavelet Shrinking", [8] Bensty J., Jingdong Chen and Yiteng Arden Huang, Proc. Interspeech, Lisboa, Portugal, p 4-8, Sep 2005. ‘Noise Reduction Algorithms in a Generalizaed [15] Zhang Jie; Coll. of Electron. & Inf. Eng., Tongji Univ., Transform Domain”, IEEE Transaction on Audio, Shanghai, China ; Xiaoqun Zhao ; Jingyun Xu ; Zhang Speech, and Language Processing, vol.17, No.6, 2009. Yang, “Suitability of speech quality evaluation [9] Steven F.Boll,“Suppression of Acoustic Noise in measures in speech enhancement”, IEEE, p 22-26, July Speech Using Spectral Subtraction”,IEEE, p 113 – 120, 2014. Jan 2003 174 174

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học