Xem mẫu
- HộiHội Thảo
Thảo QuốcGia
Quốc Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
vàCông
CôngNghệ
NghệThông TinTin
Thông (ECIT 2015)
(ECIT 2015)
Nâng Cao Tín Hiệu Tiếng Nói Bằng Giảm Nhiễu Phi
Tuyến Dựa Vào Miền Wavelet
Tuan V. Tran Tuan V. Pham
Faculty of Electronic and Telecommunication Faculty of Electronic and Telecommunication
Danang University of Science and Technology Center of Excellence
Da Nang, Viet Nam Danang University of Science and Technology
tuantran.kl@engineer.com Da Nang, Viet Nam
pvtuan@dut.udn.vn
Tóm tắt— Trong bài báo này, các thuật toán nâng cao tiếng bày một thuật toán sẽ giúp tối thiểu hóa việc méo tiếng nói bị
nói được đề xuất bởi việc dùng biến đổi các gói wavelet để gây bởi nhiễu dư được đề cập trong [4]. Trong khi đó,
tang khả năng phân tích tín hiệu. Trong khi đó, phương Kirubagari vaf Subathra là dùng sự kết hợp của phương pháp
pháp lọc thống kê cảm quan dựa trên wavelet cũng được tối thiểu hóa sai số bình phương và bộ lọc trừ để nâng cao chất
khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn lượng tiếng nói đề cập trong [5]. Phương pháp biến đổi
và thuật toán nén tối toán được áp dụng để nén nhiễu. Các Wavelet Dual tree complex được đề xuất bởi Tasmaz trong bài
phương pháp đánh giá khách quan dùng PESQ và báo [6]. Một kỹ thuật khác dựa trên Wavlet là Robust hybrid
SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề adaptive perceptual wavelet packet threshold được đề xuất bởi
xuất đạt được những kết quả tốt về chất lượng khi so sánh Jain B và được đề cập trong [7].
với các thuật toán khác trong miền tần số. Bên cạnh đó, Trong bài báo này, một thuật toán được đề xuất dựa vào việc
việc đánh giá chủ quan được thực hiện bằng việc dùng sử dụng phân tích gói wavelet để hỗ trợ cho quá trình phân
Mean Opinion Score (MOS) và kết quả đạt được từ việc tích tín hiệu, các thuật toán ước lượng nhiễu cũng sẽ được sử
kiểm tra này không những cho thấy có cùng kết luận với dụng để xác định các ngưỡng tốt hơn và cuối cùng các thuật
phương pháp đánh giá khách quan và còn khẳng định toán giảm nhiễu là được dùng để hoàn thành hệ thống nâng
trong việc tin tưởng hơn vào độ chính xác của các phương cao tín hiệu tiếng nói. Sơ đồ của thuật toán đã đề xuất là được
pháp đánh giá khách quan. mô tả trong hình 1.1 phía dưới:
Từ khóa—Wavelet Packet, Percentile Filter, Voice Activity
Detection , Wavelet thresholding, Wavelet Shrinking.
I. GIỚI THIỆU
Vẫn đề xử lý tiếng nói khi bị anh hưởng bởi nhiều loại nhiễu
vẫn còn là một thách thức lớn và các thuật toán nâng cao tiếng
nói vẫn đang được phát triển và nghiên cứu để hỗ trợ tốt hơn
cho các ứng dụng như nhận dạng tiếng nói, nhận dạng người
nói. Tại bài báo này, thuật toán nâng cao tiếng nói dựa vào
việc phân tích các gói wavelet và kết hợp với các kỹ thuật để
đạt được các ngưỡng nhiễu tốt hơn là được đề xuất để giảm
nhiễu trong tiếng nói.
Có nhiều phương pháp đã được tiếp cận để thực hiện việc
giảm nhiễu cho việc nâng cao tiếng nói như: Thực hiện việc
phân tích tín hiệu nhiễu và nén nhiễu bị ảnh hưởng bởi nhiễu
Gaussian và nhiễu trong thực tế dùng bộ lọc hồi qui được đề
suất bởi Suman M và Khan H trong [1]; một kỹ thuật khác mà
McCallum M và Guillemin B muốn giới thiệu trong bài báo sô
[2] thuật toán Bayesian STSA đã dùng một mô hình tiếng nói
a stochastic – deterministic để làm một sự tiên đoán trước các
thông tin bằng việc xem xét non-zero mean. Việc ước tiếng
nói tại các băng con tương đồng với sự giảm nhiễu thông qua
việc xử lý MVDR là một kỹ thuật khác được Schasse A và
Hình 1.1: Sơ đồ thuật toán
Martin R đề xuất trong [3]. Yong Zhang, Yi Liu cũng đã trình
169
ISBN: 978-604-67-0635-9 169
- HộiHội Thảo
Thảo QuốcGia
Quốc Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
vàCông
CôngNghệ
NghệThông TinTin
Thông (ECIT 2015)
(ECIT 2015)
Bài báo này được chia thành năm phần. Phân II sẽ nói về các Trong đó, I0(.) và I1(.) là ký hiệu cho các hàm Bessel bậc 0 và
thuật toán giảm nhiễu trong miền tần số và việc cập nhật
nhiễu. Các thuật toán trong miền wavelet được giới thiệu trong 1 và k được định nghĩa như sau :
phần III. Kế tiếp, phần bốn sẽ cho chúng ta thấy các kết quả
của thí nghiệm. Kết luận và các hướng nghiên cứu trong tương k
lai được thể hiện ở phần V. vk k (2.6)
1 k
II. GIẢM NHIỄU TRONG MIỀN TẦN SỐ
Chủ đề nghiên cứu trong bài báo này là về nhiễu cộng. Khi
Với k và k được định nghĩa như a priori SNR và a
nhìn vào hình 2.1, nhiễu trong tín hiệu tiếng nói y (n) nhận từ posteriori SNR:
microphone được tạo ra từ tín hiệu sạch x (n) đã được cộng
với nhiễu nền d (n):
k
x (k ) E X ( k )
2
(2.7)
d (k ) E D( k ) 2
2 2
Yk Yk
k
d (k )
E D( k )
2
(2.8)
Hình 2.1: Mô hình nhiễu cộng b) Log-MMSE
A. MMSE and Log-MMSE MMSE sẽ dàng thực hiện theo toán hoc nhưng nó không mang
Kết quả được đề xuất trong [2] là một trong nhiều nghiên cứu đến chúng ta ý nghĩa về việc cải thiện chất lượng của tiếng
chỉ ra rằng biên độ phổ trong thời gian ngắn có ảnh hưởng nói. Lý do là vì tiếng nói có rất nhiều thành phần biên độ thấp
mạnh đến chất lượng và tính dễ nghe của tiếng nói. Bởi vậy, nhưng mà các thành phần này đống vai trò quyết định chất
một vài nhà nghiên cứu đã đề xuất các phương pháp optimal lượng và độ dễ nghe của tiếng nói. Do đó, Ephraim và Malah
non-linear để cải thiện phổ từ phổ tín hiệu nhiễu. đã đề xuất một phương pháp có ý nghĩa hơn đó là việc dùng
Log- MMSE [8]:
a) Minimum Mean Sequare Error (MMSE)
Ước lượng phổ biên độ MMSE(Minimum Mean Square Error)
e E log X k log Xˆ k
2
(2.9)
tối thiểu hóa sai số bình phương trung bình giữa biên độ thật
và biên độ ước lượng: Khi đó,
Xˆ k exp E ln X k YK
e E X Xˆ
k
2
k (2.1) (2.10)
k 1 exp( t )
Xˆ k exp dt Yk
Trong đó, Xˆ k và X k là biên độ phổ ước lượng và phổ biên k 1 2 k t
B. Các kỹ thuật ước lượng và cập nhật nhiễu
độ thật của tín hiệu sạch tại tần số k (chỉ số k dùng thay
a) Voice Activity Detection (VAD)
k để đơn giản trong ký hiệu). Nhiễu sẽ được ước lượng lúc ban đầu bằng cách lấy trung bình
biên độ phổ của tín hiệu bị nhiễu:
1 M 1
Xˆ k E Xk Yk Xk p( Xk Yk )d Xk
2
p( Xk ,xk Yk )dxkd Xk (2.2)
Di ( ) Y ( )i
0 0 0
X k
M i 0 (2.11)
Sau đó chúng ta sẽ thực hiện so sánh biên độ phổ của nhiễu
Với các hàm mật độ xác suất: được ước lượng với biên độ phổ của tín hiệu bị nhiễu:
1 1 2 (2.3) N(i) 0.9N(i 1) 0.1N(i) (2.12)
p (Yk | X k , xk ) exp Yk X k e j xk
d ( k ) d ( k )
Nếu T 12dB [9] thì frame đó không phải là frame có tiếng
Xk X k 2 (2.4)
p ( X k , xk ) exp nói, khi đó ta có thể cập nhật lại nhiễu đã được ước lượng
x (k ) x (k )
Và áp dụng định lý Bayes ta có được ước lượng của phổ biên trước đó the công tức. VAD thực hiện tốt trong môi trường
độ tiếng nói tăng cường: nhiễu ổn định nhưng không tốt trong môi trường thực tế do đó
Xˆ k E[ X k | Yk ]
(2.5) bộ lục percentile được để xuất để khắc phục nhược điểm trên.
vk v v v
exp( k )[(1v
k )I0 ( k ) v
k I1 ( k )] Yk b) Percentile Filter
2 k 2 2 2
170
170
- Hội
HộiThảo
Thảo Quốc Gia 2015
Quốc Gia 2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thôngvà và Công
Công Nghệ
Nghệ Thông
Thông Tin (ECIT
Tin (ECIT 2015)2015)
Bộ lọc Percentile Filter [10] đã được đề xuất cho việc ước số của nó bởi các thuật toán xác định ngưỡng, những ngưỡng
lượng phổ của nhiễu trong miền tần số. Thuật toán này sẽ sau khi ước lượng sẽ được dùng để nén các hệ số nhiễu của tất
được thực hiện theo các bước sau: cả các kênh của Wavelet. Cuối cùng, tín hiệu đã xử lý sẽ được
Step 1 : Tại mỗi frame λ, tính Y ( , k )2 của khung tiếng nói bị phục hồi bởi Wavelet Packet Recovery và nó có thể thực hiện
như hình sau:
nhiễu, hệ số làm mượt (, k) , và phổ công suất đã dược làm
trơn P(, k) .
2
P ( , k ) P ( 1, k ) (1 ) Y ( , k )
(2.13)
Trong đó: ( , k ) max . c ( )
1 P( 1, k ) / ˆ d2 ( 1, k ) 1
2
1
c ( ) 2
M 1 M 1
1 P ( 1, k ) / Y ( , k ) 1
2
k 0 k 0 (2.14)
ˆ d2 ( 1, k ) là ước lượng nhiễu tại khung 1
Hình 3.1: Sơ đồ thuật toán của PSWF
Step 2: Ước lượng nhiễu bằng Percentile Filter:
B. Các thuật toán xác định ngưỡng
Gọi Ds (i ) là giá trị tại mỗi vị trí trong Nf frames lưu trữ bởi
Hai phương pháp phổ biến sử dụng ngương wavelet là ngưỡng
bộ đêm b. Trong khi đó i chỉ số chạy của các khung λ liên tiếp cứng và ngưỡng mềm. Ngưỡng mềm sẽ nén các hệ số.
có được trong bộ nhớ đệm b. Thực hiện ước lượng percentile a) Thuật toán xác định ngưỡng cứng
Thuật toán ngưỡng cứng thực hiện như biểu thức sau:
mức nhiễu như sau:
- Sắp xếp Ds (i ) theo thứ tự tăng dần qua toàn bộ đệm
(3.1)
thứ b để có Ds (i ') with i’= [1, 2, 3… N f ]. b) Thuật toán xác định ngưỡng mềm
Thuật toán ngưỡng mềm được định nghĩa như sau:
Xác định mức ngưỡng thích nghi Tq ( b ) (i ) bằng cách lấy phần
trăm q (b)th theo công thức: Tq (b ) (i) Ds (i ') | i ' q(b) N f
q(b) được lựa chọn sao cho thích nghi với mỗi bộ đệm để đạt (3.2)
được mức ước lượng tốt nhất. Tiếp theo q(b) được định nghĩa:
C. Giảm nhiễu thích nghi theo µ - Law
q(b) i ' If Ds (i ') Ds (i ' 4) (2.15)
Một thuật toán khác nhằm giảm nhiễu dựa trên Wavelet và nó
Hệ số q=0.35 được chọn sau khi thực hiện các bước như trên.
được biết như một sự cải thiện của thuật toán ngưỡng cứng
Giả sử rằng nhiễu không thay đổi nhanh bằng tiếng nói theo
như hình 3.2 theo µ-law. Qui luật của việc nén là được thể
thời gian, mức ngưỡng của nhiễu ước lượng theo phần trăm
được làm phẳng bằng cách áp dụng mô hình hồi qui bậc 1 với hiện bởi hàm posteriori k ,i như sau:
hệ số α là 0.96: 1 , if k ,i 1
Tq ( b ) (i ) Tq ( b 1) (i 1) (1 )Tq ( b ) (i ) (2.16) H k ,i (1 k ,i ) k , i 1
sgn Yk ,i ( p ) , if k ,i 1
k ,i k , i
(3.3)
III. GIẢM NHIỄU DỰA VÀO PHẦN TÍCH GÓI WAVELET
Trong đó:
A. Phương pháp dùng bộ lọc wavelet thống kê có tính cảm
quan Y k , i ( p) và áp dụng tham số k , i được định
k, i
Phương pháp này được đề xuất dựa trên việc phân tích tín hiệu k , i
nhiễu của Wavelet Packet Decomposition khi đó các mức
nhiễu sẽ được ước ượng từ mỗi gói wavelet tương đông với hệ nghĩa bởi [2]:
171
171
- HộiHội
Thảo Quốc
Thảo QuốcGia
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông vàCông
Thông và CôngNghệ
Nghệ Thông
Thông TinTin (ECIT
(ECIT 2015)
2015)
~ max| Y ( p ) | A. Kết quả đánh giá khách quan
k ,i p k ,i (3.4)
k ,i exp ~ ~
max{ k ,i } k ,i
i
Trong đó, Hàm mũ exp tự thích nghi với chính nó bởi nhiễu
~
được làm trơn và chuẩn hóa k ,i với hằng số độ dốc 5.8.
Hình 4.1: Các thuậ toán nén nhiễu được đánh giá bởi PESQ
với môi trường nhiễu BABBLE
Trong hình 4.1, kết quả của phương pháp PESQ đã cho thấy
rằng các thuật toán trong miền tần số có kết quả tốt hơn các
thuật toán trong miền wavelet. Kết quả này thật sự ấn tượng
với thuật toán NSS-PF. Trong miền wavelet thì thuật toán
Shrinking – UT – PF có một kết quả cũng tốt và nó cũng cho
thấy hiệu quả hơn các thuật toán khác trong miền wavelet.
SoftTh – PF đã có một kết quả không như mong đợi khi nó
được dùng để xử lý nhiễu trong môi trường nhiễu BABBLE.
B. Kết quả đánh giá chủ quan
Hình 3.2: Đặc tuyên hàm nén nhiễu trong
miền wavelet.
IV. KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ
Các thuật toán trong miền wavelet và các thuật toán đã được
cải thiện trong miền tần số là được sử dụng để xử lý các tín
hiệu nhiễu, các tín hiệu nhiễu này cung được xây dựng trên cơ
sở dữ theo tiêu chuẩn IEEE. Những mẫu tín hiệu tiếng nói này
sẽ được cộng vào các loại nhiễu khác nhau như CAR,
BABBLE, WHITE, STREET và TRAIN. Hơn nữa, nhiều mức
nhiễu khác nhau sẽ cho ra kết quả chính xác hơn. Những kết Với biểu đồ hình 4.2, chúng ta có thể thấy rằng kết quả sau khi
quả này sẽ được đánh giá thông qua các phương pháp đánh giá chúng ta thực hiện khảo sát để hoàn thành việc đánh giá chủ
khách quan là PESQ và SegSNR, bởi vì những phương pháp quan. Chúng ta có thể có một cái nhìn tổng quát hơn khi nhìn
này có độ ổn định và tin cậy cao [11] nên được IEEE khuyến vào biểu đồ này, kết quả chỉ ra rằng thuật toán Shrinking – UT
cáo nên sử dụng để đánh giá các tín hiệu đã tăng cường. Hình
– PF 4.2:
làm Biểu
việc rất đồ
tốtso
vàsánh khảquả
đạt kết năng
tốtxử
khilýthuật
nhiễutoán
các này
thuật toán
được
Những tín hiệu đã được tăng cường cũng được sử dụng đẻ hỗ dùng để xử lý tín hiệuvới mức tại
nhiễu SNRcác– môi
5dB trường nhiễu khác
trợ cho việc đánh giá chủ quan với phương pháp Mean nhau mà chúng ta đang xét, đặc biệt là xử lý tốt với loại nhiễu
Opinion Score (MOS). WHITE. Nếu chúng ta so sánh kết quả đánh giá giữa đánh giá
khách quan và đánh giá chủ quan, chúng ta sẽ thấy chúng gần
như có cùng kết quả ví dụ như kết quả của Shrinking – UT –
PF đạt được kết quả cao với tín hiệu nhiễu do BABBLE.
172
172
- HộiHội
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
C. So sánh kết quả đánh giá khách quan và chủ quan câu thoại đã được cộng nhiễu ban đầu. Sau đó tiến hành tính
giá trị trung bình các chỉ số trên cơ sở 30 câu ứng với 4 mức
SNR trong 5 môi trường nhiễu, bởi vậy chúng tôi có thể nói
rằng kết quả kiểm tra của chúng tôi được đảm bảo. Những
thuật toán cũng được phân tích và so sánh hiệu suất của việc
xử lý trực tiếp bởi các phương pháp đánh giá khách quan như:
IS, CEP, LLR, WSS, PESQ và SNRseg. Sự đánh giá đã cho
thấy rằng các thuậ toán trong miền tần số như MMSE-PF cho
chúng ta kết quả hay hiệu suất xử lý tốt với sự giảm nhiễu lớn
nhất và trong miền Wavelet là thuật toán Shrinking – UT –PF
cho chúng ta thấy được kết quả tốt hơn những thuật toán khác,
đặc biệt là khi thuật toán này được dùng để xử lý nhiễu
WHITE. Hơn nữa, thuật toán này còn nén tốt hơn, ít tác động
xấu đến tín hiệu như gây méo tín hiệu và đảm bảo được tính
dễ nghe của tín hiệu sau khi xử lý. Trong tương lai chúng tôi
vẫn muốn nghiên cứu sâu hơn để cải thiện hơn giải pháp này
cho việc tối ưu hơn nữa khả năng nén nhiễu trong miền
wavelet và tiếp tục so sánh với các thuật toán trong miền tần
số để đánh giá hiệu quả của việc nâng cao tín hiệu cho người
nghe. Chúng tôi cũng đã thực hiện việc đánh giá chủ quan và
kết quả mà chúng tôi đạt được từ sự đánh giá này giúp cho
chúng tôi tin rằng những phương pháp đánh giá khách quan
như PESQ, SegSNR là đáng tin cậy bởi vậy chúng tôi hoàn
toàn tin tưởng những phương pháp này khi sử dụng đánh giá
trong thí nghiệm.
LỜI CÁM ƠN
Chúng tôi muốn gửi lời cám ơn đặc biệt đến PGS.TS Phạm
Văn Tuấn và ThS. Võ Thị Diệu Hanh. Nghiên cứu này đã cho
thấy những thách thức và khó khan khi thực hiện. Tất cả
Hình 4.3: Biểu đồ so sánh khả năng xử lý nhiễu và sự chúng tôi thật sự không thể hoàn thành nghiên cứu này nếu
tương đồng của 2 phương pháp đánh giá tại SNR – 5dB không có sự giúp đỡ của họ.
Thông qua việc quan sát hình ảnh ở trên tại mức 5dB và so
TÀI LIỆU THAM KHẢO
sánh với biểu đồ phía dưới chúng ta có thể nhận ra được sự
tương đồng giữa đánh giá khách quan và đánh giá chủ quan. [1] Suman, M. ; K.L. Univ., Guntur, India ; Khan,
Đặc biệt, hình ảnh ở trên cho thấy các thuật toán trong miền H. ; Latha, M.M. ; Kumari, D.A. “Performance analysis
tần số như LogMMSE-PF và NSS-PF đã đạt được kết quả xử
lý tốt với nhiễu BABBLE, những thanh Error bar ở dưới của of enhanced noisy compressed speech signal corrupted
những thuật toán này là khá tương đồng và trong biểu đồ phía by Gaussian and real world noise using recursive
dưới chúng ta cũng thấy được kết quả tương tự. Thuật toán
Shrinking – UT – PF (Optimal Shrinking) trong biểu đồ phía filter”,IEEE, p 340-348, Jan 2015.
dưới cho chúng ta thấy kết quả lớn nhất nhưng nó lại có sự [2] Tasmaz, H.; Elektrik-Elektron. Muhendisligi Bolumu,
chênh lệch lớn bởi vậy kết quả này sẽ ít sự chính xác nhưng
cũng gần với kết quả đánh giá chủ quan. Adiyaman Univ. Muhendislik Fak., Adyaman, Turkey,
V. KẾT LUẬN “Dual tree complex wavelet transform based speech
Với bài báo này, chúng tôi đã trình bày kết quả và đề xuất giải enhancement”, IEEE, p 823 – 826, May 2015.
pháp mới để cải thiện chất lượng tiếng nói dựa vào các [3] Schasse, A.; Inst. of Commun. Acoust, Ruhr-Univ.
phương pháp ước lượng và giảm nhiễu phi tuyến tối ưu cả
trong miền tần số và miền wavelet. Nội dung của sự nghiên Bochum, Bochum, Germany; Martin, R., “Estimation
cứu này được tập trung vào việc nén nhiễu trong miền wavelet of Subband Speech Correlations for Noise Reduction
với ngưỡng mềm and ngưỡng cứng. Bên cạnh đó, những thuật
toán ước lượng như Percentile Filter được tích hợp vào bên via MVDR Processing”, IEEE, p 1355 – 1365, July
trong các hàm nén nhiễu để phát triển các thuật toán như: 2014.
NSS_PF, LogMMSE-PF, MMSE-PF, HardThr-PF, SoftThr-
PF and Shrinking-UT-PF. Bằng việc dùng một cơ sở dữ liệu [4] Yong Zhang; ShenZhen Key Lab. of Intell. Media &
lớn gồm 3600 câu thoại đã được xử lý giảm nhiễu so với 600 Speech, Peking Univ. ShenZhen Res. Inst., Shenzhen,
173
173
- HộiHội
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
China ; Yi Liu, “A novel perceptual distortion [10] Pham T.V., Gernot Kubin, Erhard Rank, "Robust
minimization speech enhancement algorithm”, IEEE, p Speech Recognition Using Adaptive Noise Threshold
1- 6, July 2014. Estimation and Wavelet Shrinkage", Proc. IEEE ICCE,
[5] Kirubagari, B.; Dept. of Comput. Sci. & Eng., Hoi an, Vietnam, p 04-06, Feb 2008.
Annamalai Univ., Annamalai Nagar, India ; Palanivel, [11] Hu Y. and Loizou P.C., “Evaluation of Objective
S. ; Subathra, N., “Speech enhancement using Quality Measures for Speech Enhancement”, IEEE, p
minimum mean square error filter and spectral 229 -238, Jan 2008.
subtraction filter”, IEEE, p 1 – 7, Feb 2014. [12] Cohen I., “Speech enhancement using a noncausal a
[6] McCallum, M.; Dept. of Electr. & Comput. Eng., Univ. Priori SNR estimator”, IEEE Signal Processing Letters,
of Auckland, Auckland, New Zealand; Guillemin, B. vol. 11, no.9, pp 725-728, Sept 2004.
“Stochastic-Deterministic MMSE STFT Speech [13] Singh, S.; Dept. of Electr. Eng., Indian Inst. of Technol.
Enhancement with General A Priori Information”, Roorkee, Roorkee, India; Tripathy, M. ; Anand, R.S.,
IEEE, p 1445 – 1457, July 2013. “A fuzzy mask based on wavelet packet for improving
[7] Jain, B.; Poornima Coll. of Eng., Sitapura, speech quality and intelligibility”, IEEE, p 1 – 4, Feb
India; Bansal, A.K., “Robust hybrid adaptive 2014.
perceptual wavelet packet threshold to enhance speech [14] Pham T.V., Gernot Kubin, "WPD-based Noise
in adverse noisy environment”, IEEE, p 1 – 6, May Suppression Using Nonlinearly Weighted Threshold
2014. Quantile Estimation and Optimal Wavelet Shrinking",
[8] Bensty J., Jingdong Chen and Yiteng Arden Huang, Proc. Interspeech, Lisboa, Portugal, p 4-8, Sep 2005.
‘Noise Reduction Algorithms in a Generalizaed [15] Zhang Jie; Coll. of Electron. & Inf. Eng., Tongji Univ.,
Transform Domain”, IEEE Transaction on Audio, Shanghai, China ; Xiaoqun Zhao ; Jingyun Xu ; Zhang
Speech, and Language Processing, vol.17, No.6, 2009. Yang, “Suitability of speech quality evaluation
[9] Steven F.Boll,“Suppression of Acoustic Noise in measures in speech enhancement”, IEEE, p 22-26, July
Speech Using Spectral Subtraction”,IEEE, p 113 – 120, 2014.
Jan 2003
174
174
nguon tai.lieu . vn