- Trang Chủ
- Công nghệ thông tin
- Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp giảm nhiễu sử dụng bộ lọc kalman nhằm nâng cao chất lượng tiếng nói
Xem mẫu
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU
SỬ DỤNG BỘ LỌC KALMAN NHẰM NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI
Mã số: T2015-07-03
Chủ nhiệm đề tài: ThS. Dương Ngọc Pháp
Đà Nẵng, 12/2015
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU
SỬ DỤNG BỘ LỌC KALMAN NHẰM NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI
Mã số: T2015-07-03
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Đà Nẵng, 12/2015
- MỤC LỤC
MỤC LỤC
DANH MỤC HÌNH VẼ ..................................................................................................1
DANH MỤC BẢNG BIỂU ............................................................................................. 3
DANH MỤC TỪ VIẾT TẮT ..........................................................................................4
THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................6
MỞ ĐẦU .........................................................................................................................8
I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC ..........................................................................................8
1. NGOÀI NƯỚC .........................................................................................................8
2. TRONG NƯỚC.........................................................................................................8
II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ............................................................................8
III. MỤC TIÊU CỦA ĐỀ TÀI ........................................................................................8
IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU..........................................................9
1. ĐỐI TƯỢNG NGHIÊN CỨU .......................................................................................9
2. PHẠM VI NGHIÊN CỨU ...........................................................................................9
V. NỘI DUNG NGHIÊN CỨU .....................................................................................9
CHƯƠNG 1:TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI .............10
1.1. GIỚI THIỆU CHƯƠNG .....................................................................................10
1.2. NHIỄU ................................................................................................................10
1.3. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........................................................13
1.4. CÁC KỸ THUẬT GIẢM NHIỄU ......................................................................14
1.5. KẾT LUẬN CHƯƠNG ......................................................................................15
CHƯƠNG 2:THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN ..........16
2.1. GIỚI THIỆU CHƯƠNG .....................................................................................16
2.2. BỘ LỌC KALMAN............................................................................................ 16
2.2.1. Tổng quan về bộ lọc Kalman ....................................................................16
2.2.2. Mã hóa dự đoán tuyến tính ........................................................................17
2.2.3. Cấu trúc bộ lọc Kalman .............................................................................17
2.2.4. Ưu nhược điểm của bộ lọc Kalman ........................................................... 23
2.2.5. Bộ lọc Kalman mở rộng ............................................................................24
2.3. THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN ......................25
2.3.1. Sơ đồ khối hệ thống ...................................................................................25
2.3.2. Giảm nhiễu sử dụng bộ lọc Kalman ..........................................................27
2.3.3. Ước lượng hệ số mô hình ..........................................................................31
2.3.4. Ước lượng nhiễu ........................................................................................32
2.4. KẾT LUẬN CHƯƠNG ......................................................................................35
CHƯƠNG 3:CƠ SỞ DỮ LIỆU VÀ TIÊU CHÍ ĐÁNH GIÁ .......................................36
i
- MỤC LỤC
3.1. GIỚI THIỆU CHƯƠNG .....................................................................................36
3.2. CƠ SỞ DỮ LIỆU ................................................................................................ 36
3.3. CÁC TIÊU CHÍ ĐÁNH GIÁ ..............................................................................37
3.3.1. Phương pháp đánh giá chủ quan................................................................ 37
3.3.2. Phương pháp đánh giá khách quan ............................................................ 40
3.4. KẾT LUẬN CHƯƠNG ......................................................................................44
CHƯƠNG 4:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ .....................45
4.1. GIỚI THIỆU CHƯƠNG .....................................................................................45
4.2. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH ..........................................................45
4.2.1. Kết quả đánh giá theo phương pháp SegSNR ...........................................45
4.2.2. Kết quả đánh giá theo phương pháp LLR .................................................48
4.2.3. Đánh giá theo phương pháp cảm quan PESQ trên các môi trường nhiễu
khác nhau ...............................................................................................................51
4.2.4. Đánh giá hiệu quả giảm nhiễu trên các môi trường nhiễu khác nhau .......54
4.2.5. Kết quả đánh giá CEP-PESQ-WSS-SegSNR với các thuật toán giảm
nhiễu ...................................................................................................................58
4.3. KẾT LUẬN CHƯƠNG ......................................................................................63
KẾT LUẬN ...................................................................................................................64
KIẾN NGHỊ ...................................................................................................................64
ii
- DANH MỤC HÌNH VẼ
DANH MỤC HÌNH VẼ
Hình 1.1. a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) ....................................... 10
Hình 1.2. a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street)...................... 11
Hình 1.3. a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) ................ 11
Hình 1.4. Mô hình nhiễu cộng ............................................................................................... 12
Hình 1.5. Dạng sóng tín hiệu tiếng nói trong miền thời gian ứng với tín hiệu sạch x(n), tín
hiệu bị nhiễu y(n) và tín hiệu sau khi được giảm nhiễu 𝐱(𝐧)................................................ 12
Hình 1.6. Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu .......................... 13
Hình 1.7. Sơ đồ khối tổng quát thuật toán giảm nhiễu .......................................................... 13
Hình 2.1. Cơ chế tạo tiếng nói theo mô hình LPC ................................................................. 17
Hình 2.2. Quá trình thực hiện lọc Kalman ............................................................................. 22
Hình 2.3. Sơ đồ thực hiện lọc Kalman với các phương trình toán ........................................ 23
Hình 2.4. Sơ đồ khối toàn hệ thống ....................................................................................... 26
Hình 2.5. Kỹ thuật phân khung .............................................................................................. 26
Hình 2.6. Thuật toán bộ lọc Kalman ...................................................................................... 30
Hình 2.7. Sơ đồ khối ước lượng ma trận hệ số hồi quy ......................................................... 31
Hình 2.8. Sơ đồ ước lượng công suất nhiễu tác động ............................................................ 33
Hình 2.9. (a) Tín hiệu bị gây nhiễu 5dB, (b) SNR trước ξ ước lượng, (c) xác suất vắng mặt
tiếng nói PH0|Y, (d) xác suất hiện diện tiếng nói PH1|Y ...................................................... 34
Hình 3.1. Đáp ứng tần số của bộ lọc IRS .............................................................................. 36
Hình 4.1. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tiếng ồn ôtô (Car) .................................................................................................. 45
Hình 4.2. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tiếng ồn đám đông (Bable) .................................................................................... 46
Hình 4.3. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu trắng (White) ......................................................................................................... 46
Hình 4.4. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tàu hỏa (Train) ....................................................................................................... 47
Hình 4.5. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu đường phố (Street) ................................................................................................ 47
Hình 4.6. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 48
Hình 4.7. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 49
Hình 4.8. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 49
Hình 4.9. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại
nhiễu tàu hỏa (Train) .............................................................................................................. 50
Trang 1
- DANH MỤC HÌNH VẼ
Hình 4.10. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng .......................... 50
Hình 4.11. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền thời gian theo thông số
PESQ cho 5 môi trường nhiễu ............................................................................................... 51
Hình 4.12. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền tần số biến đổi Fourier
nhanh theo thông số PESQ cho 5 môi trường nhiễu .............................................................. 52
Hình 4.13. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền tần số biến đổi Fourier
thời gian ngắn theo thông số PESQ cho 5 môi trường nhiễu ................................................ 52
Hình 4.14. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán
Kalman-TD ............................................................................................................................ 54
Hình 4.15. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán
Kalman-FFT ........................................................................................................................... 55
Hình 4.16. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán
Kalman-STFT ........................................................................................................................ 56
Hình 4.17. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu ôtô ................................................................................................. 58
Hình 4.18. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu đám đông ...................................................................................... 59
Hình 4.19. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu trắng .............................................................................................. 60
Hình 4.20. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu tàu hỏa .......................................................................................... 61
Hình 4.21. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu đường phố..................................................................................... 62
Trang 2
- DANH MỤC BẢNG BIỂU
DANH MỤC BẢNG BIỂU
Bảng 3.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của
tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín
hiệu mẫu ........................................................................................................................38
Bảng 3.2: Thang đánh giá DCR ...................................................................................38
Bảng 3.3: Thang đánh giá CCR ....................................................................................39
Bảng 3.4. Thang đánh giá MOS ...................................................................................40
Trang 3
- DANH MỤC TỪ VIẾT TẮT
DANH MỤC TỪ VIẾT TẮT
Từ viết tắt Tiếng Anh Tiếng Việt
Đánh giá theo giá trị
ACR Absolute Categories Rating
tuyệt đối
CCR Compison Category Rating Đánh giá bằng cách so sánh
CEP Cepstrum Distance Khoảng cách Cepstrum
DCR Degradation Category Rating Đánh giá suy giảm chất lượng
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
FRs Frames Số khung
Phép biến đổi ngược Fourier
IDFT Inverse Discrete Fourier Transform
rời rạc
Phép biến đổi ngược Wavelet
IDWT Discrete Wavelet Transform
rời rạc
Institute of Electrical and
IEEE Viện kỹ nghệ Điện và Điện tử
Electronics Engineers
Hệ thống tham chiếu trung
IRS Intermediate Reference System
gian
International Telecommunications Hiệp hội tiêu chuẩn viễn
ITU-T
Union-Telecomunication thông quốc tế
LLR Log Likelihood Ratio
Logrithm Minium Mean-Squed Sai lệch trung bình bình
LogMMSE
Error phương tối thiểu-Logarit
LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính
MIMO Multi Input Multi Output Multi đầu vào, Multi đầu ra
MISO Multi Input Singel Output Multi đầu vào, một đầu ra
Sai lệch trung bình bình
MMSE Minimum Mean Sque Error
phương tối thiểu
MOS Mean Opinion Scores
MSS Magnitude Spectral Subtraction Trừ phổ biên độ
NOIZEUS Noisy Speech Corpus
NSS Non-line Spectral Subtraction Trừ phổ phi tuyến.
OE Objective Evaluation Đánh giá khách quan
PDF Probability Density Function Hàm mật độ xác suất
Trang 4
- DANH MỤC TỪ VIẾT TẮT
Perceptual Evaluation of Speech Đánh giá cảm quan chất
PESQ
Quality lượng thoại
PSD Power Spectral Density Mật độ phổ công suất
Đo đạc cảm quan chất lượng
PSQM Perceptual speech quality measure
thoại
PSS Power Spectral Subtraction Trừ phổ công suất
SE Subjective Evaluation Đánh giá chủ quan
SE Speech Enhancement Tăng cường tiếng nói
SegSNR Segmental Signal-to-Noise Ratio SNR trên từng khung
SIMO Singel Input Multi Output Một đầu vào, nhiều đầu ra
SISO Singel Input Singel Output Một đầu vào, một đầu ra
SNR Signal-to-noise ratio Tỷ số tín hiệu trên nhiễu
SPP Speech Presence Probability Xác suất hiện diện tiếng nói
SS Spectral Subtraction Phương pháp trừ phổ.
Phép biến đổi Fourier thời
STFT Short Time Fourier Transform
gian ngắn
TD Time Domain Miền thời gian
Thăm dò sự hoạt động của
VAD Voice Activity Detection
tiếng nói
WF Wiener Filter Bộ lọc Wiener
WSS Weighted Spectral Slope Độ dốc phổ được trọng số hóa
Trang 5
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU
ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU SỬ DỤNG BỘ LỌC
KALMAN NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
- Mã số: T2015-07-03
- Chủ nhiệm: DƯƠNG NGỌC PHÁP
- Thành viên tham gia: không
- Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng
- Thời gian thực hiện: từ ngày 01/01/2015 đến ngày 31/12/2015
2. Mục tiêu:
- Nghiên cứu mô hình cấu trúc, thuật toán của bộ lọc Kalman ứng dụng trong
việc giảm nhiễu cho tín hiệu tiếng nói.
- Đánh giá hiệu quả kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc
Kalman, qua đó so sánh với các kỹ thuật đã nghiên cứu trước đó.
3. Tính mới và sáng tạo:
- Mô hình hồi qui với các hệ số của bộ lọc Kalman được xây dụng cho cả tín hiệu
tiếng nói và nhiễu ước lượng cho kết quả giảm nhiễu khá tốt với nhiều loại
nhiễu khác nhau trong môi trường thực.
4. Tóm tắt kết quả nghiên cứu:
- Nghiên cứu đặc điểm tiếng nói, tính chất của nhiễu, nguyên lý bộ lọc Kalman
và ứng dụng trong xử lý tín hiệu thống kê.
- Xây dựng thuật toán giảm nhiễu sử dụng bộ lọc Kalman với các hệ số hồi qui
được thực hiện cho cả tín hiệu tiếng nói và nhiễu ước lượng.
- Mô phỏng thuật toán với nhiều loại nhiễu và mức nhiễu khác nhau sử dụng
ngôn ngữ lập trình Matlab.
- So sánh, đánh giá kết quả mô phỏng với các kỹ thuật giảm nhiễu đã được
nghiên cứu trước đó (kỹ thuật trừ phổ, kỹ thuật cực tiểu hóa bình phương biên
độ,…sử dụng bộ lọc phần trăm).
5. Tên sản phẩm:
- Báo cáo tổng kết đề tài;
- Bài báo đăng trên kỷ yếu hội thảo cấp trường;
Trang 6
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU
- Bài báo đăng trên tạp chí khoa học công nghệ Đại học Đà Nẵng.
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
- Về mặt giáo dục - đào tạo: phục vụ công tác giảng dạy, nghiên cứu.
- Về mặt khoa học: đóng góp đáng kể của đề tài là trình bày một kỹ thuật giảm
nhiễu sử dụng bộ lọc Kalman điều chỉnh với các hệ số bộ lọc được xây dựng cho cả
tín hiệu tiếng nói và nhiễu, qua đó so sánh đánh giá kết quả giảm nhiễu nâng cao chất
lượng tiếng nói với các thuật toán đã nghiên cứu trước đó.
- Về sản phẩm ứng dụng: ứng dụng thuật toán trong việc xây dựng phần mềm
giảm nhiễu nâng cao chất lượng tiếng nói.
7. Hình ảnh, sơ đồ minh họa chính:
Hình 4.1. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói
với loại nhiễu tiếng ồn ôtô (Car)
Đà Nẵng, ngày 20 tháng 12 năm 2015
Cơ quan chủ trì Chủ nhiệm đề tài
Dương Ngọc Pháp
Trang 7
- MỞ ĐẦU
MỞ ĐẦU
I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC
1. Ngoài nước
Trong cuộc sống con người phương thức giao tiếp chủ yếu với nhau là tiếng
nói. Với sự phát triển mạnh mẽ của điện thoại tế bào, nhu cầu giao tiếp tại mọi lúc,
mọi nơi, mọi hoàn cảnh đã trở thành thiết yếu. Hầu hết chất lượng tiếng nói trong các
hệ thống thông tin liên lạc đều bị suy giảm do tác động bởi nhiễu. Vì vậy việc nghiên
cứu và đưa ra các kỹ thuật nhằm loại bỏ nhiễu đóng vai trò quan trọng trong việc đảm
bảo chất lượng và tính trung thực của tín hiệu tiếng nói trong các hệ thống thông tin
liên lạc, mặc dù công việc này là không đơn giản do đặc điểm của từng loại nhiễu và
cường độ nhiễu khác nhau.
2. Trong nước
Việc nâng cao chất lượng tiếng nói bao gồm việc cải thiện chất lượng, tính dễ
hiểu và giảm sự khó chịu cho người nghe bằng cách giảm tối đa nhiễu tác động vào
tiếng nói. Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói đã được nghiên cứu, đánh giá
bao gồm kỹ thuật giảm nhiễu dựa trên thuật toán trừ phổ (SS), kỹ thuật giảm nhiễu với
ước lượng MMSE, kỹ thuật giảm nhiễu sử dụng bộ lọc Wiener (WF), Wavelet…đã
được nghiên cứu và thực hiện cho các ứng dụng giảm nhiễu.
II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Các phương pháp giảm nhiễu dựa trên thuật toán trừ phổ, ước lượng MMSE, bộ
lọc Wiener,…gặp khó khăn với các loại nhiễu khác nhau trong môi trường thực khi
phổ nhiễu ảnh hưởng không đồng nhất lên tín hiệu tiếng nói, trong đó nhiều loại nhiễu
không ổn định theo thời gian (không phải là các quá trình dừng), và nhiều trường hợp
không thể ước lượng được.
Trên cơ sở đó, yêu cầu một kỹ thuật có khả năng giảm nhiễu cho tín hiệu tiếng
nói trong môi trường với nhiều loại nhiễu và mức nhiễu khác nhau. Đề tài “Nghiên
cứu giải pháp giảm nhiễu sử dụng bộ lọc Kalman nhằm nâng cao chất lượng tiếng nói”
đề xuất kỹ thuật giảm nhiễu cho tín hiệu tiếng nói dựa trên phương pháp tính toán truy
hồi sử dụng bộ lọc Kalman. Kỹ thuật này khá hiệu quả với các loại nhiễu khác nhau
trong môi trường thực.
III. MỤC TIÊU CỦA ĐỀ TÀI
Mục tiêu 1: Nghiên cứu mô hình cấu trúc, thuật toán của bộ lọc Kalman ứng
dụng trong việc giảm nhiễu cho tín hiệu tiếng nói.
Trang 8
- MỞ ĐẦU
Mục tiêu 2: Đánh giá hiệu quả kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử
dụng bộ lọc Kalman, qua đó so sánh với các kỹ thuật đã nghiên cứu trước đó.
IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1. Đối tượng nghiên cứu
- Mô hình âm học, đặc điểm tiếng nói, đặc tính của nhiễu.
- Cấu trúc bộ lọc Kalman.
- Ngôn ngữ Matlab thực hiện thuật toán.
- Nghiên cứu các phương pháp đánh giá.
2. Phạm vi nghiên cứu
- Các đặc điểm của tín hiệu tiếng nói.
- Lý thuyết ước lượng và dự đoán.
- Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói.
- Ứng dụng bộ lọc Kalman để giảm nhiễu cho tín hiệu tiếng nói.
V. NỘI DUNG NGHIÊN CỨU
1. Trình bày về đặc điểm tiếng nói, tính chất của nhiễu, nguyên lý bộ lọc Kalman
và ứng dụng trong xử lý tín hiệu thống kê.
2. Ứng dụng bộ lọc Kalman cho việc giảm nhiễu nâng cao chất lượng tiếng nói.
3. Kết quả mô phỏng sử dụng ngôn ngữ Matlab.
4. Đưa ra các đánh giá, so sánh kết quả thu được với các kỹ thuật giảm nhiễu đã
nghiên cứu.
Trang 9
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1. GIỚI THIỆU CHƯƠNG
Chương này sẽ trình bày tổng quan về các loại nhiễu và cường độ nhiễu trong
môi trường tác động lên tín hiệu tiếng nói, từ đó yêu cầu phải có các kỹ thuật giảm
nhiễu nhằm nâng cao chất lượng tiếng nói. Các kỹ thuật được đưa ra để phân tích sẽ
được sử dụng để so sánh, đánh giá về hiệu quả giảm nhiễu với các môi trường nhiễu
khác nhau với thuật toán sử dụng bộ lọc Kalman sẽ được trình bày ở chương tiếp theo.
1.2. NHIỄU
Nhiễu tồn tại mọi nơi, ví dụ nhiễu trên đường phố (Street: phương tiện giao
thông, công trường đang thi công), nhiễu trong xe hơi (Car: tiếng ồn động cơ, gió),
nhiễu trong văn phòng (Office: tiếng ồn quạt máy tính để bàn, máy điều hòa không
khí), nhiễu trong nhà hàng (Restaurant: tiếng xì xào),…
Đặc tính khác của các kiểu nhiễu khác nhau là giản đồ phổ tín hiệu, liên quan đến
sự phân bố năng lượng nhiễu trong miền tần số. Ví dụ, năng lượng chính của nhiễu gió
tập trung ở dải tần số thấp, thường là dưới 500Hz. Ví dụ minh họa về các loại nhiễu
được trình bày ở hình 1.1, hình 1.2 và hình 1.3 về so sánh biên độ và phổ biên độ của
các loại nhiễu xe (Car), nhiễu đường phố (Street) và nhiều nhà hàng (Restaurant).
a)
b)
Hình 1.1. a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car)
Trang 10
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
a)
b)
Hình 1.2. a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street)
a)
b)
Hình 1.3. a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant)
Trong 3 nguồn nhiễu được ví dụ ở trên, nhiễu trong xe hơi (Car) có mật độ phổ
phẳng, được xem là ổn định theo thời gian (hình 1.1) trong khi nhiễu tiếng ồn đường
Trang 11
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
phố (Street) và nhiễu trong nhà hàng (Restaurant) có mật độ không đồng đều theo thời
gian.
Như đã đề cập từ đầu thì đề tài này chỉ giới hạn giải pháp giảm nhiễu cho tín hiệu
tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic
noise). Như trình bày ở hình 1.4, tín hiệu tiếng nói bị nhiễu y(n) nhận được tại
microphone thực chất được tạo ra từ một nguồn tín hiệu tiếng nói sạch x(n) cộng với
nhiễu nền v(n).
𝑥(𝑛)
𝑦(𝑛) Noise
𝑥̂(𝑛)
reduction
𝑣(𝑛)
Hình 1.4. Mô hình nhiễu cộng
Với giả thiết tín hiệu x(n) và v(n) là không tương quan, bài toán đặt ra ở đây là
thiết kế bộ giảm nhiễu (noise reduction) để tái tạo tín hiệu tăng cường tại ngõ ra x̂(n)
có chất lượng gần giống với tín hiệu gốc x(n) nhất.
Hình 1.5. Dạng sóng tín hiệu tiếng nói trong miền thời gian ứng với tín hiệu sạch x(n),
tín hiệu bị nhiễu y(n) và tín hiệu sau khi được giảm nhiễu 𝐱̂(𝐧)
Trang 12
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Các thuật toán nâng cao chất lượng tiếng nói thường bị giới hạn với dải các mức
tỷ số tín hiệu trên nhiễu (SNR) khác nhau của tín hiệu tiếng nói trong môi trường thực.
Và yêu cầu quan trọng là các thuật toán cần phải hiệu quả trong việc giảm nhiễu và cải
thiện chất lượng tiếng nói với nhiều mức SNR khác nhau.
1.3. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Nâng cao chất lượng tiếng nói là việc cải thiện (tăng cường) các khía cạnh nhận
thức của tiếng nói bị tác động bởi nhiễu môi trường với sự hỗ trợ của các công cụ xử
lý tín hiệu. Trên cơ sở đó yêu cầu xây dựng các kỹ thuật giảm nhiễu có khả năng giảm
các mức nhiễu khác nhau nhằm nâng cao chất lượng tiếng nói, hoạt động được mô tả
như sơ đồ ở hình sau:
Hình 1.6. Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu
và tín hiệu đã được tăng cường
Sơ đồ khối của thuật toán giảm nhiễu được trình bày như trong hình 1.7.
Y(n) 𝑋 (𝑛)
Phân tích tín FFT/ Hàm xử lý IFFT/ Xếp
hiệu thành các DWT IDWT chồng và
giảm nhiễu
frame cộng
Tín hiệu
Tín hiệu bị sạch
nhiễu Ước lượng
nhiễu
Hình 1.7. Sơ đồ khối tổng quát thuật toán giảm nhiễu
Trang 13
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Trong mô hình cải thiện chất lượng tín hiệu tiếng nói bị nhiễu này tín hiệu ngõ
vào đầu tiên được phân tích thành các khung ngắn (frames) có cấu trúc ổn định. Tiếp
theo đó sẽ thực hiện phép biến đổi Fourier nhanh (FFT) hoặc phép biến đổi Wavelet
rời rạc (DWT) được áp dụng để có thể biểu diễn và khai thác đặc tính của tín hiệu và
nhiễu hiệu quả hơn trong miền biến đổi, đồng thời giúp cho việc áp dụng các kỹ thuật
ước lượng nhiễu tương ứng trong mỗi miền đạt độ chính xác cao hơn.
Dựa trên kỹ thuật giảm nhiễu với mức nhiễu đã được ước lượng, các khung tín
hiệu sau khi được giảm nhiễu trong miền tần số hoặc miền Wavelet sẽ được biến đổi
ngược lại (IDFT/IDWT) qua miền thời gian trước khi được tổng hợp lại bằng phương
pháp cộng xếp chồng (overlap and adding) ghép khung để khôi phục tín hiệu tiếng nói
tại ngõ ra.
Có 4 hướng nghiên cứu chính để thiết kế các quy luật giảm nhiễu:
- Dựa trên tính tuần hoàn (periodicity) của tín hiệu tiếng nói.
- Dựa trên việc mô phỏng mô hình thính giác (auditory model).
- Sử dụng các bộ ước lượng tuyến tính tối ưu (linear estimators).
- Dựa trên mô hình thống kê (statistical models) sử dụng các phương pháp ước
lượng phi tuyến tối ưu (non-linear estimators).
Trong đề tài này xây dựng thuật toán giảm nhiễu dựa trên mô hình thống kê với
các bộ ước lượng tuyến tính tối ưu. Các kỹ thuật ước lượng tuyến tính tối ưu được lựa
chọn vì khá đơn giản để thực hiện và rất hiệu quả cho các loại nhiễu không quá phức
tạp. Huấn luyện các mô hình thống kê để mô hình hóa đặc tính của tín hiệu tiếng nói
cũng như đặc tính của các nguồn nhiễu khác nhau.
1.4. CÁC KỸ THUẬT GIẢM NHIỄU
Như vậy, từ các yêu cầu trình bày ở trên thì nhiều thuật toán với mục đích giảm
nhiễu nâng cao chất lượng tiếng nói ra đời. Những thuật toán này có thể được chia
thành ba nhóm chính:
- Các thuật toán trừ phổ: là phương pháp khôi phục công suất hay biên bộ phổ
của tín hiệu tiếng nói bị tác động bởi nhiễu cộng. Khi đó thuật toán sẽ có nhiệm vụ ước
lượng phổ nhiễu trung bình khi vắng mặt tiếng nói và thực hiện trừ nhiễu khỏi tín hiệu
tiếng nói bị nhiễu.
- Các thuật toán dựa trên mô hình thống kê: nguyên lý của các kỹ thuật này dựa
trên nền tảng ước lượng thống kê. Với các thông số đo lường được biểu diễn bằng các
hệ số biến đổi Fourier của tín hiệu tiếng nói bị nhiễu để đưa ra các ước lượng tuyến
tính (hoặc phi tuyến) các thông số của tín hiệu tiếng nói sạch.
- Các thuật toán không gian con: không giống như các thuật toán ở trên, các thuật
toán không gian con có nguồn gốc dựa vào lý thuyết đại số tuyến tính. Cụ thể, các
Trang 14
- Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
thuật toán này dựa trên nguyên lý tín hiệu sạch có thể bị giới hạn trong không gian con
của không gian Euclidean.
Trên thực tế thì các thuật toán giảm nhiễu chỉ có thể cải thiện được một phần chất
lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ
làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ
nghe của tiếng nói. Do đó, việc thiết kế một thuật toán giảm nhiễu phải đảm bảo yêu
cầu là giảm được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng
nói.
1.5. KẾT LUẬN CHƯƠNG
Như vậy chương đầu tiên đã trình bày tổng quan về môi trường nhiễu tác động
lên tín hiệu tiếng nói, sơ đồ khối và các yêu cầu cơ bản để xây dựng kỹ thuật giảm
nhiễu nhằm nâng cao chất lượng tiếng nói. Những cơ sở lí thuyết cơ bản đó sẽ là tiền
đề để tiếp tục tập trung vào khảo sát, xây dựng sơ đồ khối cho thuật toán giảm nhiễu
sử dụng bộ lọc Kalman ở những phần tiếp theo.
Trang 15
- Chương 2: THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN
Chương 2: THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN
2.1. GIỚI THIỆU CHƯƠNG
Bộ lọc Kalman được sử dụng rộng rãi trong xử lý tín hiệu thống kê và lý thuyết
ước lượng, đặc biệt là các hệ thống nhân quả, ứng dụng thời gian thực. Ứng dụng của
bộ lọc Kalman cho việc nâng cao chất lượng tiếng nói bị tác động bởi nhiễu môi
trường sẽ được trình bày ở chương này. Các hệ số của mô hình hồi quy cho cả tín hiệu
tiếng nói và nhiễu sẽ được xác định dựa trên việc phân tích mô hình LPC. Đồng thời,
việc ước lượng nhiễu sẽ được thực hiện dựa trên xác suất hiện diện tiếng nói (SPP). Từ
đó thực hiện mô hình hóa hệ thống và lựa chọn các thông số cho bộ lọc Kalman để
chạy thử nghiệm thuật toán trên các tín hiệu mẫu.
2.2. BỘ LỌC KALMAN
Bộ lọc Kalman là một trong những công cụ quan trọng được ứng dụng trong việc
ước lượng các quá trình ngẫu nhiên từ các đo lường có nhiễu. Năm 1960, Rudolph E.
Kalman công bố bài báo nổi tiếng về mô tả phương pháp tính truy hồi để giải quyết bài
toán lọc thông tin rời rạc tuyến tính: “A New Approach to Line Filtering and
Prediction Problems” [7]. Từ đó đến nay, cùng với sự phát triển kỹ thuật số, bộ lọc
Kalman với nhiều biến thể đã trở thành chủ đề nghiên cứu sôi nổi và được ứng dụng
trong nhiều nghành kỹ thuật khác nhau: trong tự động hóa, trong định vị cũng như
trong viễn thông và nhiều lĩnh vực khác…
Theo nguyên lý bộ lọc, tín hiệu ước lượng và các giá trị đo lường được mô hình
hóa bằng các phương trình trực quan, có quan hệ nghiêm ngặt và được đưa ra dựa trên
nguyên tắc trực giao.
2.2.1. Tổng quan về bộ lọc Kalman
Một cách khái quát, bộ lọc Kalman là tập hợp các phương trình toán học mô tả
một phương pháp tính toán truy hồi cho phép ước đoán trạng thái của một quá trình
sao cho trung bình sai lệch giữa giá trị thực và giá trị ước lượng là nhỏ nhất. Bộ lọc
Kalman rất hiệu quả trong việc ước đoán các trạng thái trong quá khứ, hiện tại và
tương lai, ngay cả khi tính chính xác của hệ thống không được xác định. Dựa trên
nguyên lý xác suất thống kê, giá trị trước của quá trình được giả định thông qua giá trị
trung bình và phương sai của điều kiện đầu. Và cấu trúc tự hồi quy là công cụ biểu
diễn trạng thái quá trình lan truyền theo thời gian.
Để lọc Kalman hiệu quả thì hệ thống cần đảm bảo 4 điều kiện:
- Giá trị đo lường (quan sát) xác định với tốc độ lấy mẫu không đổi;
- Nhiễu đo lường tuân theo phân bố Gauss;
- Quá trình được mô hình hóa bằng các phương trình toán học;
Trang 16
nguon tai.lieu . vn