Xem mẫu

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2015-07-03 Chủ nhiệm đề tài: ThS. Dương Ngọc Pháp Đà Nẵng, 12/2015
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2015-07-03 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2015
  3. MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ ..................................................................................................1 DANH MỤC BẢNG BIỂU ............................................................................................. 3 DANH MỤC TỪ VIẾT TẮT ..........................................................................................4 THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................6 MỞ ĐẦU .........................................................................................................................8 I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC ..........................................................................................8 1. NGOÀI NƯỚC .........................................................................................................8 2. TRONG NƯỚC.........................................................................................................8 II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ............................................................................8 III. MỤC TIÊU CỦA ĐỀ TÀI ........................................................................................8 IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU..........................................................9 1. ĐỐI TƯỢNG NGHIÊN CỨU .......................................................................................9 2. PHẠM VI NGHIÊN CỨU ...........................................................................................9 V. NỘI DUNG NGHIÊN CỨU .....................................................................................9 CHƯƠNG 1:TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI .............10 1.1. GIỚI THIỆU CHƯƠNG .....................................................................................10 1.2. NHIỄU ................................................................................................................10 1.3. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........................................................13 1.4. CÁC KỸ THUẬT GIẢM NHIỄU ......................................................................14 1.5. KẾT LUẬN CHƯƠNG ......................................................................................15 CHƯƠNG 2:THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN ..........16 2.1. GIỚI THIỆU CHƯƠNG .....................................................................................16 2.2. BỘ LỌC KALMAN............................................................................................ 16 2.2.1. Tổng quan về bộ lọc Kalman ....................................................................16 2.2.2. Mã hóa dự đoán tuyến tính ........................................................................17 2.2.3. Cấu trúc bộ lọc Kalman .............................................................................17 2.2.4. Ưu nhược điểm của bộ lọc Kalman ........................................................... 23 2.2.5. Bộ lọc Kalman mở rộng ............................................................................24 2.3. THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN ......................25 2.3.1. Sơ đồ khối hệ thống ...................................................................................25 2.3.2. Giảm nhiễu sử dụng bộ lọc Kalman ..........................................................27 2.3.3. Ước lượng hệ số mô hình ..........................................................................31 2.3.4. Ước lượng nhiễu ........................................................................................32 2.4. KẾT LUẬN CHƯƠNG ......................................................................................35 CHƯƠNG 3:CƠ SỞ DỮ LIỆU VÀ TIÊU CHÍ ĐÁNH GIÁ .......................................36 i
  4. MỤC LỤC 3.1. GIỚI THIỆU CHƯƠNG .....................................................................................36 3.2. CƠ SỞ DỮ LIỆU ................................................................................................ 36 3.3. CÁC TIÊU CHÍ ĐÁNH GIÁ ..............................................................................37 3.3.1. Phương pháp đánh giá chủ quan................................................................ 37 3.3.2. Phương pháp đánh giá khách quan ............................................................ 40 3.4. KẾT LUẬN CHƯƠNG ......................................................................................44 CHƯƠNG 4:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ .....................45 4.1. GIỚI THIỆU CHƯƠNG .....................................................................................45 4.2. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH ..........................................................45 4.2.1. Kết quả đánh giá theo phương pháp SegSNR ...........................................45 4.2.2. Kết quả đánh giá theo phương pháp LLR .................................................48 4.2.3. Đánh giá theo phương pháp cảm quan PESQ trên các môi trường nhiễu khác nhau ...............................................................................................................51 4.2.4. Đánh giá hiệu quả giảm nhiễu trên các môi trường nhiễu khác nhau .......54 4.2.5. Kết quả đánh giá CEP-PESQ-WSS-SegSNR với các thuật toán giảm nhiễu ...................................................................................................................58 4.3. KẾT LUẬN CHƯƠNG ......................................................................................63 KẾT LUẬN ...................................................................................................................64 KIẾN NGHỊ ...................................................................................................................64 ii
  5. DANH MỤC HÌNH VẼ DANH MỤC HÌNH VẼ Hình 1.1. a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) ....................................... 10 Hình 1.2. a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street)...................... 11 Hình 1.3. a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) ................ 11 Hình 1.4. Mô hình nhiễu cộng ............................................................................................... 12 Hình 1.5. Dạng sóng tín hiệu tiếng nói trong miền thời gian ứng với tín hiệu sạch x(n), tín hiệu bị nhiễu y(n) và tín hiệu sau khi được giảm nhiễu 𝐱(𝐧)................................................ 12 Hình 1.6. Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu .......................... 13 Hình 1.7. Sơ đồ khối tổng quát thuật toán giảm nhiễu .......................................................... 13 Hình 2.1. Cơ chế tạo tiếng nói theo mô hình LPC ................................................................. 17 Hình 2.2. Quá trình thực hiện lọc Kalman ............................................................................. 22 Hình 2.3. Sơ đồ thực hiện lọc Kalman với các phương trình toán ........................................ 23 Hình 2.4. Sơ đồ khối toàn hệ thống ....................................................................................... 26 Hình 2.5. Kỹ thuật phân khung .............................................................................................. 26 Hình 2.6. Thuật toán bộ lọc Kalman ...................................................................................... 30 Hình 2.7. Sơ đồ khối ước lượng ma trận hệ số hồi quy ......................................................... 31 Hình 2.8. Sơ đồ ước lượng công suất nhiễu tác động ............................................................ 33 Hình 2.9. (a) Tín hiệu bị gây nhiễu 5dB, (b) SNR trước ξ ước lượng, (c) xác suất vắng mặt tiếng nói PH0|Y, (d) xác suất hiện diện tiếng nói PH1|Y ...................................................... 34 Hình 3.1. Đáp ứng tần số của bộ lọc IRS .............................................................................. 36 Hình 4.1. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car) .................................................................................................. 45 Hình 4.2. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable) .................................................................................... 46 Hình 4.3. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng (White) ......................................................................................................... 46 Hình 4.4. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train) ....................................................................................................... 47 Hình 4.5. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu đường phố (Street) ................................................................................................ 47 Hình 4.6. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 48 Hình 4.7. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 49 Hình 4.8. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng ............................ 49 Hình 4.9. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train) .............................................................................................................. 50 Trang 1
  6. DANH MỤC HÌNH VẼ Hình 4.10. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng .......................... 50 Hình 4.11. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền thời gian theo thông số PESQ cho 5 môi trường nhiễu ............................................................................................... 51 Hình 4.12. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền tần số biến đổi Fourier nhanh theo thông số PESQ cho 5 môi trường nhiễu .............................................................. 52 Hình 4.13. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền tần số biến đổi Fourier thời gian ngắn theo thông số PESQ cho 5 môi trường nhiễu ................................................ 52 Hình 4.14. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán Kalman-TD ............................................................................................................................ 54 Hình 4.15. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán Kalman-FFT ........................................................................................................................... 55 Hình 4.16. Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SegSNR cho thuật toán Kalman-STFT ........................................................................................................................ 56 Hình 4.17. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu ôtô ................................................................................................. 58 Hình 4.18. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đông ...................................................................................... 59 Hình 4.19. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng .............................................................................................. 60 Hình 4.20. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa .......................................................................................... 61 Hình 4.21. Kết quả đánh giá CEP, PESQ, WSS, SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đường phố..................................................................................... 62 Trang 2
  7. DANH MỤC BẢNG BIỂU DANH MỤC BẢNG BIỂU Bảng 3.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín hiệu mẫu ........................................................................................................................38 Bảng 3.2: Thang đánh giá DCR ...................................................................................38 Bảng 3.3: Thang đánh giá CCR ....................................................................................39 Bảng 3.4. Thang đánh giá MOS ...................................................................................40 Trang 3
  8. DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Đánh giá theo giá trị ACR Absolute Categories Rating tuyệt đối CCR Compison Category Rating Đánh giá bằng cách so sánh CEP Cepstrum Distance Khoảng cách Cepstrum DCR Degradation Category Rating Đánh giá suy giảm chất lượng DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh FRs Frames Số khung Phép biến đổi ngược Fourier IDFT Inverse Discrete Fourier Transform rời rạc Phép biến đổi ngược Wavelet IDWT Discrete Wavelet Transform rời rạc Institute of Electrical and IEEE Viện kỹ nghệ Điện và Điện tử Electronics Engineers Hệ thống tham chiếu trung IRS Intermediate Reference System gian International Telecommunications Hiệp hội tiêu chuẩn viễn ITU-T Union-Telecomunication thông quốc tế LLR Log Likelihood Ratio Logrithm Minium Mean-Squed Sai lệch trung bình bình LogMMSE Error phương tối thiểu-Logarit LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính MIMO Multi Input Multi Output Multi đầu vào, Multi đầu ra MISO Multi Input Singel Output Multi đầu vào, một đầu ra Sai lệch trung bình bình MMSE Minimum Mean Sque Error phương tối thiểu MOS Mean Opinion Scores MSS Magnitude Spectral Subtraction Trừ phổ biên độ NOIZEUS Noisy Speech Corpus NSS Non-line Spectral Subtraction Trừ phổ phi tuyến. OE Objective Evaluation Đánh giá khách quan PDF Probability Density Function Hàm mật độ xác suất Trang 4
  9. DANH MỤC TỪ VIẾT TẮT Perceptual Evaluation of Speech Đánh giá cảm quan chất PESQ Quality lượng thoại PSD Power Spectral Density Mật độ phổ công suất Đo đạc cảm quan chất lượng PSQM Perceptual speech quality measure thoại PSS Power Spectral Subtraction Trừ phổ công suất SE Subjective Evaluation Đánh giá chủ quan SE Speech Enhancement Tăng cường tiếng nói SegSNR Segmental Signal-to-Noise Ratio SNR trên từng khung SIMO Singel Input Multi Output Một đầu vào, nhiều đầu ra SISO Singel Input Singel Output Một đầu vào, một đầu ra SNR Signal-to-noise ratio Tỷ số tín hiệu trên nhiễu SPP Speech Presence Probability Xác suất hiện diện tiếng nói SS Spectral Subtraction Phương pháp trừ phổ. Phép biến đổi Fourier thời STFT Short Time Fourier Transform gian ngắn TD Time Domain Miền thời gian Thăm dò sự hoạt động của VAD Voice Activity Detection tiếng nói WF Wiener Filter Bộ lọc Wiener WSS Weighted Spectral Slope Độ dốc phổ được trọng số hóa Trang 5
  10. THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI - Mã số: T2015-07-03 - Chủ nhiệm: DƯƠNG NGỌC PHÁP - Thành viên tham gia: không - Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng - Thời gian thực hiện: từ ngày 01/01/2015 đến ngày 31/12/2015 2. Mục tiêu: - Nghiên cứu mô hình cấu trúc, thuật toán của bộ lọc Kalman ứng dụng trong việc giảm nhiễu cho tín hiệu tiếng nói. - Đánh giá hiệu quả kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc Kalman, qua đó so sánh với các kỹ thuật đã nghiên cứu trước đó. 3. Tính mới và sáng tạo: - Mô hình hồi qui với các hệ số của bộ lọc Kalman được xây dụng cho cả tín hiệu tiếng nói và nhiễu ước lượng cho kết quả giảm nhiễu khá tốt với nhiều loại nhiễu khác nhau trong môi trường thực. 4. Tóm tắt kết quả nghiên cứu: - Nghiên cứu đặc điểm tiếng nói, tính chất của nhiễu, nguyên lý bộ lọc Kalman và ứng dụng trong xử lý tín hiệu thống kê. - Xây dựng thuật toán giảm nhiễu sử dụng bộ lọc Kalman với các hệ số hồi qui được thực hiện cho cả tín hiệu tiếng nói và nhiễu ước lượng. - Mô phỏng thuật toán với nhiều loại nhiễu và mức nhiễu khác nhau sử dụng ngôn ngữ lập trình Matlab. - So sánh, đánh giá kết quả mô phỏng với các kỹ thuật giảm nhiễu đã được nghiên cứu trước đó (kỹ thuật trừ phổ, kỹ thuật cực tiểu hóa bình phương biên độ,…sử dụng bộ lọc phần trăm). 5. Tên sản phẩm: - Báo cáo tổng kết đề tài; - Bài báo đăng trên kỷ yếu hội thảo cấp trường; Trang 6
  11. THÔNG TIN KẾT QUẢ NGHIÊN CỨU - Bài báo đăng trên tạp chí khoa học công nghệ Đại học Đà Nẵng. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Về mặt giáo dục - đào tạo: phục vụ công tác giảng dạy, nghiên cứu. - Về mặt khoa học: đóng góp đáng kể của đề tài là trình bày một kỹ thuật giảm nhiễu sử dụng bộ lọc Kalman điều chỉnh với các hệ số bộ lọc được xây dựng cho cả tín hiệu tiếng nói và nhiễu, qua đó so sánh đánh giá kết quả giảm nhiễu nâng cao chất lượng tiếng nói với các thuật toán đã nghiên cứu trước đó. - Về sản phẩm ứng dụng: ứng dụng thuật toán trong việc xây dựng phần mềm giảm nhiễu nâng cao chất lượng tiếng nói. 7. Hình ảnh, sơ đồ minh họa chính: Hình 4.1. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car) Đà Nẵng, ngày 20 tháng 12 năm 2015 Cơ quan chủ trì Chủ nhiệm đề tài Dương Ngọc Pháp Trang 7
  12. MỞ ĐẦU MỞ ĐẦU I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 1. Ngoài nước Trong cuộc sống con người phương thức giao tiếp chủ yếu với nhau là tiếng nói. Với sự phát triển mạnh mẽ của điện thoại tế bào, nhu cầu giao tiếp tại mọi lúc, mọi nơi, mọi hoàn cảnh đã trở thành thiết yếu. Hầu hết chất lượng tiếng nói trong các hệ thống thông tin liên lạc đều bị suy giảm do tác động bởi nhiễu. Vì vậy việc nghiên cứu và đưa ra các kỹ thuật nhằm loại bỏ nhiễu đóng vai trò quan trọng trong việc đảm bảo chất lượng và tính trung thực của tín hiệu tiếng nói trong các hệ thống thông tin liên lạc, mặc dù công việc này là không đơn giản do đặc điểm của từng loại nhiễu và cường độ nhiễu khác nhau. 2. Trong nước Việc nâng cao chất lượng tiếng nói bao gồm việc cải thiện chất lượng, tính dễ hiểu và giảm sự khó chịu cho người nghe bằng cách giảm tối đa nhiễu tác động vào tiếng nói. Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói đã được nghiên cứu, đánh giá bao gồm kỹ thuật giảm nhiễu dựa trên thuật toán trừ phổ (SS), kỹ thuật giảm nhiễu với ước lượng MMSE, kỹ thuật giảm nhiễu sử dụng bộ lọc Wiener (WF), Wavelet…đã được nghiên cứu và thực hiện cho các ứng dụng giảm nhiễu. II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Các phương pháp giảm nhiễu dựa trên thuật toán trừ phổ, ước lượng MMSE, bộ lọc Wiener,…gặp khó khăn với các loại nhiễu khác nhau trong môi trường thực khi phổ nhiễu ảnh hưởng không đồng nhất lên tín hiệu tiếng nói, trong đó nhiều loại nhiễu không ổn định theo thời gian (không phải là các quá trình dừng), và nhiều trường hợp không thể ước lượng được. Trên cơ sở đó, yêu cầu một kỹ thuật có khả năng giảm nhiễu cho tín hiệu tiếng nói trong môi trường với nhiều loại nhiễu và mức nhiễu khác nhau. Đề tài “Nghiên cứu giải pháp giảm nhiễu sử dụng bộ lọc Kalman nhằm nâng cao chất lượng tiếng nói” đề xuất kỹ thuật giảm nhiễu cho tín hiệu tiếng nói dựa trên phương pháp tính toán truy hồi sử dụng bộ lọc Kalman. Kỹ thuật này khá hiệu quả với các loại nhiễu khác nhau trong môi trường thực. III. MỤC TIÊU CỦA ĐỀ TÀI Mục tiêu 1: Nghiên cứu mô hình cấu trúc, thuật toán của bộ lọc Kalman ứng dụng trong việc giảm nhiễu cho tín hiệu tiếng nói. Trang 8
  13. MỞ ĐẦU Mục tiêu 2: Đánh giá hiệu quả kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc Kalman, qua đó so sánh với các kỹ thuật đã nghiên cứu trước đó. IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1. Đối tượng nghiên cứu - Mô hình âm học, đặc điểm tiếng nói, đặc tính của nhiễu. - Cấu trúc bộ lọc Kalman. - Ngôn ngữ Matlab thực hiện thuật toán. - Nghiên cứu các phương pháp đánh giá. 2. Phạm vi nghiên cứu - Các đặc điểm của tín hiệu tiếng nói. - Lý thuyết ước lượng và dự đoán. - Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói. - Ứng dụng bộ lọc Kalman để giảm nhiễu cho tín hiệu tiếng nói. V. NỘI DUNG NGHIÊN CỨU 1. Trình bày về đặc điểm tiếng nói, tính chất của nhiễu, nguyên lý bộ lọc Kalman và ứng dụng trong xử lý tín hiệu thống kê. 2. Ứng dụng bộ lọc Kalman cho việc giảm nhiễu nâng cao chất lượng tiếng nói. 3. Kết quả mô phỏng sử dụng ngôn ngữ Matlab. 4. Đưa ra các đánh giá, so sánh kết quả thu được với các kỹ thuật giảm nhiễu đã nghiên cứu. Trang 9
  14. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 1.1. GIỚI THIỆU CHƯƠNG Chương này sẽ trình bày tổng quan về các loại nhiễu và cường độ nhiễu trong môi trường tác động lên tín hiệu tiếng nói, từ đó yêu cầu phải có các kỹ thuật giảm nhiễu nhằm nâng cao chất lượng tiếng nói. Các kỹ thuật được đưa ra để phân tích sẽ được sử dụng để so sánh, đánh giá về hiệu quả giảm nhiễu với các môi trường nhiễu khác nhau với thuật toán sử dụng bộ lọc Kalman sẽ được trình bày ở chương tiếp theo. 1.2. NHIỄU Nhiễu tồn tại mọi nơi, ví dụ nhiễu trên đường phố (Street: phương tiện giao thông, công trường đang thi công), nhiễu trong xe hơi (Car: tiếng ồn động cơ, gió), nhiễu trong văn phòng (Office: tiếng ồn quạt máy tính để bàn, máy điều hòa không khí), nhiễu trong nhà hàng (Restaurant: tiếng xì xào),… Đặc tính khác của các kiểu nhiễu khác nhau là giản đồ phổ tín hiệu, liên quan đến sự phân bố năng lượng nhiễu trong miền tần số. Ví dụ, năng lượng chính của nhiễu gió tập trung ở dải tần số thấp, thường là dưới 500Hz. Ví dụ minh họa về các loại nhiễu được trình bày ở hình 1.1, hình 1.2 và hình 1.3 về so sánh biên độ và phổ biên độ của các loại nhiễu xe (Car), nhiễu đường phố (Street) và nhiều nhà hàng (Restaurant). a) b) Hình 1.1. a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) Trang 10
  15. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI a) b) Hình 1.2. a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) a) b) Hình 1.3. a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) Trong 3 nguồn nhiễu được ví dụ ở trên, nhiễu trong xe hơi (Car) có mật độ phổ phẳng, được xem là ổn định theo thời gian (hình 1.1) trong khi nhiễu tiếng ồn đường Trang 11
  16. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI phố (Street) và nhiễu trong nhà hàng (Restaurant) có mật độ không đồng đều theo thời gian. Như đã đề cập từ đầu thì đề tài này chỉ giới hạn giải pháp giảm nhiễu cho tín hiệu tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic noise). Như trình bày ở hình 1.4, tín hiệu tiếng nói bị nhiễu y(n) nhận được tại microphone thực chất được tạo ra từ một nguồn tín hiệu tiếng nói sạch x(n) cộng với nhiễu nền v(n). 𝑥(𝑛) 𝑦(𝑛) Noise 𝑥̂(𝑛) reduction 𝑣(𝑛) Hình 1.4. Mô hình nhiễu cộng Với giả thiết tín hiệu x(n) và v(n) là không tương quan, bài toán đặt ra ở đây là thiết kế bộ giảm nhiễu (noise reduction) để tái tạo tín hiệu tăng cường tại ngõ ra x̂(n) có chất lượng gần giống với tín hiệu gốc x(n) nhất. Hình 1.5. Dạng sóng tín hiệu tiếng nói trong miền thời gian ứng với tín hiệu sạch x(n), tín hiệu bị nhiễu y(n) và tín hiệu sau khi được giảm nhiễu 𝐱̂(𝐧) Trang 12
  17. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Các thuật toán nâng cao chất lượng tiếng nói thường bị giới hạn với dải các mức tỷ số tín hiệu trên nhiễu (SNR) khác nhau của tín hiệu tiếng nói trong môi trường thực. Và yêu cầu quan trọng là các thuật toán cần phải hiệu quả trong việc giảm nhiễu và cải thiện chất lượng tiếng nói với nhiều mức SNR khác nhau. 1.3. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Nâng cao chất lượng tiếng nói là việc cải thiện (tăng cường) các khía cạnh nhận thức của tiếng nói bị tác động bởi nhiễu môi trường với sự hỗ trợ của các công cụ xử lý tín hiệu. Trên cơ sở đó yêu cầu xây dựng các kỹ thuật giảm nhiễu có khả năng giảm các mức nhiễu khác nhau nhằm nâng cao chất lượng tiếng nói, hoạt động được mô tả như sơ đồ ở hình sau: Hình 1.6. Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu đã được tăng cường Sơ đồ khối của thuật toán giảm nhiễu được trình bày như trong hình 1.7. Y(n) 𝑋෠ (𝑛) Phân tích tín FFT/ Hàm xử lý IFFT/ Xếp hiệu thành các DWT IDWT chồng và giảm nhiễu frame cộng Tín hiệu Tín hiệu bị sạch nhiễu Ước lượng nhiễu Hình 1.7. Sơ đồ khối tổng quát thuật toán giảm nhiễu Trang 13
  18. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Trong mô hình cải thiện chất lượng tín hiệu tiếng nói bị nhiễu này tín hiệu ngõ vào đầu tiên được phân tích thành các khung ngắn (frames) có cấu trúc ổn định. Tiếp theo đó sẽ thực hiện phép biến đổi Fourier nhanh (FFT) hoặc phép biến đổi Wavelet rời rạc (DWT) được áp dụng để có thể biểu diễn và khai thác đặc tính của tín hiệu và nhiễu hiệu quả hơn trong miền biến đổi, đồng thời giúp cho việc áp dụng các kỹ thuật ước lượng nhiễu tương ứng trong mỗi miền đạt độ chính xác cao hơn. Dựa trên kỹ thuật giảm nhiễu với mức nhiễu đã được ước lượng, các khung tín hiệu sau khi được giảm nhiễu trong miền tần số hoặc miền Wavelet sẽ được biến đổi ngược lại (IDFT/IDWT) qua miền thời gian trước khi được tổng hợp lại bằng phương pháp cộng xếp chồng (overlap and adding) ghép khung để khôi phục tín hiệu tiếng nói tại ngõ ra. Có 4 hướng nghiên cứu chính để thiết kế các quy luật giảm nhiễu: - Dựa trên tính tuần hoàn (periodicity) của tín hiệu tiếng nói. - Dựa trên việc mô phỏng mô hình thính giác (auditory model). - Sử dụng các bộ ước lượng tuyến tính tối ưu (linear estimators). - Dựa trên mô hình thống kê (statistical models) sử dụng các phương pháp ước lượng phi tuyến tối ưu (non-linear estimators). Trong đề tài này xây dựng thuật toán giảm nhiễu dựa trên mô hình thống kê với các bộ ước lượng tuyến tính tối ưu. Các kỹ thuật ước lượng tuyến tính tối ưu được lựa chọn vì khá đơn giản để thực hiện và rất hiệu quả cho các loại nhiễu không quá phức tạp. Huấn luyện các mô hình thống kê để mô hình hóa đặc tính của tín hiệu tiếng nói cũng như đặc tính của các nguồn nhiễu khác nhau. 1.4. CÁC KỸ THUẬT GIẢM NHIỄU Như vậy, từ các yêu cầu trình bày ở trên thì nhiều thuật toán với mục đích giảm nhiễu nâng cao chất lượng tiếng nói ra đời. Những thuật toán này có thể được chia thành ba nhóm chính: - Các thuật toán trừ phổ: là phương pháp khôi phục công suất hay biên bộ phổ của tín hiệu tiếng nói bị tác động bởi nhiễu cộng. Khi đó thuật toán sẽ có nhiệm vụ ước lượng phổ nhiễu trung bình khi vắng mặt tiếng nói và thực hiện trừ nhiễu khỏi tín hiệu tiếng nói bị nhiễu. - Các thuật toán dựa trên mô hình thống kê: nguyên lý của các kỹ thuật này dựa trên nền tảng ước lượng thống kê. Với các thông số đo lường được biểu diễn bằng các hệ số biến đổi Fourier của tín hiệu tiếng nói bị nhiễu để đưa ra các ước lượng tuyến tính (hoặc phi tuyến) các thông số của tín hiệu tiếng nói sạch. - Các thuật toán không gian con: không giống như các thuật toán ở trên, các thuật toán không gian con có nguồn gốc dựa vào lý thuyết đại số tuyến tính. Cụ thể, các Trang 14
  19. Chương 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI thuật toán này dựa trên nguyên lý tín hiệu sạch có thể bị giới hạn trong không gian con của không gian Euclidean. Trên thực tế thì các thuật toán giảm nhiễu chỉ có thể cải thiện được một phần chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói. Do đó, việc thiết kế một thuật toán giảm nhiễu phải đảm bảo yêu cầu là giảm được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói. 1.5. KẾT LUẬN CHƯƠNG Như vậy chương đầu tiên đã trình bày tổng quan về môi trường nhiễu tác động lên tín hiệu tiếng nói, sơ đồ khối và các yêu cầu cơ bản để xây dựng kỹ thuật giảm nhiễu nhằm nâng cao chất lượng tiếng nói. Những cơ sở lí thuyết cơ bản đó sẽ là tiền đề để tiếp tục tập trung vào khảo sát, xây dựng sơ đồ khối cho thuật toán giảm nhiễu sử dụng bộ lọc Kalman ở những phần tiếp theo. Trang 15
  20. Chương 2: THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN Chương 2: THUẬT TOÁN GIẢM NHIỄU SỬ DỤNG BỘ LỌC KALMAN 2.1. GIỚI THIỆU CHƯƠNG Bộ lọc Kalman được sử dụng rộng rãi trong xử lý tín hiệu thống kê và lý thuyết ước lượng, đặc biệt là các hệ thống nhân quả, ứng dụng thời gian thực. Ứng dụng của bộ lọc Kalman cho việc nâng cao chất lượng tiếng nói bị tác động bởi nhiễu môi trường sẽ được trình bày ở chương này. Các hệ số của mô hình hồi quy cho cả tín hiệu tiếng nói và nhiễu sẽ được xác định dựa trên việc phân tích mô hình LPC. Đồng thời, việc ước lượng nhiễu sẽ được thực hiện dựa trên xác suất hiện diện tiếng nói (SPP). Từ đó thực hiện mô hình hóa hệ thống và lựa chọn các thông số cho bộ lọc Kalman để chạy thử nghiệm thuật toán trên các tín hiệu mẫu. 2.2. BỘ LỌC KALMAN Bộ lọc Kalman là một trong những công cụ quan trọng được ứng dụng trong việc ước lượng các quá trình ngẫu nhiên từ các đo lường có nhiễu. Năm 1960, Rudolph E. Kalman công bố bài báo nổi tiếng về mô tả phương pháp tính truy hồi để giải quyết bài toán lọc thông tin rời rạc tuyến tính: “A New Approach to Line Filtering and Prediction Problems” [7]. Từ đó đến nay, cùng với sự phát triển kỹ thuật số, bộ lọc Kalman với nhiều biến thể đã trở thành chủ đề nghiên cứu sôi nổi và được ứng dụng trong nhiều nghành kỹ thuật khác nhau: trong tự động hóa, trong định vị cũng như trong viễn thông và nhiều lĩnh vực khác… Theo nguyên lý bộ lọc, tín hiệu ước lượng và các giá trị đo lường được mô hình hóa bằng các phương trình trực quan, có quan hệ nghiêm ngặt và được đưa ra dựa trên nguyên tắc trực giao. 2.2.1. Tổng quan về bộ lọc Kalman Một cách khái quát, bộ lọc Kalman là tập hợp các phương trình toán học mô tả một phương pháp tính toán truy hồi cho phép ước đoán trạng thái của một quá trình sao cho trung bình sai lệch giữa giá trị thực và giá trị ước lượng là nhỏ nhất. Bộ lọc Kalman rất hiệu quả trong việc ước đoán các trạng thái trong quá khứ, hiện tại và tương lai, ngay cả khi tính chính xác của hệ thống không được xác định. Dựa trên nguyên lý xác suất thống kê, giá trị trước của quá trình được giả định thông qua giá trị trung bình và phương sai của điều kiện đầu. Và cấu trúc tự hồi quy là công cụ biểu diễn trạng thái quá trình lan truyền theo thời gian. Để lọc Kalman hiệu quả thì hệ thống cần đảm bảo 4 điều kiện: - Giá trị đo lường (quan sát) xác định với tốc độ lấy mẫu không đổi; - Nhiễu đo lường tuân theo phân bố Gauss; - Quá trình được mô hình hóa bằng các phương trình toán học; Trang 16
nguon tai.lieu . vn