Xem mẫu

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Chủ nhiệm đề tài: ThS. Dương Ngọc Pháp Đà Nẵng, 12/2016
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
  3. MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ ..................................................................................................1 DANH MỤC BẢNG BIỂU ............................................................................................. 3 DANH MỤC TỪ VIẾT TẮT ..........................................................................................4 THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................6 MỞ ĐẦU .........................................................................................................................8 I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC ..........................................................................................8 1. NGOÀI NƯỚC .........................................................................................................8 2. TRONG NƯỚC.........................................................................................................8 II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ............................................................................8 III. MỤC TIÊU CỦA ĐỀ TÀI ........................................................................................9 IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU..........................................................9 1. ĐỐI TƯỢNG NGHIÊN CỨU .......................................................................................9 2. PHẠM VI NGHIÊN CỨU ...........................................................................................9 V. NỘI DUNG NGHIÊN CỨU .....................................................................................9 CHƯƠNG 1:TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI .................................................10 1.1. GIỚI THIỆU CHƯƠNG .....................................................................................10 1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI ..................................10 1.2.1. Đặc điểm ngôn ngữ học của tiếng nói .......................................................10 1.2.2. Xử lý tiếng nói ........................................................................................... 10 1.3. NHIỄU ................................................................................................................15 1.4. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........................................................17 1.5. CÁC KỸ THUẬT GIẢM NHIỄU ......................................................................18 1.5.1. Các thuật toán trừ phổ ...............................................................................19 1.5.2. Sử dụng bộ lọc Wiener ..............................................................................19 1.5.3. Hàm nén nhiễu dựa trên ước lượng MMSE ..............................................19 1.6. ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .........................................................20 1.6.1. Phương pháp đánh giá chủ quan................................................................ 20 1.6.2. Phương pháp đánh giá khách quan ............................................................ 23 1.7. KẾT LUẬN CHƯƠNG ......................................................................................26 CHƯƠNG 2:CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET .........................................................................................................27 2.1. GIỚI THIỆU CHƯƠNG .....................................................................................27 2.2. PHÉP BIẾN ĐỔI WAVELET ............................................................................27 i
  4. MỤC LỤC 2.3. MÔ HÌNH NHIỄU CỘNG TRONG MIỀN WAVELET ....................................29 2.4. KỸ THUẬT CHỌN NGƯỠNG..........................................................................29 2.5. HÀM NÉN NHIỄU ............................................................................................. 30 2.6. THUẬT TOÁN GIẢM NHIỄU DÙNG PHƯƠNG PHÁP LỌC WAVELET CÓ TÍNH CẢM QUAN PSWF ........................................................................................32 2.6.1. Ánh xạ ngưỡng giác quan ..........................................................................32 2.6.2. Kỹ thuật lọc percentile thích nghi ............................................................. 33 2.6.3. Trọng số hóa trong miền thời gian và tần số .............................................34 2.6.4. Hàm nén nhiễu thích nghi..........................................................................35 2.7. KẾT LUẬN CHƯƠNG ......................................................................................36 CHƯƠNG 3:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ .....................37 3.1. GIỚI THIỆU CHƯƠNG .....................................................................................37 3.2. CƠ SỞ DỮ LIỆU ................................................................................................ 37 3.3. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH ..........................................................38 3.3.1. Kết quả đánh giá theo phương pháp LLR .................................................39 3.3.2. Đánh giá hiệu quả nén nhiễu trên các môi trường nhiễu khác nhau .........42 3.3.3. Hiệu quả các hàm nén nhiễu theo các phương pháp đánh giá khác nhau .46 3.3.4. Kết quả phương pháp đánh giá cảm quan PESQ cho các môi trường nhiễu (Babble, Car, White, Train, Street)........................................................................52 3.3.5. Kết quả đánh giá CEP-PESQ-WSS-SNRseg với các thuật toán nén nhiễu .. ...................................................................................................................55 3.4. KẾT LUẬN CHƯƠNG ......................................................................................60 KẾT LUẬN ...................................................................................................................61 KIẾN NGHỊ ...................................................................................................................61 ii
  5. DANH MỤC HÌNH VẼ DANH MỤC HÌNH VẼ Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian ............................... 11 Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1]. ............................... 11 Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1]. ..............................................11 Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1]. ..........12 Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian ......................12 Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau .....................13 Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu đã được tăng cường .......................................................................................................13 Hình 1.8: Kỹ thuật phân khung [1]. ...............................................................................14 Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) .............................. 15 Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) ...........16 Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) ......16 Hình 1.12: Mô hình nhiễu cộng .....................................................................................17 Hình 1.13: Sơ đồ khối tổng quát thuật toán giảm nhiễu ................................................17 Hình 2.1: Miền phân tích của phép biến đổi Wavelet ...................................................28 Hình 2.2: Cấu trúc cây phân chia gói ............................................................................29 Hình 2.3: Đặc tuyến hàm nén nhiễu ngưỡng cứng trong miền Wavelet [16]. ..............31 Hình 2.4: Đặc tuyến hàm nén nhiễu ngưỡng mềm trong miền Wavelet [16]. ..............31 Hình 2.5: Sơ đồ của thuật toán PSWF [14]. ..................................................................32 Hình 2.6: Mô tả cách lấy percentile q để xác định ngưỡng thích nghi cho từng kênh Wavelet [14]. .................................................................................................................34 Hình 2.7: Đặc tuyến hàm nén nhiễu thích nghi trong miền Wavelet [16]. ..................36 Hình 3.1: Đáp ứng tần số của bộ lọc IRS ......................................................................37 Hình 3.2: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable). ..........................................................................39 Hình 3.3: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car). .........................................................................................40 Hình 3.4: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng (White)................................................................................................. 40 Hình 3.5: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train). ............................................................................................. 41 Hình 3.6: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu đường phố (Street). .......................................................................................41 Hình 3.7: Kết quả đánh giá hàm nén ngưỡng cứng cho 5 môi trường nhiễu. ...............42 Hình 3.8: Kết quả đánh giá hàm nén ngưỡng mềm cho 5 môi trường nhiễu. ...............43 Trang 1
  6. DANH MỤC HÌNH VẼ Hình 3.9: Kết quả đánh giá hàm nén Wavelet Shrinking cho 5 môi trường nhiễu. ......43 Hình 3.10: Kết quả đánh giá thuật toán LogMMSE-PF cho 5 môi trường nhiễu. ........44 Hình 3.11: Kết quả đánh giá thuật toán NSS-PF cho 5 môi trường nhiễu. ...................44 Hình 3.12: Kết quả đánh giá thuật toán MMSE-PF cho 5 môi trường nhiễu. ..............45 Hình 3.13: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán HardThreshold-PF. ........................................................................................................46 Hình 3.14: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán SoftThreshold-PF. .........................................................................................................47 Hình 3.15: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán Shrinking-PF. .................................................................................................................48 Hình 3.16: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán LogMMSE-PF. ..............................................................................................................49 Hình 3.17: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán NSS-PF. .........................................................................................................................50 Hình 3.18: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán MMSE-PF. .....................................................................................................................51 Hình 3.19: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đám đông................................................................ 52 Hình 3.20: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn ôtô. .........................................................................52 Hình 3.21: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng. ....................................................................................53 Hình 3.22: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn tàu hỏa. ...................................................................53 Hình 3.23: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đường phố. ............................................................. 54 Hình 3.24: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đông. ....................................................................55 Hình 3.25: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu ôtô. ...............................................................................56 Hình 3.26: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng..............................................................................57 Hình 3.27: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa. .........................................................................58 Hình 3.28: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đường phố. ...................................................................59 Trang 2
  7. DANH MỤC BẢNG BIỂU DANH MỤC BẢNG BIỂU Bảng 1.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín hiệu mẫu ........................................................................................................................21 Bảng 1.2: Thang đánh giá DCR ....................................................................................22 Bảng 1.3: Thang đánh giá CCR .....................................................................................22 Bảng 1.4: Thang đánh giá MOS ....................................................................................23 Bảng 2.1: Ánh xạ giữa các CWS và các gói Wavelet ...................................................33 Trang 3
  8. DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Đánh giá theo giá trị ACR Absolute Categories Rating tuyệt đối CCR Compison Category Rating Đánh giá bằng cách so sánh CEP Cepstrum Distance Khoảng cách Cepstrum DCR Degradation Category Rating Đánh giá suy giảm chất lượng DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh FRs Frames Số khung HardThr Hard-Threshold Ngưỡng cứng Phép biến đổi ngược Fourier IDFT Inverse Discrete Fourier Transform rời rạc Phép biến đổi ngược Wavelet IDWT Discrete Wavelet Transform rời rạc Institute of Electrical and IEEE Viện kỹ nghệ Điện và Điện tử Electronics Engineers Hệ thống tham chiếu trung IRS Intermediate Reference System gian International Telecommunications Hiệp hội tiêu chuẩn viễn ITU-T Union-Telecomunication thông quốc tế LLR Log Likelihood Ratio Logrithm Minium Mean-Squed Sai lệch trung bình bình LogMMSE Error phương tối thiểu-Logarit LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính Sai lệch trung bình bình MMSE Minimum Mean Sque Error phương tối thiểu MOS Mean Opinion Scores MSS Magnitude Spectral Subtraction Trừ phổ biên độ NOIZEUS Noisy Speech Corpus NSS Non-line Spectral Subtraction Trừ phổ phi tuyến. OE Objective Evaluation Đánh giá khách quan PDF Probability Density Function Hàm mật độ xác suất PESQ Perceptual Evaluation of Speech Đánh giá cảm quan chất Trang 4
  9. DANH MỤC TỪ VIẾT TẮT Quality lượng thoại PSD Power Spectral Density Mật độ phổ công suất Đo đạc cảm quan chất lượng PSQM Perceptual speech quality measure thoại PSS Power Spectral Subtraction Trừ phổ công suất Perceptually Statistical Wavelet Bộ lọc Wavelet thống kê có PSWF Filter tính cảm quan SE Subjective Evaluation Đánh giá chủ quan SE Speech Enhancement Tăng cường tiếng nói SegSNR Segmental Signal-to-Noise Ratio SNR trên từng khung SNR Signal-to-noise ratio Tỷ số tín hiệu trên nhiễu SoftThr Soft-Threshold Ngưỡng mềm SS Spectral Subtraction Phương pháp trừ phổ. Phép biến đổi Fourier thời STFT Short Time Fourier Transform gian ngắn TD Time Domain Miền thời gian UT Universal Threshold Ngưỡng toàn cục Thăm dò sự hoạt động của VAD Voice Activity Detection tiếng nói WF Wiener Filter Bộ lọc Wiener WPD Wavelet Packet Decomposition Phân tích gói Wavelet WPR Wavelet Packet Reconstruction Khôi phục gói Wavelet WSS Weighted Spectral Slope Độ dốc phổ được trọng số hóa Trang 5
  10. THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI - Mã số: T2016-07-05 - Chủ nhiệm: DƯƠNG NGỌC PHÁP - Thành viên tham gia: không - Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng - Thời gian thực hiện: từ ngày 01/01/2016 đến ngày 31/12/2016 2. Mục tiêu: - Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng nói trong miền Wavelet. - Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền Wavelet. - Kết quả mô phỏng, đánh giá sẽ so sánh giữa các kỹ thuật giảm nhiễu khác nhau. 3. Tính mới và sáng tạo: - Tín hiệu tiếng nói được biểu diễn trong miền Wavelet khai thác được đầy đủ các đặc điểm về thời gian và tần số cho phép phân tích chi tiết và chính xác các đặc điểm vật lý của tín hiệu, là kỹ thuật được nghiên cứu và ứng dụng rộng rãi trong thời gian gần đây trong lĩnh vực xử lí tín hiệu (giảm nhiễu, nén,...). - Trong đề tài, tác giả nghiên cứu điều chỉnh nhằm tối ưu các thông số của các thuật toán giảm nhiễu trong miền Wavelet, qua đó đưa ra những đánh giá và phân tích để so sánh hiệu quả giảm nhiễu giữa các thuật toán khác nhau. 4. Tóm tắt kết quả nghiên cứu: - Trình bày tổng quan về lĩnh vực xử lí tiếng nói, nâng cao chất lượng tiếng nói và tình hình nghiên cứu các giải pháp giảm nhiễu. - Ứng dụng các phép biến đổi trong miền Wavelet để xây dựng các thuật toán giảm nhiễu cho tín hiệu tiếng nói. - Sử dụng công cụ lập trình để thực hiện giảm nhiễu trong miền Wavelet với các kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft-thresholding) và hàm nén nhiễu dùng phương pháp lọc Trang 6
  11. THÔNG TIN KẾT QUẢ NGHIÊN CỨU Wavelet thống kê có tính cảm quan (PSWF) với nhiều mức nhiễu và trong các môi trường nhiễu khác nhau. - Tiến hành tổng hợp và so sánh, đánh giá hiệu quả giảm nhiễu giữa các thuật toán khác nhau đã phát triển trong các miền biến đổi (thời gian, tần số, wavelet) để đề xuất lựa chọn cho các mô hình xử lí tiếng nói. 5. Tên sản phẩm: - Báo cáo tổng kết đề tài; - Bài báo đăng trên kỷ yếu hội thảo cấp trường. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Về mặt giáo dục - đào tạo: phục vụ công tác giảng dạy, nghiên cứu. - Về mặt khoa học: đóng góp đáng kể của đề tài là trình bày các kỹ thuật giảm nhiễu trong miền Wavelet và thực hiện tối ưu các tham số, qua đó so sánh đánh giá hiệu quả giảm nhiễu nâng cao chất lượng tiếng nói với các thuật toán đã nghiên cứu trước đó. - Về sản phẩm ứng dụng: ứng dụng thuật toán trong việc xây dựng phần mềm giảm nhiễu nâng cao chất lượng tiếng nói. 7. Hình ảnh, sơ đồ minh họa chính: - LLR - babble 1.6 HardThr-PF 1.4 SoftThr-PF Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 0.1: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable). Đà Nẵng, ngày 10 tháng 12 năm 2016 Cơ quan chủ trì Chủ nhiệm đề tài Dương Ngọc Pháp Trang 7
  12. MỞ ĐẦU MỞ ĐẦU I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 1. Ngoài nước Với sự phát triển nhanh chóng của Internet và công nghệ truyền thông đa phương tiện, sự phát triển và tích hợp các kỹ thuật xử lý tiếng nói cũng như ứng dụng của tiếng nói như nhận dạng, mã hóa vào trong các sản phẩm và hệ thống truyền thông ngày càng giúp nâng cao chức năng, tính tiện nghi và hiệu suất của các ứng dụng đa phương tiện, các sản phẩm dân dụng, các hệ thống truyền thông và Internet. Tuy nhiên, việc triển khai các ứng dụng trong môi trường thực tế lại gặp phải trở ngại lớn nhất là tác động của nhiễu môi trường làm giảm đáng kể chất lượng tín hiệu thu được, và gián tiếp làm suy giảm hiệu suất của các hệ thống và ứng dụng. Hiện nay, vẫn chưa có thuật toán khử nhiễu nào được công nhận chính thức như là chuẩn quốc tế bởi ITU-T. Hiện tại chỉ có một tập hợp các quy định về quá trình tiền xử lý khử nhiễu được đề xuất cho bộ mã hóa ETSI/3GPP đa tốc độ thích nghi (Adaptive Multi-Rate Codec). Hầu hết các thuật toán được thực hiện trong miền tần số và đôi khi kết hợp với mô hình thính giác của con người. 2. Trong nước Nhiều đề tài đã thực hiện tập trung nghiên cứu các giải pháp giảm nhiễu trong miền thời gian, miền tần số và đã cho các kết quả giảm nhiễu gồm kỹ thuật giảm nhiễu dựa trên thuật toán trừ phổ (SS), kỹ thuật giảm nhiễu với ước lượng MMSE, kỹ thuật giảm nhiễu sử dụng bộ lọc Wiener (WF). Một số đề tài đã đề cập sử dụng kỹ thuật nén nhiễu trong miền Wavelet ứng dụng trong các khối tiền xử lí của hệ thống nhận dạng tiếng nói tự động. II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Các thuật toán giảm nhiễu đóng vai trò quan trọng thực hiện tiền xử lí trong các hệ thống xử lí tiếng nói. Trong thời gian gần đây, một số kết quả nghiên cứu cho thấy hiệu quả cao của các thuật toán khử nhiễu triển khai trong miền Wavelet. Đề tài này sẽ tập trung nghiên cứu các kỹ thuật giảm nhiễu trong miền Wavelet, đồng thời thực hiện mô phỏng để đánh giá hiệu quả giảm nhiễu của các thuật toán đó. Kết quả giảm nhiễu sử dụng các thuật toán giảm nhiễu thực hiện trong miền Wavelet với các thông số hiệu chỉnh tối ưu sẽ được so sánh, đánh giá với các thuật toán trong các miền thời gian, tần số đã được nghiên cứu, qua đó đưa ra góc nhìn đầy đủ về việc lựa chọn các giải pháp thực hiện giảm nhiễu cho tín hiệu tiếng nói. Trang 8
  13. MỞ ĐẦU III. MỤC TIÊU CỦA ĐỀ TÀI - Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng nói trong miền Wavelet. - Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền Wavelet. - Kết quả mô phỏng, thí nghiệm sẽ được so sánh với các kỹ thuật giảm nhiễu khác. IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1. Đối tượng nghiên cứu - Mô hình âm học, đặc điểm tiếng nói, đặc tính của nhiễu. - Các phép biến đổi trong miền Wavelet. - Các thuật toán nén nhiễu trong miền Wavelet. - Ngôn ngữ Matlab thực hiện thuật toán. - Các phương pháp đánh giá tín hiệu tiếng nói. 2. Phạm vi nghiên cứu - Các đặc điểm của tín hiệu tiếng nói. - Các phép biến đổi trong miền Wavelet. - Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói thực hiện trong miền Wavelet. - Đánh giá so sánh các kỹ thuật giảm nhiễu. V. NỘI DUNG NGHIÊN CỨU 1. Trình bày tổng quan về xử lí tiếng nói và tình hình nghiên cứu các giải pháp giảm nhiễu. 2. Các phép biến đổi trong miền Wavelet: mô hình nhiễu, kỹ thuật chọn ngưỡng. 3. Thực hiện giảm nhiễu trong miền Wavelet với các kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft- thresholding) và hàm nén nhiễu dùng phương pháp lọc Wavelet thống kê có tính cảm quan (PSWF). 4. Mô phỏng kết quả với ngôn ngữ Matlab. So sánh với các phương pháp khác, đánh giá kết quả mô phỏng và so sánh. Trang 9
  14. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1. GIỚI THIỆU CHƯƠNG Chương này trình bày tổng quan về các cơ sở phân tích tiếng nói và giới thiệu về các hướng nghiên cứu, xử lý để cải thiện chất lượng tín hiệu tiếng nói thông qua kỹ thuật giảm nhiễu. Đặc tính nhiễu và các kỹ thuật giảm nhiễu trong các miền thời gian và tần số sẽ được trình bày vắn tắt để làm cơ sở cho việc tổ chức so sánh, đánh giá ở chương 3 của đề tài. Phần cuối chương 1 cung cấp các quy trình, giải pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói. 1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI 1.2.1. Đặc điểm ngôn ngữ học của tiếng nói Tiếng nói là tín hiệu sóng âm để diễn đạt và truyền tải thông tin. Thông tin được thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc gán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể được phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, có khoảng từ 30 đến 50 âm vị. Ví dụ, tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị, tiếng Việt khoảng 33 âm vị. 1.2.2. Xử lý tiếng nói a. Phân loại tiếng nói Tiếng nói được chia thành 3 loại cơ bản như sau [1]:  Âm hữu thanh: Là âm khi phát ra thì có thanh, chẳng hạn như chúng ta nói “i”, “a”, hay “o”. Trong âm hữu thanh, không khí đi ra khỏi phổi bị ngắt một cách nhanh chóng bởi sự đóng mở tuần hoàn của những dây thanh âm.  Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi chút tạo ra giọng như giọng thở, ví dụ như “h”, “p” hay “th”. Tạo ra do sự hỗn loạn khi luồng không khí đi qua chỗ hẹp.  Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín tạo nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ như “ch”, “t”. b. Biểu diễn tín hiệu tiếng nói Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là: - Biểu diễn dưới dạng sóng theo thời gian. - Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói - Biểu diễn trong không gian 3 chiều (ảnh phổ- spectrogram)  Dạng sóng theo thời gian Trang 10
  15. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian Time(s) Time(s) Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1]. . Time(s) . Time(s) Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1]. Trang 11
  16. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI . Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1]. Âm thanh được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz. Độ phân giải hay còn gọi là số bít trên mỗi mẫu là 8 hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo). Như vậy, dữ liệu lưu trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này được thể hiện rõ nét trong các hình 1.1, hình 1.2, hình 1.3 và hình 1.4.  Phổ tín hiệu tiếng nói Dải tần số của tín hiệu âm thanh nằm trong khoảng tần số từ 0Hz đến 20KHz, tuy nhiên phần lớn công suất nằm trong dải tần số từ 0,3KHz đến 3,4KHz. Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian Hình 1.5 và hình 1.6 cho ta thấy đường bao phổ của tín hiệu tiếng nói, công suất phổ tập trung trong dải tần từ 0,1KHz đến 3,5KHz. Hai người nói khác nhau cho thấy đường bao phổ cũng khác nhau. Trang 12
  17. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau  Ảnh phổ (Spectrogram) Bên cạnh việc biểu diễn tín hiệu tiếng nói bằng dạng sóng tín hiệu, phổ công suất hay đường bao phổ, tín hiệu tiếng nói còn được biểu diễn trong không gian ba chiều gọi là ảnh phổ như hình 1.7. Quan sát ảnh phổ ta thu nhận được các thông tin như phổ công suất, phân bố tần số, formant.v.v. Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu đã được tăng cường c. Các hướng xử lý tiếng nói Dựa trên kết quả nghiên cứu về đặc điểm của tín hiệu tiếng nói, các công cụ toán học được áp dụng để hiện thực các kỹ thuật xử lý tín hiệu tiếng nói. Các hướng nghiên cứu xử lý tiếng nói có thể được phân chia như sau:  Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung của tiếng nói thành văn bản. Trang 13
  18. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI  Nhận dạng người nói: mục đích là để xác định và thẩm định danh tính của người nói từ tín hiệu giọng nói của người đó.  Tăng cường chất lượng tiếng nói: nhằm cải thiện chất lượng và tăng tính hiểu được của tín hiệu tiếng nói bị nhiễu (ví dụ: giảm nhiễu ồn của tín hiệu tiếng nói, giảm hoặc khử tiếng vọng trong kỹ thuật điện thoại .v.v).  Mã hóa tiếng nói: nhằm thực hiện nén dữ liệu tiếng nói để giảm dung lượng lưu trữ hay tiết kiệm băng thông truyền dẫn (ví dụ như trong thể thức truyền tiếng nói qua internet VoIP). Ngoài ra, việc mã hóa dữ liệu tiếng nói cũng nhằm mục đích bảo mật thông tin tiếng nói được truyền đi.  Tổng hợp tiếng nói: là kỹ thuật tạo ra tiếng nói nhân tạo từ văn bản nhập vào. Tiếng nói được tạo ra nên có chất lượng giống tiếng nói tự nhiên.  Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản.v.v.  Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát ra âm thanh (có thể là loa, người nói, hướng nói. v.v.). d. Kỹ thuật phân khung tín hiệu tiếng nói Bên cạnh phương pháp xử lý tín hiệu tiếng nói cho từng mẫu (sample) nhận được, tín hiệu tiếng nói thường được xử lý trên từng khung (frame/segment) với chiều dài khung thường khoảng từ 10ms đến 30ms và khoảng lệch các khung thường bằng 40% - 60% chiều dài khung. Hình 1.8: Kỹ thuật phân khung [1]. Kỹ thuật phân khung tín hiệu (framing) được thực hiện bằng cách nhân tín hiệu ngõ vào với hàm cửa sổ trượt. Trong lý thuyết phân tích tín hiệu, rất nhiều thuật toán và phép biến đổi yêu cầu tính chất thống kê của tín hiệu không thay đổi hay ổn định theo thời gian (stationary). Chẳng hạn trong phân tích phổ của tín hiệu dùng biến đổi Trang 14
  19. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Fourier, tính chất stationary được yêu cầu để sự ước lượng phổ có độ chính xác cao. Trong thực tế yêu cầu này rất khó thỏa mãn đối với hầu hết các tín hiệu có trong ứng dụng thực tế. Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm nhau như biểu diễn trong hình 1.8. Nói một cách khác, hai khung cách nhau có chung ít nhất M>0 mẫu. Các hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ nhật (rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming. 1.3. NHIỄU Nhiễu tồn tại mọi nơi, ví dụ nhiễu trên đường phố (Street: phương tiện giao thông, công trường đang thi công), nhiễu trong xe hơi (Car: tiếng ồn động cơ, gió), nhiễu trong văn phòng (Office: tiếng ồn quạt máy tính để bàn, máy điều hòa không khí), nhiễu trong nhà hàng (Restaurant: tiếng xì xào),… Đặc tính khác của các kiểu nhiễu khác nhau là giản đồ phổ tín hiệu, liên quan đến sự phân bố năng lượng nhiễu trong miền tần số. Ví dụ, năng lượng chính của nhiễu gió tập trung ở dải tần số thấp, thường là dưới 500Hz. Ví dụ minh họa về các loại nhiễu được trình bày ở hình 1.9, hình 1.10 và hình 1.11 về so sánh biên độ và phổ biên độ của các loại nhiễu xe (Car), nhiễu đường phố (Street) và nhiều nhà hàng (Restaurant). a) b) Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) Trang 15
  20. Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI a) b) Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) a) b) Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) Trong 3 nguồn nhiễu được ví dụ ở trên, nhiễu trong xe hơi (Car) có mật độ phổ phẳng, được xem là ổn định theo thời gian trong khi nhiễu tiếng ồn đường phố (Street) và nhiễu trong nhà hàng (Restaurant) có mật độ không đồng đều theo thời gian. Như đã đề cập từ đầu thì đề tài này chỉ giới hạn giải pháp giảm nhiễu cho tín hiệu tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic Trang 16
nguon tai.lieu . vn