- Trang Chủ
- Công nghệ thông tin
- Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp giảm nhiễu phi tuyến trong miền wavelet nhằm nâng cao chất lượng tiếng nói
Xem mẫu
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU
PHI TUYẾN TRONG MIỀN WAVELET NHẰM
NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Mã số: T2016-07-05
Chủ nhiệm đề tài: ThS. Dương Ngọc Pháp
Đà Nẵng, 12/2016
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU
PHI TUYẾN TRONG MIỀN WAVELET NHẰM
NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Mã số: T2016-07-05
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Đà Nẵng, 12/2016
- MỤC LỤC
MỤC LỤC
DANH MỤC HÌNH VẼ ..................................................................................................1
DANH MỤC BẢNG BIỂU ............................................................................................. 3
DANH MỤC TỪ VIẾT TẮT ..........................................................................................4
THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................6
MỞ ĐẦU .........................................................................................................................8
I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC ..........................................................................................8
1. NGOÀI NƯỚC .........................................................................................................8
2. TRONG NƯỚC.........................................................................................................8
II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ............................................................................8
III. MỤC TIÊU CỦA ĐỀ TÀI ........................................................................................9
IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU..........................................................9
1. ĐỐI TƯỢNG NGHIÊN CỨU .......................................................................................9
2. PHẠM VI NGHIÊN CỨU ...........................................................................................9
V. NỘI DUNG NGHIÊN CỨU .....................................................................................9
CHƯƠNG 1:TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI .................................................10
1.1. GIỚI THIỆU CHƯƠNG .....................................................................................10
1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI ..................................10
1.2.1. Đặc điểm ngôn ngữ học của tiếng nói .......................................................10
1.2.2. Xử lý tiếng nói ........................................................................................... 10
1.3. NHIỄU ................................................................................................................15
1.4. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........................................................17
1.5. CÁC KỸ THUẬT GIẢM NHIỄU ......................................................................18
1.5.1. Các thuật toán trừ phổ ...............................................................................19
1.5.2. Sử dụng bộ lọc Wiener ..............................................................................19
1.5.3. Hàm nén nhiễu dựa trên ước lượng MMSE ..............................................19
1.6. ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .........................................................20
1.6.1. Phương pháp đánh giá chủ quan................................................................ 20
1.6.2. Phương pháp đánh giá khách quan ............................................................ 23
1.7. KẾT LUẬN CHƯƠNG ......................................................................................26
CHƯƠNG 2:CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG
MIỀN WAVELET .........................................................................................................27
2.1. GIỚI THIỆU CHƯƠNG .....................................................................................27
2.2. PHÉP BIẾN ĐỔI WAVELET ............................................................................27
i
- MỤC LỤC
2.3. MÔ HÌNH NHIỄU CỘNG TRONG MIỀN WAVELET ....................................29
2.4. KỸ THUẬT CHỌN NGƯỠNG..........................................................................29
2.5. HÀM NÉN NHIỄU ............................................................................................. 30
2.6. THUẬT TOÁN GIẢM NHIỄU DÙNG PHƯƠNG PHÁP LỌC WAVELET CÓ
TÍNH CẢM QUAN PSWF ........................................................................................32
2.6.1. Ánh xạ ngưỡng giác quan ..........................................................................32
2.6.2. Kỹ thuật lọc percentile thích nghi ............................................................. 33
2.6.3. Trọng số hóa trong miền thời gian và tần số .............................................34
2.6.4. Hàm nén nhiễu thích nghi..........................................................................35
2.7. KẾT LUẬN CHƯƠNG ......................................................................................36
CHƯƠNG 3:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ .....................37
3.1. GIỚI THIỆU CHƯƠNG .....................................................................................37
3.2. CƠ SỞ DỮ LIỆU ................................................................................................ 37
3.3. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH ..........................................................38
3.3.1. Kết quả đánh giá theo phương pháp LLR .................................................39
3.3.2. Đánh giá hiệu quả nén nhiễu trên các môi trường nhiễu khác nhau .........42
3.3.3. Hiệu quả các hàm nén nhiễu theo các phương pháp đánh giá khác nhau .46
3.3.4. Kết quả phương pháp đánh giá cảm quan PESQ cho các môi trường nhiễu
(Babble, Car, White, Train, Street)........................................................................52
3.3.5. Kết quả đánh giá CEP-PESQ-WSS-SNRseg với các thuật toán nén nhiễu ..
...................................................................................................................55
3.4. KẾT LUẬN CHƯƠNG ......................................................................................60
KẾT LUẬN ...................................................................................................................61
KIẾN NGHỊ ...................................................................................................................61
ii
- DANH MỤC HÌNH VẼ
DANH MỤC HÌNH VẼ
Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian ............................... 11
Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1]. ............................... 11
Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1]. ..............................................11
Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1]. ..........12
Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian ......................12
Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau .....................13
Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu
đã được tăng cường .......................................................................................................13
Hình 1.8: Kỹ thuật phân khung [1]. ...............................................................................14
Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) .............................. 15
Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) ...........16
Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) ......16
Hình 1.12: Mô hình nhiễu cộng .....................................................................................17
Hình 1.13: Sơ đồ khối tổng quát thuật toán giảm nhiễu ................................................17
Hình 2.1: Miền phân tích của phép biến đổi Wavelet ...................................................28
Hình 2.2: Cấu trúc cây phân chia gói ............................................................................29
Hình 2.3: Đặc tuyến hàm nén nhiễu ngưỡng cứng trong miền Wavelet [16]. ..............31
Hình 2.4: Đặc tuyến hàm nén nhiễu ngưỡng mềm trong miền Wavelet [16]. ..............31
Hình 2.5: Sơ đồ của thuật toán PSWF [14]. ..................................................................32
Hình 2.6: Mô tả cách lấy percentile q để xác định ngưỡng thích nghi cho từng kênh
Wavelet [14]. .................................................................................................................34
Hình 2.7: Đặc tuyến hàm nén nhiễu thích nghi trong miền Wavelet [16]. ..................36
Hình 3.1: Đáp ứng tần số của bộ lọc IRS ......................................................................37
Hình 3.2: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tiếng ồn đám đông (Bable). ..........................................................................39
Hình 3.3: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tiếng ồn ôtô (Car). .........................................................................................40
Hình 3.4: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu trắng (White)................................................................................................. 40
Hình 3.5: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tàu hỏa (Train). ............................................................................................. 41
Hình 3.6: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu đường phố (Street). .......................................................................................41
Hình 3.7: Kết quả đánh giá hàm nén ngưỡng cứng cho 5 môi trường nhiễu. ...............42
Hình 3.8: Kết quả đánh giá hàm nén ngưỡng mềm cho 5 môi trường nhiễu. ...............43
Trang 1
- DANH MỤC HÌNH VẼ
Hình 3.9: Kết quả đánh giá hàm nén Wavelet Shrinking cho 5 môi trường nhiễu. ......43
Hình 3.10: Kết quả đánh giá thuật toán LogMMSE-PF cho 5 môi trường nhiễu. ........44
Hình 3.11: Kết quả đánh giá thuật toán NSS-PF cho 5 môi trường nhiễu. ...................44
Hình 3.12: Kết quả đánh giá thuật toán MMSE-PF cho 5 môi trường nhiễu. ..............45
Hình 3.13: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
HardThreshold-PF. ........................................................................................................46
Hình 3.14: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
SoftThreshold-PF. .........................................................................................................47
Hình 3.15: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
Shrinking-PF. .................................................................................................................48
Hình 3.16: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
LogMMSE-PF. ..............................................................................................................49
Hình 3.17: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
NSS-PF. .........................................................................................................................50
Hình 3.18: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán
MMSE-PF. .....................................................................................................................51
Hình 3.19: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu tiếng ồn đám đông................................................................ 52
Hình 3.20: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu tiếng ồn ôtô. .........................................................................52
Hình 3.21: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu trắng. ....................................................................................53
Hình 3.22: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu tiếng ồn tàu hỏa. ...................................................................53
Hình 3.23: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất
lượng tiếng nói với nhiễu tiếng ồn đường phố. ............................................................. 54
Hình 3.24: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường
chất lượng tiếng nói với nhiễu đám đông. ....................................................................55
Hình 3.25: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường
chất lượng tiếng nói với nhiễu ôtô. ...............................................................................56
Hình 3.26: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường
chất lượng tiếng nói với nhiễu trắng..............................................................................57
Hình 3.27: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường
chất lượng tiếng nói với nhiễu tàu hỏa. .........................................................................58
Hình 3.28: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường
chất lượng tiếng nói với nhiễu đường phố. ...................................................................59
Trang 2
- DANH MỤC BẢNG BIỂU
DANH MỤC BẢNG BIỂU
Bảng 1.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của
tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín
hiệu mẫu ........................................................................................................................21
Bảng 1.2: Thang đánh giá DCR ....................................................................................22
Bảng 1.3: Thang đánh giá CCR .....................................................................................22
Bảng 1.4: Thang đánh giá MOS ....................................................................................23
Bảng 2.1: Ánh xạ giữa các CWS và các gói Wavelet ...................................................33
Trang 3
- DANH MỤC TỪ VIẾT TẮT
DANH MỤC TỪ VIẾT TẮT
Từ viết tắt Tiếng Anh Tiếng Việt
Đánh giá theo giá trị
ACR Absolute Categories Rating
tuyệt đối
CCR Compison Category Rating Đánh giá bằng cách so sánh
CEP Cepstrum Distance Khoảng cách Cepstrum
DCR Degradation Category Rating Đánh giá suy giảm chất lượng
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
FRs Frames Số khung
HardThr Hard-Threshold Ngưỡng cứng
Phép biến đổi ngược Fourier
IDFT Inverse Discrete Fourier Transform
rời rạc
Phép biến đổi ngược Wavelet
IDWT Discrete Wavelet Transform
rời rạc
Institute of Electrical and
IEEE Viện kỹ nghệ Điện và Điện tử
Electronics Engineers
Hệ thống tham chiếu trung
IRS Intermediate Reference System
gian
International Telecommunications Hiệp hội tiêu chuẩn viễn
ITU-T
Union-Telecomunication thông quốc tế
LLR Log Likelihood Ratio
Logrithm Minium Mean-Squed Sai lệch trung bình bình
LogMMSE
Error phương tối thiểu-Logarit
LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính
Sai lệch trung bình bình
MMSE Minimum Mean Sque Error
phương tối thiểu
MOS Mean Opinion Scores
MSS Magnitude Spectral Subtraction Trừ phổ biên độ
NOIZEUS Noisy Speech Corpus
NSS Non-line Spectral Subtraction Trừ phổ phi tuyến.
OE Objective Evaluation Đánh giá khách quan
PDF Probability Density Function Hàm mật độ xác suất
PESQ Perceptual Evaluation of Speech Đánh giá cảm quan chất
Trang 4
- DANH MỤC TỪ VIẾT TẮT
Quality lượng thoại
PSD Power Spectral Density Mật độ phổ công suất
Đo đạc cảm quan chất lượng
PSQM Perceptual speech quality measure
thoại
PSS Power Spectral Subtraction Trừ phổ công suất
Perceptually Statistical Wavelet Bộ lọc Wavelet thống kê có
PSWF
Filter tính cảm quan
SE Subjective Evaluation Đánh giá chủ quan
SE Speech Enhancement Tăng cường tiếng nói
SegSNR Segmental Signal-to-Noise Ratio SNR trên từng khung
SNR Signal-to-noise ratio Tỷ số tín hiệu trên nhiễu
SoftThr Soft-Threshold Ngưỡng mềm
SS Spectral Subtraction Phương pháp trừ phổ.
Phép biến đổi Fourier thời
STFT Short Time Fourier Transform
gian ngắn
TD Time Domain Miền thời gian
UT Universal Threshold Ngưỡng toàn cục
Thăm dò sự hoạt động của
VAD Voice Activity Detection
tiếng nói
WF Wiener Filter Bộ lọc Wiener
WPD Wavelet Packet Decomposition Phân tích gói Wavelet
WPR Wavelet Packet Reconstruction Khôi phục gói Wavelet
WSS Weighted Spectral Slope Độ dốc phổ được trọng số hóa
Trang 5
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU
ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG
MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
- Mã số: T2016-07-05
- Chủ nhiệm: DƯƠNG NGỌC PHÁP
- Thành viên tham gia: không
- Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng
- Thời gian thực hiện: từ ngày 01/01/2016 đến ngày 31/12/2016
2. Mục tiêu:
- Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng
nói trong miền Wavelet.
- Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền
Wavelet.
- Kết quả mô phỏng, đánh giá sẽ so sánh giữa các kỹ thuật giảm nhiễu khác nhau.
3. Tính mới và sáng tạo:
- Tín hiệu tiếng nói được biểu diễn trong miền Wavelet khai thác được đầy đủ
các đặc điểm về thời gian và tần số cho phép phân tích chi tiết và chính xác các
đặc điểm vật lý của tín hiệu, là kỹ thuật được nghiên cứu và ứng dụng rộng rãi
trong thời gian gần đây trong lĩnh vực xử lí tín hiệu (giảm nhiễu, nén,...).
- Trong đề tài, tác giả nghiên cứu điều chỉnh nhằm tối ưu các thông số của các
thuật toán giảm nhiễu trong miền Wavelet, qua đó đưa ra những đánh giá và
phân tích để so sánh hiệu quả giảm nhiễu giữa các thuật toán khác nhau.
4. Tóm tắt kết quả nghiên cứu:
- Trình bày tổng quan về lĩnh vực xử lí tiếng nói, nâng cao chất lượng tiếng nói
và tình hình nghiên cứu các giải pháp giảm nhiễu.
- Ứng dụng các phép biến đổi trong miền Wavelet để xây dựng các thuật toán
giảm nhiễu cho tín hiệu tiếng nói.
- Sử dụng công cụ lập trình để thực hiện giảm nhiễu trong miền Wavelet với các
kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu
ngưỡng mềm (soft-thresholding) và hàm nén nhiễu dùng phương pháp lọc
Trang 6
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU
Wavelet thống kê có tính cảm quan (PSWF) với nhiều mức nhiễu và trong các
môi trường nhiễu khác nhau.
- Tiến hành tổng hợp và so sánh, đánh giá hiệu quả giảm nhiễu giữa các thuật
toán khác nhau đã phát triển trong các miền biến đổi (thời gian, tần số, wavelet)
để đề xuất lựa chọn cho các mô hình xử lí tiếng nói.
5. Tên sản phẩm:
- Báo cáo tổng kết đề tài;
- Bài báo đăng trên kỷ yếu hội thảo cấp trường.
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
- Về mặt giáo dục - đào tạo: phục vụ công tác giảng dạy, nghiên cứu.
- Về mặt khoa học: đóng góp đáng kể của đề tài là trình bày các kỹ thuật giảm
nhiễu trong miền Wavelet và thực hiện tối ưu các tham số, qua đó so sánh đánh giá
hiệu quả giảm nhiễu nâng cao chất lượng tiếng nói với các thuật toán đã nghiên cứu
trước đó.
- Về sản phẩm ứng dụng: ứng dụng thuật toán trong việc xây dựng phần mềm
giảm nhiễu nâng cao chất lượng tiếng nói.
7. Hình ảnh, sơ đồ minh họa chính:
- LLR - babble
1.6
HardThr-PF
1.4 SoftThr-PF
Shrinking-UT-PF
LogMMSE-PF
1.2
NSS-PF
MMSE-PF
1
LLR
0.8
0.6
0.4
0 5 10 15
SNR
Hình 0.1: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với
loại nhiễu tiếng ồn đám đông (Bable).
Đà Nẵng, ngày 10 tháng 12 năm 2016
Cơ quan chủ trì Chủ nhiệm đề tài
Dương Ngọc Pháp
Trang 7
- MỞ ĐẦU
MỞ ĐẦU
I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC
1. Ngoài nước
Với sự phát triển nhanh chóng của Internet và công nghệ truyền thông đa phương
tiện, sự phát triển và tích hợp các kỹ thuật xử lý tiếng nói cũng như ứng dụng của tiếng
nói như nhận dạng, mã hóa vào trong các sản phẩm và hệ thống truyền thông ngày
càng giúp nâng cao chức năng, tính tiện nghi và hiệu suất của các ứng dụng đa phương
tiện, các sản phẩm dân dụng, các hệ thống truyền thông và Internet. Tuy nhiên, việc
triển khai các ứng dụng trong môi trường thực tế lại gặp phải trở ngại lớn nhất là tác
động của nhiễu môi trường làm giảm đáng kể chất lượng tín hiệu thu được, và gián
tiếp làm suy giảm hiệu suất của các hệ thống và ứng dụng.
Hiện nay, vẫn chưa có thuật toán khử nhiễu nào được công nhận chính thức như
là chuẩn quốc tế bởi ITU-T. Hiện tại chỉ có một tập hợp các quy định về quá trình tiền
xử lý khử nhiễu được đề xuất cho bộ mã hóa ETSI/3GPP đa tốc độ thích nghi
(Adaptive Multi-Rate Codec). Hầu hết các thuật toán được thực hiện trong miền tần số
và đôi khi kết hợp với mô hình thính giác của con người.
2. Trong nước
Nhiều đề tài đã thực hiện tập trung nghiên cứu các giải pháp giảm nhiễu trong
miền thời gian, miền tần số và đã cho các kết quả giảm nhiễu gồm kỹ thuật giảm nhiễu
dựa trên thuật toán trừ phổ (SS), kỹ thuật giảm nhiễu với ước lượng MMSE, kỹ thuật
giảm nhiễu sử dụng bộ lọc Wiener (WF). Một số đề tài đã đề cập sử dụng kỹ thuật nén
nhiễu trong miền Wavelet ứng dụng trong các khối tiền xử lí của hệ thống nhận dạng
tiếng nói tự động.
II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Các thuật toán giảm nhiễu đóng vai trò quan trọng thực hiện tiền xử lí trong các
hệ thống xử lí tiếng nói. Trong thời gian gần đây, một số kết quả nghiên cứu cho thấy
hiệu quả cao của các thuật toán khử nhiễu triển khai trong miền Wavelet. Đề tài này sẽ
tập trung nghiên cứu các kỹ thuật giảm nhiễu trong miền Wavelet, đồng thời thực hiện
mô phỏng để đánh giá hiệu quả giảm nhiễu của các thuật toán đó.
Kết quả giảm nhiễu sử dụng các thuật toán giảm nhiễu thực hiện trong miền
Wavelet với các thông số hiệu chỉnh tối ưu sẽ được so sánh, đánh giá với các thuật
toán trong các miền thời gian, tần số đã được nghiên cứu, qua đó đưa ra góc nhìn đầy
đủ về việc lựa chọn các giải pháp thực hiện giảm nhiễu cho tín hiệu tiếng nói.
Trang 8
- MỞ ĐẦU
III. MỤC TIÊU CỦA ĐỀ TÀI
- Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu
tiếng nói trong miền Wavelet.
- Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền
Wavelet.
- Kết quả mô phỏng, thí nghiệm sẽ được so sánh với các kỹ thuật giảm nhiễu
khác.
IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1. Đối tượng nghiên cứu
- Mô hình âm học, đặc điểm tiếng nói, đặc tính của nhiễu.
- Các phép biến đổi trong miền Wavelet.
- Các thuật toán nén nhiễu trong miền Wavelet.
- Ngôn ngữ Matlab thực hiện thuật toán.
- Các phương pháp đánh giá tín hiệu tiếng nói.
2. Phạm vi nghiên cứu
- Các đặc điểm của tín hiệu tiếng nói.
- Các phép biến đổi trong miền Wavelet.
- Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói thực hiện trong miền
Wavelet.
- Đánh giá so sánh các kỹ thuật giảm nhiễu.
V. NỘI DUNG NGHIÊN CỨU
1. Trình bày tổng quan về xử lí tiếng nói và tình hình nghiên cứu các giải pháp
giảm nhiễu.
2. Các phép biến đổi trong miền Wavelet: mô hình nhiễu, kỹ thuật chọn ngưỡng.
3. Thực hiện giảm nhiễu trong miền Wavelet với các kỹ thuật: hàm nén nhiễu
ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft-
thresholding) và hàm nén nhiễu dùng phương pháp lọc Wavelet thống kê có
tính cảm quan (PSWF).
4. Mô phỏng kết quả với ngôn ngữ Matlab. So sánh với các phương pháp khác,
đánh giá kết quả mô phỏng và so sánh.
Trang 9
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
1.1. GIỚI THIỆU CHƯƠNG
Chương này trình bày tổng quan về các cơ sở phân tích tiếng nói và giới thiệu về
các hướng nghiên cứu, xử lý để cải thiện chất lượng tín hiệu tiếng nói thông qua kỹ
thuật giảm nhiễu. Đặc tính nhiễu và các kỹ thuật giảm nhiễu trong các miền thời gian
và tần số sẽ được trình bày vắn tắt để làm cơ sở cho việc tổ chức so sánh, đánh giá ở
chương 3 của đề tài. Phần cuối chương 1 cung cấp các quy trình, giải pháp đánh giá
khác nhau được sử dụng để đánh giá hiệu quả của các thuật toán nâng cao chất lượng
tiếng nói.
1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
1.2.1. Đặc điểm ngôn ngữ học của tiếng nói
Tiếng nói là tín hiệu sóng âm để diễn đạt và truyền tải thông tin. Thông tin được
thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc gán các phần
tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể được phân loại ra
gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, có
khoảng từ 30 đến 50 âm vị. Ví dụ, tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị,
tiếng Việt khoảng 33 âm vị.
1.2.2. Xử lý tiếng nói
a. Phân loại tiếng nói
Tiếng nói được chia thành 3 loại cơ bản như sau [1]:
Âm hữu thanh: Là âm khi phát ra thì có thanh, chẳng hạn như chúng ta nói
“i”, “a”, hay “o”. Trong âm hữu thanh, không khí đi ra khỏi phổi bị ngắt một cách
nhanh chóng bởi sự đóng mở tuần hoàn của những dây thanh âm.
Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi
chút tạo ra giọng như giọng thở, ví dụ như “h”, “p” hay “th”. Tạo ra do sự hỗn loạn
khi luồng không khí đi qua chỗ hẹp.
Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín tạo nên
một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ như “ch”, “t”.
b. Biểu diễn tín hiệu tiếng nói
Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là:
- Biểu diễn dưới dạng sóng theo thời gian.
- Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói
- Biểu diễn trong không gian 3 chiều (ảnh phổ- spectrogram)
Dạng sóng theo thời gian
Trang 10
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian
Time(s)
Time(s)
Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1].
.
Time(s)
.
Time(s)
Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1].
Trang 11
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
.
Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1].
Âm thanh được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với
các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz,
32000Hz, 44100Hz. Độ phân giải hay còn gọi là số bít trên mỗi mẫu là 8 hoặc 16 bít
và số kênh là 1 (Mono) hoặc 2 (Stereo). Như vậy, dữ liệu lưu trữ của tín hiệu âm thanh
sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này
được thể hiện rõ nét trong các hình 1.1, hình 1.2, hình 1.3 và hình 1.4.
Phổ tín hiệu tiếng nói
Dải tần số của tín hiệu âm thanh nằm trong khoảng tần số từ 0Hz đến 20KHz, tuy
nhiên phần lớn công suất nằm trong dải tần số từ 0,3KHz đến 3,4KHz.
Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian
Hình 1.5 và hình 1.6 cho ta thấy đường bao phổ của tín hiệu tiếng nói, công suất
phổ tập trung trong dải tần từ 0,1KHz đến 3,5KHz. Hai người nói khác nhau cho thấy
đường bao phổ cũng khác nhau.
Trang 12
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau
Ảnh phổ (Spectrogram)
Bên cạnh việc biểu diễn tín hiệu tiếng nói bằng dạng sóng tín hiệu, phổ công suất
hay đường bao phổ, tín hiệu tiếng nói còn được biểu diễn trong không gian ba chiều
gọi là ảnh phổ như hình 1.7. Quan sát ảnh phổ ta thu nhận được các thông tin như phổ
công suất, phân bố tần số, formant.v.v.
Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu
đã được tăng cường
c. Các hướng xử lý tiếng nói
Dựa trên kết quả nghiên cứu về đặc điểm của tín hiệu tiếng nói, các công cụ toán
học được áp dụng để hiện thực các kỹ thuật xử lý tín hiệu tiếng nói. Các hướng nghiên
cứu xử lý tiếng nói có thể được phân chia như sau:
Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín
hiệu tiếng nói. Mục đích là để chuyển nội dung của tiếng nói thành văn bản.
Trang 13
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
Nhận dạng người nói: mục đích là để xác định và thẩm định danh tính của
người nói từ tín hiệu giọng nói của người đó.
Tăng cường chất lượng tiếng nói: nhằm cải thiện chất lượng và tăng tính
hiểu được của tín hiệu tiếng nói bị nhiễu (ví dụ: giảm nhiễu ồn của tín hiệu tiếng nói,
giảm hoặc khử tiếng vọng trong kỹ thuật điện thoại .v.v).
Mã hóa tiếng nói: nhằm thực hiện nén dữ liệu tiếng nói để giảm dung lượng
lưu trữ hay tiết kiệm băng thông truyền dẫn (ví dụ như trong thể thức truyền tiếng nói
qua internet VoIP). Ngoài ra, việc mã hóa dữ liệu tiếng nói cũng nhằm mục đích bảo
mật thông tin tiếng nói được truyền đi.
Tổng hợp tiếng nói: là kỹ thuật tạo ra tiếng nói nhân tạo từ văn bản nhập
vào. Tiếng nói được tạo ra nên có chất lượng giống tiếng nói tự nhiên.
Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm phát hiện ra
khuyết tật hay vấn đề của dây thanh âm, thanh quản.v.v.
Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của
nguồn phát ra âm thanh (có thể là loa, người nói, hướng nói. v.v.).
d. Kỹ thuật phân khung tín hiệu tiếng nói
Bên cạnh phương pháp xử lý tín hiệu tiếng nói cho từng mẫu (sample) nhận
được, tín hiệu tiếng nói thường được xử lý trên từng khung (frame/segment) với chiều
dài khung thường khoảng từ 10ms đến 30ms và khoảng lệch các khung thường bằng
40% - 60% chiều dài khung.
Hình 1.8: Kỹ thuật phân khung [1].
Kỹ thuật phân khung tín hiệu (framing) được thực hiện bằng cách nhân tín hiệu
ngõ vào với hàm cửa sổ trượt. Trong lý thuyết phân tích tín hiệu, rất nhiều thuật toán
và phép biến đổi yêu cầu tính chất thống kê của tín hiệu không thay đổi hay ổn định
theo thời gian (stationary). Chẳng hạn trong phân tích phổ của tín hiệu dùng biến đổi
Trang 14
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
Fourier, tính chất stationary được yêu cầu để sự ước lượng phổ có độ chính xác cao.
Trong thực tế yêu cầu này rất khó thỏa mãn đối với hầu hết các tín hiệu có trong ứng
dụng thực tế.
Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng
phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu
liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm
nhau như biểu diễn trong hình 1.8. Nói một cách khác, hai khung cách nhau có chung
ít nhất M>0 mẫu. Các hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ
chữ nhật (rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming.
1.3. NHIỄU
Nhiễu tồn tại mọi nơi, ví dụ nhiễu trên đường phố (Street: phương tiện giao
thông, công trường đang thi công), nhiễu trong xe hơi (Car: tiếng ồn động cơ, gió),
nhiễu trong văn phòng (Office: tiếng ồn quạt máy tính để bàn, máy điều hòa không
khí), nhiễu trong nhà hàng (Restaurant: tiếng xì xào),…
Đặc tính khác của các kiểu nhiễu khác nhau là giản đồ phổ tín hiệu, liên quan đến
sự phân bố năng lượng nhiễu trong miền tần số. Ví dụ, năng lượng chính của nhiễu gió
tập trung ở dải tần số thấp, thường là dưới 500Hz. Ví dụ minh họa về các loại nhiễu
được trình bày ở hình 1.9, hình 1.10 và hình 1.11 về so sánh biên độ và phổ biên độ
của các loại nhiễu xe (Car), nhiễu đường phố (Street) và nhiều nhà hàng (Restaurant).
a)
b)
Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car)
Trang 15
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
a)
b)
Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street)
a)
b)
Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant)
Trong 3 nguồn nhiễu được ví dụ ở trên, nhiễu trong xe hơi (Car) có mật độ phổ
phẳng, được xem là ổn định theo thời gian trong khi nhiễu tiếng ồn đường phố (Street)
và nhiễu trong nhà hàng (Restaurant) có mật độ không đồng đều theo thời gian.
Như đã đề cập từ đầu thì đề tài này chỉ giới hạn giải pháp giảm nhiễu cho tín hiệu
tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic
Trang 16
nguon tai.lieu . vn