Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI BĂNG RỘNG
Đỗ Văn Hải, Phạm Thanh Bình, Nguyễn Thị Phương Thảo
Trường Đại học Thủy lợi
1. MỞ ĐẦU Trong nghiên cứu này, chúng tôi đề xuất
phương pháp có thể tận dụng dữ liệu băng
Trong hệ thống nhận dạng tiếng nói tín
hẹp để nâng cao chất lượng nhận dạng cho
hiệu được ghi âm thường được lấy mẫu ở tần
mô hình băng rộng. Có thể chất lượng của tín
số 16kHz (tín hiệu băng rộng) dùng trong các
hiệu băng hẹp không bằng dữ liệu dữ liệu
ứng dụng ghi âm thông thường. Tuy nhiên
băng rộng tuy nhiên với số lượng lớn và loại
trong hệ thống điện thoại, tần số lấy mẫu chỉ
dữ liệu khác biệt, ta vẫn hi vọng dữ liệu băng
là 8kHz (tín hiệu băng hẹp). Thông thường
hẹp sẽ bổ sung thêm thông tin để vào để tăng
hai loại dữ liệu này được sử dụng độc lập
cường chất lượng mô hình băng rộng.
nhau để huấn luyện ra hai loại mô hình nhận
dạng tiếng nói riêng biệt. 2. PHƯƠNG PHÁP TIẾP CẬN
Hình 1 miêu tả tín hiệu của một file tiếng
nói băng rộng có tần số lấy mẫu 16kHz Một vấn đề đặt ra là làm sao có thể sử
(fmax = 8kHz ở dưới) và vẫn nguồn âm thanh dụng dữ liệu băng rộng với dữ liệu băng hẹp
đó nhưng lấy mẫu ở 8kHz (hình trên). Ta khi mà toàn bộ phổ thông tin tiếng nói từ
thấy rằng với tín hiệu có tần số lấy mẫu 8kHz 4-8kHz của tín hiệu băng hẹp bị mất hết
thì toàn bộ phổ (spectrum) tín hiệu từ 4kHz Hình 1. Xuất phát từ ý tưởng các bộ khử nhiễu
đến 8kHz bị mất. (denoiser) được phát triển gần đây khi ta đưa
đầu vào là tín hiệu tiếng nói có nhiễu đầu ra sẽ
là tín hiệu tiếng nói sạch [1], chúng ta có thể
xây dựng một bộ tái tạo (reconstructor) từ tín
hiệu băng hẹp lên tín hiệu băng rộng sử dụng
cơ chế tương tự với các denoiser.
Trong nghiên cứu này, chúng tôi sử dụng
đầu vào của bộ tái tạo sẽ là tín hiệu băng hẹp
đầu ra sẽ là tín hiệu băng rộng được tái tạo lại
từ tín hiệu băng hẹp. Để huấn luyện “việc tái
tạo” này ta thực hiện quy trình huấn luyện sử
dụng mô hình mạng nơ ron nhân tạo như
Hình 2. Bộ dữ liệu được sử dụng là bộ dữ
liệu băng rộng (16kHz) mà không cần có bất
cứ nhãn (label) gì. Dữ liệu này được chuyển
thành dữ liệu băng hẹp bằng cách giảm tần số
lấy mẫu từ 16kHz xuống 8kHz (down
Hình 1. Spectrogram của tín hiệu tiếng nói sample) để làm đầu vào huấn luyện cho bộ tái
băng hẹp ở trên (tần số lấy mẫu 8kHz) tạo. Đầu ra của bộ tái tạo là tín hiệu băng
và băng rộng ở dưới rộng ban đầu. Với cách huấn luyện này, bộ
80
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
tái tạo sẽ học được bổ sung những phổ tín Mô hình 3: mô hình huấn luyện dùng
hiệu bị cắt trong tín hiệu băng hẹp. 20.000 câu huấn luyện băng rộng.
Bảng 1. Sai số từ của các mô hình khác nhau
Mô WER
Dữ liệu
hình (%)
1 Băng rộng 10.000 câu 36,23
Hình 2. Quá trình huấn luyện cho bộ tái tạo 2 Băng rộng 10.000 câu + 32,08
băng hẹp 10.000 câu
Tuy nhiên khi áp dụng mô hình này để tái
3 Băng rộng 20.000 câu 31,84
tạo tín hiệu băng rộng áp dụng vào nhận dạng
tiếng nói thì kết quả không tốt. Một trong
những nguyên nhân có thể là việc tái tạo tín Tất cả các mô hình được huấn luyện sử
hiệu băng rộng đã gây méo (distortion) so với dụng kiến trúc TDNN-LSTM kết hợp với mô
tín hiệu băng rộng gốc. Do vậy để giảm sự hình ngôn ngữ 4-gram [2] với công cụ được
méo này ta thay vì tái tạo toàn bộ phổ tín hiệu sử dụng là Kaldi [3].
băng rộng như trên Hình 2, ta đề xuất phương Kết quả thử nghiệm với bộ thử nghiệm
pháp thực hiện ở miền tần số thay vì ở miền băng rộng độc lập được trình bày ở Bảng 1.
thời gian như sau: Chúng tôi sử dụng chỉ số sai số từ
Bóc tách tín hiệu băng rộng thành hai (WER - Word Error Rate1) để đánh giá chất
thành phần riêng biệt 0-4kHz và 4-8kHz. lượng hệ thống nhận dạng. Kết quả so sánh
Đầu ra của mạng nơ ron trên Hình 2 là mô hình 1 và 2, ta thấy rằng bằng việc sử
phổ tín hiệu 4-8kHz thay vì 0-8kHz như cách dụng thêm dữ liệu băng hẹp như phương
tiếp cận trước. pháp đề xuất đã làm giảm sai số từ 36,23%
Tái tạo phần phổ từ 4-8k từ tín hiệu băng xuống con 32,08%. Chú ý rằng mô hình 2
hẹp dùng mạng nơ ron. cho kết quả tiệm cận với mô hình 3 tức mô
Sau đó kết hợp 2 phần phổ tín hiệu lại hình sử dụng toàn bộ 20.000 câu dữ liệu
tức là: từ 0-4kHz lấy từ tín hiệu băng hẹp gốc băng rộng để huấn luyện.
(by pass) và phần phổ 4-8kHz được tái tạo 3.2. Thử nghiệm với tập dữ liệu lớn và
nhờ mạng nơ ron trên Hình 2. lượng dữ liệu tái tạo khác nhau
Do đó với cách tiếp cận này ta đã làm Như phần 3.1 đã chỉ ra phương pháp đề
giảm méo được tín hiệu tái tạo, ta chỉ tái tạo xuất cho hiệu quả cao với tập dữ liệu huấn
phần phổ bị mất thay vì tái tạo toàn bộ phổ luyện nhỏ (10.000 đến 20.000 câu). Tuy
tín hiệu.
nhiên trong các hệ thống nhận dạng tiếng nói
3. THỬ NGHIỆM thực tế, người ta sử dụng hàng trăm nghìn
đến hàng triệu câu dữ liệu huấn luyện. Trong
3.1 Thử nghiệm với tập dữ liệu huấn phần này chúng ta sẽ nghiên cứu thử nghiệm
luyện nhỏ với tập dữ liệu lớn hơn nhiều lần để đánh giá
Trước hết ta thử nghiệm mô hình nhận độ hiệu quả của phương pháp đề xuất trong
dạng với dữ liệu nhỏ. thực tế. Ngoài ra ta sẽ xem xét ảnh hưởng của
Mô hình 1: mô hình huấn luyện chỉ dùng mô hình khi sử dụng dữ liệu băng hẹp được
10.000 câu huấn luyện băng rộng. tái tạo khác nhau.
Mô hình 2: dùng 10.000 câu huấn luyện
băng rộng kết hợp với 10.000 câu huấn luyện
băng hẹp được tái tạo như trong phần 2. 1
https://en.wikipedia.org/wiki/Word_error_rate
81
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
Mô hình yt310k: sử dụng 310.000 câu mục đích là bổ sung thông tin còn thiếu hụt
băng rộng để huấn luyện. Dữ liệu này được trong dữ liệu băng rộng chứ không thể thay
lấy từ Youtube. thế dữ liệu băng rộng được. Tỷ lệ trộn dữ liệu
Mô hình yt310k+ipcc150k: sử dụng băng rộng và băng hẹp hợp lý là 1:1 sẽ đảm
310.000 câu băng rộng để huấn luyện kết hợp bảo được chất lượng nhận dạng cũng như
với 150.000 câu huấn luyện băng hẹp được thời gian huấn luyện mô hình.
tái tạo như trong phần 2. Dữ liệu băng hẹp
được lấy từ tổng đài thoại (ipcc). Tương tự 4. KẾT LUẬN
mô hình yt310k+ipcc310k, yt310k+ipcc460k Trong nghiên cứu này, chúng tôi đã xây
là mô hình khi kết hợp với 310.000 và dựng được một phương pháp nhằm tận dụng
460.000 câu băng hẹp vào tập huấn luyện. dữ liệu băng hẹp để nâng cao chất lượng của
Kết quả thử nghiệm với bốn mô hình trên mô hình nhận dạng tiếng nói băng rộng. Các
sáu tập kiểm thử khác nhau được trình bày thử nghiệm khác nhau đã chỉ ra rằng, sử dụng
trên Hình 3. Trục tung là sai số từ WER(%). thêm dữ liệu băng hẹp luôn mang lại sự cải
thiện cho mô hình băng rộng. Qua nghiên
cứu này, ta cũng thấy rằng, mặc dù dữ liệu
băng hẹp về mặt băng thông ít hơn so với dữ
liệu băng rộng, tuy nhiên về mặt đặc thù dữ
liệu thì dữ liệu băng hẹp được thu thập từ các
cuộc trò chuyện qua điện thoại, đây là loại dữ
liệu chưa từng xuất hiện trong tập dữ liệu
băng rộng như từ Youtube, ghi âm,… Do đó,
việc bổ sung dữ liệu băng hẹp vào dữ liệu
băng rộng giúp tăng độ đa dạng của dữ liệu
huấn luyện lên rất nhiều.
5. TÀI LIỆU THAM KHẢO
[1] Yu, Cheng, et al. "Speech enhancement
based on denoising autoencoder with multi-
Hình 3. Sai số từ (%) của của 4 mô hình với branched encoders." IEEE/ACM
các bộ thử nghiệm khác nhau. Transactions on Audio, Speech, and
Language Processing 28 (2020): 2756-2769.
Ta có thể thấy rằng việc bổ sung dữ liệu [2] Povey, D., Hadian, H., Ghahremani, P., Li,
băng hẹp (ipcc) làm giảm sai số đi đáng kể (3 K., & Khudanpur, S. (2018, April). A time-
cột sau so với cột đầu tiên). Trong đó việc bổ restricted self-attention layer for ASR. In
sung 310.000 câu băng hẹp làm giảm sai số 2018 IEEE International Conference on
đi tương đối so với chỉ bổ sung 150.000 câu. Acoustics, Speech and Signal Processing
Tuy nhiên nếu ta tiếp tục bổ sung dữ liệu (ICASSP) (pp. 5874-5878). IEEE.
băng hẹp lên thành 460.000 câu thì sai số có [3] Povey, Daniel, et al. "The Kaldi speech
giảm tuy nhiên mức độ nhỏ hơn. Điều này recognition toolkit." IEEE 2011 workshop
on automatic speech recognition and
cũng hợp lý bởi vì mô hình chính là băng
understanding. No. CONF. IEEE Signal
rộng và các tập thử nghiệm cũng là băng rộng Processing Society, 2011.
chứ không phải băng hẹp nên dữ liệu băng
hẹp được thêm vào dữ liệu huấn luyện mang
82
nguon tai.lieu . vn