Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
MỘT PHƯƠNG PHÁP MÔ HÌNH HÓA NHIỄU
ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy Lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG liệu huấn luyện với hi vọng có thể bao phủ
được hầu hết các cases của dữ liệu test. Ví dụ
Đối với nhận dạng tiếng nói nói riêng
ta có thể thay đổi tốc độ nhanh chậm của dữ
cũng như lĩnh vực nhận dạng mẫu nói chung
liệu huấn luyện [4] ví dụ từ 1 tín hiệu x(t) ta
thì dữ liệu thực tế thử nghiệm (test) càng
có thể sinh ra thành 3 version x(0.9t), x(t),
giống với dữ liệu huấn luyện (train) thì càng
x(1.1t) và bổ sung vào tập train. Hoặc để mô
tốt. Tuy nhiên, điều này hiếm khi xảy ra
phỏng môi trường vang, nhiễu ta có thể thêm
trong thực tế. Do đó luôn có sự sai khác
vang bằng cách mô phỏng các đáp ứng xung
(mismatch) giữa dữ liệu huấn luyện (dẫn
(RIR) của các phòng phổ biến, bổ sung các
xuất là mô hình) và dữ liệu test.
loại noise thông dụng [5]. Cách tiếp cận này
Để tăng chất lượng nhận dạng, ta cần thu
rất phù hợp với triển khai thực tế vì ta chỉ
hẹp sự sai khác này. Cơ bản có các cách tiếp
cần huấn luyện 1 lần và khi triển khai không
cận sau:
cần train hay adapt lại. Do đó đáp ứng được
Feature adaptation: tức thay đổi dữ liệu yêu cầu về thời gian thực hiện. Tuy nhiên nó
test về gần với mô hình hơn. Ta có thể xây cũng có nhược điểm là thời gian huấn luyện
dựng các biến đổi (transform) và các dữ liệu tăng lên nhiều lần.
khác nhau sau khi đi qua biến đổi này sẽ Trong nghiên cứu này, chúng ta sẽ tập trung
sang một không gian chung (kể cả tập train vào tìm hiểu cách tiếp cận thứ 3 (data
và test). Các bộ dữ liệu khác nhau sẽ có các augmentation) và tìm cách nâng cao chất
biến đổi khác nhau. Một ví dụ điển hình của lượng của mô hình. Hiện tại ta bổ sung rất
trường hợp này là kỹ thuật fMLLR [1] dùng nhiều loại noise khác nhau với cường độ alpha
phổ biến trong DNN training. khác nhau vào dữ liệu để tăng độ tổng quát.
Model adaptation: tức thay đổi model x'(t) = x(t) + alpha*n(t)
huấn luyện về gần với tập test. Tức với các Trong đó x(t) là tín hiệu tiếng nói gốc, n(t)
dữ liệu khác nhau, một số tham số của mô là tín hiệu noise, x’(t) là tín hiệu tiếng nói
hình sẽ thay đổi theo một số tiêu chí nào đó được tạo ra, alpha là hệ số thêm nhiễu.
ví dụ maximum likelihood, maximum a Để nâng cao chất lượng của kỹ thuật data
posterior,... Với mô hình GMM (Gaussian augmentation ta cần áp dụng 2 cách thức sau:
Mixture Model), kỹ thuật phổ biến đó là Chọn loại noise phù hợp.
MAP (Maximum a posterior) [2], với mô Xây dựng thuật toán mới cho data
hình DNN (Deep Neural Network) có nhiều augmentation để mô hình hóa noise tốt hơn.
biến thế được thực hiện bằng cách xây dựng Tại Trung tâm Không gian Mạng Viettel
các kiến trúc mạng nơ ron đặc biệt để có thể (VTCC), chúng tôi đã chọn lọc ra nhiều loại
thích nghi (adapt) nhanh với các bộ dữ liệu noise khác nhau được thu thập từ các nguồn
test khác nhau [3]. từ Internet cũng như thu âm trực tiếp tại các
Training data augmentation: cách thực môi trường phổ biến như phòng họp, sảnh
hiện ở đây là làm tăng độ tổng quát của dữ văn phòng, đường phố, bến tàu xe,… Khi bổ
108
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
sung những loại noise này vào cơ sở dữ liệu đáng kể sự sự ổn định của mô hình nhận
tiếng nói để huấn luyện mô hình đã giúp tăng dạng trong các điều kiện khác nhau.
Hình 1. Cách thức gán nhãn noise cho transcript.
Ở các nghiên cứu trên ta đơn thuần bổ Với phương pháp này ta cần biết loại noise
sung nhiễu vào tín hiệu audio trong khi ta bổ sung vào audio là gì. Tuy nhiên làm sao
transcript (văn bản tương ứng của đoạn ta có thể gán nhãn noise tag vào transcript.
audio) ta vẫn giữ nguyên. Trong nghiên cứu Do noise được bổ sung trên toàn bộ audio
này, chúng tôi đề xuất một phương án tăng file nên ta không thể bổ sung noise tag vào
cường chất lượng nhận dạng bằng cách mô tất cả transcript. Với giả thiết là đầu và cuối
hình hóa các loại noise khác nhau bằng cách mỗi câu là silence (điều này ta hoàn toàn có
bổ sung cả vào transcript của dữ liệu tương thể điều khiển được được bằng cách trèn
ứng các noise tag. thêm (padding) 1 đoạn nhỏ silence vào đầu
vào cuối mỗi câu). Do vậy, ta có thể gán
2. XÂY DỰNG PHƯƠNG PHÁP MÔ noise tag vào đầu và cuối mỗi câu. Hình 1
HÌNH HÓA NHIỄU mô tả 1 ví dụ về việc gán noise vào cả audio
Như đã nói, các phương pháp data và transcript của dữ liệu huấn luyện.
augmentation truyền thống audio có thể Sau khi thực hiện gán noise cả audio và
được bổ sung noise với các loại, cường độ transcript theo cách đề xuất ở trên, ta cần đặc
khác nhau nhưng phần transcript vẫn không tả các loại noise trên được mô hình hóa như
đổi. Điều gì sẽ xảy ra trong hệ thống khi làm thế nào. Trong báo cáo này để đơn giản, ta
như vậy? Mô hình sẽ học tất cả các tín hiệu chỉ biểu diễn mỗi loại noise bằng một
noise khác nhau là lớp SIL (silence). Do đó phoneme và có topology giống như các non-
khi số lượng noise tăng lên, đa dạng hơn, silence phoneme khác.
cường độ lớn lên thì model cho class SIL trở Để tránh việc lúc nhận dạng cho ra các
nên quá đơn giản so với sự đa dạng của dữ noise tag, trong lúc tạo mô hình ngôn ngữ ta
liệu đầu vào mà nó cần mô hình hóa. Vả lại không cho văn bản có các noise tag vào và
bản thân HMM topology của SIL được sinh không sử dụng word-list có chứa noise tag
ra là cho SIL và nhiễu nhỏ chưa chắc đã phù đó. Điều này giúp ta chỉ mô hình hóa về mặt
hợp với tất cả các tín hiệu noise khác. Giải âm học (acoustic) đối với noise trong khi
pháp được đề xuất đó là, ta phải tìm cách không mô hình hóa chúng trong mô hình
mô hình hóa được các loại noise khác nhau ngôn ngữ.
chứ không để chung vào model SIL như
3. THỬ NGHIỆM
trước nữa. Cách tiếp cận này cũng phù hợp
như phương pháp "chia để trị" được sử dụng Việc thử nghiệm được thực hiện bằng
thành công trong nhận dạng speech attribute cách sử dụng 200 giờ dữ liệu huấn luyện. Có
[6] khi nhận dạng một đối tượng quá rộng, 3 mô hình được huấn luyện từ cùng tập dữ
đa dạng, ta chia đối tượng đó thành các sub- liệu này:
objects rồi xây dựng mô hình riêng, nhận S1: mô hình không áp dụng kỹ thuật data
dạng xong, tập hợp kết quả lại. augmentation.
109
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
S2: mô hình áp dụng kỹ thuật data vào audio data và noise tag vào transcript
augmentation bằng cách bổ sung noise vào (noise modelling).
audio data của dữ liệu huấn luyện.
S3: mô hình đề xuất sử dụng kỹ thuật
data augmentation bằng cách bổ sung noise
Test set
Model
Vivos Vivos
vlsp2019 Vivos SNR=5dB
SNR=0 dB SNR=3 dB
s1. clean 35.29 57.93 38.02 28.21
s2. addnoise 30.86 40.42 25.03 18.83
s3. addnoise + noise
30.66 35.51 23.10 18.65
modelling
Bảng 2- Sai số từ - WER (%) của phương pháp sử dụng và không sử dụng noise modelling
với các tập test khác nhau.
Ta sử dụng 4 bộ test khác nhau: trước ta chỉ bổ sung noise mà không quan
Tập test vlsp2019 được đưa ra bởi tổ tâm đó là noise gì, thì nay ta đã thêm thông
chức VLSP (Vietnamese Language and tin về loại noise để có thể mô hình hóa được
Speech Processing). chúng chính xác hơn. Kết quả thử nghiệm đã
Tập Vivos của Đại học Quốc gia Hồ Chí chứng minh được hiệu quả của phương pháp
Minh. Tập dữ liệu này được bổ sung nhiễu đề xuất.
với các cường độ khác nhau. Tỷ số tín hiệu
trên nhiễu (SNR) từ 0dB đến 5dB (SNR càng 5. TÀI LIỆU THAM KHẢO
cao, tín hiệu càng ít nhiễu). [1] Parthasarathi, Sree Hari Krishnan, et al.
Bảng 2 trình bày sai số từ (càng thấp càng "fMLLR based feature-space speaker
tốt) khi thử nghiệm 4 bộ test này với 3 mô adaptation of DNN acoustic models." in
hình ở trên. Ta thấy rằng mô hình S2 bằng INTERSPEECH, 2015.
việc áp dụng kỹ thuật data augmentation đã [2] Povey, Daniel, Philip C. Woodland, and
làm giảm đáng kể sai số nhận dạng so với mô Mark JF Gales. "Discriminative MAP for
hình S1 trên tất cả các tập test. Mô hình đề acoustic model adaptation." in ICASSP,
xuất S3 đơn giản chỉ bằng mô hình hóa noise 2003.
[3] Xue, Shaofei, et al. "Fast adaptation of deep
bằng cách bổ sung các noise tag trong
neural network based on discriminant codes
transcript đã làm giảm sai số nhận dạng so for speech recognition." IEEE/ACM
với mô hình S2 đặc biệt trong những trường Transactions on Audio, Speech, and Language
hợp nhiễu lớn (SNR thấp). Processing 22.12, pp. 1713-1725, 2014.
[4] Ko, Tom, et al. "Audio augmentation for
4. KẾT LUẬN speech recognition." in INTERSPEECH,
Bài báo này đã trình bày những nghiên 2015.
cứu và thử nghiệm để xây dựng hệ thống [5] Ko, Tom, et al. "A study on data
augmentation of reverberant speech for
nhận dạng tiến nói miễn nhiễm với các môi
robust speech recognition." in ICASSP, 2017.
trường khác nhau bằng cách tác động lên các [6] Van Hai Do, et al. “Speech attribute
các loại noise cũng như cải tiến thuật toán recognition using context-dependent
data augmentation. Thay vì đơn thuần như modeling,” in APSIPA ASC, 2011.
110
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
111
nguon tai.lieu . vn