Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 MỘT PHƯƠNG PHÁP MÔ HÌNH HÓA NHIỄU ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy Lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG liệu huấn luyện với hi vọng có thể bao phủ được hầu hết các cases của dữ liệu test. Ví dụ Đối với nhận dạng tiếng nói nói riêng ta có thể thay đổi tốc độ nhanh chậm của dữ cũng như lĩnh vực nhận dạng mẫu nói chung liệu huấn luyện [4] ví dụ từ 1 tín hiệu x(t) ta thì dữ liệu thực tế thử nghiệm (test) càng có thể sinh ra thành 3 version x(0.9t), x(t), giống với dữ liệu huấn luyện (train) thì càng x(1.1t) và bổ sung vào tập train. Hoặc để mô tốt. Tuy nhiên, điều này hiếm khi xảy ra phỏng môi trường vang, nhiễu ta có thể thêm trong thực tế. Do đó luôn có sự sai khác vang bằng cách mô phỏng các đáp ứng xung (mismatch) giữa dữ liệu huấn luyện (dẫn (RIR) của các phòng phổ biến, bổ sung các xuất là mô hình) và dữ liệu test. loại noise thông dụng [5]. Cách tiếp cận này Để tăng chất lượng nhận dạng, ta cần thu rất phù hợp với triển khai thực tế vì ta chỉ hẹp sự sai khác này. Cơ bản có các cách tiếp cần huấn luyện 1 lần và khi triển khai không cận sau: cần train hay adapt lại. Do đó đáp ứng được  Feature adaptation: tức thay đổi dữ liệu yêu cầu về thời gian thực hiện. Tuy nhiên nó test về gần với mô hình hơn. Ta có thể xây cũng có nhược điểm là thời gian huấn luyện dựng các biến đổi (transform) và các dữ liệu tăng lên nhiều lần. khác nhau sau khi đi qua biến đổi này sẽ Trong nghiên cứu này, chúng ta sẽ tập trung sang một không gian chung (kể cả tập train vào tìm hiểu cách tiếp cận thứ 3 (data và test). Các bộ dữ liệu khác nhau sẽ có các augmentation) và tìm cách nâng cao chất biến đổi khác nhau. Một ví dụ điển hình của lượng của mô hình. Hiện tại ta bổ sung rất trường hợp này là kỹ thuật fMLLR [1] dùng nhiều loại noise khác nhau với cường độ alpha phổ biến trong DNN training. khác nhau vào dữ liệu để tăng độ tổng quát.  Model adaptation: tức thay đổi model x'(t) = x(t) + alpha*n(t) huấn luyện về gần với tập test. Tức với các Trong đó x(t) là tín hiệu tiếng nói gốc, n(t) dữ liệu khác nhau, một số tham số của mô là tín hiệu noise, x’(t) là tín hiệu tiếng nói hình sẽ thay đổi theo một số tiêu chí nào đó được tạo ra, alpha là hệ số thêm nhiễu. ví dụ maximum likelihood, maximum a Để nâng cao chất lượng của kỹ thuật data posterior,... Với mô hình GMM (Gaussian augmentation ta cần áp dụng 2 cách thức sau: Mixture Model), kỹ thuật phổ biến đó là Chọn loại noise phù hợp. MAP (Maximum a posterior) [2], với mô Xây dựng thuật toán mới cho data hình DNN (Deep Neural Network) có nhiều augmentation để mô hình hóa noise tốt hơn. biến thế được thực hiện bằng cách xây dựng Tại Trung tâm Không gian Mạng Viettel các kiến trúc mạng nơ ron đặc biệt để có thể (VTCC), chúng tôi đã chọn lọc ra nhiều loại thích nghi (adapt) nhanh với các bộ dữ liệu noise khác nhau được thu thập từ các nguồn test khác nhau [3]. từ Internet cũng như thu âm trực tiếp tại các  Training data augmentation: cách thực môi trường phổ biến như phòng họp, sảnh hiện ở đây là làm tăng độ tổng quát của dữ văn phòng, đường phố, bến tàu xe,… Khi bổ 108
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 sung những loại noise này vào cơ sở dữ liệu đáng kể sự sự ổn định của mô hình nhận tiếng nói để huấn luyện mô hình đã giúp tăng dạng trong các điều kiện khác nhau. Hình 1. Cách thức gán nhãn noise cho transcript. Ở các nghiên cứu trên ta đơn thuần bổ Với phương pháp này ta cần biết loại noise sung nhiễu vào tín hiệu audio trong khi ta bổ sung vào audio là gì. Tuy nhiên làm sao transcript (văn bản tương ứng của đoạn ta có thể gán nhãn noise tag vào transcript. audio) ta vẫn giữ nguyên. Trong nghiên cứu Do noise được bổ sung trên toàn bộ audio này, chúng tôi đề xuất một phương án tăng file nên ta không thể bổ sung noise tag vào cường chất lượng nhận dạng bằng cách mô tất cả transcript. Với giả thiết là đầu và cuối hình hóa các loại noise khác nhau bằng cách mỗi câu là silence (điều này ta hoàn toàn có bổ sung cả vào transcript của dữ liệu tương thể điều khiển được được bằng cách trèn ứng các noise tag. thêm (padding) 1 đoạn nhỏ silence vào đầu vào cuối mỗi câu). Do vậy, ta có thể gán 2. XÂY DỰNG PHƯƠNG PHÁP MÔ noise tag vào đầu và cuối mỗi câu. Hình 1 HÌNH HÓA NHIỄU mô tả 1 ví dụ về việc gán noise vào cả audio Như đã nói, các phương pháp data và transcript của dữ liệu huấn luyện. augmentation truyền thống audio có thể Sau khi thực hiện gán noise cả audio và được bổ sung noise với các loại, cường độ transcript theo cách đề xuất ở trên, ta cần đặc khác nhau nhưng phần transcript vẫn không tả các loại noise trên được mô hình hóa như đổi. Điều gì sẽ xảy ra trong hệ thống khi làm thế nào. Trong báo cáo này để đơn giản, ta như vậy? Mô hình sẽ học tất cả các tín hiệu chỉ biểu diễn mỗi loại noise bằng một noise khác nhau là lớp SIL (silence). Do đó phoneme và có topology giống như các non- khi số lượng noise tăng lên, đa dạng hơn, silence phoneme khác. cường độ lớn lên thì model cho class SIL trở Để tránh việc lúc nhận dạng cho ra các nên quá đơn giản so với sự đa dạng của dữ noise tag, trong lúc tạo mô hình ngôn ngữ ta liệu đầu vào mà nó cần mô hình hóa. Vả lại không cho văn bản có các noise tag vào và bản thân HMM topology của SIL được sinh không sử dụng word-list có chứa noise tag ra là cho SIL và nhiễu nhỏ chưa chắc đã phù đó. Điều này giúp ta chỉ mô hình hóa về mặt hợp với tất cả các tín hiệu noise khác. Giải âm học (acoustic) đối với noise trong khi pháp được đề xuất đó là, ta phải tìm cách không mô hình hóa chúng trong mô hình mô hình hóa được các loại noise khác nhau ngôn ngữ. chứ không để chung vào model SIL như 3. THỬ NGHIỆM trước nữa. Cách tiếp cận này cũng phù hợp như phương pháp "chia để trị" được sử dụng Việc thử nghiệm được thực hiện bằng thành công trong nhận dạng speech attribute cách sử dụng 200 giờ dữ liệu huấn luyện. Có [6] khi nhận dạng một đối tượng quá rộng, 3 mô hình được huấn luyện từ cùng tập dữ đa dạng, ta chia đối tượng đó thành các sub- liệu này: objects rồi xây dựng mô hình riêng, nhận  S1: mô hình không áp dụng kỹ thuật data dạng xong, tập hợp kết quả lại. augmentation. 109
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8  S2: mô hình áp dụng kỹ thuật data vào audio data và noise tag vào transcript augmentation bằng cách bổ sung noise vào (noise modelling). audio data của dữ liệu huấn luyện.  S3: mô hình đề xuất sử dụng kỹ thuật data augmentation bằng cách bổ sung noise Test set Model Vivos Vivos vlsp2019 Vivos SNR=5dB SNR=0 dB SNR=3 dB s1. clean 35.29 57.93 38.02 28.21 s2. addnoise 30.86 40.42 25.03 18.83 s3. addnoise + noise 30.66 35.51 23.10 18.65 modelling Bảng 2- Sai số từ - WER (%) của phương pháp sử dụng và không sử dụng noise modelling với các tập test khác nhau. Ta sử dụng 4 bộ test khác nhau: trước ta chỉ bổ sung noise mà không quan  Tập test vlsp2019 được đưa ra bởi tổ tâm đó là noise gì, thì nay ta đã thêm thông chức VLSP (Vietnamese Language and tin về loại noise để có thể mô hình hóa được Speech Processing). chúng chính xác hơn. Kết quả thử nghiệm đã  Tập Vivos của Đại học Quốc gia Hồ Chí chứng minh được hiệu quả của phương pháp Minh. Tập dữ liệu này được bổ sung nhiễu đề xuất. với các cường độ khác nhau. Tỷ số tín hiệu trên nhiễu (SNR) từ 0dB đến 5dB (SNR càng 5. TÀI LIỆU THAM KHẢO cao, tín hiệu càng ít nhiễu). [1] Parthasarathi, Sree Hari Krishnan, et al. Bảng 2 trình bày sai số từ (càng thấp càng "fMLLR based feature-space speaker tốt) khi thử nghiệm 4 bộ test này với 3 mô adaptation of DNN acoustic models." in hình ở trên. Ta thấy rằng mô hình S2 bằng INTERSPEECH, 2015. việc áp dụng kỹ thuật data augmentation đã [2] Povey, Daniel, Philip C. Woodland, and làm giảm đáng kể sai số nhận dạng so với mô Mark JF Gales. "Discriminative MAP for hình S1 trên tất cả các tập test. Mô hình đề acoustic model adaptation." in ICASSP, xuất S3 đơn giản chỉ bằng mô hình hóa noise 2003. [3] Xue, Shaofei, et al. "Fast adaptation of deep bằng cách bổ sung các noise tag trong neural network based on discriminant codes transcript đã làm giảm sai số nhận dạng so for speech recognition." IEEE/ACM với mô hình S2 đặc biệt trong những trường Transactions on Audio, Speech, and Language hợp nhiễu lớn (SNR thấp). Processing 22.12, pp. 1713-1725, 2014. [4] Ko, Tom, et al. "Audio augmentation for 4. KẾT LUẬN speech recognition." in INTERSPEECH, Bài báo này đã trình bày những nghiên 2015. cứu và thử nghiệm để xây dựng hệ thống [5] Ko, Tom, et al. "A study on data augmentation of reverberant speech for nhận dạng tiến nói miễn nhiễm với các môi robust speech recognition." in ICASSP, 2017. trường khác nhau bằng cách tác động lên các [6] Van Hai Do, et al. “Speech attribute các loại noise cũng như cải tiến thuật toán recognition using context-dependent data augmentation. Thay vì đơn thuần như modeling,” in APSIPA ASC, 2011. 110
  4. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 111
nguon tai.lieu . vn