Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 ĐÁNH GIÁ TỔNG THỂ CÁC MÔ HÌNH NHẬN DẠNG TIẾNG NÓI VỚI CÁC YẾU TỐ KHÁC NHAU Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG hình được huấn luyện với giọng đọc có thể nhận dạng tốt với giọng nói không và Để huấn luyện mô hình nhận dạng tiếng ngược lại. nói, yếu tố quan trọng nhất đó là dữ liệu huấn Trả lời được 2 câu hỏi trên sẽ giúp chúng luyện [1,2]. Với các hệ thống nhận dạng ta có thể xây dựng được nguồn dữ liệu huấn thương mại cần ít nhất hàng nghìn đến hàng luyện phù hợp với các bài toán thực tế với chục nghìn giờ dữ liệu audio huấn luyện. Có chi phí và thời gian nhỏ nhất. rất nhiều nguồn tiếng nói khác nhau như:  Từ Internet như Youtube (tần số lấy 2. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA mẫu 16kHz). KÊNH TRUYỀN ĐIỆN THOẠI ĐẾN  Thuê người đọc văn bản có sẵn và thu CHẤT LƯỢNG NHẬN DẠNG âm (tần số lấy mẫu 16kHz).  Từ các kênh thoại như tổng đài chăm Hiện nay chúng ta hầu hết sử dụng điện sóc khách hàng (tần số lấy mẫu 8kHz). thoại di động để gọi lên tổng đài có thể Ngoài ra chúng ta cần chuẩn bị dữ liệu văn qua giao thức 2G hoặc 3G. Trong quá trình bản (text) để huấn luyện mô hình ngôn ngữ. này, tiếng nói được downsample xuống Ta có thể lấy văn bản trực tiếp từ transcript 8kHz sau đó mã hóa và nén với các chuẩn trong dữ liệu audio. Tuy nhiên lượng dữ liệu khác nhau, rồi được truyền qua kênh này thường khá ít. Một cách thông dụng khác truyền trước khi đến tổng đài và được giải thường được dùng đó là crawl văn bản từ mã. Quá trình này có thể dẫn đến suy giảm những trang tin tức, từ Wikipedia. chất lượng do thuật toán nén lossy, mất gói Mục đích bài báo này nhằm trả lời 2 câu tin trên đường truyền, v.v. Để định lượng hỏi sau: sự suy giảm đó, chúng ta thiết lập một thử Kênh truyền điện thoại (mã hóa, nén, nghiệm như sau. đường truyền) có ảnh hưởng gì nhiều đến 2.1. Thiết lập thử nghiệm chất lượng tiếng nói không? Nếu không hoặc ít ảnh hưởng ta có thể dùng dữ liệu thu âm Dùng máy tính phát các file audio ghi trực tiếp để xây dựng mô hình nhận dạng cho âm sẵn, dùng jack audio 3.5mm với 2 đầu các cuộc gọi qua điện thoại. Từ đó ta có thể male, một đầu cắm vào cổng speaker của chủ động được nguồn dữ liệu, như lấy từ máy tính, đầu còn lại cắm vào đầu vào YouTube, thu âm trực tiếp và có thể xây microphone của 1 bộ chia từ cổng 3.5, 4 dựng mô hình cho trợ lý ảo cũng như chân (tích hợp cả mic và loa vào một) sang downsample xuống 8kHz cho bài toán nhận 2 cổng 3.5, 3 chân. Với thiết lập này tín dạng tiếng nói cuộc điện thoại. hiệu audio phát ra từ máy tính sẽ được thu Giọng đọc (thu âm) và giọng nói (nói tự trực tiếp vào đầu vào mic của điện thoại và nhiên) có tương tự nhau không? Dùng mô truyền đi. 102
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 Bảng 1. Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (Sai số từ - WER%). # Testset Model VTR16k VTR8k IPCC 1 News_16k 3.09 - - 2 News_8k - 3.15 7.29 3 News_phone2phone - 3.30-3.92 8.53-8.70 4 News_8k_upsample16k 5.01 - - Sau đó tiến hành cuộc gọi từ điện thoại đó Từ Bảng 1 ta có thể thấy rằng, với model đến một điện thoại khác, trong quá trình này VTR16k ta cho kết quả 3.09% WER và ta điều chỉnh âm lượng trên máy tính sao cho chỉ suy giảm 1 chút xuống 3.15% khi dùng âm thanh ko bị cắt do to quá (clipping) để an model VTR8k. toàn ta giảm volume thêm 50% so với Bây giờ ta quan sát dòng thứ 2 và thứ 3 ngưỡng bị clipping. để đánh giá chất lượng audio thu âm trực Trong thử nghiệm này ta dùng tập dữ liệu tiếp và qua kênh điện thoại. Ta thấy rằng với news được thu âm giọng người đọc phát triển cả hệ thống VTR8k và IPCC đều bị suy bởi SpeechOcean (tập News Corpus). Sau giảm đôi chút, nhưng không nhiều. Chú ý cùng ta có 4 tập dữ liệu kiểm thử (testset) để rằng trên dòng 3 chúng ta chạy rất nhiều thí so sánh như sau. nghiệm với các điện thoại khác nhau cũng  News_16k: Dữ liệu audio gốc 16k trong như các lần gọi khác nhau và kết quả nằm News corpus. trong dải như trên. Điều đặc biệt là ngay cả  News_8k: Dữ liệu audio gốc trong với hệ thống IPCC được coi là phù hợp News corpus nhưng được downsample (match) với dữ liệu qua kênh điện thoại xuống 8kHz. cũng bị suy giảm chất lượng. Điều này  News_phone2phone: Dữ liệu audio chứng tỏ truyền audio qua kênh điện thoại được truyền từ điện thoại đến điện thoại không làm sai lệch (mismatch) với audio thu hoặc từ điện thoại đến tổng đài. âm trực tiếp, điều mà ta lo ngại nhất (như bị  News_8k_upsample16k: Dữ liệu 8k méo, phổ bị cắt,...). Còn về sự suy giảm chất được upsample lên 16k để test với lượng nhận dạng (WER tăng đôi chút) thì có model 16k. thể do mất mát trong quá trình biến đổi từ file sang speech và từ speech sang file các 2.2 Kết quả thử nghiệm jack nối, rồi cả kênh truyền bị mất gói tin. Kết quả thử nghiệm được trình bày trên Do đó chúng ta hoàn toàn có thể dùng dữ Bảng 1 dưới các con số là sai số từ (word error liệu từ nguồn khác để dùng cho bài toán rate %). Ba model nhận dạng tiếng nói được sử nhận dạng qua kênh điện thoại và hầu như dụng trong thử nghiệm này bao gồm: không có mismatch gì giữa audio thu âm  Model IPCC được huấn luyện với dữ trực tiếp và qua kênh điện thoại. liệu thoại chăm sóc khách hàng. Trên dòng thứ 4 của Bảng 1, ta upsample  Model VTR16k được huấn luyện với dữ audio thu âm trực tiếp bộ test từ 8k lên 16k ta liệu ghi âm. thấy rằng kết quả nhận dạng rất tệ không  Model VTR8k được huấn luyện với dữ bằng dùng VTR8k nhận dạng 8k. WER tăng liệu ghi âm nhưng được downsample từ 3.09% lên đến 5.01% hứng tỏ sự sai khác xuống 8kHz. (mismatch) rất lớn giữa tín hiệu và mô hình. 103
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 3. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CÁCH thoại viên được coi là khá chuẩn mực và NÓI ĐẾN HỆ THỐNG NHẬN DẠNG giọng khá đều khá giống với giọng đọc. Trong phần này ta sẽ nghiên cứu cách nói 4. KẾT LUẬN (đọc và nói) ảnh hưởng như thế nào đến hệ thống nhận dạng. Để trả lời câu hỏi đó, ta thử Trong bài báo này chúng tôi đã phần nào nghiệm với 2 bộ dữ liệu. Trong cả 2 bộ dữ trả lời được 2 câu hỏi quan trọng và có liệu test này chỉ có giọng của một người những kết luận như sau: nhưng nói trong 2 hoàn cảnh khác nhau.  Kênh truyền điện thoại không ảnh  Testset1: Giọng đọc tại diễn văn. hưởng nhiều đến chất lượng của tiếng  Testset2: Giọng nói trong một cuộc trò nói. Hầu như không có sự mismatch chuyện. giữa tiếng nói thu trực tiếp và qua kênh điện thoại. Việc downsample từ 16kHz Bảng 2. Kết quả thử nghiệm sự ảnh hưởng xuống 8kHz chỉ làm giảm vài % sai số của cách nói (WER%). tương đối (relative word error rate).  Giọng đọc và giọng nói rất khác nhau đối Model # Testset với một hệ thống nhận dạng tiếng nói. Từ những kết luận trên ta có thể đưa ra VTR8k IPCC giải pháp nhằm tăng cường chất lượng nhận dạng như 1 Testset1 22.82 32.41  Tăng cường thu thập thêm dữ liệu học là 2 Testset2 40.27 27.60 giọng nói (giọng tự nhiên) từ các nguồn như YouTube, VTV, VOV, tổng đài.  Các dữ liệu trên có thể dùng lẫn cho Ta dùng 2 model là VTR8k (huấn luyện nhau cho các ứng dụng khác nhau do ít bằng giọng đọc) và IPCC (huấn luyện bằng bị ảnh hưởng bởi yếu tố kênh truyền dữ liệu thoại). Kết quả WER được biểu điện thoại như đã phân tích trong diễn trên Bảng 2. Ta thấy rằng ở dòng 1, là nghiên cứu này. giọng đọc, VTR model cho kết quả tốt hơn rõ rệt IPCC. Tuy nhiên ở bộ dữ liệu thứ 2 5. TÀI LIỆU THAM KHẢO có kết quả ngược lại hoàn toàn. Mô hình [1] Hinton, Geoffrey, et al. "Deep neural VTR cho kết quả rất kém với giọng nói networks for acoustic modeling in speech chuyện tự nhiên. Trong khi đó mô hình recognition: The shared views of four IPCC thậm chí lại cho kết quả tốt hơn tập research groups." IEEE Signal processing testset1, cái được coi là tập test dễ hơn. magazine 29.6, pp. 82-97, 2012. Điều này chứng tỏ rằng, không phải kênh truyền mà chính là giọng đọc, cách đọc mới [2] Nguyen Quoc Bao, Mai Van Tuan, Le Quang Trung, Dam Ba Quyen, and Do Van là yếu tố ảnh hưởng chính đến chất lượng Hai "Development of a Vietnamese Large hệ thống nhận dạng. Do đó để xây dựng Vocabulary Continuous Speech được hệ thống nhận dạng đủ tốt ta cần có Recognition System under Noisy dữ liệu huấn luyện có nhiều giọng nói khác Conditions." in Proceedings of the Ninth nhau đặc biệt là giọng tự nhiên. Cũng chú ý International Symposium on Information rằng nếu dữ liệu có giọng nói tự nhiên thì and Communication Technology, pp. 222- thường cũng có một phần giọng đọc trong 226. ACM, 2018. đó. Ví dụ giọng phát thanh viên, giọng điện 104
nguon tai.lieu . vn