Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
ĐÁNH GIÁ TỔNG THỂ CÁC MÔ HÌNH
NHẬN DẠNG TIẾNG NÓI VỚI CÁC YẾU TỐ KHÁC NHAU
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG hình được huấn luyện với giọng đọc có thể
nhận dạng tốt với giọng nói không và
Để huấn luyện mô hình nhận dạng tiếng
ngược lại.
nói, yếu tố quan trọng nhất đó là dữ liệu huấn
Trả lời được 2 câu hỏi trên sẽ giúp chúng
luyện [1,2]. Với các hệ thống nhận dạng
ta có thể xây dựng được nguồn dữ liệu huấn
thương mại cần ít nhất hàng nghìn đến hàng
luyện phù hợp với các bài toán thực tế với
chục nghìn giờ dữ liệu audio huấn luyện. Có
chi phí và thời gian nhỏ nhất.
rất nhiều nguồn tiếng nói khác nhau như:
Từ Internet như Youtube (tần số lấy 2. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA
mẫu 16kHz). KÊNH TRUYỀN ĐIỆN THOẠI ĐẾN
Thuê người đọc văn bản có sẵn và thu
CHẤT LƯỢNG NHẬN DẠNG
âm (tần số lấy mẫu 16kHz).
Từ các kênh thoại như tổng đài chăm Hiện nay chúng ta hầu hết sử dụng điện
sóc khách hàng (tần số lấy mẫu 8kHz). thoại di động để gọi lên tổng đài có thể
Ngoài ra chúng ta cần chuẩn bị dữ liệu văn qua giao thức 2G hoặc 3G. Trong quá trình
bản (text) để huấn luyện mô hình ngôn ngữ. này, tiếng nói được downsample xuống
Ta có thể lấy văn bản trực tiếp từ transcript 8kHz sau đó mã hóa và nén với các chuẩn
trong dữ liệu audio. Tuy nhiên lượng dữ liệu khác nhau, rồi được truyền qua kênh
này thường khá ít. Một cách thông dụng khác truyền trước khi đến tổng đài và được giải
thường được dùng đó là crawl văn bản từ mã. Quá trình này có thể dẫn đến suy giảm
những trang tin tức, từ Wikipedia. chất lượng do thuật toán nén lossy, mất gói
Mục đích bài báo này nhằm trả lời 2 câu tin trên đường truyền, v.v. Để định lượng
hỏi sau: sự suy giảm đó, chúng ta thiết lập một thử
Kênh truyền điện thoại (mã hóa, nén, nghiệm như sau.
đường truyền) có ảnh hưởng gì nhiều đến 2.1. Thiết lập thử nghiệm
chất lượng tiếng nói không? Nếu không hoặc
ít ảnh hưởng ta có thể dùng dữ liệu thu âm Dùng máy tính phát các file audio ghi
trực tiếp để xây dựng mô hình nhận dạng cho âm sẵn, dùng jack audio 3.5mm với 2 đầu
các cuộc gọi qua điện thoại. Từ đó ta có thể male, một đầu cắm vào cổng speaker của
chủ động được nguồn dữ liệu, như lấy từ máy tính, đầu còn lại cắm vào đầu vào
YouTube, thu âm trực tiếp và có thể xây microphone của 1 bộ chia từ cổng 3.5, 4
dựng mô hình cho trợ lý ảo cũng như chân (tích hợp cả mic và loa vào một) sang
downsample xuống 8kHz cho bài toán nhận 2 cổng 3.5, 3 chân. Với thiết lập này tín
dạng tiếng nói cuộc điện thoại. hiệu audio phát ra từ máy tính sẽ được thu
Giọng đọc (thu âm) và giọng nói (nói tự trực tiếp vào đầu vào mic của điện thoại và
nhiên) có tương tự nhau không? Dùng mô truyền đi.
102
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
Bảng 1. Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (Sai số từ - WER%).
# Testset Model
VTR16k VTR8k IPCC
1 News_16k 3.09 - -
2 News_8k - 3.15 7.29
3 News_phone2phone - 3.30-3.92 8.53-8.70
4 News_8k_upsample16k 5.01 - -
Sau đó tiến hành cuộc gọi từ điện thoại đó Từ Bảng 1 ta có thể thấy rằng, với model
đến một điện thoại khác, trong quá trình này VTR16k ta cho kết quả 3.09% WER và ta
điều chỉnh âm lượng trên máy tính sao cho chỉ suy giảm 1 chút xuống 3.15% khi dùng
âm thanh ko bị cắt do to quá (clipping) để an model VTR8k.
toàn ta giảm volume thêm 50% so với Bây giờ ta quan sát dòng thứ 2 và thứ 3
ngưỡng bị clipping. để đánh giá chất lượng audio thu âm trực
Trong thử nghiệm này ta dùng tập dữ liệu tiếp và qua kênh điện thoại. Ta thấy rằng với
news được thu âm giọng người đọc phát triển cả hệ thống VTR8k và IPCC đều bị suy
bởi SpeechOcean (tập News Corpus). Sau giảm đôi chút, nhưng không nhiều. Chú ý
cùng ta có 4 tập dữ liệu kiểm thử (testset) để rằng trên dòng 3 chúng ta chạy rất nhiều thí
so sánh như sau. nghiệm với các điện thoại khác nhau cũng
News_16k: Dữ liệu audio gốc 16k trong như các lần gọi khác nhau và kết quả nằm
News corpus. trong dải như trên. Điều đặc biệt là ngay cả
News_8k: Dữ liệu audio gốc trong với hệ thống IPCC được coi là phù hợp
News corpus nhưng được downsample (match) với dữ liệu qua kênh điện thoại
xuống 8kHz. cũng bị suy giảm chất lượng. Điều này
News_phone2phone: Dữ liệu audio chứng tỏ truyền audio qua kênh điện thoại
được truyền từ điện thoại đến điện thoại không làm sai lệch (mismatch) với audio thu
hoặc từ điện thoại đến tổng đài. âm trực tiếp, điều mà ta lo ngại nhất (như bị
News_8k_upsample16k: Dữ liệu 8k méo, phổ bị cắt,...). Còn về sự suy giảm chất
được upsample lên 16k để test với lượng nhận dạng (WER tăng đôi chút) thì có
model 16k. thể do mất mát trong quá trình biến đổi từ
file sang speech và từ speech sang file các
2.2 Kết quả thử nghiệm jack nối, rồi cả kênh truyền bị mất gói tin.
Kết quả thử nghiệm được trình bày trên Do đó chúng ta hoàn toàn có thể dùng dữ
Bảng 1 dưới các con số là sai số từ (word error liệu từ nguồn khác để dùng cho bài toán
rate %). Ba model nhận dạng tiếng nói được sử nhận dạng qua kênh điện thoại và hầu như
dụng trong thử nghiệm này bao gồm: không có mismatch gì giữa audio thu âm
Model IPCC được huấn luyện với dữ trực tiếp và qua kênh điện thoại.
liệu thoại chăm sóc khách hàng. Trên dòng thứ 4 của Bảng 1, ta upsample
Model VTR16k được huấn luyện với dữ audio thu âm trực tiếp bộ test từ 8k lên 16k ta
liệu ghi âm. thấy rằng kết quả nhận dạng rất tệ không
Model VTR8k được huấn luyện với dữ bằng dùng VTR8k nhận dạng 8k. WER tăng
liệu ghi âm nhưng được downsample từ 3.09% lên đến 5.01% hứng tỏ sự sai khác
xuống 8kHz. (mismatch) rất lớn giữa tín hiệu và mô hình.
103
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
3. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CÁCH thoại viên được coi là khá chuẩn mực và
NÓI ĐẾN HỆ THỐNG NHẬN DẠNG giọng khá đều khá giống với giọng đọc.
Trong phần này ta sẽ nghiên cứu cách nói 4. KẾT LUẬN
(đọc và nói) ảnh hưởng như thế nào đến hệ
thống nhận dạng. Để trả lời câu hỏi đó, ta thử Trong bài báo này chúng tôi đã phần nào
nghiệm với 2 bộ dữ liệu. Trong cả 2 bộ dữ trả lời được 2 câu hỏi quan trọng và có
liệu test này chỉ có giọng của một người những kết luận như sau:
nhưng nói trong 2 hoàn cảnh khác nhau. Kênh truyền điện thoại không ảnh
Testset1: Giọng đọc tại diễn văn. hưởng nhiều đến chất lượng của tiếng
Testset2: Giọng nói trong một cuộc trò nói. Hầu như không có sự mismatch
chuyện. giữa tiếng nói thu trực tiếp và qua kênh
điện thoại. Việc downsample từ 16kHz
Bảng 2. Kết quả thử nghiệm sự ảnh hưởng xuống 8kHz chỉ làm giảm vài % sai số
của cách nói (WER%). tương đối (relative word error rate).
Giọng đọc và giọng nói rất khác nhau đối
Model
# Testset với một hệ thống nhận dạng tiếng nói.
Từ những kết luận trên ta có thể đưa ra
VTR8k IPCC
giải pháp nhằm tăng cường chất lượng nhận
dạng như
1 Testset1 22.82 32.41
Tăng cường thu thập thêm dữ liệu học là
2 Testset2 40.27 27.60 giọng nói (giọng tự nhiên) từ các nguồn
như YouTube, VTV, VOV, tổng đài.
Các dữ liệu trên có thể dùng lẫn cho
Ta dùng 2 model là VTR8k (huấn luyện nhau cho các ứng dụng khác nhau do ít
bằng giọng đọc) và IPCC (huấn luyện bằng bị ảnh hưởng bởi yếu tố kênh truyền
dữ liệu thoại). Kết quả WER được biểu điện thoại như đã phân tích trong
diễn trên Bảng 2. Ta thấy rằng ở dòng 1, là nghiên cứu này.
giọng đọc, VTR model cho kết quả tốt hơn
rõ rệt IPCC. Tuy nhiên ở bộ dữ liệu thứ 2 5. TÀI LIỆU THAM KHẢO
có kết quả ngược lại hoàn toàn. Mô hình [1] Hinton, Geoffrey, et al. "Deep neural
VTR cho kết quả rất kém với giọng nói networks for acoustic modeling in speech
chuyện tự nhiên. Trong khi đó mô hình recognition: The shared views of four
IPCC thậm chí lại cho kết quả tốt hơn tập research groups." IEEE Signal processing
testset1, cái được coi là tập test dễ hơn. magazine 29.6, pp. 82-97, 2012.
Điều này chứng tỏ rằng, không phải kênh
truyền mà chính là giọng đọc, cách đọc mới [2] Nguyen Quoc Bao, Mai Van Tuan, Le
Quang Trung, Dam Ba Quyen, and Do Van
là yếu tố ảnh hưởng chính đến chất lượng
Hai "Development of a Vietnamese Large
hệ thống nhận dạng. Do đó để xây dựng Vocabulary Continuous Speech
được hệ thống nhận dạng đủ tốt ta cần có Recognition System under Noisy
dữ liệu huấn luyện có nhiều giọng nói khác Conditions." in Proceedings of the Ninth
nhau đặc biệt là giọng tự nhiên. Cũng chú ý International Symposium on Information
rằng nếu dữ liệu có giọng nói tự nhiên thì and Communication Technology, pp. 222-
thường cũng có một phần giọng đọc trong 226. ACM, 2018.
đó. Ví dụ giọng phát thanh viên, giọng điện
104
nguon tai.lieu . vn