Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
XÂY DỰNG PHƯƠNG PHÁP GIẢM TỶ LỆ BỎ QUA
TRÊN VOICETRANS
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG suy giảm đáng kể chất lượng của tiếng nói.
Dẫn đến người transcriber khó khăn hơn
Để huấn luyện mô hình nhận dạng tiếng
trong việc nghe chính xác văn bản cần gõ.
nói, yếu tố tiên quyết đó là dữ liệu huấn
Bảng 1 thể hiện kết quả làm voicetrans với
luyện [1]. Với các hệ thống nhận dạng dữ liệu thoại. Tổng số 224.839 segment được
thương mại cần ít nhất hàng nghìn giờ dữ đưa lên voicetrans, các transcriber đã bỏ qua
liệu huấn luyện. Tại Viettel, chúng tôi thu 194.723 segment tương đương với 87%.
thập rất nhiều nguồn tiếng nói khác nhau từ
Internet như Youtube hoặc từ các tổng đài Bảng 1. Thống kê kết quả làm với dữ liệu
chăm sóc khách hàng. Những dữ liệu thô sau thoại theo số segment
đó sẽ được cắt thành các đoạn (segment) nhỏ
Tổng Đã làm Bỏ qua
vài giây nhờ bộ VAD (voice activity
detector). Những segment này sẽ được đưa 224839 30116 194723
cho người nghe (transcriber) để gõ văn bản
tương ứng với segment đó. Bài toán này gọi 13% 87%
là bài toán voicetrans.
Tuy nhiên trong quá trình thực tế làm Tỷ lệ bỏ qua cao như vậy dẫn đến năng
voicetrans, chúng tôi nhận thấy có rất nhiều suất bị giảm, người transcriber phải nghe
trường hợp transcriber không nghe rõ được trung bình 100 segment mà chỉ lấy được 13
đoạn audio có thể do nhiễu, nhiều người segment để gõ văn bản trong khi vẫn mất
nói lẫn, hoặc câu đó quá khó nghe,… Do thời gian nghe 87 câu bỏ qua. Vấn đề đặt ra ở
vậy, transcriber không thể gõ được chính đây là làm sao giảm được tỷ lệ bỏ qua xuống
xác văn bản tương ứng. Với những segment mà vẫn giữ được chất lượng dữ liệu.
này, transcriber được phép bỏ qua. Với việc
áp dụng cơ chế bỏ qua này đã giúp cho việc 2. PHƯƠNG PHÁP ĐỀ XUẤT
thống nhất giữa người transcriber và người Nhiệm vụ của chúng ta là xây dựng thuật
reviewer trở nên dễ dàng hơn, tránh việc toán để có thể lọc được những câu có khả
không thống nhất, dẫn đến review đi, năng bỏ qua trước khi đẩy lên hệ thống
review lại vừa tốn thời gian, vừa gây ức chế voicetrans. Để làm được điều đó, ta cần phân
cho người làm. tích các đặc điểm của các câu bỏ qua, so với
Trong quá trình làm voicetrans, chúng tôi các câu thông thường từ đó xem các đặc tính
nhận thấy dữ liệu từ các nguồn như cuộc gọi khác biệt để làm tiêu chí nhận diện.
thoại chăm sóc khách hàng thì tỉ lệ bỏ qua Trong nghiên cứu ban đầu này, giá trị trị
lớn hơn rất nhiều so với những nguồn như từ số tin cậy - confidence score (CS) được sử
Youtube. Điều này có thể được giải thích là dụng để làm tiêu chí đánh giá. Với mỗi một
chất lượng đường truyền điện thoại với tần câu khi đưa vào hệ thống nhận dạng tiếng nói
số lấy mẫu 8kHz và các chuẩn nén thoại làm CS được tính bằng tỷ số giữa xác suất của
99
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
giả thuyết nhận dạng tốt nhất chia cho tổng 3. KẾT QUẢ THỬ NGHIỆM
xác suất của tất cả top-N giả thuyết có thể có
Trong nghiên cứu này, ta tìm hiểu nếu ta
[2]. Ví dụ khi CS tiệm cận đến 1 tức xác suất
dùng CS để làm tiêu chí nhận diện thì ta sẽ
của giả thiết nhận dạng tốt nhất lớn hơn rất
lọc được bao nhiêu % các câu có khả năng bị
nhiều các giả thuyết còn lại. Do đó ta có thể
bỏ qua.
dùng chỉ số này để đánh giá độ “dễ” hay
Trong bộ cơ sở dữ liệu của chúng ta có
“khó” của một đoạn tiếng nói đối với một hệ
224.839 câu nếu ta chọn ngưỡng như câu có
thống nhận dạng.
CS > 0,7 mới được đưa vào hệ thống
voicetrans.
Bảng 2. Thống kê kết quả trước và sau khi
dùng CS để lọc dữ liệu.
Lọc Tổng Đã làm Bỏ qua
Không 224.839 30.116 194.723
(100%) (13%) (87%)
CS>0,7 198.637 29.423 169.214
(100%) (15%) (85%)
Từ bảng 2 ta có thể thấy nếu ta dùng CS >
0,7 là tiêu chí lọc tổng số câu sẽ giảm từ
224.839 xuống 198.637. Trong đó, số câu bỏ
qua giảm từ 194.723 xuống 169.214 và tỷ lệ
bỏ qua (skip-rate) giảm từ 87% xuống 85%.
Tuy nhiên số câu đã làm cũng bị lọc bớt đi
Hình 1. Biểu đồ biễu diễn phân bố của một số. Tỷ lệ giữ lại những câu đã làm
confidence score với các câu đã làm và bỏ qua (retain-rate) = 29.423/30.116 = 98%.
Hình 1 biễu diễn phân bố của CS với các Hình 2 biểu diễn mối quan hệ giữa skip-
câu đã làm và bỏ qua với 1000 câu đã làm và rate và retain-rate theo các giá trị CS khác
1000 câu ngẫu nhiên được lấy từ tập đã làm nhau. Ta có thể thấy rằng khi CS = 0 tức ta
và bỏ qua, trục tung là CS. Ta có thể thấy lọc, tỷ lệ bỏ qua là 87% và ta giữ được 100%
rằng, trung bình thì CS của các câu đã làm số câu có thể gõ text. Ta tăng ngưỡng lên ta
cao hơn những câu bỏ qua. có thể giảm tỷ lệ bỏ qua, tuy nhiên ta cũng
Từ những phân tích ở trên, chúng tôi đề loại bỏ những câu có thể gõ text (thể hiện
xuất một thuật toán đơn giản để giảm tỷ lệ bỏ qua đường retain giảm), điều này tức là ta
qua như sau: cần nhiều dữ liệu thô hơn để làm. Ví dụ với
Bước 1: Nhận dạng những câu trong cơ sở ngưỡng CS = 0.9 tỷ lệ bỏ qua giảm còn 73%
dữ liệu. trong khi ta chỉ giữ lại được 45% những câu
Bước 2: Tính tính confidence score của có thể gõ text. Tức với cùng 1 lượng câu
mỗi câu. hoàn thiện ta cần sử dụng nhiều hơn gấp
Bước 3: Lựa chọn những câu có đôi dữ liệu thô đầu vào. Từ hình 2 ta có thể
confidence score > để đưa lên hệ thống chọn ngưỡng sao cho tỷ lệ bỏ qua giảm
voicetrans cho transcriber làm. Trong đó α là nhanh trong khi tỷ lệ retain không giảm quá,
giá trị định nghĩa trước trong dải (0, 1). ví dụ tại điểm CS = 0.94.
100
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
4. NHẬN XÉT Ngoài CS là đặc trưng mức cao (high-
level feature), ta có thể phân tích sự tương
Ta có thể thấy rằng, dùng CS ta có thể làm
quan, ảnh hưởng của các đặc trưng mức thấp
tiêu chí lọc để giảm tỷ lệ bỏ qua từ 87%
(low-level feature) như zero-crossing rate,
xuống còn 61% tương đương với việc nghe
average energy, SNR, RMS,… đến các câu
100 câu thì có thể làm được 39 câu thay vì 13
bỏ qua. Và tiến tới ta có thể nghiên cứu xây
câu. Tuy nhiên khi đó tỉ lệ dữ liệu giữ lại so
dựng mô hình học máy để phát hiện những
với dữ liệu gốc chỉ trên 10% tức để làm cùng
câu mà người dùng có xu hướng bỏ qua.
một khối dữ liệu thành phẩm, ta cần tăng
khối lượng dữ liệu thô lên gần 10 lần. Do đó 5. KẾT LUẬN
phương pháp này có thể được áp dụng với
những trường hợp ta có nhiều dữ liệu thô. Trong nghiên cứu này, ta đã nghiên cứu sử
dụng đặc trưng confidence score trong nhận
dạng tiếng nói làm tiêu chí lọc nhằm loại bỏ
những câu mà người làm dữ liệu tiếng nói
thường bỏ qua. Trong tương lai ta cần nghiên
cứu bổ sung thêm các đặc trưng khác giúp
việc lọc trở nên hiệu quả hơn.
6. TÀI LIỆU THAM KHẢO
[1] Hinton, Geoffrey, et al. "Deep neural
networks for acoustic modeling in speech
recognition: The shared views of four
research groups." IEEE Signal processing
magazine 29.6 (2012): 82-97.
[2] Jiang, Hui. "Confidence measures for
speech recognition: A survey." Speech
communication 45.4 (2005): 455-470.
Hình 2. Tỷ lệ % bỏ qua và % dữ liệu có thể
làm được giữ lại (retain) theo CS
101
nguon tai.lieu . vn