- Trang Chủ
- Cơ sở dữ liệu
- Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng
Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
QUY TRÌNH XÂY DỰNG DỮ LIỆU VÀ HUẤN LUYỆN LIÊN TỤC
HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Ở PHÍA KHÁCH HÀNG
Đỗ Văn Hải
Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. MỞ ĐẦU liên tục hệ thống nhận dạng tiếng nói nhằm
liên tục nâng cao chất lượng của hệ thống
Hiện nay các ứng dụng nhận dạng tiếng
nhận dạng tiếng nói phù hợp với chính nhu
nói đã trở nên rất phổ biến. Ví dụ chúng ta có
cầu, dữ liệu của người dùng.
thể nhập liệu, tìm kiếm bằng tiếng nói thay vì
gõ vào bàn phím qua các ứng dụng của hệ 2. QUY TRÌNH ĐỀ XUẤT
điều hành iOS, Android, Windows,…
Để xây dựng được những hệ thống nhận - Bước 1: thu thập dữ liệu tiếng nói; bước
dạng tiếng nói chúng ta cần có quá trình huấn này được thực hiện bằng các phương thức
luyện để máy tính học được mối quan hệ giữa khác nhau như lấy tệp tiếng nói trực tiếp từ
tiếng nói ở đầu vào và văn bản ở đầu ra. Về thiết bị lưu trữ hoặc thông qua các kết nối
nguyên tắc khi ta càng có nhiều dữ liệu huấn mạng dữ liệu;
luyện thì hệ thống nhận dạng càng có khả - Bước 2: tự động cắt tệp tiếng nói thành
năng nhận dạng chính xác hơn. Tuy nhiên để các đoạn nhỏ; bước này được thực hiện bằng
huấn luyện một hệ thống nhận dạng tiếng nói cách dựa vào đặc tính tín hiệu của tiếng nói;
với một lượng dữ liệu lớn ta cần rất nhiều - Bước 3: chuyển đổi tiếng nói sang văn
thời gian, cùng với đó là một hệ thống máy bản; tại bước này, tất cả các đoạn tiếng nói ở
tính mạnh. Do đó, việc huấn luyện mô hình bước 2 được chuyển sang văn bản bằng cách
nhận dạng tiếng nói thường chỉ có thể được sử dụng hệ thống nhận dạng tiếng nói, với
thực hiện tại các công ty cung cấp dịch vụ mỗi đoạn tiếng nói thu được một văn bản
nhận dạng tiếng nói, mà khó có thể triển khai tương ứng có số từ là N và một chỉ số độ tin
ở phía người dùng sử dụng dịch vụ. cậy nhận dạng DTC;
Trong khi đó trong quá trình sử dụng dịch - Bước 4: lựa chọn đoạn tiếng nói thỏa mãn
vụ nhận dạng tiếng nói, phía người dùng thu điều kiện; tại bước này, lựa chọn các đoạn
thập được nhiều dữ liệu thực tế, cùng với đó tiếng nói trong bước 2 thỏa mãn hai điều kiện:
là việc phát hiện những trường hợp máy nhận một là có độ tin cậy ở bước 3 nằm trong
dạng nhầm. Mong muốn của người dùng đó ngưỡng cho phép, tức là DTC ≥ DTCmin và
là làm sao có thể huấn luyện cho máy biết DTC ≤ DTCmax; hai là: có số từ nhận dạng
những lỗi sai trong quá trình sử dụng như vậy trong văn bản ở bước 3 cũng nằm trong
và khắc phục ngay trong các lần sau. ngưỡng cho phép, tức là: N ≥ Nmin và
Do đó cần thiết có một phương pháp có thể N ≤ Nmax. Trong đó DTCmin có giá trị từ 0,4
huấn luyện hệ thống nhận dạng tiếng nói liên đến 0,8 nhằm loại bỏ nhưng đoạn tiếng nói
tục từ đó có thể cập nhật nhanh nhất hệ thống có độ tin cậy quá thấp thường là những đoạn
nhận dạng với những dữ liệu được thực hiện tiếng nói có chất lượng quá kém hoặc môi
ở phía người dùng. trường quá nhiễu; DTCmax có giá trị từ 0,8
Trong nghiên cứu này, chúng tôi đưa ra đến 1,0 nhằm loại bỏ những đoạn tiếng nói
một quy trình xây dựng dữ liệu và huấn luyện có độ tin cậy quá cao, nếu bổ sung vào dữ
107
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
liệu học sẽ không mang lại nhiều giá trị; Nmin - Bước 10: đánh giá các hệ thống nhận
có giá trị từ 1 đến 10 nhằm loại bỏ những dạng với các tập kiểm thử; tại bước này, bằng
đoạn tiếng nói quá ngắn không chứa nhiều cách sử dụng hệ thống hiện thời và các hệ
thông tin; Nmax có giá trị từ 10 đến 40 nhằm thống được tạo ra từ bước 9 để nhận dạng các
loại bỏ những đoạn tiếng nói quá dài gây khó đoạn tiếng nói trong các tập kiểm thử và sử
khăn trong việc nghe và làm dữ liệu; dụng công cụ để tự động so sánh văn bản
- Bước 5: gán nhãn và chỉnh sửa lại văn được nhận dạng với văn bản do người gán
bản; tại bước này, đưa các đoạn tiếng nói nhãn dữ liệu đã nhập để đưa ra bảng các chỉ
được lựa chọn ở bước 4 cùng với văn bản số sai số từ (word error rate1) của các hệ
tương ứng được nhận dạng ở bước 3 lên hệ thống với các tập kiểm thử;
thống gán nhãn để người gán nhãn nghe và - Bước 11: lựa chọn cập nhật hệ thống
chỉnh sửa lại văn bản cho đúng với nội dung nhận dạng; từ kết quả ở bước 10, người quản
của đoạn tiếng nói; trị sẽ quyết định lựa chọn hệ thống nhận dạng
- Bước 6: kiểm tra chất lượng gán nhãn; tại nào có sai số trung bình thấp nhất để cập nhật
bước này, người kiểm tra đánh giá chất lượng hoặc giữ nguyên hệ thống hiện thời.
nhãn văn bản được gán ở bước 5, với các 3. THỬ NGHIỆM
đoạn tiếng nói không đạt sẽ yêu cầu người
gán nhãn chỉnh sửa lại, nếu đạt cho đoạn Giải pháp đã được đưa vào hoạt động để
tiếng nói cùng văn bản tương ứng vào kho dữ xây dựng quy trình làm dữ liệu và huấn luyện
liệu được gán nhãn; liên tục cho hệ thống nhận dạng tiếng nói của
- Bước 7: tạo các tập kiểm thử; theo đó, tổng đài chăm sóc khách hàng của Viettel.
người quản trị quyết định lựa chọn một số Chúng tôi xây dựng hệ thống nhận dạng
đoạn tiếng nói trong kho dữ liệu được gán tiếng nói để chuyển đổi toàn bộ các cuộc gọi
nhãn ở bước 6 để tạo các tập kiểm thử với chăm sóc khách hàng sang văn bản. Từ đó có
thể giám sát, thống kê được nội dung của các
yêu cầu kích thước mỗi tập kiểm thử cần lớn
cuộc gọi một cách tự động và nhanh chóng.
hơn Htest_min giờ dữ liệu để đảm bảo tập kiểm
Ngoài ra, ta còn có thể biết được tâm tư, bức
thử đủ lớn và tin cậy, trong đó Htest_min ≥ 0,5
xúc của khách hàng cũng như việc trả lời
giờ; với những đoạn tiếng nói được lựa chọn
khách hàng của điện thoại viên [1].
làm tập kiểm thử sẽ được xóa khỏi kho dữ
Tất cả các mô hình được huấn luyện sử
liệu được gán nhãn;
dụng kiến trúc TDNN-LSTM kết hợp với mô
- Bước 8: lựa chọn thời điểm huấn luyện hình ngôn ngữ 4-gram [2] với công cụ được
hệ thống; là thời điểm khi dữ liệu huấn luyện sử dụng là Kaldi [3].
trong kho lớn hơn một ngưỡng Htrain_min giờ
Quy trình nhận dạng tiếng nói này được
dữ liệu và khi có quyết định của người quản
huấn luyện ban đầu tại sử dụng 1000 giờ dữ
trị, trong đó Htrain_min ≥ 1 giờ ;
liệu. Thời gian để huấn luyện hệ thống là
- Bước 9: huấn luyện hệ thống nhận dạng; 83 giờ.
tại bước này, bằng cách áp dụng học chuyển Khi bắt đầu triển khai tại trung tâm CSKH,
tiếp (transfer learning) với tốc độ học khởi hệ thống nhận dạng tiếng nói còn có tỷ lệ lỗi
tạo α, trong đó hệ thống đầu vào là hệ thống cao, tỷ lệ lỗi từ (word error rate) = 22,1%, tức
nhận dạng hiện tại, dữ liệu huấn luyện để học trung bình 1000 từ thì có 221 từ bị nhận dạng
chuyển tiếp là dữ liệu tiếng nói trong kho dữ sai. Chúng tôi áp dụng quy trình đề xuất để
liệu được gán nhãn; trong đó 0,001 ≥ α ≥ làm dữ liệu và huấn luyện liên tục với các
0,00001; sau khi kết thúc mỗi lần duyệt dữ tham số như sau:
liệu huấn luyện (epoch) ta sẽ lưu ra một
hệ thống để thực hiện kiểm thử trong bước
tiếp theo; 1
https://en.wikipedia.org/wiki/Word_error_rate
108
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
DTCmin = 0,6 ta có thể huấn luyện liên tục theo các mức dữ
DTCmax = 0,95 liệu khác nhau, giảm thời gian huấn luyện và
Nmin = 5 chờ đợi. Để so sánh, nếu ta dùng phương
Nmax = 20 pháp huấn luyện từ đầu tức mỗi lần thêm 30
Htest_min = 5 giờ giờ dữ liệu ta lại gộp vào 1000 giờ dữ liệu
Htrain_min = 30 giờ gốc và huấn luyện thời gian huấn luyện sẽ
α = 0,0001 cần ít nhất là 83 giờ thay vì chỉ 2,5 giờ như
Kết quả thu được thể hiện trong Bảng 1. phương pháp đề xuất.
Bảng 1. Đánh giá kết quả huấn luyện 4. KẾT LUẬN
liên tục hệ thống nhận dạng tiếng nói Trong bài báo này, chúng tôi trình bày quy
Thời gian trình xây dựng dữ liệu và huấn luyện liên tục
Số lượng Kết quả hệ thống nhận dạng tiếng nói nhằm liên tục
Lần cập huấn
dữ liệu sai số từ nâng cao chất lượng của hệ thống nhận dạng
nhật luyện
làm (giờ) (%)
(giờ) tiếng nói phù hợp với chính nhu cầu, dữ liệu
Hệ thống của người dùng. Kết quả thử nghiệm đã chỉ
- - 22,1 ra rằng phương pháp đề xuất đã giảm được
gốc
thời gian huấn luyện để cập nhật mô hình,
1 30 2,5 21,4
giúp mô hình nhận dạng có thể được cập nhật
2 30 2,5 20,9 nhanh chóng.
3 30 2,5 20,4
5. TÀI LIỆU THAM KHẢO
4 30 2,5 19,7
5 30 2,5 19,4 [1] Quoc Bao Nguyen, Ba Quyen Dam, Van Hai
Do and Minh Hung Le. "Development of a
6 30 2,5 18,9 Vietnamese speech recognition system for
7 30 2,5 18,2 Viettel call center." 2017 20th Conference of
the Oriental Chapter of the International
8 30 2,5 17,4
Coordinating Committee on Speech
9 30 2,5 16,9 Databases and Speech I/O Systems and
10 30 2,5 16,5 Assessment (O-COCOSDA). IEEE, 2017.
[2] Povey, D., Hadian, H., Ghahremani, P., Li,
K., & Khudanpur, S. (2018, April). A time-
Bên CSKH thực hiện quy trình làm dữ liệu restricted self-attention layer for ASR. In
theo phương pháp đề xuất. Sau đó mỗi khi 2018 IEEE International Conference on
làm được 30 giờ dữ liệu thì hệ thống nhận Acoustics, Speech and Signal Processing
dạng lại được huấn luyện bổ sung, thời gian (ICASSP) (pp. 5874-5878). IEEE.
huấn luyện là 2,5 giờ. Ta có thể thấy sai số [3] Povey, Daniel, et al. "The Kaldi speech
của hệ thống nhận dạng giảm khá ổn định khi recognition toolkit." IEEE 2011 workshop
được bổ sung dữ liệu và huấn luyện liên tục. on automatic speech recognition and
Sau mười lần cập nhật sai số giảm từ 22,1% understanding. No. CONF. IEEE Signal
xuống 16,5%. Với phương pháp đề xuất này Processing Society, 2011.
109
nguon tai.lieu . vn