Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 QUY TRÌNH XÂY DỰNG DỮ LIỆU VÀ HUẤN LUYỆN LIÊN TỤC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Ở PHÍA KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. MỞ ĐẦU liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng của hệ thống Hiện nay các ứng dụng nhận dạng tiếng nhận dạng tiếng nói phù hợp với chính nhu nói đã trở nên rất phổ biến. Ví dụ chúng ta có cầu, dữ liệu của người dùng. thể nhập liệu, tìm kiếm bằng tiếng nói thay vì gõ vào bàn phím qua các ứng dụng của hệ 2. QUY TRÌNH ĐỀ XUẤT điều hành iOS, Android, Windows,… Để xây dựng được những hệ thống nhận - Bước 1: thu thập dữ liệu tiếng nói; bước dạng tiếng nói chúng ta cần có quá trình huấn này được thực hiện bằng các phương thức luyện để máy tính học được mối quan hệ giữa khác nhau như lấy tệp tiếng nói trực tiếp từ tiếng nói ở đầu vào và văn bản ở đầu ra. Về thiết bị lưu trữ hoặc thông qua các kết nối nguyên tắc khi ta càng có nhiều dữ liệu huấn mạng dữ liệu; luyện thì hệ thống nhận dạng càng có khả - Bước 2: tự động cắt tệp tiếng nói thành năng nhận dạng chính xác hơn. Tuy nhiên để các đoạn nhỏ; bước này được thực hiện bằng huấn luyện một hệ thống nhận dạng tiếng nói cách dựa vào đặc tính tín hiệu của tiếng nói; với một lượng dữ liệu lớn ta cần rất nhiều - Bước 3: chuyển đổi tiếng nói sang văn thời gian, cùng với đó là một hệ thống máy bản; tại bước này, tất cả các đoạn tiếng nói ở tính mạnh. Do đó, việc huấn luyện mô hình bước 2 được chuyển sang văn bản bằng cách nhận dạng tiếng nói thường chỉ có thể được sử dụng hệ thống nhận dạng tiếng nói, với thực hiện tại các công ty cung cấp dịch vụ mỗi đoạn tiếng nói thu được một văn bản nhận dạng tiếng nói, mà khó có thể triển khai tương ứng có số từ là N và một chỉ số độ tin ở phía người dùng sử dụng dịch vụ. cậy nhận dạng DTC; Trong khi đó trong quá trình sử dụng dịch - Bước 4: lựa chọn đoạn tiếng nói thỏa mãn vụ nhận dạng tiếng nói, phía người dùng thu điều kiện; tại bước này, lựa chọn các đoạn thập được nhiều dữ liệu thực tế, cùng với đó tiếng nói trong bước 2 thỏa mãn hai điều kiện: là việc phát hiện những trường hợp máy nhận một là có độ tin cậy ở bước 3 nằm trong dạng nhầm. Mong muốn của người dùng đó ngưỡng cho phép, tức là DTC ≥ DTCmin và là làm sao có thể huấn luyện cho máy biết DTC ≤ DTCmax; hai là: có số từ nhận dạng những lỗi sai trong quá trình sử dụng như vậy trong văn bản ở bước 3 cũng nằm trong và khắc phục ngay trong các lần sau. ngưỡng cho phép, tức là: N ≥ Nmin và Do đó cần thiết có một phương pháp có thể N ≤ Nmax. Trong đó DTCmin có giá trị từ 0,4 huấn luyện hệ thống nhận dạng tiếng nói liên đến 0,8 nhằm loại bỏ nhưng đoạn tiếng nói tục từ đó có thể cập nhật nhanh nhất hệ thống có độ tin cậy quá thấp thường là những đoạn nhận dạng với những dữ liệu được thực hiện tiếng nói có chất lượng quá kém hoặc môi ở phía người dùng. trường quá nhiễu; DTCmax có giá trị từ 0,8 Trong nghiên cứu này, chúng tôi đưa ra đến 1,0 nhằm loại bỏ những đoạn tiếng nói một quy trình xây dựng dữ liệu và huấn luyện có độ tin cậy quá cao, nếu bổ sung vào dữ 107
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 liệu học sẽ không mang lại nhiều giá trị; Nmin - Bước 10: đánh giá các hệ thống nhận có giá trị từ 1 đến 10 nhằm loại bỏ những dạng với các tập kiểm thử; tại bước này, bằng đoạn tiếng nói quá ngắn không chứa nhiều cách sử dụng hệ thống hiện thời và các hệ thông tin; Nmax có giá trị từ 10 đến 40 nhằm thống được tạo ra từ bước 9 để nhận dạng các loại bỏ những đoạn tiếng nói quá dài gây khó đoạn tiếng nói trong các tập kiểm thử và sử khăn trong việc nghe và làm dữ liệu; dụng công cụ để tự động so sánh văn bản - Bước 5: gán nhãn và chỉnh sửa lại văn được nhận dạng với văn bản do người gán bản; tại bước này, đưa các đoạn tiếng nói nhãn dữ liệu đã nhập để đưa ra bảng các chỉ được lựa chọn ở bước 4 cùng với văn bản số sai số từ (word error rate1) của các hệ tương ứng được nhận dạng ở bước 3 lên hệ thống với các tập kiểm thử; thống gán nhãn để người gán nhãn nghe và - Bước 11: lựa chọn cập nhật hệ thống chỉnh sửa lại văn bản cho đúng với nội dung nhận dạng; từ kết quả ở bước 10, người quản của đoạn tiếng nói; trị sẽ quyết định lựa chọn hệ thống nhận dạng - Bước 6: kiểm tra chất lượng gán nhãn; tại nào có sai số trung bình thấp nhất để cập nhật bước này, người kiểm tra đánh giá chất lượng hoặc giữ nguyên hệ thống hiện thời. nhãn văn bản được gán ở bước 5, với các 3. THỬ NGHIỆM đoạn tiếng nói không đạt sẽ yêu cầu người gán nhãn chỉnh sửa lại, nếu đạt cho đoạn Giải pháp đã được đưa vào hoạt động để tiếng nói cùng văn bản tương ứng vào kho dữ xây dựng quy trình làm dữ liệu và huấn luyện liệu được gán nhãn; liên tục cho hệ thống nhận dạng tiếng nói của - Bước 7: tạo các tập kiểm thử; theo đó, tổng đài chăm sóc khách hàng của Viettel. người quản trị quyết định lựa chọn một số Chúng tôi xây dựng hệ thống nhận dạng đoạn tiếng nói trong kho dữ liệu được gán tiếng nói để chuyển đổi toàn bộ các cuộc gọi nhãn ở bước 6 để tạo các tập kiểm thử với chăm sóc khách hàng sang văn bản. Từ đó có thể giám sát, thống kê được nội dung của các yêu cầu kích thước mỗi tập kiểm thử cần lớn cuộc gọi một cách tự động và nhanh chóng. hơn Htest_min giờ dữ liệu để đảm bảo tập kiểm Ngoài ra, ta còn có thể biết được tâm tư, bức thử đủ lớn và tin cậy, trong đó Htest_min ≥ 0,5 xúc của khách hàng cũng như việc trả lời giờ; với những đoạn tiếng nói được lựa chọn khách hàng của điện thoại viên [1]. làm tập kiểm thử sẽ được xóa khỏi kho dữ Tất cả các mô hình được huấn luyện sử liệu được gán nhãn; dụng kiến trúc TDNN-LSTM kết hợp với mô - Bước 8: lựa chọn thời điểm huấn luyện hình ngôn ngữ 4-gram [2] với công cụ được hệ thống; là thời điểm khi dữ liệu huấn luyện sử dụng là Kaldi [3]. trong kho lớn hơn một ngưỡng Htrain_min giờ Quy trình nhận dạng tiếng nói này được dữ liệu và khi có quyết định của người quản huấn luyện ban đầu tại sử dụng 1000 giờ dữ trị, trong đó Htrain_min ≥ 1 giờ ; liệu. Thời gian để huấn luyện hệ thống là - Bước 9: huấn luyện hệ thống nhận dạng; 83 giờ. tại bước này, bằng cách áp dụng học chuyển Khi bắt đầu triển khai tại trung tâm CSKH, tiếp (transfer learning) với tốc độ học khởi hệ thống nhận dạng tiếng nói còn có tỷ lệ lỗi tạo α, trong đó hệ thống đầu vào là hệ thống cao, tỷ lệ lỗi từ (word error rate) = 22,1%, tức nhận dạng hiện tại, dữ liệu huấn luyện để học trung bình 1000 từ thì có 221 từ bị nhận dạng chuyển tiếp là dữ liệu tiếng nói trong kho dữ sai. Chúng tôi áp dụng quy trình đề xuất để liệu được gán nhãn; trong đó 0,001 ≥ α ≥ làm dữ liệu và huấn luyện liên tục với các 0,00001; sau khi kết thúc mỗi lần duyệt dữ tham số như sau: liệu huấn luyện (epoch) ta sẽ lưu ra một hệ thống để thực hiện kiểm thử trong bước tiếp theo; 1 https://en.wikipedia.org/wiki/Word_error_rate 108
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0  DTCmin = 0,6 ta có thể huấn luyện liên tục theo các mức dữ  DTCmax = 0,95 liệu khác nhau, giảm thời gian huấn luyện và  Nmin = 5 chờ đợi. Để so sánh, nếu ta dùng phương  Nmax = 20 pháp huấn luyện từ đầu tức mỗi lần thêm 30  Htest_min = 5 giờ giờ dữ liệu ta lại gộp vào 1000 giờ dữ liệu  Htrain_min = 30 giờ gốc và huấn luyện thời gian huấn luyện sẽ  α = 0,0001 cần ít nhất là 83 giờ thay vì chỉ 2,5 giờ như Kết quả thu được thể hiện trong Bảng 1. phương pháp đề xuất. Bảng 1. Đánh giá kết quả huấn luyện 4. KẾT LUẬN liên tục hệ thống nhận dạng tiếng nói Trong bài báo này, chúng tôi trình bày quy Thời gian trình xây dựng dữ liệu và huấn luyện liên tục Số lượng Kết quả hệ thống nhận dạng tiếng nói nhằm liên tục Lần cập huấn dữ liệu sai số từ nâng cao chất lượng của hệ thống nhận dạng nhật luyện làm (giờ) (%) (giờ) tiếng nói phù hợp với chính nhu cầu, dữ liệu Hệ thống của người dùng. Kết quả thử nghiệm đã chỉ - - 22,1 ra rằng phương pháp đề xuất đã giảm được gốc thời gian huấn luyện để cập nhật mô hình, 1 30 2,5 21,4 giúp mô hình nhận dạng có thể được cập nhật 2 30 2,5 20,9 nhanh chóng. 3 30 2,5 20,4 5. TÀI LIỆU THAM KHẢO 4 30 2,5 19,7 5 30 2,5 19,4 [1] Quoc Bao Nguyen, Ba Quyen Dam, Van Hai Do and Minh Hung Le. "Development of a 6 30 2,5 18,9 Vietnamese speech recognition system for 7 30 2,5 18,2 Viettel call center." 2017 20th Conference of the Oriental Chapter of the International 8 30 2,5 17,4 Coordinating Committee on Speech 9 30 2,5 16,9 Databases and Speech I/O Systems and 10 30 2,5 16,5 Assessment (O-COCOSDA). IEEE, 2017. [2] Povey, D., Hadian, H., Ghahremani, P., Li, K., & Khudanpur, S. (2018, April). A time- Bên CSKH thực hiện quy trình làm dữ liệu restricted self-attention layer for ASR. In theo phương pháp đề xuất. Sau đó mỗi khi 2018 IEEE International Conference on làm được 30 giờ dữ liệu thì hệ thống nhận Acoustics, Speech and Signal Processing dạng lại được huấn luyện bổ sung, thời gian (ICASSP) (pp. 5874-5878). IEEE. huấn luyện là 2,5 giờ. Ta có thể thấy sai số [3] Povey, Daniel, et al. "The Kaldi speech của hệ thống nhận dạng giảm khá ổn định khi recognition toolkit." IEEE 2011 workshop được bổ sung dữ liệu và huấn luyện liên tục. on automatic speech recognition and Sau mười lần cập nhật sai số giảm từ 22,1% understanding. No. CONF. IEEE Signal xuống 16,5%. Với phương pháp đề xuất này Processing Society, 2011. 109
nguon tai.lieu . vn