Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP PHÂN TÁCH, NHẬN DẠNG TIẾNG NÓI TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. MỞ ĐẦU tổng đài như vậy, điều quan trọng là phải Ngày nay, số lượng các cuộc gọi chăm sóc phân tách được đoạn nào là khách hàng, đoạn khách hàng tăng lên nhanh chóng trong rất nào là do điện thoại viên nói. nhiều lĩnh vực như viễn thông, tài chính, điện Trong bài báo này, chúng tôi đã đề xuất một lực, bán lẻ,… Do đó, làm sao để biết được phương pháp để xác định lời nói của điện thoại mong muốn, băn khoăn của khách hàng cũng viên và khách hàng trong một cuộc điện thoại như các điện thoại viên của mình có tư vấn có hai kênh trộn lẫn vào nhau. Đầu tiên, ta chính xác, đúng mực hay không là một nhu phân cụm các phân đoạn giọng nói trong cuộc cầu cấp thiết đối với người quản lý. Việc này hội thoại kênh hỗn hợp thành hai cụm bằng có thể thực hiện thủ công bằng cách sử dụng cách sử dụng thông tin đặc trưng về người nói người giám sát nghe ngẫu nhiên một số cuộc trong tiếng nói. Sau đó, kỹ thuật mô hình hóa gọi. Tuy nhiên phương pháp này tốn kém về ngôn ngữ hoạt động cùng với hệ thống nhận nhân lực, chậm trễ về mặt thời gian trong khi dạng tiếng nói (ASR) để xác định nhãn điện thông tin thu được lại phụ thuộc vào chủ thoại viên / khách hàng cho mỗi phân đoạn. quan của người giám sát. Kết quả thực nghiệm cho thấy độ chính xác Trong nghiên cứu trước đây [1], chúng tôi đã của phương pháp đề xuất là hơn 95%. sử dụng công nghệ nhận dạng tiếng nói để 2. PHƯƠNG PHÁP ĐỀ XUẤT chuyển đổi toàn bộ các cuộc gọi chăm sóc khách hàng thành văn bản. Sau đó áp dụng Phương pháp đề xuất bao gồm các bước công nghệ xử lý ngôn ngữ tự nhiên để phân tích sau đây. nội dung, sắc thái trong văn bản từ đó biết được Bước 1: thu thập dữ liệu tiếng nói các cuộc nội dung cũng như cảm xúc của khách hàng. gọi tổng đài để phân tách, gán nhãn văn bản thủ Để làm điều này, chúng ta cần thực hiện công. Bước này được thực hiện bằng các nhận dạng giọng nói riêng biệt cho phía phương thức khác nhau như lấy tệp tiếng nói khách hàng và phía điện thoại viên. Tuy trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, băng nhiên, tại nhiều tổng đài tại Việt Nam, luồng từ,… hoặc thông qua các kết nối mạng dữ liệu, tín hiệu âm thanh của điện thoại viên và mỗi một tệp ứng với một cuộc gọi tổng đài. khách hàng bị trộn lẫn với nhau do nhiều Bước 2: phân tách và gán nhãn văn bản nguyên nhân như tiết kiệm dung lượng phần cho các tệp tiếng nói. Tại bước này, đưa các cứng, lưu trữ. Điều này dẫn đến hệ thống tệp tiếng nói ở bước 1 lên hệ thống gán nhãn giám sát [1] hoạt động không chính xác vì ta để người gán nhãn nghe, phân tách và gán không thể biết đoạn âm thanh nào do điện nhãn văn bản cho phần nói của điện thoại thoại viên hay khách hàng nói. Lý do là, cùng viên và khách hàng. Đầu ra của bước này là một câu nói nếu được nói bởi người điện các tập tiếng nói đã được phân loại và gán thoại viên có thể có ý nghĩa rất khác với lời nhãn riêng biệt thành tập tiếng nói của điện nói của khách hàng. Do đó, để giám sát các thoại viên và tập tiếng nói của khách hàng. 104
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 Bước 3: tạo tập huấn luyện và kiểm thử. Bước 8: phân cụm các đoạn tiếng nói. Với Theo đó, khi dữ liệu tiếng nói được gán mỗi tệp tiếng nói, phân cụm các đoạn tiếng nhãn trong tệp của điện thoại viên và tệp nói ở bước 6 thành 2 cụm C1 và C2 dựa trên của khách hàng ở bước 2 đều ≥ Hlabel_min giờ các véc tơ đặc trưng người nói được trích dữ liệu, trong đó Hlabel_min ≥ 10 giờ nhằm xuất ở bước 7. đảm bảo tập dữ liệu đủ lớn. Người quản trị Bước 9: chuyển đổi tiếng nói sang văn quyết định lựa chọn một số tệp tiếng nói đã bản. Tất cả các đoạn tiếng nói ở bước 6 được được gán nhãn ở bước 2 để tạo tập huấn chuyển sang văn bản bằng cách sử dụng hệ luyện, các tệp còn lại được sử dụng để tạo thống nhận dạng tiếng nói. Với mỗi đoạn tập kiểm thử với yêu cầu kích thước tập tiếng nói thu được một văn bản tương ứng và kiểm thử cần lớn hơn Htest_min giờ dữ liệu, một chỉ số độ tin cậy nhận dạng DTC có giá trong đó Htest_min ≥ 2 giờ nhằm đảm bảo tập trị từ 0 đến 1. kiểm thử đủ lớn và tin cậy. Bước 10: lựa chọn đoạn tiếng nói thỏa Bước 4: xây dựng hai mô hình ngôn ngữ, mãn điều kiện làm căn cứ phân loại. Với mỗi LMa cho điện thoại viên và LMb cho khách một tệp tiếng nói, lựa chọn đoạn tiếng nói hàng dựa trên tập dữ liệu huấn luyện được trong bước 9 thỏa mãn điều kiện: có độ tin tạo ở bước 3 nhằm lưu trữ những đặc điểm về cậy DTC ≥ α, trong đó 0,5 ≤ α ≤ 0,95 nhằm ngôn ngữ nói như các cụm từ thường xuyên loại bỏ những đoạn tiếng nói có độ tin cậy nói của điện thoại viên và khách hàng từ đó quá thấp thường là những đoạn tiếng nói có để phân biệt được câu nói của điện thoại viên chất lượng quá kém hoặc môi trường quá hay khách hàng ở các bước sau. Trong nhiễu ảnh hưởng đến chất lượng hệ thống nghiên cứu này, các mô hình ngôn ngữ được phân loại. Nếu không lựa chọn được đoạn xây dựng là 4-gram. tiếng nói nào thỏa mãn, bỏ qua tệp này và Bước 5: thu thập dữ liệu tiếng nói các cuộc chuyển sang tệp tiếng nói mới. gọi tổng đài cần phân tách, nhận dạng tự Bước 11: phân loại các đoạn tiếng nói của động. Bước này được thực hiện bằng các điện thoại viên và khách hàng. Với các đoạn phương thức khác nhau như lấy tệp tiếng nói tiếng nói được lựa chọn ở bước 10 được chia trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, thành hai cụm ở bước 8, tính: băng từ,… hoặc thông qua các kết nối mạng dữ liệu, mỗi một tệp ứng với một cuộc gọi tổng đài. trong đó PPLa1, PPLa2, PPLb1, PPLb2 là chỉ Bước 6: tự động cắt tệp tiếng nói thành các số độ hỗn loạn (perplexity) được cho bởi các đoạn nhỏ. Với mỗi tệp tiếng nói thu được ở mô hình ngôn ngữ LMa, LMb ở bước 4 tính bước 5, tiếng nói được tự động cắt thành các với tập dữ liệu văn bản của các đoạn tiếng đoạn dựa theo các đặc tính về tín hiệu. Trong nói được lựa chọn ở bước 10. PPLa1, PPLb1 nghiên cứu này, chúng tôi dựa vào một mô được tính ứng với các đoạn trong cụm C1. hình học máy đã được huấn luyện trước để PPLa2, PPLb2 ứng với các đoạn trong cụm C2. phân biệt phần nào là tiếng nói, phần nào Ta có thể thấy rằng, nếu cụm C1 là tiếng không phải tiếng nói của con người. nói của điện thoại viên, C2 là tiếng nói của Bước 7: trích chọn các véc tơ đặc trưng khách hàng thì mô hình ngôn ngữ của điện người nói. Tất cả các các đoạn tiếng nói thu thoại viên LMa sẽ cho giá trị PPLa1 thấp, được ở bước 6 được trích chọn véc tơ đặc PPLa2 cao. Trong khi ngược lại mô hình ngôn trưng người nói bằng cách sử dụng một mạng ngữ của khách hàng, LMb sẽ cho giá trị trích chọn đặc trưng được huấn luyện trước PPLb1 cao và PPLb2 thấp. Điều này dẫn đến w như mạng nơ rơn học sâu (DNN) [2]. Với ở công thức trên sẽ có giá trị nhỏ. mỗi đoạn tiếng nói sẽ thu được một véc tơ Thuật toán phân tách như sau: nếu w ≤ θ, đặc trưng người nói tương ứng. toàn bộ các đoạn tiếng nói trong cụm C1 105
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 được xác định là điện thoại viên, toàn bộ các Bảng 1 biểu diễn kết quả phân loại điện đoạn tiếng nói trong cụm C2 được xác định là thoại viên / khách hàng. Có thể thấy rằng đối khách hàng và ngược lại nếu w > θ, toàn bộ với cả điện thoại viên và khách hàng, độ các đoạn tiếng nói trong cụm C2 được xác chính xác đạt trên 95%. Chỉ 4,66% câu nói định là điện thoại viên, toàn bộ các đoạn của khách hàng được nhận là điện thoại viên tiếng nói trong cụm C1 được xác định là trong khi 4,85% câu nói của điện thoại viên khách hàng. Trong nghiên cứu này ngưỡng θ được dự đoán là khách hàng. được đơn giản gán bằng 1. 4. KẾT LUẬN 3. THỬ NGHIỆM Bài báo này đã trình bày một phương pháp Chúng tôi sử dụng dữ liệu được sử dụng để phân tách và nhận dạng lời nói của điện để đào tạo (ở bước 3) với tổng số giờ là 316,3 thoại và khách hàng trong một cuộc trò giờ. Các dữ liệu đào tạo này được sử dụng để chuyện qua tổng đài chăm sóc khách hàng. đào tạo hệ thống nhận dạng tiếng nói, trích Thông tin về tiếng nói được sử dụng để phân xuất véc tơ đặc trưng người nói và hai mô cụm các đoạn giọng nói thành hai cụm. Sau hình ngôn ngữ LMa, LMb. Tập kiểm thử bao đó, chúng tôi sử dụng các đặc trưng về ngôn gồm 561 cuộc hội thoại được ghi lại từ các ngữ để gán nhãn được câu nói của điện thoại tổng đài Viettel. Từ 561 cuộc này được phân viên hay khách hàng dựa vào giả thuyết, cách tách thành 29.508 đoạn trong đó 15.308 đoạn nói của mỗi người sẽ rất khác nhau trong một dành cho điện thoại viên và 14.200 đoạn cuộc điện thoại. Kết quả thực nghiệm cho dành cho khách hàng. thấy phương pháp đề xuất đạt độ chính xác Chúng tôi sử dụng bộ công cụ nhận dạng cao (trên 95%). Một số công việc có thể được giọng nói Kaldi [3] được sử dụng để xây tiến hành trong tương lai: dựng mô-đun nhận dạng giọng nói, trích xuất  Cải thiện độ chính xác của phương pháp phân i-vector. Đặc trưng đầu vào được sử dụng là cụm trong trường hợp dữ liệu mất cân bằng MFCC có 40 chiều kết hợp với đặc trưng tần nặng, tức là cuộc trò chuyện chủ yếu được nói số cơ bản để tăng độ chính xác với ngôn ngữ bởi điện thoại viên hoặc khách hàng. có thanh điệu cho tiếng Việt [1]. Mô hình âm  Sử dụng phương pháp dựa trên mạng nơron học được sử dụng để mô hình hóa sự phân bố để phân loại văn bản thay vì phương pháp đặc điểm giữa các âm vị khác nhau. Chúng mô hình ngôn ngữ n-gram đơn giản. tôi sử dụng mạng nơron trễ thời gian (TDNN) và bộ nhớ dài ngắn hai chiều 5. TÀI LIỆU THAM KHẢO (BLSTM) [4] làm mô hình âm thanh. Các [1] Quoc Bao Nguyen, Ba Quyen Dam, Van thiết lập khác tương tự như [1]. Mô hình Hai Do and Minh Hung Le. "Development ngôn ngữ được sử dụng là 4-gram với tính of a Vietnamese speech recognition system năng làm mịn Kneser-Ney. for Viettel call center." In O-COCOSDA. IEEE, 2017. Bảng 1. Kết quả phân loại điện thoại viên/ [2] Kanagasundaram, Ahilan, et al. "I-vector khách hàng based speaker recognition on short utterances." In INTERSPEECH, 2011. Thực tế [3] Povey, Daniel, et al. "The Kaldi speech Điện thoại Khách recognition toolkit." IEEE 2011 workshop viên hàng on automatic speech recognition and understanding. IEEE Signal Processing Điện thoại 14.566 662 Society, 2011. Nhận viên (95,15%) (4,66%) [4] Povey, D., Hadian, H., Ghahremani, P., Li, dạng Khách 742 13.538 K., & Khudanpur, S. “A time-restricted hàng (4,85%) (95,34%) self-attention layer for ASR”. In ICASSP, pp. 5874-5878, 2018. 106
nguon tai.lieu . vn