Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
PHƯƠNG PHÁP PHÂN TÁCH, NHẬN DẠNG TIẾNG NÓI
TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG
Đỗ Văn Hải
Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. MỞ ĐẦU tổng đài như vậy, điều quan trọng là phải
Ngày nay, số lượng các cuộc gọi chăm sóc phân tách được đoạn nào là khách hàng, đoạn
khách hàng tăng lên nhanh chóng trong rất nào là do điện thoại viên nói.
nhiều lĩnh vực như viễn thông, tài chính, điện Trong bài báo này, chúng tôi đã đề xuất một
lực, bán lẻ,… Do đó, làm sao để biết được phương pháp để xác định lời nói của điện thoại
mong muốn, băn khoăn của khách hàng cũng viên và khách hàng trong một cuộc điện thoại
như các điện thoại viên của mình có tư vấn có hai kênh trộn lẫn vào nhau. Đầu tiên, ta
chính xác, đúng mực hay không là một nhu phân cụm các phân đoạn giọng nói trong cuộc
cầu cấp thiết đối với người quản lý. Việc này hội thoại kênh hỗn hợp thành hai cụm bằng
có thể thực hiện thủ công bằng cách sử dụng cách sử dụng thông tin đặc trưng về người nói
người giám sát nghe ngẫu nhiên một số cuộc trong tiếng nói. Sau đó, kỹ thuật mô hình hóa
gọi. Tuy nhiên phương pháp này tốn kém về ngôn ngữ hoạt động cùng với hệ thống nhận
nhân lực, chậm trễ về mặt thời gian trong khi dạng tiếng nói (ASR) để xác định nhãn điện
thông tin thu được lại phụ thuộc vào chủ thoại viên / khách hàng cho mỗi phân đoạn.
quan của người giám sát. Kết quả thực nghiệm cho thấy độ chính xác
Trong nghiên cứu trước đây [1], chúng tôi đã của phương pháp đề xuất là hơn 95%.
sử dụng công nghệ nhận dạng tiếng nói để
2. PHƯƠNG PHÁP ĐỀ XUẤT
chuyển đổi toàn bộ các cuộc gọi chăm sóc
khách hàng thành văn bản. Sau đó áp dụng Phương pháp đề xuất bao gồm các bước
công nghệ xử lý ngôn ngữ tự nhiên để phân tích sau đây.
nội dung, sắc thái trong văn bản từ đó biết được Bước 1: thu thập dữ liệu tiếng nói các cuộc
nội dung cũng như cảm xúc của khách hàng. gọi tổng đài để phân tách, gán nhãn văn bản thủ
Để làm điều này, chúng ta cần thực hiện công. Bước này được thực hiện bằng các
nhận dạng giọng nói riêng biệt cho phía phương thức khác nhau như lấy tệp tiếng nói
khách hàng và phía điện thoại viên. Tuy trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, băng
nhiên, tại nhiều tổng đài tại Việt Nam, luồng từ,… hoặc thông qua các kết nối mạng dữ liệu,
tín hiệu âm thanh của điện thoại viên và mỗi một tệp ứng với một cuộc gọi tổng đài.
khách hàng bị trộn lẫn với nhau do nhiều Bước 2: phân tách và gán nhãn văn bản
nguyên nhân như tiết kiệm dung lượng phần cho các tệp tiếng nói. Tại bước này, đưa các
cứng, lưu trữ. Điều này dẫn đến hệ thống tệp tiếng nói ở bước 1 lên hệ thống gán nhãn
giám sát [1] hoạt động không chính xác vì ta để người gán nhãn nghe, phân tách và gán
không thể biết đoạn âm thanh nào do điện nhãn văn bản cho phần nói của điện thoại
thoại viên hay khách hàng nói. Lý do là, cùng viên và khách hàng. Đầu ra của bước này là
một câu nói nếu được nói bởi người điện các tập tiếng nói đã được phân loại và gán
thoại viên có thể có ý nghĩa rất khác với lời nhãn riêng biệt thành tập tiếng nói của điện
nói của khách hàng. Do đó, để giám sát các thoại viên và tập tiếng nói của khách hàng.
104
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
Bước 3: tạo tập huấn luyện và kiểm thử. Bước 8: phân cụm các đoạn tiếng nói. Với
Theo đó, khi dữ liệu tiếng nói được gán mỗi tệp tiếng nói, phân cụm các đoạn tiếng
nhãn trong tệp của điện thoại viên và tệp nói ở bước 6 thành 2 cụm C1 và C2 dựa trên
của khách hàng ở bước 2 đều ≥ Hlabel_min giờ các véc tơ đặc trưng người nói được trích
dữ liệu, trong đó Hlabel_min ≥ 10 giờ nhằm xuất ở bước 7.
đảm bảo tập dữ liệu đủ lớn. Người quản trị Bước 9: chuyển đổi tiếng nói sang văn
quyết định lựa chọn một số tệp tiếng nói đã bản. Tất cả các đoạn tiếng nói ở bước 6 được
được gán nhãn ở bước 2 để tạo tập huấn chuyển sang văn bản bằng cách sử dụng hệ
luyện, các tệp còn lại được sử dụng để tạo thống nhận dạng tiếng nói. Với mỗi đoạn
tập kiểm thử với yêu cầu kích thước tập tiếng nói thu được một văn bản tương ứng và
kiểm thử cần lớn hơn Htest_min giờ dữ liệu, một chỉ số độ tin cậy nhận dạng DTC có giá
trong đó Htest_min ≥ 2 giờ nhằm đảm bảo tập trị từ 0 đến 1.
kiểm thử đủ lớn và tin cậy. Bước 10: lựa chọn đoạn tiếng nói thỏa
Bước 4: xây dựng hai mô hình ngôn ngữ, mãn điều kiện làm căn cứ phân loại. Với mỗi
LMa cho điện thoại viên và LMb cho khách một tệp tiếng nói, lựa chọn đoạn tiếng nói
hàng dựa trên tập dữ liệu huấn luyện được trong bước 9 thỏa mãn điều kiện: có độ tin
tạo ở bước 3 nhằm lưu trữ những đặc điểm về cậy DTC ≥ α, trong đó 0,5 ≤ α ≤ 0,95 nhằm
ngôn ngữ nói như các cụm từ thường xuyên loại bỏ những đoạn tiếng nói có độ tin cậy
nói của điện thoại viên và khách hàng từ đó quá thấp thường là những đoạn tiếng nói có
để phân biệt được câu nói của điện thoại viên chất lượng quá kém hoặc môi trường quá
hay khách hàng ở các bước sau. Trong nhiễu ảnh hưởng đến chất lượng hệ thống
nghiên cứu này, các mô hình ngôn ngữ được phân loại. Nếu không lựa chọn được đoạn
xây dựng là 4-gram. tiếng nói nào thỏa mãn, bỏ qua tệp này và
Bước 5: thu thập dữ liệu tiếng nói các cuộc chuyển sang tệp tiếng nói mới.
gọi tổng đài cần phân tách, nhận dạng tự Bước 11: phân loại các đoạn tiếng nói của
động. Bước này được thực hiện bằng các điện thoại viên và khách hàng. Với các đoạn
phương thức khác nhau như lấy tệp tiếng nói tiếng nói được lựa chọn ở bước 10 được chia
trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, thành hai cụm ở bước 8, tính:
băng từ,… hoặc thông qua các kết nối mạng
dữ liệu, mỗi một tệp ứng với một cuộc gọi
tổng đài. trong đó PPLa1, PPLa2, PPLb1, PPLb2 là chỉ
Bước 6: tự động cắt tệp tiếng nói thành các số độ hỗn loạn (perplexity) được cho bởi các
đoạn nhỏ. Với mỗi tệp tiếng nói thu được ở mô hình ngôn ngữ LMa, LMb ở bước 4 tính
bước 5, tiếng nói được tự động cắt thành các với tập dữ liệu văn bản của các đoạn tiếng
đoạn dựa theo các đặc tính về tín hiệu. Trong nói được lựa chọn ở bước 10. PPLa1, PPLb1
nghiên cứu này, chúng tôi dựa vào một mô được tính ứng với các đoạn trong cụm C1.
hình học máy đã được huấn luyện trước để PPLa2, PPLb2 ứng với các đoạn trong cụm C2.
phân biệt phần nào là tiếng nói, phần nào Ta có thể thấy rằng, nếu cụm C1 là tiếng
không phải tiếng nói của con người. nói của điện thoại viên, C2 là tiếng nói của
Bước 7: trích chọn các véc tơ đặc trưng khách hàng thì mô hình ngôn ngữ của điện
người nói. Tất cả các các đoạn tiếng nói thu thoại viên LMa sẽ cho giá trị PPLa1 thấp,
được ở bước 6 được trích chọn véc tơ đặc PPLa2 cao. Trong khi ngược lại mô hình ngôn
trưng người nói bằng cách sử dụng một mạng ngữ của khách hàng, LMb sẽ cho giá trị
trích chọn đặc trưng được huấn luyện trước PPLb1 cao và PPLb2 thấp. Điều này dẫn đến w
như mạng nơ rơn học sâu (DNN) [2]. Với ở công thức trên sẽ có giá trị nhỏ.
mỗi đoạn tiếng nói sẽ thu được một véc tơ Thuật toán phân tách như sau: nếu w ≤ θ,
đặc trưng người nói tương ứng. toàn bộ các đoạn tiếng nói trong cụm C1
105
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
được xác định là điện thoại viên, toàn bộ các Bảng 1 biểu diễn kết quả phân loại điện
đoạn tiếng nói trong cụm C2 được xác định là thoại viên / khách hàng. Có thể thấy rằng đối
khách hàng và ngược lại nếu w > θ, toàn bộ với cả điện thoại viên và khách hàng, độ
các đoạn tiếng nói trong cụm C2 được xác chính xác đạt trên 95%. Chỉ 4,66% câu nói
định là điện thoại viên, toàn bộ các đoạn của khách hàng được nhận là điện thoại viên
tiếng nói trong cụm C1 được xác định là trong khi 4,85% câu nói của điện thoại viên
khách hàng. Trong nghiên cứu này ngưỡng θ được dự đoán là khách hàng.
được đơn giản gán bằng 1.
4. KẾT LUẬN
3. THỬ NGHIỆM Bài báo này đã trình bày một phương pháp
Chúng tôi sử dụng dữ liệu được sử dụng để phân tách và nhận dạng lời nói của điện
để đào tạo (ở bước 3) với tổng số giờ là 316,3 thoại và khách hàng trong một cuộc trò
giờ. Các dữ liệu đào tạo này được sử dụng để chuyện qua tổng đài chăm sóc khách hàng.
đào tạo hệ thống nhận dạng tiếng nói, trích Thông tin về tiếng nói được sử dụng để phân
xuất véc tơ đặc trưng người nói và hai mô cụm các đoạn giọng nói thành hai cụm. Sau
hình ngôn ngữ LMa, LMb. Tập kiểm thử bao đó, chúng tôi sử dụng các đặc trưng về ngôn
gồm 561 cuộc hội thoại được ghi lại từ các ngữ để gán nhãn được câu nói của điện thoại
tổng đài Viettel. Từ 561 cuộc này được phân viên hay khách hàng dựa vào giả thuyết, cách
tách thành 29.508 đoạn trong đó 15.308 đoạn nói của mỗi người sẽ rất khác nhau trong một
dành cho điện thoại viên và 14.200 đoạn cuộc điện thoại. Kết quả thực nghiệm cho
dành cho khách hàng. thấy phương pháp đề xuất đạt độ chính xác
Chúng tôi sử dụng bộ công cụ nhận dạng cao (trên 95%). Một số công việc có thể được
giọng nói Kaldi [3] được sử dụng để xây tiến hành trong tương lai:
dựng mô-đun nhận dạng giọng nói, trích xuất Cải thiện độ chính xác của phương pháp phân
i-vector. Đặc trưng đầu vào được sử dụng là cụm trong trường hợp dữ liệu mất cân bằng
MFCC có 40 chiều kết hợp với đặc trưng tần nặng, tức là cuộc trò chuyện chủ yếu được nói
số cơ bản để tăng độ chính xác với ngôn ngữ bởi điện thoại viên hoặc khách hàng.
có thanh điệu cho tiếng Việt [1]. Mô hình âm Sử dụng phương pháp dựa trên mạng nơron
học được sử dụng để mô hình hóa sự phân bố để phân loại văn bản thay vì phương pháp
đặc điểm giữa các âm vị khác nhau. Chúng mô hình ngôn ngữ n-gram đơn giản.
tôi sử dụng mạng nơron trễ thời gian
(TDNN) và bộ nhớ dài ngắn hai chiều 5. TÀI LIỆU THAM KHẢO
(BLSTM) [4] làm mô hình âm thanh. Các [1] Quoc Bao Nguyen, Ba Quyen Dam, Van
thiết lập khác tương tự như [1]. Mô hình Hai Do and Minh Hung Le. "Development
ngôn ngữ được sử dụng là 4-gram với tính of a Vietnamese speech recognition system
năng làm mịn Kneser-Ney. for Viettel call center." In O-COCOSDA.
IEEE, 2017.
Bảng 1. Kết quả phân loại điện thoại viên/ [2] Kanagasundaram, Ahilan, et al. "I-vector
khách hàng based speaker recognition on short
utterances." In INTERSPEECH, 2011.
Thực tế [3] Povey, Daniel, et al. "The Kaldi speech
Điện thoại Khách recognition toolkit." IEEE 2011 workshop
viên hàng on automatic speech recognition and
understanding. IEEE Signal Processing
Điện thoại 14.566 662
Society, 2011.
Nhận viên (95,15%) (4,66%) [4] Povey, D., Hadian, H., Ghahremani, P., Li,
dạng Khách 742 13.538 K., & Khudanpur, S. “A time-restricted
hàng (4,85%) (95,34%) self-attention layer for ASR”. In ICASSP,
pp. 5874-5878, 2018.
106
nguon tai.lieu . vn