Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 XÂY DỰNG PHƯƠNG PHÁP GIẢM TỶ LỆ BỎ QUA TRÊN VOICETRANS Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG suy giảm đáng kể chất lượng của tiếng nói. Dẫn đến người transcriber khó khăn hơn Để huấn luyện mô hình nhận dạng tiếng trong việc nghe chính xác văn bản cần gõ. nói, yếu tố tiên quyết đó là dữ liệu huấn Bảng 1 thể hiện kết quả làm voicetrans với luyện [1]. Với các hệ thống nhận dạng dữ liệu thoại. Tổng số 224.839 segment được thương mại cần ít nhất hàng nghìn giờ dữ đưa lên voicetrans, các transcriber đã bỏ qua liệu huấn luyện. Tại Viettel, chúng tôi thu 194.723 segment tương đương với 87%. thập rất nhiều nguồn tiếng nói khác nhau từ Internet như Youtube hoặc từ các tổng đài Bảng 1. Thống kê kết quả làm với dữ liệu chăm sóc khách hàng. Những dữ liệu thô sau thoại theo số segment đó sẽ được cắt thành các đoạn (segment) nhỏ Tổng Đã làm Bỏ qua vài giây nhờ bộ VAD (voice activity detector). Những segment này sẽ được đưa 224839 30116 194723 cho người nghe (transcriber) để gõ văn bản tương ứng với segment đó. Bài toán này gọi 13% 87% là bài toán voicetrans. Tuy nhiên trong quá trình thực tế làm Tỷ lệ bỏ qua cao như vậy dẫn đến năng voicetrans, chúng tôi nhận thấy có rất nhiều suất bị giảm, người transcriber phải nghe trường hợp transcriber không nghe rõ được trung bình 100 segment mà chỉ lấy được 13 đoạn audio có thể do nhiễu, nhiều người segment để gõ văn bản trong khi vẫn mất nói lẫn, hoặc câu đó quá khó nghe,… Do thời gian nghe 87 câu bỏ qua. Vấn đề đặt ra ở vậy, transcriber không thể gõ được chính đây là làm sao giảm được tỷ lệ bỏ qua xuống xác văn bản tương ứng. Với những segment mà vẫn giữ được chất lượng dữ liệu. này, transcriber được phép bỏ qua. Với việc áp dụng cơ chế bỏ qua này đã giúp cho việc 2. PHƯƠNG PHÁP ĐỀ XUẤT thống nhất giữa người transcriber và người Nhiệm vụ của chúng ta là xây dựng thuật reviewer trở nên dễ dàng hơn, tránh việc toán để có thể lọc được những câu có khả không thống nhất, dẫn đến review đi, năng bỏ qua trước khi đẩy lên hệ thống review lại vừa tốn thời gian, vừa gây ức chế voicetrans. Để làm được điều đó, ta cần phân cho người làm. tích các đặc điểm của các câu bỏ qua, so với Trong quá trình làm voicetrans, chúng tôi các câu thông thường từ đó xem các đặc tính nhận thấy dữ liệu từ các nguồn như cuộc gọi khác biệt để làm tiêu chí nhận diện. thoại chăm sóc khách hàng thì tỉ lệ bỏ qua Trong nghiên cứu ban đầu này, giá trị trị lớn hơn rất nhiều so với những nguồn như từ số tin cậy - confidence score (CS) được sử Youtube. Điều này có thể được giải thích là dụng để làm tiêu chí đánh giá. Với mỗi một chất lượng đường truyền điện thoại với tần câu khi đưa vào hệ thống nhận dạng tiếng nói số lấy mẫu 8kHz và các chuẩn nén thoại làm CS được tính bằng tỷ số giữa xác suất của 99
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 giả thuyết nhận dạng tốt nhất chia cho tổng 3. KẾT QUẢ THỬ NGHIỆM xác suất của tất cả top-N giả thuyết có thể có Trong nghiên cứu này, ta tìm hiểu nếu ta [2]. Ví dụ khi CS tiệm cận đến 1 tức xác suất dùng CS để làm tiêu chí nhận diện thì ta sẽ của giả thiết nhận dạng tốt nhất lớn hơn rất lọc được bao nhiêu % các câu có khả năng bị nhiều các giả thuyết còn lại. Do đó ta có thể bỏ qua. dùng chỉ số này để đánh giá độ “dễ” hay Trong bộ cơ sở dữ liệu của chúng ta có “khó” của một đoạn tiếng nói đối với một hệ 224.839 câu nếu ta chọn ngưỡng như câu có thống nhận dạng. CS > 0,7 mới được đưa vào hệ thống voicetrans. Bảng 2. Thống kê kết quả trước và sau khi dùng CS để lọc dữ liệu. Lọc Tổng Đã làm Bỏ qua Không 224.839 30.116 194.723 (100%) (13%) (87%) CS>0,7 198.637 29.423 169.214 (100%) (15%) (85%) Từ bảng 2 ta có thể thấy nếu ta dùng CS > 0,7 là tiêu chí lọc tổng số câu sẽ giảm từ 224.839 xuống 198.637. Trong đó, số câu bỏ qua giảm từ 194.723 xuống 169.214 và tỷ lệ bỏ qua (skip-rate) giảm từ 87% xuống 85%. Tuy nhiên số câu đã làm cũng bị lọc bớt đi Hình 1. Biểu đồ biễu diễn phân bố của một số. Tỷ lệ giữ lại những câu đã làm confidence score với các câu đã làm và bỏ qua (retain-rate) = 29.423/30.116 = 98%. Hình 1 biễu diễn phân bố của CS với các Hình 2 biểu diễn mối quan hệ giữa skip- câu đã làm và bỏ qua với 1000 câu đã làm và rate và retain-rate theo các giá trị CS khác 1000 câu ngẫu nhiên được lấy từ tập đã làm nhau. Ta có thể thấy rằng khi CS = 0 tức ta và bỏ qua, trục tung là CS. Ta có thể thấy lọc, tỷ lệ bỏ qua là 87% và ta giữ được 100% rằng, trung bình thì CS của các câu đã làm số câu có thể gõ text. Ta tăng ngưỡng lên ta cao hơn những câu bỏ qua. có thể giảm tỷ lệ bỏ qua, tuy nhiên ta cũng Từ những phân tích ở trên, chúng tôi đề loại bỏ những câu có thể gõ text (thể hiện xuất một thuật toán đơn giản để giảm tỷ lệ bỏ qua đường retain giảm), điều này tức là ta qua như sau: cần nhiều dữ liệu thô hơn để làm. Ví dụ với Bước 1: Nhận dạng những câu trong cơ sở ngưỡng CS = 0.9 tỷ lệ bỏ qua giảm còn 73% dữ liệu. trong khi ta chỉ giữ lại được 45% những câu Bước 2: Tính tính confidence score của có thể gõ text. Tức với cùng 1 lượng câu mỗi câu. hoàn thiện ta cần sử dụng nhiều hơn gấp Bước 3: Lựa chọn những câu có đôi dữ liệu thô đầu vào. Từ hình 2 ta có thể confidence score >  để đưa lên hệ thống chọn ngưỡng sao cho tỷ lệ bỏ qua giảm voicetrans cho transcriber làm. Trong đó α là nhanh trong khi tỷ lệ retain không giảm quá, giá trị định nghĩa trước trong dải (0, 1). ví dụ tại điểm CS = 0.94. 100
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 4. NHẬN XÉT Ngoài CS là đặc trưng mức cao (high- level feature), ta có thể phân tích sự tương Ta có thể thấy rằng, dùng CS ta có thể làm quan, ảnh hưởng của các đặc trưng mức thấp tiêu chí lọc để giảm tỷ lệ bỏ qua từ 87% (low-level feature) như zero-crossing rate, xuống còn 61% tương đương với việc nghe average energy, SNR, RMS,… đến các câu 100 câu thì có thể làm được 39 câu thay vì 13 bỏ qua. Và tiến tới ta có thể nghiên cứu xây câu. Tuy nhiên khi đó tỉ lệ dữ liệu giữ lại so dựng mô hình học máy để phát hiện những với dữ liệu gốc chỉ trên 10% tức để làm cùng câu mà người dùng có xu hướng bỏ qua. một khối dữ liệu thành phẩm, ta cần tăng khối lượng dữ liệu thô lên gần 10 lần. Do đó 5. KẾT LUẬN phương pháp này có thể được áp dụng với những trường hợp ta có nhiều dữ liệu thô. Trong nghiên cứu này, ta đã nghiên cứu sử dụng đặc trưng confidence score trong nhận dạng tiếng nói làm tiêu chí lọc nhằm loại bỏ những câu mà người làm dữ liệu tiếng nói thường bỏ qua. Trong tương lai ta cần nghiên cứu bổ sung thêm các đặc trưng khác giúp việc lọc trở nên hiệu quả hơn. 6. TÀI LIỆU THAM KHẢO [1] Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal processing magazine 29.6 (2012): 82-97. [2] Jiang, Hui. "Confidence measures for speech recognition: A survey." Speech communication 45.4 (2005): 455-470. Hình 2. Tỷ lệ % bỏ qua và % dữ liệu có thể làm được giữ lại (retain) theo CS 101
nguon tai.lieu . vn