Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập dữ liệu hạn chế

Bài viết đề xuất một mô hình tổng hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương pháp Transfer Learning vào mô hình Deep Convolution Neural Network để sinh ra tiếng nói mới dựa trên tập dữ liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ hơn 45 lần so với khi dùng mô hình Tacotron 2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập

Thể loại Tài liệu miễn phí Kĩ thuật Viễn thông

Số trang 6

Ngày tạo 4/8/2023 5:02:29 AM +00:00

Loại tệp PDF

Kích thước 0.96 M

Tên tệp

Tải Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN vớ... (.pdf)

Xem mẫu

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập dữ liệu hạn chế Lâm Quang Tường∗ , Nguyễn Tấn Đạt† , Lâm Khả Hân∗ , Đỗ Đức Hào∗ ∗ Công ty Cổ phần Công nghệ OLLI Technology † Trường Đại học Bách Khoa - Đại học Quốc Gia TP.HCM Thành phố Hồ Chí Minh, Việt Nam Email: {tuong, han, hao}@olli-ai.com dat.nguyen_bk@hcmut.edu.vn Tóm tắt nội dung—Bài báo đề xuất một mô hình tổng bản chứa nội dung của câu nói đó. Hay trong bài toán hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương phân tích cảm xúc [2], tập dữ liệu cần có đánh giá của pháp Transfer Learning vào mô hình Deep Convolution khách hàng để phân tích cảm xúc của họ đối với từng Neural Network để sinh ra tiếng nói mới dựa trên tập dữ liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể sản phẩm khác nhau,... Đối với các mô hình tổng hợp tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ tiếng nói, việc xây dựng một tập dữ liệu bao gồm các hơn 45 lần so với khi dùng mô hình Tacotron 2. Mô hình cặp câu và thu âm giọng nói cũng hết sức quan trọng. của chúng tôi gồm hai giai đoạn: (1) Huấn luyện một mô Tập dữ liệu huấn luyện sẽ ảnh hưởng trực tiếp đến độ tự hình DC-TTS trên giọng nói ban đầu với nhiều dữ liệu; nhiên và độ thông minh của giọng nói sau khi được tổng (2) Áp dụng phương pháp Transfer Learning vào mô hình hợp. Tuy nhiên, việc thu thập và xử lý tập dữ liệu với đã được huấn luyện trước đó để sinh giọng mới với lượng nhiều giờ giọng nói thu âm cũng gặp nhiều khó khăn. ít dữ liệu thu âm. Sau quá trình huấn luyện chỉ với 320 câu nói (khoảng 1 giờ), mô hình sẽ có thể tạo ra giọng nói Ví dụ như việc nghe lại câu nói và đối chiếu với nội mới với chất lượng cao. Độ đo MOS trên giọng nói sinh dung để có thể loại bỏ các sai sót đến từ quá trình thu ra xấp xĩ với kết quả của mô hình Tacotron 2 nhưng chỉ âm. Vì vậy, chúng tôi đề xuất một ý tưởng xây dựng một với lượng dữ liệu huấn luyện nhỏ hơn rất nhiều. Điều này mô hình tổng hợp tiếng nói end-to-end dựa trên phương chứng tỏ rằng, phương pháp của chúng tôi có tính khả thi pháp học Transfer Learning [3]. cao để xây dựng một hệ thống tổng hợp tiếng nói tiếng Hướng tiếp cận bằng phương pháp Transfer Learning Việt trong trường hợp dữ liệu bị hạn chế. được sử dụng rất nhiều trong bài toán tái tạo giọng nói Index Terms—Tổng hợp tiếng nói Tiếng Việt, Speech Synthesis, Text to Speech, Transfer Learning mới cho hệ thống TTS. Cụ thể, trong nghiên cứu của Ye Jia và cộng sự, 2018 [4], tác giả đã xây dựng khối rút trích đặc trưng tiếng nói riêng rồi sau đó mới đưa I. GIỚI THIỆU vào huấn luyện mô hình TTS nhiều giọng đọc. Tương Xây dựng dữ liệu là vấn đề vô cùng quan trọng trong tự như thế, phương pháp Hierarchical Transfer Learning việc nghiên cứu những mô hình học máy và ứng dụng cũng được thực thi trên những mô hình Deep Neural chúng vào thực tiễn. Đó là cả một quá trình đòi hỏi phải Network (DNN) để giải quyết bài toán này cho những bỏ ra nhiều thời gian và chi phí thì mới có được một ngôn ngữ hạn chế về tài nguyên [5]. tập dữ liệu như ý muốn. Quá trình này bao gồm nhiều Mô hình chúng tôi đề xuất được xây dựng dựa trên mô giai đoạn có thể kể đến như: xác định rõ đầu vào và hình DC-TTS được nghiên cứu bởi Heyuki Tachibana đầu ra của bài toán, thiết kế công cụ và tiến hành thu và các cộng sự, 2018 [6]. Đây là một mô hình tổng thập dữ liệu, tiền xử lý dữ liệu, chuẩn hóa dữ liệu, sử hợp tiếng nói toàn bộ chỉ dựa trên Convolution Neural dụng các phương pháp phân tích thống kê để hiểu rõ về Network (CNN) và không sử dụng mạng thần kinh hồi tập dữ liệu. Kết quả đạt được sau cùng là một tập dữ quy (RNN) như trong nhiều nghiên cứu nổi tiếng khác liệu vàng phục vụ cho việc huấn luyện và đánh giá mô (Tacotron 2, Deep Voice 3,...). Mục đích của mô hình hình. Tùy vào mỗi bài toán cụ thể mà chúng ta sẽ có này là cải thiện những hạn chế về mặt tốc độ của mạng những dạng dữ liệu và phương pháp xử lý khác nhau. RNN, trong khi đó vẫn duy trì chất lượng giọng nói đầu Chẳng hạn như trong vấn đề nhận dạng giọng nói tự ra giống như giọng nói thực và có khả năng hoạt động động (ASR) [1], tập dữ liệu đòi hỏi các câu nói và văn trên các hệ thống máy tính song song. Tuy nhiên, mô ISBN 978-604-80-5958-3 187
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) hình này chỉ có thể tổng hợp giọng nói của từng người và Decoder. Điểm khác biệt quan trọng ở đây chính là cả ứng với mỗi tập dữ liệu khác biệt mà không thể tận hai bước Encoder và Decoder của mô hình đều sử dụng dụng lại được mô hình đã được huấn luyện trước đó để các lớp mạng CNN thay vì mạng RNN để rút trích đặc sinh ra giọng nói mới. Do đó, từ ý tưởng sử dụng những trưng của dữ liệu dạng chuỗi. Đầu tiên, bước Encoder điểm mạnh của mô hình DC-TTS mang lại và khắc phục nhận đầu vào là một chuỗi các âm vị tiếng Việt tại khối những hạn chế của nó, chúng tôi đã xây dựng nên mô TextEncoder và mel spectrogram tại khối AudioEncoder hình Transfer Learning DC-TTS sử dụng chính mô hình để rút trích các đặc trưng từ văn bản và mel spectrogram. được huấn luyện trước đó để tổng hợp tiếng nói tiếng Bước Encoder này sẽ tạo ra bộ ba thông số query(Q), Việt bằng một tập dữ liệu rất nhỏ (chỉ khoảng 320 câu key(K), value(V ) cho cơ chế Attention. nói cho một giọng nói mới). II. CÁC NGHIÊN CỨU LIÊN QUAN (K, V ) = T extEncoder(L) Đã có nhiều nghiên cứu khác nhau để tìm ra các giải Q = AudioEncoder(S) pháp giải quyết cho từng công việc trong bài toán TTS. Ở đây, chúng tôi sẽ giới thiệu một số nghiên cứu chính trong đó, L là văn bản đầu vào, S là mel-spectrogram liên quan đến bài toán chúng tôi mà chúng tôi đang giải trích xuất được từ đoạn âm thanh. quyết. Đầu ra của Encoder (K, V, Q) được kết hợp với nhau Mô hình Tacotron 2 [7] là một mô hình được đề xuất bằng cơ chế Scaled Dot-Product Attention để tạo ra véc- bởi Shen và cộng sự vào năm 2017. Mô hình Deep Voice tơ ngữ cảnh R. Vai trò của Attention trong mô hình này 3 [8] được nghiên cứu bởi Ping và cộng sự vào năm rất quan trọng, nó có nhiệm vụ so khớp, căn chỉnh từng 2018. Cả hai mô hình này đều được xây dựng trên kiến kí tự đầu vào với các đoạn mel spectrogram tương ứng. trúc Sequence-to-Sequence với cơ chế Attention để mã hóa chuỗi ký tự từ văn bản đầu vào và sinh ra mel spectrogram. Ngoài việc có thể tạo ra tiếng nói từ một KT Q R = Attention(Q, K, V ) = V sof tmax( √ ) người, những mô hình này còn có thể giải quyết được d bài toán tái tạo giọng nói của nhiều người bằng cách nhúng thêm véc-tơ nhãn (speaker id). Tuy nhiên, vấn đề Sau đó, véc-tơ ngữ cảnh R được ghép với véc- được đặt ra là mô hình làm sao có khả năng sinh ra tơ mã hoá được từ mel-spectrogram Q tạo ra véc- giọng nói của một người hoàn toàn không có trong tập tơ R0 = [R, Q] được dùng làm đầu vào cho bước nhãn đó với dữ liệu hạn chế. AudioDecoder. Phương pháp học Semi-Supervised [9] được sử dụng để huấn luyện một mô hình TTS với nhiều giọng đọc. Y = AudioDecoder(R0 ) Mô hình này dựa trên kiến trúc AutoEncoder để mã hóa các đặc trưng của giọng nói sang một không gian ẩn Ở bước Decoder, AudioDecoder cũng là một khối thông qua khối Encoder. Sau đó, đặc trưng ngôn ngữ bao gồm nhiều lớp CNN làm nhiệm vụ sinh ra mel rút trích từ chuỗi âm vị chứa nội dung của câu nói sẽ spectrogram dựa trên véc-tơ R0 . được thêm vào tại bước Decoder để tái tạo lại câu nói Hàm mất mát Lspec (Y |S) là tổng của hàm mất mát đó. Quá trình học Semi-Supervised sử dụng một phần L1 của Y so với S và một hàm binary divergence dữ liệu của giọng nói khác mà không được gán nhãn Dbin (Y |X). Dbin (Y |X) thể hiện độ tương quan giữa bằng nội dung câu nói đó. Tuy nhiên, việc mã hóa tất 2 phân phối Y và S. Bên cạnh đó, để giúp giảm bớt cả các đặc trưng ngữ âm của giọng nói vào một véc-tơ sự khó khăn trong việc huấn luyện mô hình, các tác giả ẩn là một vấn đề khó khăn. Vì vậy, hiện tại hướng đi cũng sử dụng phương pháp Guided Attention để làm cho này vẫn còn đang được tiếp tục nghiên cứu và cải thiện ma trận Attention A ∈ RN ×T luôn luôn tiến tới. về mặt chất lượng tiếng nói sinh ra. Sau khi sinh ra được mel spectrogram ở giai đoạn Text2Mel, mô hình tiến hành tạo ra spectrogram từ mel- III. PHƯƠNG PHÁP spectrogram bằng một khối các lớp CNN khác. Giai A. Mô hình Deep Convolution TTS đoạn này có tên là Spectrogram Super-Resolution Net- Mô hình DC-TTS [6] bao gồm hai giai đoạn chính work (SSRN). SSRN bao gồm nhiều lớp Convolution- là Text2Mel và Spectrogram Super-resolution Network. 1D để upsampling mel-spectrogram đầu vào thành spec- Giai đoạn Text2Mel là một kiến trúc Sequene-to- trogram mong muốn. Đầu ra của giai đoạn này được tổng Sequence với cơ chế Attention bao gồm 2 bước Encoder hợp thành giọng nói bằng thuật toán Griffin-Lim. ISBN 978-604-80-5958-3 188
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Hình 1. Các lớp Convolution của mô hình DC-TTS được áp dụng phương pháp Transfer Learning B. Mô hình Transfer Learning DC-TTS quả phân lớp. Trong nghiên cứu của Fariba Takarli và cộng sự, 2014 [11] tác giả đã tìm cách để gom các đặc Mô hình chúng tôi đề xuất chỉ sử dụng một giọng duy trưng bậc cao từ các đặc trưng bậc thấp của dữ liệu nhất để huấn luyện. Việc sinh ra giọng nói mới là từ việc ảnh bằng các đặc trưng HOG, CNN and Haar. Điều huấn luyện lại các lớp mạng chịu trách nhiệm rút trích này chứng minh rằng, trong một mạng Deep CNN, các các đặc trưng cấp cao (high level features) từ mô hình lớp convolution đầu tiên rút trích những đặc trưng đơn chuyển đổi với tập dữ liệu nhỏ hơn (320 câu nói). Đặc giản bên ngoài của dữ liệu rồi sau đó dựa trên các đặc điểm quan trọng giúp cho mô hình Transfer Learning trưng đã rút trích, mô hình mới có thể tiếp tục rút trích DC-TTS có thể chuyển đổi giọng nói đó chính là các đặc trưng mức cao hơn. Từ đó, ta có thể liên hệ qua bước TextEncoder, AudioEncoder, Decoder, và SRNN mô hình DC-TTS, các lớp CNN cuối cùng chính là các đều là các lớp mạng Highway Net + CNN (HC) đa tầng convolution có chức năng rút trích các đặc trưng ẩn có khả năng rút trích đặc trưng bậc cao từ tiếng nói. sâu bên trong mel-spectrogram đó như là thanh điệu, Các high level features có thể thay đổi giọng đọc nằm cao độ, âm sắc... Đồng thời, các Highway Network có ở các lớp HC và Convolution cuối cùng của mô hình DC- nhiệm vụ giúp mô hình không bị hiện tượng exploding TTS. Trong một mô hình Deep Convolution như thế, mỗi và vanishing gradients cũng như xác định được đặc trưng lớp convolution có nhiệm vụ rút trích một đặc trưng khác quan trọng tại các lớp CNN. nhau để tạo ra các feature maps và chúng phụ thuộc vào vùng nhạy cảm cục bộ (Local receptive field) của tầng Từ đó, trong mô hình Transfer Learning DC-TTS kế trước. Càng về sau, các lớp convolution này càng mở chúng tôi tiến hành khởi tạo lại các trọng số ở các lớp rộng vùng này. Nhờ đó, cấu trúc giữa các đặc trưng cấp CNN cuối cùng của Encoder, Decoder và SSRN. Cụ thể cao trong những vùng rộng hơn sẽ được xem xét [10]. Vì hơn, chúng tôi đã huấn luyện mô hình Transfer Learning vậy, ở các lớp convolution càng sâu thì đặc trưng được DC-TTS với 5 lớp Highway Net + Convolution (HC) rút trích sẽ càng nhiều và hơn nữa là các đặc trưng cuối của TextEncoder, 4 lớp HC cuối của AudioEncoder, bậc cao thể hiện quan hệ giữa các đặc trưng với nhau. 1 lớp HC và 4 lớp CNN cuối của bước AudioDecoder, và Vì lẽ đó, các nhà nghiên cứu cố gắng tìm ra các cách 4 lớp Convolution 1D cuối cùng của SSRN. Phần trọng thức để gia tăng số lớp của các mạng Deep Convolution số còn lại được giữ nguyên từ lần huấn luyện trước trên như Batch Normalization, Highway Network, Residual tập dữ liệuset ban đầu. Sau đó, chúng tôi huấn luyện lại Network,... và chúng đã giúp cho các mô hình như VGG, mô hình với tập dữ liệu mới nhỏ hơn để thu được một ALexnet, Resnet,... nâng cao độ chính xác và độ hiệu hình có khả năng tổng hợp giọng nói mới. Các lớp cuối ISBN 978-604-80-5958-3 189
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) cùng của Decoder và SRNN đều có sự góp mặt của đặc Sau đó, chúng tôi sử dụng lại mô hình đã được huấn trưng âm thanh nên bắt buộc chúng tôi phải huấn luyện luyện trước này để huấn luyện với một tập dữ liệu khác lại trong mô hình Transfer Learning. Tuy nhiên, trong bao gồm 1 giờ thu âm giọng nữ thuộc phương ngữ miền quá trình huấn luyện mô hình Sequence-to-Sequence thì Bắc Việt Nam. Dựa trên kết quả đạt được, chúng tôi thấy các kí tự đầu vào sẽ bị tác động bởi các đặc trưng ngữ rằng mô hình DC-TTS được huận luyện này có khả năng âm do quá trình lan truyền ngược nên chúng tôi vẫn tạo ra tiếng nói mới với một tập dữ liệu nhỏ hơn. Và phải thay đổi các trọng số ở các lớp CNN cuối cùng đối với một ngôn ngữ không có nhiều tài nguyên như của Encoder. tiếng Việt thì mô hình của chúng tôi là một lựa chọn Quá trình huấn luyện của mô hình Transfer Learning hoàn hảo để xây dựng hệ thống TTS. DC-TTS để chuyển mô hình của giọng cũ sang giọng IV. THỰC NGHIỆM nói mới được thực hiện cụ thể như sau. Thứ nhất, mô hình DC-TTS được huấn luyện với văn bản và giọng nói A. Làm sạch dữ liệu và huấn luyện mô hình của một tập dữ liệu một người nói ban đầu. Ở đây, mô Để huấn luyện mô hình, trước tiên chúng tôi tiến hành hình được huấn luyện xong phải đảm bảo tạo ra được xử lý tập dữ liệu huấn luyện. Bước đầu tiên, chúng tôi tiếng nói với chất lượng đạt được mức yêu cầu. Kết quả giảm tần số lấy mẫu của dữ liệu thu âm từ 48000 kHz của mô hình này sẽ tạo ra các trọng số có thể chuyển xuống còn 22050 kHz và chuyển về dạng đơn kênh trên đổi sang mô hình khác. Sau đó, mô hình đã được huấn cả hai tập dữ liệu OLLI-SPEECH-1.6 [12] và OLLI- luyện này sẽ được huấn luyện lại với một tập dữ liệu SPEECH-NORTHERN. Đối với dữ liệu văn bản, chúng mới có kích thước nhỏ hơn rất nhiều. Tuy nhiên, có một tôi tiến hành xây dựng một công cụ chuẩn hóa văn bản thay đổi quan trọng đặc trưng cho phương pháp Transfer để làm sạch và đảm bảo cho nội dung phải đúng với Learning, đó là mô hình sẽ giữ lại trọng số của một vài giọng nói thu âm. Ngoài ra, chúng tôi còn dùng bộ công lớp CNN từ mô hình đã được huấn luyện trước đó và cụ Vietnamese Grapheme-to-Phoneme được nghiên cứu huấn luyện các lớp CNN còn lại bằng dữ liệu giọng nói bởi Lam và cộng sự, 2019 [12] để chuyển đổi câu tiếng của người nói mới. Đây là chìa khóa để mô hình của Việt thành một chuỗi các âm vị. Đồng thời, chúng tôi chúng tôi có thể thay đổi giọng nói. xây dựng một công cụ để tiền xử lý văn bản đầu vào nhằm mục đích làm sạch và xử lý các nhập nhằng từ C. Tổng hợp giọng nói mới với tập dữ liệu hạn chế văn bản để giúp cho việc huấn luyện tốt hơn. Phần tiền Mô hình DC-TTS không chỉ có thể tạo ra giọng nói xử lý văn bản: bao gồm một tập các luật để chuyển đổi mới mà còn có thể sử dụng để huấn luyện với tập dữ các từ viết tắt, các định dạng ngày tháng năm, chuyển liệu nhỏ hơn nhiều. Trong nghiên cứu này, chúng tôi tái đổi số về chữ, các đơn vị tính toán,... Xử lý các nhập sử dụng một mô hình DC-TTS được huấn luyện trước nhằng trong văn bản để đọc được các kí hiệu đó một của một giọng nói và huấn luyện lại với tập dữ liệu mới cách hợp lý nhất. của một giọng nói mới với kích thước nhỏ hơn 45 lần. Cuối cùng, chúng tôi tiến hành huấn luyện mô hình Tập dữ liệu mới này bao gồm 320 câu nói tương đương DC-TTS trên tập dữ liệu OLLI-SPEECH-1.6 để tạo ra với khoảng 1 giờ thu âm. bộ thông số tối ưu nhất. Sau đó, chúng tôi tiến hành Dựa trên các khả năng của phương pháp Transfer quá trình Transfer Learning trên chính mô hình và bộ Learning dựa trên mô hình được huấn luyện trước đó, thông số đó với 320 câu nói (tương ứng với 1 giờ thu mô hình của chúng tôi có thể tái sử dụng các trọng số âm) lấy ngẫu nhiên từ tập OLLI-SPEECH-NORTHERN. đã được huấn luyện trên mô hình trước đó để thu nhỏ Các thông số của mô hình huấn luyện được thiết lập tập dữ liệu huấn luyện cho giọng mới. Và khi đó mô như sau: batch size 32, Adam Optimizer với các thông hình Transfer chỉ có nhiệm vụ là cập nhật lại các trọng số β1 = 0.9, β2 = 0.999, = 10−6 , learning rate được số có khả năng làm thay đổi giọng nói như đã mô tả thiết lập ở 10−3 giảm đến 10−5 . Toàn bộ cả hai mô hình trong phần III-B. Đó là lý do tại sao mô hình của chúng đều được huấn luyện trên 2 GPU GTX 1080 Ti với tổng tôi không cần nhiều dữ liệu để huấn luyện như mô hình thời gian là một tuần. huấn luyện ban đầu. Cụ thể, để huấn luyện mô hình, chúng tôi sử dụng B. Đánh giá chất lượng mô hình hai tập dữ liệu được thu âm từ hai giọng nói khác Để đánh gía chất lượng của giọng nói được sinh nhau là OLLI-SPEECH-1.6 [12] và OLLI-SPEECH- ra, chúng tôi sử dụng độ đo Mean Opinion Score NORTHERN. Đầu tiên, chúng tôi huấn luyện mô hình (MOS) [13] trên 100 câu nói sinh ra được từ mô hình và DC-TTS bằng tập dữ liệu bao gồm 50 giờ thu âm của dữ liệu thu âm. Đây là một độ đo dựa trên cảm tính và một giọng nữ thuộc phương ngữ miền Nam Việt Nam. nhận xét từ nhiều người để xác định chất lượng giọng ISBN 978-604-80-5958-3 190
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Hình 2. Sự ảnh hưởng của tập dữ liệu đến điểm MOS đạt được từ mô hình Transfer Learning DC-TTS nói sinh ra. Cụ thể, chúng tôi đã dựa trên đánh giá của với chất giọng mới hoàn toàn. 110 người. Họ nghe và cho các điểm số từ 1 đến 5 cho Bên cạnh đó, để xác định lượng câu nói cần có để từng câu nói để tính ra điểm số cuối cùng của mô hình. huấn luyện được một mô hình đảm bảo về chất lượng Để đánh giá mô hình DC-TTS Transfer Learning (DC- âm thanh, chúng tôi tiếp tục thực hiện một khảo sát TTS+TF) trên tập dữ liệu chỉ có 1 giờ thu âm gặp nhiều thứ hai. Chúng tôi tiến hành huấn luyện các mô hình khó khăn do hoàn toàn không có một mô hình nào khác Transfer Learning TTS trên tập dữ liệu OLLI-SPEECH- có thể sinh ra tiếng nói với dữ liệu huấn luyện ít như thế. NORTHERN với số lượng câu nói khác nhau. Kích Do đó chúng tôi chỉ có thể so sánh chất lượng tiếng nói thước tập dữ liệu huấn luyện được tăng dần từ 10 đến thật, mô hình Tacotron 2 và mô hình DC-TTS được huấn 500 câu nói. Mục đích chúng tôi thực hiện khảo sát này luyện trên tập dữ liệu OLLI-SPEECH-NORTHERN. là để biết được cần sử dụng dữ liệu có kích thước bao Bảng I nhiêu là vừa đủ để đưa vào sử dụng trong sản phẩm mà KẾT QUẢ ĐỘ ĐO MOS CỦA CÁC MÔ HÌNH vẫn đảm bảo chất lượng giọng nói sinh ra. Hình 2 cho thấy rằng nếu kích thước của tập dữ liệu Voice Dữ liệu huấn luyện (giờ) MOS Ground truth _ 4.28 ± 0.51 huấn luyện càng lớn, thì kết quả MOS của mô hình Tacotron 2 45 3.52 ± 0.56 Transfer Learning DC-TTS càng tốt hơn. Đường cong DC-TTS 45 3.50 ± 0.55 thể hiện điểm số MOS sẽ đạt đến một giới hạn nhất DC-TTS + TF 1 3.49 ± 0.58 định khi kích thước của tập dữ liệu huấn luyện tăng lên. Điều này cho thấy xu hướng rằng khi tập dữ liệu huấn Điểm số MOS ở bảng I cho thấy mô hình DC-TTS+TF luyện tăng đến một kích thước nhất định, độ đo MOS sẽ có thể sinh ra giọng mới với rất ít dữ liệu huấn luyện không còn tăng nữa. Từ đó có thể đưa ra phương hướng nhưng vẫn mang lại kết quả xấp xỉ so với mô hình để xác định kích thước tập dữ liệu vừa đủ để xây dựng Tacotron 2 và mô hình gốc ban đầu. Điều đó chứng hệ thống TTS phù hợp với chi phí thu thập dữ liệu. tỏ giọng nói sinh ra vẫn được người đánh giá hiểu rõ về Thêm vào đó, mặc dù kích thước của tập dữ liệu huấn mặt nội dung và có thiện cảm hơn về độ tự nhiên của luyện là rất nhỏ nhưng khi mô hình được huấn luyện với tiếng nói. Tuy nhiên, khi xét về tập dữ liệu huấn luyện phương pháp Transfer Learning, độ đo MOS vẫn có đạt thì rõ ràng mô hình của chúng tôi sử dụng ít dữ liệu hơn đến ngưỡng có thể sử dụng trọng thương mại. Ngưỡng rất nhiều so với Tacotron 2. Điều này mang lại nhiều thương mại ở đây được xác định bằng cách sử dụng độ lợi ích thiết thực cho việc xây dựng một hệ thống TTS đo MOS trên giọng nói sinh ra của một hệ thống TTS ISBN 978-604-80-5958-3 191
Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) tiếng Việt đang được sử dụng rộng rãi. Biểu đồ trên cho [2] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, thấy chỉ cần kích thước dữ liệu nằm trong khoảng từ M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text 300 đến 500 câu nói, mô hình có thể tạo ra tiếng nói transformer,” CoRR, vol. abs/1910.10683, 2019. [Online]. đáp ứng nhu cầu của người dùng. Điều này chứng tỏ mô Available: http://arxiv.org/abs/1910.10683 hình huấn luyện hoàn toàn có thể được sử dụng trong [3] C. Tan, F. Sun, T. Kong, W. Zhang, C. Yang, and C. Liu, “A survey on deep transfer learning,” CoRR, vol. abs/1808.01974, thương mại Đây là một lợi thế lớn so với hầu hết các 2018. [Online]. Available: http://arxiv.org/abs/1808.01974 mô hình học sâu khác, vốn yêu cầu một lượng lớn tập [4] Y. Jia, Y. Zhang, R. J. Weiss, Q. Wang, J. Shen, F. Ren, dữ liệu để huấn luyện mô hình. Z. Chen, P. Nguyen, R. Pang, I. Lopez-Moreno, and Y. Wu, “Transfer learning from speaker verification to multispeaker V. KẾT LUẬN text-to-speech synthesis,” CoRR, vol. abs/1806.04558, 2018. [Online]. Available: http://arxiv.org/abs/1806.04558 Trong bài báo này, chúng tôi đã trình bày về mô hình [5] K. Azizah, M. Adriani, and W. Jatmiko, “Hierarchical transfer Transfer Learning DC-TTS để tổng hợp tiếng nói tiếng learning for multilingual, multi-speaker, and style transfer dnn- Việt với rất ít dữ liệu huấn luyện. Mô hình của chúng based tts on low-resource languages,” IEEE Access, vol. 8, pp. 179 798–179 812, 2020. tôi có thể tổng hợp một giọng nói mới chỉ với khoảng [6] H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently 1 giờ thu âm. Các phương pháp đánh giá đã cho thấy trainable text-to-speech system based on deep convolutional networks with guided attention,” CoRR, vol. abs/1710.08969, giọng nói được tổng hợp vẫn giữ được chất lượng tốt. 2017. [Online]. Available: http://arxiv.org/abs/1710.08969 Tuy nhiên, mô hình của chúng tôi vẫn còn một số vấn [7] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, đề cần giải quyết như quá trình sinh tiếng nói và làm Z. Chen, Y. Zhang, Y. Wang, R. J. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by sao để giữ được các tính chất ngữ âm của giọng khi gặp conditioning wavenet on mel spectrogram predictions,” CoRR, phải một câu dài hoặc cả một đoạn văn. vol. abs/1712.05884, 2017. [8] W. Ping, K. Peng, A. Gibiansky, S. O. ¨ Arik, A. Kannan, LỜI CẢM ƠN S. Narang, J. Raiman, and J. Miller, “Deep voice 3: 2000- Chúng tôi xin cảm ơn Công ty Cổ phần Công speaker neural text-to-speech,” CoRR, vol. abs/1710.07654, 2017. [Online]. Available: http://arxiv.org/abs/1710.07654 nghệ OLLI Technology JSC đã xây dựng hai tập dữ [9] T. Tu, Y.-J. Chen, A. H. Liu, and H. yi Lee, “Semi-supervised liệu OLLI-SPEECH-1.6 và OLLI-SPEEH-NORTHERN learning for multi-speaker text-to-speech synthesis using discrete được dùng để huấn luyện mô hình của chúng tôi. Đặc speech representation,” 2020. [10] P. Razzaghi, K. Abbasi, and P. Bayat, “Learning biệt, chúng tôi xin chân thành cảm ơn công ty đã cũng spatial hierarchies of high-level features in deep neural cấp tất cả nguồn lực máy tính và sự hỗ trợ về con người network,” Journal of Visual Communication and Image trong công việc thu âm và làm sạch dữ liệu. Điều này Representation, vol. 70, p. 102817, 2020. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S1047320320300675 giúp ích rất lớn cho nghiên cứu của chúng tôi. [11] F. Takarli, A. Aghagolzadeh, and H. Seyedarabi, “Combination TÀI LIỆU of high-level features with low-level features for detection of pedestrian,” Signal, Image and Video Processing, vol. 10, pp. [1] D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, 93–101, 2016. B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos, [12] Q. T. Lam, D. H. Do, T. H. Vo, and D. D. Nguyen, “Alternative E. Elsen, J. H. Engel, L. Fan, C. Fougner, T. Han, A. Y. Hannun, vietnamese speech synthesis system with phoneme structure,” B. Jun, P. LeGresley, L. Lin, S. Narang, A. Y. Ng, S. Ozair, in 2019 19th International Symposium on Communications and R. Prenger, J. Raiman, S. Satheesh, D. Seetapun, S. Sengupta, Information Technologies (ISCIT), 2019, pp. 64–69. Y. Wang, Z. Wang, C. Wang, B. Xiao, D. Yogatama, J. Zhan, [13] R. C. Streijl, S. Winkler, and D. Hands, “Mean opinion score and Z. Zhu, “Deep speech 2: End-to-end speech recognition (mos) revisited: methods and applications, limitations and alter- in english and mandarin,” CoRR, vol. abs/1512.02595, 2015. natives,” Multimedia Systems, vol. 22, pp. 213–227, 03 2016. [Online]. Available: http://arxiv.org/abs/1512.02595 ISBN 978-604-80-5958-3 192

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học