Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Tổng hợp tiếng nói tiếng Việt dựa trên mạng
CNN với tập dữ liệu hạn chế
Lâm Quang Tường∗ , Nguyễn Tấn Đạt† , Lâm Khả Hân∗ , Đỗ Đức Hào∗
∗ Công ty Cổ phần Công nghệ OLLI Technology
† Trường Đại học Bách Khoa - Đại học Quốc Gia TP.HCM
Thành phố Hồ Chí Minh, Việt Nam
Email: {tuong, han, hao}@olli-ai.com
dat.nguyen_bk@hcmut.edu.vn
Tóm tắt nội dung—Bài báo đề xuất một mô hình tổng bản chứa nội dung của câu nói đó. Hay trong bài toán
hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương phân tích cảm xúc [2], tập dữ liệu cần có đánh giá của
pháp Transfer Learning vào mô hình Deep Convolution khách hàng để phân tích cảm xúc của họ đối với từng
Neural Network để sinh ra tiếng nói mới dựa trên tập dữ
liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể
sản phẩm khác nhau,... Đối với các mô hình tổng hợp
tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ tiếng nói, việc xây dựng một tập dữ liệu bao gồm các
hơn 45 lần so với khi dùng mô hình Tacotron 2. Mô hình cặp câu và thu âm giọng nói cũng hết sức quan trọng.
của chúng tôi gồm hai giai đoạn: (1) Huấn luyện một mô Tập dữ liệu huấn luyện sẽ ảnh hưởng trực tiếp đến độ tự
hình DC-TTS trên giọng nói ban đầu với nhiều dữ liệu; nhiên và độ thông minh của giọng nói sau khi được tổng
(2) Áp dụng phương pháp Transfer Learning vào mô hình hợp. Tuy nhiên, việc thu thập và xử lý tập dữ liệu với
đã được huấn luyện trước đó để sinh giọng mới với lượng
nhiều giờ giọng nói thu âm cũng gặp nhiều khó khăn.
ít dữ liệu thu âm. Sau quá trình huấn luyện chỉ với 320
câu nói (khoảng 1 giờ), mô hình sẽ có thể tạo ra giọng nói Ví dụ như việc nghe lại câu nói và đối chiếu với nội
mới với chất lượng cao. Độ đo MOS trên giọng nói sinh dung để có thể loại bỏ các sai sót đến từ quá trình thu
ra xấp xĩ với kết quả của mô hình Tacotron 2 nhưng chỉ âm. Vì vậy, chúng tôi đề xuất một ý tưởng xây dựng một
với lượng dữ liệu huấn luyện nhỏ hơn rất nhiều. Điều này mô hình tổng hợp tiếng nói end-to-end dựa trên phương
chứng tỏ rằng, phương pháp của chúng tôi có tính khả thi pháp học Transfer Learning [3].
cao để xây dựng một hệ thống tổng hợp tiếng nói tiếng Hướng tiếp cận bằng phương pháp Transfer Learning
Việt trong trường hợp dữ liệu bị hạn chế.
được sử dụng rất nhiều trong bài toán tái tạo giọng nói
Index Terms—Tổng hợp tiếng nói Tiếng Việt, Speech
Synthesis, Text to Speech, Transfer Learning mới cho hệ thống TTS. Cụ thể, trong nghiên cứu của
Ye Jia và cộng sự, 2018 [4], tác giả đã xây dựng khối
rút trích đặc trưng tiếng nói riêng rồi sau đó mới đưa
I. GIỚI THIỆU
vào huấn luyện mô hình TTS nhiều giọng đọc. Tương
Xây dựng dữ liệu là vấn đề vô cùng quan trọng trong tự như thế, phương pháp Hierarchical Transfer Learning
việc nghiên cứu những mô hình học máy và ứng dụng cũng được thực thi trên những mô hình Deep Neural
chúng vào thực tiễn. Đó là cả một quá trình đòi hỏi phải Network (DNN) để giải quyết bài toán này cho những
bỏ ra nhiều thời gian và chi phí thì mới có được một ngôn ngữ hạn chế về tài nguyên [5].
tập dữ liệu như ý muốn. Quá trình này bao gồm nhiều Mô hình chúng tôi đề xuất được xây dựng dựa trên mô
giai đoạn có thể kể đến như: xác định rõ đầu vào và hình DC-TTS được nghiên cứu bởi Heyuki Tachibana
đầu ra của bài toán, thiết kế công cụ và tiến hành thu và các cộng sự, 2018 [6]. Đây là một mô hình tổng
thập dữ liệu, tiền xử lý dữ liệu, chuẩn hóa dữ liệu, sử hợp tiếng nói toàn bộ chỉ dựa trên Convolution Neural
dụng các phương pháp phân tích thống kê để hiểu rõ về Network (CNN) và không sử dụng mạng thần kinh hồi
tập dữ liệu. Kết quả đạt được sau cùng là một tập dữ quy (RNN) như trong nhiều nghiên cứu nổi tiếng khác
liệu vàng phục vụ cho việc huấn luyện và đánh giá mô (Tacotron 2, Deep Voice 3,...). Mục đích của mô hình
hình. Tùy vào mỗi bài toán cụ thể mà chúng ta sẽ có này là cải thiện những hạn chế về mặt tốc độ của mạng
những dạng dữ liệu và phương pháp xử lý khác nhau. RNN, trong khi đó vẫn duy trì chất lượng giọng nói đầu
Chẳng hạn như trong vấn đề nhận dạng giọng nói tự ra giống như giọng nói thực và có khả năng hoạt động
động (ASR) [1], tập dữ liệu đòi hỏi các câu nói và văn trên các hệ thống máy tính song song. Tuy nhiên, mô
ISBN 978-604-80-5958-3 187
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
hình này chỉ có thể tổng hợp giọng nói của từng người và Decoder. Điểm khác biệt quan trọng ở đây chính là cả
ứng với mỗi tập dữ liệu khác biệt mà không thể tận hai bước Encoder và Decoder của mô hình đều sử dụng
dụng lại được mô hình đã được huấn luyện trước đó để các lớp mạng CNN thay vì mạng RNN để rút trích đặc
sinh ra giọng nói mới. Do đó, từ ý tưởng sử dụng những trưng của dữ liệu dạng chuỗi. Đầu tiên, bước Encoder
điểm mạnh của mô hình DC-TTS mang lại và khắc phục nhận đầu vào là một chuỗi các âm vị tiếng Việt tại khối
những hạn chế của nó, chúng tôi đã xây dựng nên mô TextEncoder và mel spectrogram tại khối AudioEncoder
hình Transfer Learning DC-TTS sử dụng chính mô hình để rút trích các đặc trưng từ văn bản và mel spectrogram.
được huấn luyện trước đó để tổng hợp tiếng nói tiếng Bước Encoder này sẽ tạo ra bộ ba thông số query(Q),
Việt bằng một tập dữ liệu rất nhỏ (chỉ khoảng 320 câu key(K), value(V ) cho cơ chế Attention.
nói cho một giọng nói mới).
II. CÁC NGHIÊN CỨU LIÊN QUAN (K, V ) = T extEncoder(L)
Đã có nhiều nghiên cứu khác nhau để tìm ra các giải
Q = AudioEncoder(S)
pháp giải quyết cho từng công việc trong bài toán TTS.
Ở đây, chúng tôi sẽ giới thiệu một số nghiên cứu chính trong đó, L là văn bản đầu vào, S là mel-spectrogram
liên quan đến bài toán chúng tôi mà chúng tôi đang giải trích xuất được từ đoạn âm thanh.
quyết.
Đầu ra của Encoder (K, V, Q) được kết hợp với nhau
Mô hình Tacotron 2 [7] là một mô hình được đề xuất
bằng cơ chế Scaled Dot-Product Attention để tạo ra véc-
bởi Shen và cộng sự vào năm 2017. Mô hình Deep Voice
tơ ngữ cảnh R. Vai trò của Attention trong mô hình này
3 [8] được nghiên cứu bởi Ping và cộng sự vào năm
rất quan trọng, nó có nhiệm vụ so khớp, căn chỉnh từng
2018. Cả hai mô hình này đều được xây dựng trên kiến
kí tự đầu vào với các đoạn mel spectrogram tương ứng.
trúc Sequence-to-Sequence với cơ chế Attention để mã
hóa chuỗi ký tự từ văn bản đầu vào và sinh ra mel
spectrogram. Ngoài việc có thể tạo ra tiếng nói từ một KT Q
R = Attention(Q, K, V ) = V sof tmax( √ )
người, những mô hình này còn có thể giải quyết được d
bài toán tái tạo giọng nói của nhiều người bằng cách
nhúng thêm véc-tơ nhãn (speaker id). Tuy nhiên, vấn đề Sau đó, véc-tơ ngữ cảnh R được ghép với véc-
được đặt ra là mô hình làm sao có khả năng sinh ra tơ mã hoá được từ mel-spectrogram Q tạo ra véc-
giọng nói của một người hoàn toàn không có trong tập tơ R0 = [R, Q] được dùng làm đầu vào cho bước
nhãn đó với dữ liệu hạn chế. AudioDecoder.
Phương pháp học Semi-Supervised [9] được sử dụng
để huấn luyện một mô hình TTS với nhiều giọng đọc. Y = AudioDecoder(R0 )
Mô hình này dựa trên kiến trúc AutoEncoder để mã hóa
các đặc trưng của giọng nói sang một không gian ẩn Ở bước Decoder, AudioDecoder cũng là một khối
thông qua khối Encoder. Sau đó, đặc trưng ngôn ngữ bao gồm nhiều lớp CNN làm nhiệm vụ sinh ra mel
rút trích từ chuỗi âm vị chứa nội dung của câu nói sẽ spectrogram dựa trên véc-tơ R0 .
được thêm vào tại bước Decoder để tái tạo lại câu nói Hàm mất mát Lspec (Y |S) là tổng của hàm mất mát
đó. Quá trình học Semi-Supervised sử dụng một phần L1 của Y so với S và một hàm binary divergence
dữ liệu của giọng nói khác mà không được gán nhãn Dbin (Y |X). Dbin (Y |X) thể hiện độ tương quan giữa
bằng nội dung câu nói đó. Tuy nhiên, việc mã hóa tất 2 phân phối Y và S. Bên cạnh đó, để giúp giảm bớt
cả các đặc trưng ngữ âm của giọng nói vào một véc-tơ sự khó khăn trong việc huấn luyện mô hình, các tác giả
ẩn là một vấn đề khó khăn. Vì vậy, hiện tại hướng đi cũng sử dụng phương pháp Guided Attention để làm cho
này vẫn còn đang được tiếp tục nghiên cứu và cải thiện ma trận Attention A ∈ RN ×T luôn luôn tiến tới.
về mặt chất lượng tiếng nói sinh ra. Sau khi sinh ra được mel spectrogram ở giai đoạn
Text2Mel, mô hình tiến hành tạo ra spectrogram từ mel-
III. PHƯƠNG PHÁP
spectrogram bằng một khối các lớp CNN khác. Giai
A. Mô hình Deep Convolution TTS đoạn này có tên là Spectrogram Super-Resolution Net-
Mô hình DC-TTS [6] bao gồm hai giai đoạn chính work (SSRN). SSRN bao gồm nhiều lớp Convolution-
là Text2Mel và Spectrogram Super-resolution Network. 1D để upsampling mel-spectrogram đầu vào thành spec-
Giai đoạn Text2Mel là một kiến trúc Sequene-to- trogram mong muốn. Đầu ra của giai đoạn này được tổng
Sequence với cơ chế Attention bao gồm 2 bước Encoder hợp thành giọng nói bằng thuật toán Griffin-Lim.
ISBN 978-604-80-5958-3 188
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Hình 1. Các lớp Convolution của mô hình DC-TTS được áp dụng phương pháp Transfer Learning
B. Mô hình Transfer Learning DC-TTS quả phân lớp. Trong nghiên cứu của Fariba Takarli và
cộng sự, 2014 [11] tác giả đã tìm cách để gom các đặc
Mô hình chúng tôi đề xuất chỉ sử dụng một giọng duy trưng bậc cao từ các đặc trưng bậc thấp của dữ liệu
nhất để huấn luyện. Việc sinh ra giọng nói mới là từ việc ảnh bằng các đặc trưng HOG, CNN and Haar. Điều
huấn luyện lại các lớp mạng chịu trách nhiệm rút trích này chứng minh rằng, trong một mạng Deep CNN, các
các đặc trưng cấp cao (high level features) từ mô hình lớp convolution đầu tiên rút trích những đặc trưng đơn
chuyển đổi với tập dữ liệu nhỏ hơn (320 câu nói). Đặc giản bên ngoài của dữ liệu rồi sau đó dựa trên các đặc
điểm quan trọng giúp cho mô hình Transfer Learning trưng đã rút trích, mô hình mới có thể tiếp tục rút trích
DC-TTS có thể chuyển đổi giọng nói đó chính là các đặc trưng mức cao hơn. Từ đó, ta có thể liên hệ qua
bước TextEncoder, AudioEncoder, Decoder, và SRNN mô hình DC-TTS, các lớp CNN cuối cùng chính là các
đều là các lớp mạng Highway Net + CNN (HC) đa tầng convolution có chức năng rút trích các đặc trưng ẩn
có khả năng rút trích đặc trưng bậc cao từ tiếng nói. sâu bên trong mel-spectrogram đó như là thanh điệu,
Các high level features có thể thay đổi giọng đọc nằm cao độ, âm sắc... Đồng thời, các Highway Network có
ở các lớp HC và Convolution cuối cùng của mô hình DC- nhiệm vụ giúp mô hình không bị hiện tượng exploding
TTS. Trong một mô hình Deep Convolution như thế, mỗi và vanishing gradients cũng như xác định được đặc trưng
lớp convolution có nhiệm vụ rút trích một đặc trưng khác quan trọng tại các lớp CNN.
nhau để tạo ra các feature maps và chúng phụ thuộc vào
vùng nhạy cảm cục bộ (Local receptive field) của tầng Từ đó, trong mô hình Transfer Learning DC-TTS
kế trước. Càng về sau, các lớp convolution này càng mở chúng tôi tiến hành khởi tạo lại các trọng số ở các lớp
rộng vùng này. Nhờ đó, cấu trúc giữa các đặc trưng cấp CNN cuối cùng của Encoder, Decoder và SSRN. Cụ thể
cao trong những vùng rộng hơn sẽ được xem xét [10]. Vì hơn, chúng tôi đã huấn luyện mô hình Transfer Learning
vậy, ở các lớp convolution càng sâu thì đặc trưng được DC-TTS với 5 lớp Highway Net + Convolution (HC)
rút trích sẽ càng nhiều và hơn nữa là các đặc trưng cuối của TextEncoder, 4 lớp HC cuối của AudioEncoder,
bậc cao thể hiện quan hệ giữa các đặc trưng với nhau. 1 lớp HC và 4 lớp CNN cuối của bước AudioDecoder, và
Vì lẽ đó, các nhà nghiên cứu cố gắng tìm ra các cách 4 lớp Convolution 1D cuối cùng của SSRN. Phần trọng
thức để gia tăng số lớp của các mạng Deep Convolution số còn lại được giữ nguyên từ lần huấn luyện trước trên
như Batch Normalization, Highway Network, Residual tập dữ liệuset ban đầu. Sau đó, chúng tôi huấn luyện lại
Network,... và chúng đã giúp cho các mô hình như VGG, mô hình với tập dữ liệu mới nhỏ hơn để thu được một
ALexnet, Resnet,... nâng cao độ chính xác và độ hiệu hình có khả năng tổng hợp giọng nói mới. Các lớp cuối
ISBN 978-604-80-5958-3 189
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
cùng của Decoder và SRNN đều có sự góp mặt của đặc Sau đó, chúng tôi sử dụng lại mô hình đã được huấn
trưng âm thanh nên bắt buộc chúng tôi phải huấn luyện luyện trước này để huấn luyện với một tập dữ liệu khác
lại trong mô hình Transfer Learning. Tuy nhiên, trong bao gồm 1 giờ thu âm giọng nữ thuộc phương ngữ miền
quá trình huấn luyện mô hình Sequence-to-Sequence thì Bắc Việt Nam. Dựa trên kết quả đạt được, chúng tôi thấy
các kí tự đầu vào sẽ bị tác động bởi các đặc trưng ngữ rằng mô hình DC-TTS được huận luyện này có khả năng
âm do quá trình lan truyền ngược nên chúng tôi vẫn tạo ra tiếng nói mới với một tập dữ liệu nhỏ hơn. Và
phải thay đổi các trọng số ở các lớp CNN cuối cùng đối với một ngôn ngữ không có nhiều tài nguyên như
của Encoder. tiếng Việt thì mô hình của chúng tôi là một lựa chọn
Quá trình huấn luyện của mô hình Transfer Learning hoàn hảo để xây dựng hệ thống TTS.
DC-TTS để chuyển mô hình của giọng cũ sang giọng
IV. THỰC NGHIỆM
nói mới được thực hiện cụ thể như sau. Thứ nhất, mô
hình DC-TTS được huấn luyện với văn bản và giọng nói A. Làm sạch dữ liệu và huấn luyện mô hình
của một tập dữ liệu một người nói ban đầu. Ở đây, mô Để huấn luyện mô hình, trước tiên chúng tôi tiến hành
hình được huấn luyện xong phải đảm bảo tạo ra được xử lý tập dữ liệu huấn luyện. Bước đầu tiên, chúng tôi
tiếng nói với chất lượng đạt được mức yêu cầu. Kết quả giảm tần số lấy mẫu của dữ liệu thu âm từ 48000 kHz
của mô hình này sẽ tạo ra các trọng số có thể chuyển xuống còn 22050 kHz và chuyển về dạng đơn kênh trên
đổi sang mô hình khác. Sau đó, mô hình đã được huấn cả hai tập dữ liệu OLLI-SPEECH-1.6 [12] và OLLI-
luyện này sẽ được huấn luyện lại với một tập dữ liệu SPEECH-NORTHERN. Đối với dữ liệu văn bản, chúng
mới có kích thước nhỏ hơn rất nhiều. Tuy nhiên, có một tôi tiến hành xây dựng một công cụ chuẩn hóa văn bản
thay đổi quan trọng đặc trưng cho phương pháp Transfer để làm sạch và đảm bảo cho nội dung phải đúng với
Learning, đó là mô hình sẽ giữ lại trọng số của một vài giọng nói thu âm. Ngoài ra, chúng tôi còn dùng bộ công
lớp CNN từ mô hình đã được huấn luyện trước đó và cụ Vietnamese Grapheme-to-Phoneme được nghiên cứu
huấn luyện các lớp CNN còn lại bằng dữ liệu giọng nói bởi Lam và cộng sự, 2019 [12] để chuyển đổi câu tiếng
của người nói mới. Đây là chìa khóa để mô hình của Việt thành một chuỗi các âm vị. Đồng thời, chúng tôi
chúng tôi có thể thay đổi giọng nói. xây dựng một công cụ để tiền xử lý văn bản đầu vào
nhằm mục đích làm sạch và xử lý các nhập nhằng từ
C. Tổng hợp giọng nói mới với tập dữ liệu hạn chế
văn bản để giúp cho việc huấn luyện tốt hơn. Phần tiền
Mô hình DC-TTS không chỉ có thể tạo ra giọng nói xử lý văn bản: bao gồm một tập các luật để chuyển đổi
mới mà còn có thể sử dụng để huấn luyện với tập dữ các từ viết tắt, các định dạng ngày tháng năm, chuyển
liệu nhỏ hơn nhiều. Trong nghiên cứu này, chúng tôi tái đổi số về chữ, các đơn vị tính toán,... Xử lý các nhập
sử dụng một mô hình DC-TTS được huấn luyện trước nhằng trong văn bản để đọc được các kí hiệu đó một
của một giọng nói và huấn luyện lại với tập dữ liệu mới cách hợp lý nhất.
của một giọng nói mới với kích thước nhỏ hơn 45 lần. Cuối cùng, chúng tôi tiến hành huấn luyện mô hình
Tập dữ liệu mới này bao gồm 320 câu nói tương đương DC-TTS trên tập dữ liệu OLLI-SPEECH-1.6 để tạo ra
với khoảng 1 giờ thu âm. bộ thông số tối ưu nhất. Sau đó, chúng tôi tiến hành
Dựa trên các khả năng của phương pháp Transfer quá trình Transfer Learning trên chính mô hình và bộ
Learning dựa trên mô hình được huấn luyện trước đó, thông số đó với 320 câu nói (tương ứng với 1 giờ thu
mô hình của chúng tôi có thể tái sử dụng các trọng số âm) lấy ngẫu nhiên từ tập OLLI-SPEECH-NORTHERN.
đã được huấn luyện trên mô hình trước đó để thu nhỏ Các thông số của mô hình huấn luyện được thiết lập
tập dữ liệu huấn luyện cho giọng mới. Và khi đó mô như sau: batch size 32, Adam Optimizer với các thông
hình Transfer chỉ có nhiệm vụ là cập nhật lại các trọng số β1 = 0.9, β2 = 0.999, = 10−6 , learning rate được
số có khả năng làm thay đổi giọng nói như đã mô tả thiết lập ở 10−3 giảm đến 10−5 . Toàn bộ cả hai mô hình
trong phần III-B. Đó là lý do tại sao mô hình của chúng đều được huấn luyện trên 2 GPU GTX 1080 Ti với tổng
tôi không cần nhiều dữ liệu để huấn luyện như mô hình thời gian là một tuần.
huấn luyện ban đầu.
Cụ thể, để huấn luyện mô hình, chúng tôi sử dụng B. Đánh giá chất lượng mô hình
hai tập dữ liệu được thu âm từ hai giọng nói khác Để đánh gía chất lượng của giọng nói được sinh
nhau là OLLI-SPEECH-1.6 [12] và OLLI-SPEECH- ra, chúng tôi sử dụng độ đo Mean Opinion Score
NORTHERN. Đầu tiên, chúng tôi huấn luyện mô hình (MOS) [13] trên 100 câu nói sinh ra được từ mô hình và
DC-TTS bằng tập dữ liệu bao gồm 50 giờ thu âm của dữ liệu thu âm. Đây là một độ đo dựa trên cảm tính và
một giọng nữ thuộc phương ngữ miền Nam Việt Nam. nhận xét từ nhiều người để xác định chất lượng giọng
ISBN 978-604-80-5958-3 190
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Hình 2. Sự ảnh hưởng của tập dữ liệu đến điểm MOS đạt được từ mô hình Transfer Learning DC-TTS
nói sinh ra. Cụ thể, chúng tôi đã dựa trên đánh giá của với chất giọng mới hoàn toàn.
110 người. Họ nghe và cho các điểm số từ 1 đến 5 cho Bên cạnh đó, để xác định lượng câu nói cần có để
từng câu nói để tính ra điểm số cuối cùng của mô hình. huấn luyện được một mô hình đảm bảo về chất lượng
Để đánh giá mô hình DC-TTS Transfer Learning (DC- âm thanh, chúng tôi tiếp tục thực hiện một khảo sát
TTS+TF) trên tập dữ liệu chỉ có 1 giờ thu âm gặp nhiều thứ hai. Chúng tôi tiến hành huấn luyện các mô hình
khó khăn do hoàn toàn không có một mô hình nào khác Transfer Learning TTS trên tập dữ liệu OLLI-SPEECH-
có thể sinh ra tiếng nói với dữ liệu huấn luyện ít như thế. NORTHERN với số lượng câu nói khác nhau. Kích
Do đó chúng tôi chỉ có thể so sánh chất lượng tiếng nói thước tập dữ liệu huấn luyện được tăng dần từ 10 đến
thật, mô hình Tacotron 2 và mô hình DC-TTS được huấn 500 câu nói. Mục đích chúng tôi thực hiện khảo sát này
luyện trên tập dữ liệu OLLI-SPEECH-NORTHERN. là để biết được cần sử dụng dữ liệu có kích thước bao
Bảng I
nhiêu là vừa đủ để đưa vào sử dụng trong sản phẩm mà
KẾT QUẢ ĐỘ ĐO MOS CỦA CÁC MÔ HÌNH vẫn đảm bảo chất lượng giọng nói sinh ra.
Hình 2 cho thấy rằng nếu kích thước của tập dữ liệu
Voice Dữ liệu huấn luyện (giờ) MOS
Ground truth _ 4.28 ± 0.51 huấn luyện càng lớn, thì kết quả MOS của mô hình
Tacotron 2 45 3.52 ± 0.56 Transfer Learning DC-TTS càng tốt hơn. Đường cong
DC-TTS 45 3.50 ± 0.55 thể hiện điểm số MOS sẽ đạt đến một giới hạn nhất
DC-TTS + TF 1 3.49 ± 0.58 định khi kích thước của tập dữ liệu huấn luyện tăng lên.
Điều này cho thấy xu hướng rằng khi tập dữ liệu huấn
Điểm số MOS ở bảng I cho thấy mô hình DC-TTS+TF luyện tăng đến một kích thước nhất định, độ đo MOS sẽ
có thể sinh ra giọng mới với rất ít dữ liệu huấn luyện không còn tăng nữa. Từ đó có thể đưa ra phương hướng
nhưng vẫn mang lại kết quả xấp xỉ so với mô hình để xác định kích thước tập dữ liệu vừa đủ để xây dựng
Tacotron 2 và mô hình gốc ban đầu. Điều đó chứng hệ thống TTS phù hợp với chi phí thu thập dữ liệu.
tỏ giọng nói sinh ra vẫn được người đánh giá hiểu rõ về Thêm vào đó, mặc dù kích thước của tập dữ liệu huấn
mặt nội dung và có thiện cảm hơn về độ tự nhiên của luyện là rất nhỏ nhưng khi mô hình được huấn luyện với
tiếng nói. Tuy nhiên, khi xét về tập dữ liệu huấn luyện phương pháp Transfer Learning, độ đo MOS vẫn có đạt
thì rõ ràng mô hình của chúng tôi sử dụng ít dữ liệu hơn đến ngưỡng có thể sử dụng trọng thương mại. Ngưỡng
rất nhiều so với Tacotron 2. Điều này mang lại nhiều thương mại ở đây được xác định bằng cách sử dụng độ
lợi ích thiết thực cho việc xây dựng một hệ thống TTS đo MOS trên giọng nói sinh ra của một hệ thống TTS
ISBN 978-604-80-5958-3 191
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
tiếng Việt đang được sử dụng rộng rãi. Biểu đồ trên cho [2] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang,
thấy chỉ cần kích thước dữ liệu nằm trong khoảng từ M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring
the limits of transfer learning with a unified text-to-text
300 đến 500 câu nói, mô hình có thể tạo ra tiếng nói transformer,” CoRR, vol. abs/1910.10683, 2019. [Online].
đáp ứng nhu cầu của người dùng. Điều này chứng tỏ mô Available: http://arxiv.org/abs/1910.10683
hình huấn luyện hoàn toàn có thể được sử dụng trong [3] C. Tan, F. Sun, T. Kong, W. Zhang, C. Yang, and C. Liu, “A
survey on deep transfer learning,” CoRR, vol. abs/1808.01974,
thương mại Đây là một lợi thế lớn so với hầu hết các 2018. [Online]. Available: http://arxiv.org/abs/1808.01974
mô hình học sâu khác, vốn yêu cầu một lượng lớn tập [4] Y. Jia, Y. Zhang, R. J. Weiss, Q. Wang, J. Shen, F. Ren,
dữ liệu để huấn luyện mô hình. Z. Chen, P. Nguyen, R. Pang, I. Lopez-Moreno, and Y. Wu,
“Transfer learning from speaker verification to multispeaker
V. KẾT LUẬN text-to-speech synthesis,” CoRR, vol. abs/1806.04558, 2018.
[Online]. Available: http://arxiv.org/abs/1806.04558
Trong bài báo này, chúng tôi đã trình bày về mô hình [5] K. Azizah, M. Adriani, and W. Jatmiko, “Hierarchical transfer
Transfer Learning DC-TTS để tổng hợp tiếng nói tiếng learning for multilingual, multi-speaker, and style transfer dnn-
Việt với rất ít dữ liệu huấn luyện. Mô hình của chúng based tts on low-resource languages,” IEEE Access, vol. 8, pp.
179 798–179 812, 2020.
tôi có thể tổng hợp một giọng nói mới chỉ với khoảng [6] H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently
1 giờ thu âm. Các phương pháp đánh giá đã cho thấy trainable text-to-speech system based on deep convolutional
networks with guided attention,” CoRR, vol. abs/1710.08969,
giọng nói được tổng hợp vẫn giữ được chất lượng tốt. 2017. [Online]. Available: http://arxiv.org/abs/1710.08969
Tuy nhiên, mô hình của chúng tôi vẫn còn một số vấn [7] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang,
đề cần giải quyết như quá trình sinh tiếng nói và làm Z. Chen, Y. Zhang, Y. Wang, R. J. Skerry-Ryan, R. A. Saurous,
Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by
sao để giữ được các tính chất ngữ âm của giọng khi gặp conditioning wavenet on mel spectrogram predictions,” CoRR,
phải một câu dài hoặc cả một đoạn văn. vol. abs/1712.05884, 2017.
[8] W. Ping, K. Peng, A. Gibiansky, S. O. ¨ Arik, A. Kannan,
LỜI CẢM ƠN S. Narang, J. Raiman, and J. Miller, “Deep voice 3: 2000-
Chúng tôi xin cảm ơn Công ty Cổ phần Công speaker neural text-to-speech,” CoRR, vol. abs/1710.07654,
2017. [Online]. Available: http://arxiv.org/abs/1710.07654
nghệ OLLI Technology JSC đã xây dựng hai tập dữ [9] T. Tu, Y.-J. Chen, A. H. Liu, and H. yi Lee, “Semi-supervised
liệu OLLI-SPEECH-1.6 và OLLI-SPEEH-NORTHERN learning for multi-speaker text-to-speech synthesis using discrete
được dùng để huấn luyện mô hình của chúng tôi. Đặc speech representation,” 2020.
[10] P. Razzaghi, K. Abbasi, and P. Bayat, “Learning
biệt, chúng tôi xin chân thành cảm ơn công ty đã cũng spatial hierarchies of high-level features in deep neural
cấp tất cả nguồn lực máy tính và sự hỗ trợ về con người network,” Journal of Visual Communication and Image
trong công việc thu âm và làm sạch dữ liệu. Điều này Representation, vol. 70, p. 102817, 2020. [Online]. Available:
http://www.sciencedirect.com/science/article/pii/S1047320320300675
giúp ích rất lớn cho nghiên cứu của chúng tôi. [11] F. Takarli, A. Aghagolzadeh, and H. Seyedarabi, “Combination
TÀI LIỆU of high-level features with low-level features for detection of
pedestrian,” Signal, Image and Video Processing, vol. 10, pp.
[1] D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, 93–101, 2016.
B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos, [12] Q. T. Lam, D. H. Do, T. H. Vo, and D. D. Nguyen, “Alternative
E. Elsen, J. H. Engel, L. Fan, C. Fougner, T. Han, A. Y. Hannun, vietnamese speech synthesis system with phoneme structure,”
B. Jun, P. LeGresley, L. Lin, S. Narang, A. Y. Ng, S. Ozair, in 2019 19th International Symposium on Communications and
R. Prenger, J. Raiman, S. Satheesh, D. Seetapun, S. Sengupta, Information Technologies (ISCIT), 2019, pp. 64–69.
Y. Wang, Z. Wang, C. Wang, B. Xiao, D. Yogatama, J. Zhan, [13] R. C. Streijl, S. Winkler, and D. Hands, “Mean opinion score
and Z. Zhu, “Deep speech 2: End-to-end speech recognition (mos) revisited: methods and applications, limitations and alter-
in english and mandarin,” CoRR, vol. abs/1512.02595, 2015. natives,” Multimedia Systems, vol. 22, pp. 213–227, 03 2016.
[Online]. Available: http://arxiv.org/abs/1512.02595
ISBN 978-604-80-5958-3 192
nguon tai.lieu . vn