Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
XÂY DỰNG MÔ HÌNH THÍCH ỨNG GIỌNG NÓI
TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
Phan Trung Kiên1,2, Đỗ Văn Hải1,3
1
Trung tâm Không gian Mạng Viettel, 2Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội,
3
Khoa CNTT, Trường Đại học Thủy Lợi
1. GIỚI THIỆU CHUNG - Xây dựng mô hình gốc (Build base
model).
Tổng hợp tiếng nói là một lĩnh vực đã được
- Thích ứng (Adaptation).
nghiên cứu từ lâu và có nhiều ứng dụng trong
đời sống. Hệ thống tổng hợp tiếng nói giúp
chuyển đổi từ văn bản sang giọng nói con
người. Một ví dụ điển hình nhất của tổng hợp
tiếng nói đó là giọng đọc của Google Dịch.
Tuy nhiên, hiện nay chi phí phát triển các
hệ thống này là lớn dẫn tới sự thiếu sự đa
dạng về giọng nói trong các hệ thống. Vì vậy
các phương pháp thích ứng giọng nói đã
được phát triển để giải quyết các vấn đề nêu
trên. Thích ứng giọng nói (SA - Speaker Hình 1. Hai bước trong quá trình thích ứng
Adaptation) có nhiệm vụ tạo ra giọng nói giọng nói.
mới cho hệ thống tổng hợp tiếng nói bằng Để xây dựng mô hình gốc, chúng tôi sử
cách điều chỉnh các tham số của một mô hình dụng kiến trúc Merlin [4]. Đây là kiến trúc
ban đầu với một lượng ít dữ liệu ghi âm của tổng hợp tiếng nói phổ biến hiện nay dựa trên
người nói mới. mạng nơ ron học sâu tiên tiến. Như mô tả ở
Nhiều phương pháp đã được đề xuất và trên hình 2, kiến trúc Merlin bao gồm 3
mang lại hiệu quả nhất định cho thích ứng thành phần:
giọng nói, ví dụ như: học chuyển giao - Trích chọn đặc trưng ngôn ngữ
(Transfer Learning), sử dụng véc tơ mã hóa (Linguistic Features Extraction).
người nói (Speaker Embedding) [1], Learning - Tạo đặc trưng âm học (Parameter
Hidden Unit Contribution (LHUC) [2], Feature Generation).
Space Transformation (FST) [3], … - Tạo tín hiệu tiếng nói (Waveform
Trong bài báo này, chúng tôi nghiên cứu Generation).
xây dựng mô hình thích ứng giọng nói cho
bài toán tổng hợp tiếng nói tiếng Việt dựa
trên hai phương pháp là phương pháp học
chuyển giao và phương pháp véc tơ mã hóa
người nói.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Như thấy ở (hình 1), quá trình SA được Hình 2. Mô hình Merlin.
chia làm hai thành phần:
105
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
2.1. Phương pháp học chuyển giao b) Mã hóa người nói bằng x-vector
X-vector là véc tơ được trích xuất từ mô hình
Với phương pháp này, chúng tôi giữ nguyên
TDNN [5]. X-vector thu được từ quá trình trên
kiến trúc của Merlin cho cả hai bước huấn
là một véc tơ 200 chiều chưa thông tin mã hóa
luyện mô hình gốc và thích ứng. Đối với mô
của người nói. Do số chiều này là khá lớn nếu
hình gốc chúng tôi thử nghiệm theo 2 hướng:
so sánh tỷ lệ với các đặc trưng ngôn ngữ được
- Xây dựng mô hình gốc một người nói
sử dụng. Do đó, phương pháp phân tích thành
(OS - One speaker): Mô hình gốc sẽ được
phần chính (PCA) được sử dụng để giảm số
huấn luyện trên bộ dữ liệu bao gồm một
chiều véc tơ xuống còn 25 chiều.
người nói.
- Xây dựng mô hình gốc nhiều người nói - 3. KẾT QUẢ NGHIÊN CỨU
hay còn gọi là mô hình giọng trung bình
(AVM - Average voice model): Mô hình gốc 3.1. Dữ liệu cho xây dựng mô hình gốc
sẽ được huấn luyện trên bộ dữ liệu bao gồm Dữ liệu huấn luyện được chuẩn bị bao gồm:
nhiều người nói. - Dữ liệu cho mô hình gốc một người nói:
2.2. Phương pháp véc tơ mã hóa người nói bao gồm 8 giờ 35 phút giọng nói nữ với
phương ngữ miền Nam.
- Dữ liệu cho mô hình giọng trung bình:
bao gồm 20 giờ 30 phút giọng nói của 60
người. Trong đó có 30 nam, 30 nữ, mỗi
người thu âm 160 câu.
3.2. Dữ liệu cho thích ứng giọng nói
Để đánh giá được hiệu quả của các phương
pháp thích ứng giọng, chúng tôi huấn luyện
Hình 3. Phương pháp véc tơ mã hóa người nói mô hình tổng hợp tiếng nói sử dụng kiến trúc
Merlin trong hai trường hợp nhiều dữ liệu (> 3
Để cải tiến cho phương pháp học chuyển giờ) và ít dữ liệu (≤ 0,5 giờ).
giao sử dụng mô hình giọng trung bình, Dữ liệu huấn luyện được chuẩn bị cho
chúng tôi thêm thành phần véc tơ mã hóa thích ứng giọng nói bao gồm:
người nói (Speaker Embedding) nhằm bổ - Hai tập dữ liệu: MALE (4 giờ 40 phút,
sung thông tin về người nói cho thành phần giọng nam) và FEMALE (3 giờ 30 phút,
Parameter Generation. giọng nữ) được chuẩn bị để huấn luyện mô
a) Mã hóa người nói bằng one-hot vector hình tổng hợp tiếng nói.
X x1 , x2, ..., x n1 Hai tập dữ liệu: MALE-30 và FEMALE-
One - hot vector là véc tơ có dạng: 30 bao gồm 30 phút dữ liệu được chọn ra
Trong đó, n +1 bao gồm n người nói có tương ứng từ hai tập MALE và FEMALE
trong bộ dữ liệu được dùng để xây dựng mô được sử dụng để huấn luyện mô hình tổng
hình gốc và một người nói có trong bộ dữ hợp tiếng nói cũng như được sử dụng để
liệu được dùng để thích ứng. thích ứng giọng nói.
Trong quá trình xây dựng mô hình gốc, Để trích xuất x-vector, chúng tôi dụng mô
với người nói thứ i ta có: hình đã được huấn luyện từ trước với tập dữ
xi 1 liệu VoxCeleb. Đây là tập dữ liệu bao gồm
xi 0 j i các hơn một triệu đoạn tiếng nói, được trích
xuất từ các video phỏng vấn được đăng tải
Trong quá trình thích ứng ta có: lên YouTube. Trong bộ dữ liệu có hơn 7000
xn1 1
xi 0 j n 1
người nói với nhiều ngôn ngữ khác nhau,
tổng độ dài bộ dữ liệu là hơn 2000 giờ.
106
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
3.2. Huấn luyện mô hình phương pháp sử dụng x-vector để mã hóa
người nói.
Tập dữ liệu trên được chia theo tỉ lệ 90:5:5
tương ứng với tập huấn luyện, tập phát triển 4. KẾT LUẬN
và tập kiểm tra. Các mô hình được huấn
luyện sử dụng thuật toán Stochastic Gradient Trong bài báo này, chúng tôi đã trình bày
Descent với learning rate là 0.002, batch size bốn phương pháp thích ứng giọng nói cho
là 256 và số epoch là 25. tổng hợp tiếng nói tiếng Việt. Kết quả thử
nghiệm cho thấy độ tự nhiên của giọng nói
3.2. Kết quả thích ứng được cải thiện đáng kể.
Các mô hình được đánh giá độ tự nhiên Từ nghiên cứu này, chúng ta hoàn toàn có
bằng điểm MOS (Mean Opinion Score). 18 thể sử dụng để mở rộng sự đa dạng của một
người được mời nghe thử 120 mẫu và đánh hệ thống tổng hợp tiếng nói với lượng dữ liệu
giá trên thang điểm 5. Kết quả được lấy trung hạn chế. Ngoài ra, các phương pháp này còn
bình số điểm cho mỗi mô hình. có thể áp dụng cho các bài toán thích ứng
cảm xúc, hay mô hình đa giọng nói, …
5. TÀI LIỆU THAM KHẢO
[1] Hieu-Thi Luong, Shinji Takaki, Gustav Eje
Henter, Junichi Yamagishi, "Adapting and
Controlling DNN-Based Speech Synthesis
Using Input Codes," 2017 IEEE
International Conference on Acoustics,
Speech and Signal Processing (ICASSP),
pp. 4905-4909, 2017.
Hình 4. Đánh giá điểm MOS trên các mô [2] P. Swietojanski and S. Renals, "Learning
hidden unit contributions for unsupervised
hình giọng nam.
speaker adaptation of neural network
acoustic models," in Proc. IEEE Spoken
Language Technology Workshop, 2014.
[3] Tomoki Toda, Alan W Black, Keiichi
Tokuda, "Voice conversion based on
maximum-likelihood estimation of spectral
parameter trajectory," IEEE Transactions
on Audio, Speech, and Language
Processing, vol. 15, pp. 2222-2235, 2007.
[4] Zhizheng Wu, Oliver Watts, Simon King,
"Merlin: An Open Source Neural Network
Hình 5. Đánh giá điểm MOS trên các mô Speech Synthesis System," SSW, pp. 202-
hình giọng nữ 207, 2016.
[5] David Snyder, Daniel Garcia-Romero,
Dựa vào (hình 4) và (hình 5) có thể thấy Daniel Povey, Sanjeev Khudanpur, "Deep
rằng các phương pháp được đề xuất đã cải Neural Network Embeddings for Text-
thiện rõ rệt độ tự nhiên của giọng nói tổng Independent Speaker Verification,"
hợp. Trong đó nhóm phương pháp sử dụng INTERSPEECH 2017, 2017.
véc tơ mã hóa người nói cho kết quả tốt hơn
so với nhóm phương pháp học chuyển giao.
Phương pháp mang lại hiệu quả tốt nhất đó là
107
nguon tai.lieu . vn