- Trang Chủ
- Kĩ thuật Viễn thông
- Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế
Xem mẫu
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Một tiếp cận tối ưu thành phần sinh tín hiệu cho
hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài
nguyên hạn chế
Nguyễn Tu Trung Ngô Hoàng huy
Viện CNTT, Viện Hàn Lâm KH&CN VN Viện CNTT, Viện Hàn Lâm KH&CN VN
Hà Nội, Việt Nam Hà Nội, Việt Nam
nttrung@ioit.ac.vn nhhuy@ioit.ac.vn
Tóm tắt— Xử lý tiếng nói nói chung và tổng hợp tiếng những hệ thống có tài nguyên rất khiêm tốn như các loại
nói nói riêng ở Việt Nam và trên thế giới đã đạt được chip với khả năng lưu trữ và tính toán rất thấp.
những thành tựu rất đáng khích lệ. Khi mà nhu cầu giao
tiếp trên các thiết bị di động và các hệ thống tài nguyên Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng
hạn chế tăng rất nhanh, các nhà nghiên cứu trên thế giới hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế
cũng đang tiếp tục tối ưu các thành phần để xây dựng hệ cũng đã xuất hiện trong một số năm gần đây. Các đề tài
xử lý tiếng nói trên các hệ thống dạng này. Do đặc thù của nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ
hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các thống di động cầm tay và hệ thống nhúng đã và đang
hệ thống này cũng cần sử dung lượng bộ nhớ và chí phí triển khai đã minh chứng cho nhu cầu này.
tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt
được những thành công ngay cả trên những hệ thống có Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ
tài nguyên rất khiêm tốn như các loại chip với khả năng thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và
lưu trữ và tính toán rất thấp. Bài báo này trình bày một các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa
tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra
hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn
các thiết bị di động và các hệ thống tài nguyên hạn chế. bản và chuyển văn bản về âm vị. Sheikhzadeh và cộng
sự [9] đã thiết kế hệ thống tổng hợp tiếng nói theo
Từ khóa— tổng hợp tiếng nói, tài nguyên hạn chế, phương pháp ghép nối sử dụng thuật toán cơ bản TD-
ADPCM, PSOLA PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4
MHz. Dey và cộng sự [6] đã đưa ra kiến trúc TTS
I. GIỚI THIỆU nhúng theo phương pháp tổng hợp ghép nối cho chip
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con ARM. Trong nghiên cứu này, chúng tôi trình bày một
người dưới dạng tín hiệu và các phương pháp xử lý tín tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho
hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng
dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có trên các thiết bị di động và các hệ thống tài nguyên hạn
thể được coi là giao của xử lý tín hiệu số và xử lý ngôn chế.
ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được
Các phần còn lại của bài báo này được trình bày như
nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục
sau. Phần 2 trình bày khái quát về hệ tổng hợp tiếng nói
năm trở lại đây đã có một số sản phẩm ra đời cả về tổng
dựa trên ghép nối. Phần 3 trình bày vấn đề tổng hợp
hợp và nhận dạng tiếng nói.
tiếng nói trên hệ thống có tài nguyên hạn chế. Giải pháp
Khi mà xử lý tiếng nói trên máy tính đã đạt được tối ưu lưu trữ và tính toán cho hệ tổng hợp tiếng nói dựa
những thành tựu rất khả quan, người ta đã nghĩ đến việc trên ghép nối trên hệ thống tài nguyên hạn chế. Thử
nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ nghiệm và đánh giá được trình bày trong phần 5. Phần 6
thống có tài nguyên hạn chế để đáp ứng những mục là kết luận bài báo.
đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc
thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp
chạy trên các hệ thống này cũng cần sử dụng lượng bộ
nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu
trên thế giới đã đạt được những thành công ngay cả trên
ISBN: 978-604-67-0349-5 432
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
II. TỔNG HỢP TIẾNG NÓI DỰA TRÊN GHÉP
NỐI
Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn
bản mô tả trong hình 1.
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị
và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn
ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói.
Các kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu
số: tổng hợp theo luật, tổng hợp ghép nối và tổng hợp
dựa trên thống kê.
Hình 1. Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản.
Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế
như là các đơn vị tổng hợp và ghép nối đơn vị cùng sinh
ra tiếng nói. Dutoit [7] cho rằng tổng hợp tiếng nói bằng
ghép nối là cách tiếp cận đơn giản nhất và hiệu quả
nhất. Hơn nữa, các hệ thống tổng hợp hiện nay cũng chủ
yếu theo phương pháp ghép nối đơn vị. Vì vậy, trong
tổng hợp ghép nối, việc lựa chọn đơn vị là tiêu chuẩn
Hình 2. Lưu đồ quá trình ghép nối [2].
sinh tiếng nói chất lượng cao. Các đơn vị tiếng nói được
chọn sao cho cực tiểu các lỗi trong ghép nối như làm
trơn biên độ giữa các đoạn tiếng nói. Thông thường, các III. TỔNG HỢP TIẾNG NÓI TRÊN HỆ THỐNG
đơn vị tiếng nói được lưu trữ trong cơ sở dữ liệu lớn. CÓ TÀI NGUYÊN HẠN CHẾ
Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ
Các mô hình dùng trong tổng hợp ghép nối thường thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và
dựa trên các công cụ xử lý tiếng nói và một số phương các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa
pháp biểu diễn như tổng hợp LPC (Linear Predictive A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra
Coding), Harmonic/Stochastic (H/S), cộng chồng đồng rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn
bộ (PSOLA) và cộng chồng đồng bộ miền thời gian bản và chuyển văn bản về âm vị. Họ đã sử dụng tính
(TD-PSOLA). toán chấm tĩnh cho mạng nơron dùng để chuyển đổi văn
Sau giai đoạn sinh ngữ điệu văn bản, ta thu được bản sang âm vị. Toàn bộ dung lượng bộ nhớ được dùng
danh sách các bán âm tiết có thứ tự (các phụ âm đầu và xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong
phần vần) và các tham số ngữ điệu tương ứng. Ở giai hình 3.
đoạn sinh tín hiệu (hình 2), hệ thống tiến hành duyệt các Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng
bán âm tiết. Với mỗi bán âm, hệ thống tìm trong CSDL hợp tiếng nói theo phương pháp ghép nối sử dụng thuật
đoạn tín hiệu âm thanh tương ứng. Khi này, kết hợp toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit,
cùng các thông tin về ngữ điệu, hệ thống thực hiện việc tần số tối đa 4 MHz. Hệ thống gồm các mô đun liên kết
thay đổi độ dài và cao độ tần số cơ bản của các bán âm với host, giải nén CSDL đơn vị âm tiếng nói và xử lý
phù hợp với qui luật ngữ cảnh ngữ âm. Công việc này chấm tĩnh cộng chồng đồng bộ TD-PSOLA. Với tính
được thực hiện bằng việc sử dụng thuật toán PSOLA. năng không có bộ chuẩn hóa văn bản và với nhân DSP
Sau đó, hệ thống tiến hành làm trơn biên ghép nối các như vậy hệ thống có thể chạy tại mức 1.28MHz, tiêu thụ
bán âm tiết. điện rất thấp.
ISBN: 978-604-67-0349-5 433
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Hình 3: Kiến trúc hệ thống TTS được đơn giản [4].
Dey và cộng sự [6] đã đưa ra kiến trúc TTS nhúng
(hình 4) theo phương pháp tổng hợp ghép nối cho chip
ARM với đầy đủ các mô đun phân tích ngôn ngữ văn
bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển
ngôn điệu.
Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây
dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn
chế cũng đã xuất hiện trong một số năm gần đây. Các đề
tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các
hệ thống di động cầm tay và hệ thống nhúng đã và đang Hình 4: Lưu đồ quá trình sinh tiếng nói mới.
triển khai đã minh chứng cho nhu cầu này. Theo lưu đồ trên, sau khi lấy dữ liệu âm thô dạng
ADPCM của mỗi bán âm từ CSDL, hệ tổng hợp cần
Như vây, chúng ta có thể thấy rằng để xây dựng thực hiện việc giải mã để nhận được tín hiệu dạng PCM.
được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên Từ đây, tín hiệu PCM sẽ được thay đổi trường độ và cao
hạn chế thì hệ này cần đảm bảo các yêu cầu sau: độ tần số cơ bản với thuật toán PSOLA đã được tối ưu.
Sau đó, thủ tục làm trơn không cần tính toán các đỉnh
Kích thước lưu trữ nhỏ. (1) tiếng nói ứng với đoạn cuối bán âm trước và đoạn đầu
Tính toán đơn giản, không sử dụng các thao tác bán âm sau mà chỉ cần tải từ CSDL rồi thực hiện việc
làm trơn.
phức tạp. (2)
Chất lượng giọng tổng hợp vẫn đảm bảo nghe A. Nén tín hiệu tiếng của các bán âm tiết với ADPCM
được. (3) Hiện nay, có rất nhiều phương pháp mã hóa khác
nhau với những tỉ lệ nén tín hiệu rất tốt mã chất lượng
IV. TỐI ƯU HOÁ LƯU TRỮ VÀ TÍNH TOÁN có thể không suy giảm nhiều. Có những phương pháp
Dựa trên thuật toán sinh tiếng nói ghép nối trong trong quá trình nén và giải nén cần thực hiện các hàm
hình 2, chúng tôi đề xuất sinh tiếng nói mới với lưu đồ toán học phức tạp với chi phí tính toán không hề nhỏ,
như trong hình 4 với sự kết hợp của việc nén tín hiệu không phù hợp cho hệ thống tài nguyên hạn chế. Tuy
các bán âm và tối ưu thuật toán ghép nối. nhiên, lại có những phương pháp tuy có tỉ lệ nén không
hẳn tối ưu nhất nhưng bù lại chỉ tiêu tốn một lượng chi
phí tính toán không lớn. Một trong những phương pháp
đó là ADPCM (Adaptive Differential Pulse Code
Modulation).
Với bộ mã hóa, đầu vào PCM đươc chuyển đổi
thành PCM thống nhất. Một tín hiệu lệch thu được bằng
ISBN: 978-604-67-0349-5 434
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
cách trừ một ước lượng của tín hiệu đầu vào từ chính tín cuối cùng một đoạn không đổi 16ms nếu là vô thanh, t2
hiệu đầu vào đó. Một bộ lượng tử hóa 31-, 15-, 7-, hoặc là điểm đánh dấu cao độ tần số cơ bản sát đầu tiên của
4-mức thích ứng được dùng để gán 5, 4, 3, hoặc 2 số nhị x2(n) với đoạn hữu thanh hoặc cách điểm đầu tiên một
phân tương ứng để giá trị của tín hiệu lệch được truyền đoạn không đổi 16ms nếu là vô thanh. Điểm đánh dấu
tới bộ giải mã. Một bộ lượng tử đảo ngược sinh ra tín cao độ tần số cơ bản chính là các đỉnh tiếng nói. Như
hiệu lệch được lượng tử hóa từ 5, 4, 3 hoặc 2 số nhị vậy, chúng ta phải tìm được các đỉnh tiếng nói tại cuối
phân này. Ước lượng tín hiệu được cộng vào tín hiệu bán âm tiết trước và đầu bán âm tiết sau.
lệch được lượng tử hóa này để sinh ra phiên bản của tín
hiệu đầu vào được tạo lại. Cả tín hiệu được tạo lại và tín Thao tác dò tìm đỉnh tiếng nói khá phức tạp phải
hiệu lệch được lượng tử hóa được điều khiển bởi bộ dự dùng đến một thuật toán riêng để giải quyết. Như vậy,
báo thích ứng, mà sinh ra ước lượng của tín hiệu đầu chi phí tính toán của thuật toán này cũng không nhỏ.
vào, do đó hoàn thành vòng lặp phản hồi. Nếu như với mỗi đoạn tiếng nói của mỗi bán âm tiết
được lưu trong CSDL, ta tìm trước các đỉnh tiếng nói và
Như vậy, trong trường hợp xấu nhất, kích thước dữ cũng lưu vào CSDL thì chi phí tính toán khi sinh tiếng
liệu ADPCM chỉ giảm xuống còn 2/3 (phải dùng 5 bit nói sẽ giảm đi rất nhiều. Tôi đã sử dụng phần mềm
cho mỗi vi sai) so với dữ liệu PCM gốc (8 bit). Còn Praat [10] để xác định các đỉnh tiếng nói ứng với các
trong trường hợp tốt nhất, dữ liệu ADPCM sẽ giảm bán âm tiết và lưu vào CSDL.
xuống còn ¼ (phải dùng 2 bit cho mỗi vi sai) so với dữ
liệu PCM gốc. Hai nửa cửa sổ Hanning phân tích tương ứng là
Ah1(n-t1+P1) và Ah2(n-t2+P1):
Thông thường trên PC, các nhà nghiên cứu sẽ lưu n n
sẵn các đoạn âm thanh dạng PCM. Chúng ta hoàn toàn Ah1 (n) 0.5 0.5 cos( ), n 0 Ah2 (n) 0.5 0.5 cos( ), n 0
P1 P2
có thể lưu tín hiệu các đoạn âm thanh ở dạng ADPCM.
Trước khi sinh tiếng nói, ta phải thêm một thao tác
chuyển đổi từ ADPCM sang PCM. Tuy nhiên, bản chất
của bộ giải mã là một bộ cộng tích lũy nên chi phí tính P1 = (N1 - 1)/2 P2 = (N2 - 1)/2
toán là không nhiều.
(2)
Trong bài báo này, tôi đã chuyển đổi lưu trữ các
đoạn tín hiệu của các bán âm từ dạng PCM 16bit về
dạng ADPCM 4bit. Như vậy, kích thước dữ liệu giảm đi Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản
bốn lần. Khi này, trong CSDL sẽ lưu dữ liệu âm thô tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ
dạng ADPCM. Khi tổng hợp, sau khi lấy dữ liệu tương tương ứng.
ứng với bán âm tiết, hệ tổng hợp thực hiện việc giải mã Hai nửa cửa sổ Hanning tổng hợp tương ứng là
để thu được tín hiệu dạng PCM. Sh1(n-t1+P) và Sh2(n-t2), có độ rộng gấp đôi giá trị P:
B. Tối ưu tính toán thuật toán ghép nối tín hiệu Sh1 (n) 0.5 0.5 cos(
n
), P n 2P Sh2 (n) 0.5 0.5 cos(
n
),0 n P
P
Trước khi ghép nối ta cần thực hiện hai thao tác: P
thay đổi cao độ tần số cơ bản với PSOLA [8] và làm
trơn biên ghép nối. PSOLA có sử dụng thao tác cửa sổ P = 0.5 (P1 + P2)
hóa còn làm trơn sử dụng các đỉnh tiếng nói ở đầu và
cuối của các đoạn âm thanh.
(3)
Giả sử hai bán âm tiết là x1(n) và x2(n) được phân
đoạn đồng bộ cao độ tần số cơ bản với tín hiệu x2(n) bắt Biểu thức của tín hiệu tổng hợp như sau:
đầu từ điểm cuối của x1(n). Hai nửa cửa sổ Hanning
phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1): x1 (n) Ah1 (n t1 P) x2 (n P) Ah2 (n t 2 )
, t1 n t1 P
n n Sh1 (n t1 P) Sh2 (n t 2 )
Ah1 (n) 0.5 0.5 cos( ), n 0 Ah2 (n) 0.5 0.5 cos( ), n 0
P1 P2 x1 (n),0 n t1
x2 (n), t1 P n
P1 = (N1 - 1)/2 P2 = (N2 - 1)/2
(4)
(1) Thao tác cửa sổ tuy chỉ tính toán với một công thức
đơn giản nhưng chi phí để tính hàm cos cũng không nhỏ
Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản trên hệ thống có tài nguyên hạn chế. Để giải quyết vấn
tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ đề này, chúng ta có thể lưu sẵn giá trị của hàm cửa sổ.
tương ứng. t1 là điểm đánh dấu cao độ tần số cơ bản sát Chúng ta biết rằng mỗi frame tiếng nói có độ dài lf từ
cuối cùng của x1(n) với đoạn hữu thanh hoặc cách điểm
ISBN: 978-604-67-0349-5 435
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
10ms – 30ms để đảm bảo giả thiết tuần hoàn. Số mẫu N số nguyên. Điều này làm cho việc tính toán thuận lợi và
của mỗi frame tính theo công thức: tốc độ nhanh hơn rất nhiều. Nếu như phương pháp dấu
phảy động rất phù hợp với các chương trình chạy trên
lf * fs PC thì với các hệ thống tài nguyên hạn chế, phương
N
1000 (5) pháp biểu diễn với dấu phảy tĩnh lại cho thấy sự hợp lý
hơn.
Trong trường hợp của tôi, tần số lấy mẫu fs là 11
kHz, mỗi frame có độ dài lf là 20ms. Khi này, có thể V. THỬ NGHIỆM
tính được N bằng 220 và chúng ta có thể dễ dàng lưu lại
220 giá trị của hàm cửa sổ w(n). A. Xây dựng hệ tổng hợp VnPDA trên thiết bị di động
Hình 5 minh họa màn hình giao diện thiết kế và mô
Các giá trị thực được biểu diễn dưới dạng số dấu
phỏng với Emulator. Trong hệ tổng hợp thử nghiệm
chấm tĩnh và các phép toán liên quan thao tác trên số
này, bài báo không áp dụng giải pháp tối ưu cực tiểu
dấu chấm tĩnh.
kích thước lưu trữ các đoạn tín hiệu thô các bán âm tiết.
C. Biểu diễn số dấu chấm tĩnh VnPDA chỉ áp dụng giải pháp nén tín hiệu dạng
Trong C có hai kiểu float (4 byte) và double (8 byte) ADPCM với việc lưu tất cả các thể hiện thanh điệu cho
để biểu diễn số thực. Một câu hỏi đặt ra là liệu có thể mỗi vần. Điều này nghĩa là sẽ vẫn có khoảng 822 bán
biểu diễn số thực với ít hơn 4 byte được không? Câu trả âm tiết được lưu. Với thiết kế và xây dựng như trên, hệ
lời là có và phương pháp biểu diễn dấu chấm tĩnh có thể tổng hợp thử nghiệm VnPDA đã có thể sử dụng trên
giải quyết vấn đề này. máy Pocket PC chạy Windows Mobile.
Một số thập phân x với a bit cho phần nguyên, b bit
cho phần lẻ. Trong đó, giá trị trong a bit phần nguyên là
p, giá trị trong b bit phần lẻ là q. Khi này, ta có:
q
x=p+ , với 0
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
BẢNG 2. CÁC ÂM TIẾT, TỪ, CỤM TỪ, CÂU SỬ DỤNG CHO luôn là 100 thì khảo sát cho kết quả trung bình trên số
KHẢO SÁT người như trong bảng 4. Với kết quả này, chúng ta có
thể thấy rằng chất lượng giọng tổng hợp của hệ tổng
hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở
STT Nội dung
là VnVoice.
1 Tôi
BẢNG 3. THỐNG KÊ CHẤT LƯỢNG GIỌNG
TỔNG HỢP.
2 Tôi yêu em
Phân loại Số lượng VnVoice VnPDA VnSpeech
3 Tôi yêu em đến nay chừng có thể
Trên 60 tuổi 5 người 100 95 10
4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi
Trên 40 tuổi, 5 người 100 97 25
dưới 60 tuổi
5 Học
Trên 30 tuổi, 5 người 100 97 30
6 Tiếng Việt dưới 40 tuổi
7 Tôi đang học tiếng Việt Trên 20 tuổi, 6 người 100 97 30
dưới 30 tuổi
8 Hôm qua
Trên 10 tuổi, 6 người 100 98 30
dưới 20 tuổi
9 Hôm qua em tới trường
Người mù 3 người 100 100 35
10 Sao có thể cùng nhau vượt qua gian khổ
B. Xây dựng module phần mềm nhúng phát tiếng nói
11 Sao khó bên nhau chia ngọt xẻ bùi trên PSoC
Trong giao tiếp bằng tiếng nói giữa người và thiết bị
với ngữ cảnh giao tiếp hạn chế, thiết bị ngoài khả năng
12 Tập đọc
nhận dạng khẩu lệnh còn phải phát tiếng nói một số câu
được quy định sẵn. Trong nghiên cứu này, chúng tôi
13 Sao anh không về chơi thôn vĩ thiết kế và xây dựng module phần mềm nhúng có khả
năng phát đoạn tiếng nói được quy định trước, lưu sẵn
14 Hoàng Hoa Thám
trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa
trên mạch PSoC 050 (hình 10) của hãng Cypress [11].
Yêu cầu cần một DAC cấu hình trên sơ đồ khối (hình
15 Đội cấn 10) và một loa cấu hình vào chân tín hiệu trên mạch
PSoC 050.
16 Bưởi
17 Hai Bà Trưng
18 Nguyễn Trường Tộ
19 Phạm Văn Đồng
20 Nguyễn Chí Thanh Hình 10: Sơ đồ thiết kế module sinh tiếng nói.
Khảo sát được thực hiện với 30 người ở những trình
độ khác nhau. Điểm chất lượng sẽ được tính theo thang
100. Giả sử coi chất lượng giọng tổng hợp của VnVoice
ISBN: 978-604-67-0349-5 437
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
CSDL dạng nén ADPCM thay vì PCM. Trong giai đoạn
sinh tiếng nói, bán âm được lấy trong CSDL sẽ được
giải nén để thu được tín hiệu PCM và thực hiện việc
ghép nối với sự tối ưu về mặt tính toán để thu được
tiếng nói đầu ra. Kết quả thử nghiệm cho thấy hệ tổng
hợp mới chạy tốt trên thiết bị PDA và chất lượng tiếng
nói tổng hợp suy giảm không đáng kể so với hệ tổng
hợp gốc VnVoice trên PC. Ngoài ra, kết quả thử nghiệm
đã xây dựng module sinh tiếng nói lưu sẵn trên bo mạch
PSoC.
Trong nghiên cứu tiếp theo, chúng tôi dự kiến sẽ xây
dựng bộ tổng hợp trên các vi điều khiển có bộ nhớ và
khả năng tính toán yếu hơn như PSoC và tiến hành tối
ưu tính toán cho giai đoạn phân tích văn bản.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao
chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm
VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội.
[2] Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng
hợp tín hiệu âm tần, Luận án Tiến sĩ, Học viện Công nghệ Bưu
chính Viễn thông.
Hình 10: Bo mạch PSoC 050.
[3] http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html
Module được nhúng trong hệ thống hội thoại giữa [4] D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and
người và robot hút bụi. Một số câu tiếng nói lưu sẵn như CostelIlas (2004), An Optimized TTS System Implementation
Using a Motorola Starcore C140-Based Processor, Proceedings
sau: of the International Conference on Acoustics, Speech, and
Signal Processing ICASSP 2004.
BẢNG 3. CÁC CÂU NHÚNG TRÊN ROBOT HÚT [5] P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential
BỤI. Pulse Coding Modulation (ADPCM) on the TMS320C54x DSP,
Texas Instrument.
[6] S. Dey, Monu Kedia, Anupam Basu (2007), Architectural
ID Nội dung Giải thích Optimizations for Text to Speech Synthesis in Embedded
Systems, Proceedings of the Asia and South Pacific Design
Automation Conference (ASP-DAC '07) 2007.
1 Robot xin lắng nghe Sau khi robot khởi động xong và sẵn [7] T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech
yêu cầu sàng đợi lệnh Synthesis based on an MBE Re-Synthesis of the Segments
Database", Speech Communication, Elsevier Publisher,
November, vol. 13, n°3-4.
2 Xin mời đọc lệnh Robot trong trạng thái chờ quá lâu
tiếp theo [8] J. Patton (2007), Pitch Synchronous Overlap-Add, ELEC 484
Project, 2007.
[9] H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd
VI. KẾT LUẬN Schneider (2002), Real-Time Speech Synthesis on An Ultra Low-
Resource, Programable DSP System, Proceedings of the
Trong nghiên cứu này, chúng tôi đã đề xuất giải International Conference on Acoustics, Speech, and Signal
pháp tối ưu lưu trữ và tính toán để xây dựng hệ tổng Processing ICASSP 2002.
hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên [10] http://www.fon.hum.uva.nl/praat/
hạn chế. Trong đó, các bán âm tiết được lưu trong [11] http://www.cypress.com/?rID=51577
ISBN: 978-604-67-0349-5 438
nguon tai.lieu . vn