Xem mẫu

  1. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế Nguyễn Tu Trung Ngô Hoàng huy Viện CNTT, Viện Hàn Lâm KH&CN VN Viện CNTT, Viện Hàn Lâm KH&CN VN Hà Nội, Việt Nam Hà Nội, Việt Nam nttrung@ioit.ac.vn nhhuy@ioit.ac.vn Tóm tắt— Xử lý tiếng nói nói chung và tổng hợp tiếng những hệ thống có tài nguyên rất khiêm tốn như các loại nói nói riêng ở Việt Nam và trên thế giới đã đạt được chip với khả năng lưu trữ và tính toán rất thấp. những thành tựu rất đáng khích lệ. Khi mà nhu cầu giao tiếp trên các thiết bị di động và các hệ thống tài nguyên Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hạn chế tăng rất nhanh, các nhà nghiên cứu trên thế giới hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đang tiếp tục tối ưu các thành phần để xây dựng hệ cũng đã xuất hiện trong một số năm gần đây. Các đề tài xử lý tiếng nói trên các hệ thống dạng này. Do đặc thù của nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các thống di động cầm tay và hệ thống nhúng đã và đang hệ thống này cũng cần sử dung lượng bộ nhớ và chí phí triển khai đã minh chứng cho nhu cầu này. tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ tài nguyên rất khiêm tốn như các loại chip với khả năng thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và lưu trữ và tính toán rất thấp. Bài báo này trình bày một các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn các thiết bị di động và các hệ thống tài nguyên hạn chế. bản và chuyển văn bản về âm vị. Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng hợp tiếng nói theo Từ khóa— tổng hợp tiếng nói, tài nguyên hạn chế, phương pháp ghép nối sử dụng thuật toán cơ bản TD- ADPCM, PSOLA PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4 MHz. Dey và cộng sự [6] đã đưa ra kiến trúc TTS I. GIỚI THIỆU nhúng theo phương pháp tổng hợp ghép nối cho chip Xử lý tiếng nói là sự nghiên cứu tiếng nói của con ARM. Trong nghiên cứu này, chúng tôi trình bày một người dưới dạng tín hiệu và các phương pháp xử lý tín tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có trên các thiết bị di động và các hệ thống tài nguyên hạn thể được coi là giao của xử lý tín hiệu số và xử lý ngôn chế. ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được Các phần còn lại của bài báo này được trình bày như nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục sau. Phần 2 trình bày khái quát về hệ tổng hợp tiếng nói năm trở lại đây đã có một số sản phẩm ra đời cả về tổng dựa trên ghép nối. Phần 3 trình bày vấn đề tổng hợp hợp và nhận dạng tiếng nói. tiếng nói trên hệ thống có tài nguyên hạn chế. Giải pháp Khi mà xử lý tiếng nói trên máy tính đã đạt được tối ưu lưu trữ và tính toán cho hệ tổng hợp tiếng nói dựa những thành tựu rất khả quan, người ta đã nghĩ đến việc trên ghép nối trên hệ thống tài nguyên hạn chế. Thử nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ nghiệm và đánh giá được trình bày trong phần 5. Phần 6 thống có tài nguyên hạn chế để đáp ứng những mục là kết luận bài báo. đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên ISBN: 978-604-67-0349-5 432
  2. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) II. TỔNG HỢP TIẾNG NÓI DỰA TRÊN GHÉP NỐI Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản mô tả trong hình 1. Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói. Các kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo luật, tổng hợp ghép nối và tổng hợp dựa trên thống kê. Hình 1. Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản. Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế như là các đơn vị tổng hợp và ghép nối đơn vị cùng sinh ra tiếng nói. Dutoit [7] cho rằng tổng hợp tiếng nói bằng ghép nối là cách tiếp cận đơn giản nhất và hiệu quả nhất. Hơn nữa, các hệ thống tổng hợp hiện nay cũng chủ yếu theo phương pháp ghép nối đơn vị. Vì vậy, trong tổng hợp ghép nối, việc lựa chọn đơn vị là tiêu chuẩn Hình 2. Lưu đồ quá trình ghép nối [2]. sinh tiếng nói chất lượng cao. Các đơn vị tiếng nói được chọn sao cho cực tiểu các lỗi trong ghép nối như làm trơn biên độ giữa các đoạn tiếng nói. Thông thường, các III. TỔNG HỢP TIẾNG NÓI TRÊN HỆ THỐNG đơn vị tiếng nói được lưu trữ trong cơ sở dữ liệu lớn. CÓ TÀI NGUYÊN HẠN CHẾ Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ Các mô hình dùng trong tổng hợp ghép nối thường thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và dựa trên các công cụ xử lý tiếng nói và một số phương các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa pháp biểu diễn như tổng hợp LPC (Linear Predictive A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra Coding), Harmonic/Stochastic (H/S), cộng chồng đồng rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn bộ (PSOLA) và cộng chồng đồng bộ miền thời gian bản và chuyển văn bản về âm vị. Họ đã sử dụng tính (TD-PSOLA). toán chấm tĩnh cho mạng nơron dùng để chuyển đổi văn Sau giai đoạn sinh ngữ điệu văn bản, ta thu được bản sang âm vị. Toàn bộ dung lượng bộ nhớ được dùng danh sách các bán âm tiết có thứ tự (các phụ âm đầu và xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong phần vần) và các tham số ngữ điệu tương ứng. Ở giai hình 3. đoạn sinh tín hiệu (hình 2), hệ thống tiến hành duyệt các Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng bán âm tiết. Với mỗi bán âm, hệ thống tìm trong CSDL hợp tiếng nói theo phương pháp ghép nối sử dụng thuật đoạn tín hiệu âm thanh tương ứng. Khi này, kết hợp toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit, cùng các thông tin về ngữ điệu, hệ thống thực hiện việc tần số tối đa 4 MHz. Hệ thống gồm các mô đun liên kết thay đổi độ dài và cao độ tần số cơ bản của các bán âm với host, giải nén CSDL đơn vị âm tiếng nói và xử lý phù hợp với qui luật ngữ cảnh ngữ âm. Công việc này chấm tĩnh cộng chồng đồng bộ TD-PSOLA. Với tính được thực hiện bằng việc sử dụng thuật toán PSOLA. năng không có bộ chuẩn hóa văn bản và với nhân DSP Sau đó, hệ thống tiến hành làm trơn biên ghép nối các như vậy hệ thống có thể chạy tại mức 1.28MHz, tiêu thụ bán âm tiết. điện rất thấp. ISBN: 978-604-67-0349-5 433
  3. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) Hình 3: Kiến trúc hệ thống TTS được đơn giản [4]. Dey và cộng sự [6] đã đưa ra kiến trúc TTS nhúng (hình 4) theo phương pháp tổng hợp ghép nối cho chip ARM với đầy đủ các mô đun phân tích ngôn ngữ văn bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển ngôn điệu. Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và đang Hình 4: Lưu đồ quá trình sinh tiếng nói mới. triển khai đã minh chứng cho nhu cầu này. Theo lưu đồ trên, sau khi lấy dữ liệu âm thô dạng ADPCM của mỗi bán âm từ CSDL, hệ tổng hợp cần Như vây, chúng ta có thể thấy rằng để xây dựng thực hiện việc giải mã để nhận được tín hiệu dạng PCM. được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên Từ đây, tín hiệu PCM sẽ được thay đổi trường độ và cao hạn chế thì hệ này cần đảm bảo các yêu cầu sau: độ tần số cơ bản với thuật toán PSOLA đã được tối ưu. Sau đó, thủ tục làm trơn không cần tính toán các đỉnh  Kích thước lưu trữ nhỏ. (1) tiếng nói ứng với đoạn cuối bán âm trước và đoạn đầu  Tính toán đơn giản, không sử dụng các thao tác bán âm sau mà chỉ cần tải từ CSDL rồi thực hiện việc làm trơn. phức tạp. (2)  Chất lượng giọng tổng hợp vẫn đảm bảo nghe A. Nén tín hiệu tiếng của các bán âm tiết với ADPCM được. (3) Hiện nay, có rất nhiều phương pháp mã hóa khác nhau với những tỉ lệ nén tín hiệu rất tốt mã chất lượng IV. TỐI ƯU HOÁ LƯU TRỮ VÀ TÍNH TOÁN có thể không suy giảm nhiều. Có những phương pháp Dựa trên thuật toán sinh tiếng nói ghép nối trong trong quá trình nén và giải nén cần thực hiện các hàm hình 2, chúng tôi đề xuất sinh tiếng nói mới với lưu đồ toán học phức tạp với chi phí tính toán không hề nhỏ, như trong hình 4 với sự kết hợp của việc nén tín hiệu không phù hợp cho hệ thống tài nguyên hạn chế. Tuy các bán âm và tối ưu thuật toán ghép nối. nhiên, lại có những phương pháp tuy có tỉ lệ nén không hẳn tối ưu nhất nhưng bù lại chỉ tiêu tốn một lượng chi phí tính toán không lớn. Một trong những phương pháp đó là ADPCM (Adaptive Differential Pulse Code Modulation). Với bộ mã hóa, đầu vào PCM đươc chuyển đổi thành PCM thống nhất. Một tín hiệu lệch thu được bằng ISBN: 978-604-67-0349-5 434
  4. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) cách trừ một ước lượng của tín hiệu đầu vào từ chính tín cuối cùng một đoạn không đổi 16ms nếu là vô thanh, t2 hiệu đầu vào đó. Một bộ lượng tử hóa 31-, 15-, 7-, hoặc là điểm đánh dấu cao độ tần số cơ bản sát đầu tiên của 4-mức thích ứng được dùng để gán 5, 4, 3, hoặc 2 số nhị x2(n) với đoạn hữu thanh hoặc cách điểm đầu tiên một phân tương ứng để giá trị của tín hiệu lệch được truyền đoạn không đổi 16ms nếu là vô thanh. Điểm đánh dấu tới bộ giải mã. Một bộ lượng tử đảo ngược sinh ra tín cao độ tần số cơ bản chính là các đỉnh tiếng nói. Như hiệu lệch được lượng tử hóa từ 5, 4, 3 hoặc 2 số nhị vậy, chúng ta phải tìm được các đỉnh tiếng nói tại cuối phân này. Ước lượng tín hiệu được cộng vào tín hiệu bán âm tiết trước và đầu bán âm tiết sau. lệch được lượng tử hóa này để sinh ra phiên bản của tín hiệu đầu vào được tạo lại. Cả tín hiệu được tạo lại và tín Thao tác dò tìm đỉnh tiếng nói khá phức tạp phải hiệu lệch được lượng tử hóa được điều khiển bởi bộ dự dùng đến một thuật toán riêng để giải quyết. Như vậy, báo thích ứng, mà sinh ra ước lượng của tín hiệu đầu chi phí tính toán của thuật toán này cũng không nhỏ. vào, do đó hoàn thành vòng lặp phản hồi. Nếu như với mỗi đoạn tiếng nói của mỗi bán âm tiết được lưu trong CSDL, ta tìm trước các đỉnh tiếng nói và Như vậy, trong trường hợp xấu nhất, kích thước dữ cũng lưu vào CSDL thì chi phí tính toán khi sinh tiếng liệu ADPCM chỉ giảm xuống còn 2/3 (phải dùng 5 bit nói sẽ giảm đi rất nhiều. Tôi đã sử dụng phần mềm cho mỗi vi sai) so với dữ liệu PCM gốc (8 bit). Còn Praat [10] để xác định các đỉnh tiếng nói ứng với các trong trường hợp tốt nhất, dữ liệu ADPCM sẽ giảm bán âm tiết và lưu vào CSDL. xuống còn ¼ (phải dùng 2 bit cho mỗi vi sai) so với dữ liệu PCM gốc. Hai nửa cửa sổ Hanning phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1): Thông thường trên PC, các nhà nghiên cứu sẽ lưu n n sẵn các đoạn âm thanh dạng PCM. Chúng ta hoàn toàn Ah1 (n)  0.5  0.5 cos( ), n  0 Ah2 (n)  0.5  0.5 cos( ), n  0 P1 P2 có thể lưu tín hiệu các đoạn âm thanh ở dạng ADPCM. Trước khi sinh tiếng nói, ta phải thêm một thao tác chuyển đổi từ ADPCM sang PCM. Tuy nhiên, bản chất của bộ giải mã là một bộ cộng tích lũy nên chi phí tính P1 = (N1 - 1)/2 P2 = (N2 - 1)/2 toán là không nhiều. (2) Trong bài báo này, tôi đã chuyển đổi lưu trữ các đoạn tín hiệu của các bán âm từ dạng PCM 16bit về dạng ADPCM 4bit. Như vậy, kích thước dữ liệu giảm đi Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản bốn lần. Khi này, trong CSDL sẽ lưu dữ liệu âm thô tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ dạng ADPCM. Khi tổng hợp, sau khi lấy dữ liệu tương tương ứng. ứng với bán âm tiết, hệ tổng hợp thực hiện việc giải mã Hai nửa cửa sổ Hanning tổng hợp tương ứng là để thu được tín hiệu dạng PCM. Sh1(n-t1+P) và Sh2(n-t2), có độ rộng gấp đôi giá trị P: B. Tối ưu tính toán thuật toán ghép nối tín hiệu Sh1 (n)  0.5  0.5 cos( n ), P  n  2P Sh2 (n)  0.5  0.5 cos( n ),0  n  P P Trước khi ghép nối ta cần thực hiện hai thao tác: P thay đổi cao độ tần số cơ bản với PSOLA [8] và làm trơn biên ghép nối. PSOLA có sử dụng thao tác cửa sổ P = 0.5 (P1 + P2) hóa còn làm trơn sử dụng các đỉnh tiếng nói ở đầu và cuối của các đoạn âm thanh. (3) Giả sử hai bán âm tiết là x1(n) và x2(n) được phân đoạn đồng bộ cao độ tần số cơ bản với tín hiệu x2(n) bắt Biểu thức của tín hiệu tổng hợp như sau: đầu từ điểm cuối của x1(n). Hai nửa cửa sổ Hanning phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1):  x1 (n) Ah1 (n  t1  P)  x2 (n  P) Ah2 (n  t 2 ) , t1  n  t1  P n n Sh1 (n  t1  P)  Sh2 (n  t 2 ) Ah1 (n)  0.5  0.5 cos( ), n  0 Ah2 (n)  0.5  0.5 cos( ), n  0 P1 P2  x1 (n),0  n  t1  x2 (n), t1  P  n P1 = (N1 - 1)/2 P2 = (N2 - 1)/2 (4) (1) Thao tác cửa sổ tuy chỉ tính toán với một công thức đơn giản nhưng chi phí để tính hàm cos cũng không nhỏ Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản trên hệ thống có tài nguyên hạn chế. Để giải quyết vấn tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ đề này, chúng ta có thể lưu sẵn giá trị của hàm cửa sổ. tương ứng. t1 là điểm đánh dấu cao độ tần số cơ bản sát Chúng ta biết rằng mỗi frame tiếng nói có độ dài lf từ cuối cùng của x1(n) với đoạn hữu thanh hoặc cách điểm ISBN: 978-604-67-0349-5 435
  5. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 10ms – 30ms để đảm bảo giả thiết tuần hoàn. Số mẫu N số nguyên. Điều này làm cho việc tính toán thuận lợi và của mỗi frame tính theo công thức: tốc độ nhanh hơn rất nhiều. Nếu như phương pháp dấu phảy động rất phù hợp với các chương trình chạy trên lf * fs PC thì với các hệ thống tài nguyên hạn chế, phương N 1000 (5) pháp biểu diễn với dấu phảy tĩnh lại cho thấy sự hợp lý hơn. Trong trường hợp của tôi, tần số lấy mẫu fs là 11 kHz, mỗi frame có độ dài lf là 20ms. Khi này, có thể V. THỬ NGHIỆM tính được N bằng 220 và chúng ta có thể dễ dàng lưu lại 220 giá trị của hàm cửa sổ w(n). A. Xây dựng hệ tổng hợp VnPDA trên thiết bị di động Hình 5 minh họa màn hình giao diện thiết kế và mô Các giá trị thực được biểu diễn dưới dạng số dấu phỏng với Emulator. Trong hệ tổng hợp thử nghiệm chấm tĩnh và các phép toán liên quan thao tác trên số này, bài báo không áp dụng giải pháp tối ưu cực tiểu dấu chấm tĩnh. kích thước lưu trữ các đoạn tín hiệu thô các bán âm tiết. C. Biểu diễn số dấu chấm tĩnh VnPDA chỉ áp dụng giải pháp nén tín hiệu dạng Trong C có hai kiểu float (4 byte) và double (8 byte) ADPCM với việc lưu tất cả các thể hiện thanh điệu cho để biểu diễn số thực. Một câu hỏi đặt ra là liệu có thể mỗi vần. Điều này nghĩa là sẽ vẫn có khoảng 822 bán biểu diễn số thực với ít hơn 4 byte được không? Câu trả âm tiết được lưu. Với thiết kế và xây dựng như trên, hệ lời là có và phương pháp biểu diễn dấu chấm tĩnh có thể tổng hợp thử nghiệm VnPDA đã có thể sử dụng trên giải quyết vấn đề này. máy Pocket PC chạy Windows Mobile. Một số thập phân x với a bit cho phần nguyên, b bit cho phần lẻ. Trong đó, giá trị trong a bit phần nguyên là p, giá trị trong b bit phần lẻ là q. Khi này, ta có: q x=p+ , với 0
  6. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) BẢNG 2. CÁC ÂM TIẾT, TỪ, CỤM TỪ, CÂU SỬ DỤNG CHO luôn là 100 thì khảo sát cho kết quả trung bình trên số KHẢO SÁT người như trong bảng 4. Với kết quả này, chúng ta có thể thấy rằng chất lượng giọng tổng hợp của hệ tổng hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở STT Nội dung là VnVoice. 1 Tôi BẢNG 3. THỐNG KÊ CHẤT LƯỢNG GIỌNG TỔNG HỢP. 2 Tôi yêu em Phân loại Số lượng VnVoice VnPDA VnSpeech 3 Tôi yêu em đến nay chừng có thể Trên 60 tuổi 5 người 100 95 10 4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi Trên 40 tuổi, 5 người 100 97 25 dưới 60 tuổi 5 Học Trên 30 tuổi, 5 người 100 97 30 6 Tiếng Việt dưới 40 tuổi 7 Tôi đang học tiếng Việt Trên 20 tuổi, 6 người 100 97 30 dưới 30 tuổi 8 Hôm qua Trên 10 tuổi, 6 người 100 98 30 dưới 20 tuổi 9 Hôm qua em tới trường Người mù 3 người 100 100 35 10 Sao có thể cùng nhau vượt qua gian khổ B. Xây dựng module phần mềm nhúng phát tiếng nói 11 Sao khó bên nhau chia ngọt xẻ bùi trên PSoC Trong giao tiếp bằng tiếng nói giữa người và thiết bị với ngữ cảnh giao tiếp hạn chế, thiết bị ngoài khả năng 12 Tập đọc nhận dạng khẩu lệnh còn phải phát tiếng nói một số câu được quy định sẵn. Trong nghiên cứu này, chúng tôi 13 Sao anh không về chơi thôn vĩ thiết kế và xây dựng module phần mềm nhúng có khả năng phát đoạn tiếng nói được quy định trước, lưu sẵn 14 Hoàng Hoa Thám trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa trên mạch PSoC 050 (hình 10) của hãng Cypress [11]. Yêu cầu cần một DAC cấu hình trên sơ đồ khối (hình 15 Đội cấn 10) và một loa cấu hình vào chân tín hiệu trên mạch PSoC 050. 16 Bưởi 17 Hai Bà Trưng 18 Nguyễn Trường Tộ 19 Phạm Văn Đồng 20 Nguyễn Chí Thanh Hình 10: Sơ đồ thiết kế module sinh tiếng nói. Khảo sát được thực hiện với 30 người ở những trình độ khác nhau. Điểm chất lượng sẽ được tính theo thang 100. Giả sử coi chất lượng giọng tổng hợp của VnVoice ISBN: 978-604-67-0349-5 437
  7. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) CSDL dạng nén ADPCM thay vì PCM. Trong giai đoạn sinh tiếng nói, bán âm được lấy trong CSDL sẽ được giải nén để thu được tín hiệu PCM và thực hiện việc ghép nối với sự tối ưu về mặt tính toán để thu được tiếng nói đầu ra. Kết quả thử nghiệm cho thấy hệ tổng hợp mới chạy tốt trên thiết bị PDA và chất lượng tiếng nói tổng hợp suy giảm không đáng kể so với hệ tổng hợp gốc VnVoice trên PC. Ngoài ra, kết quả thử nghiệm đã xây dựng module sinh tiếng nói lưu sẵn trên bo mạch PSoC. Trong nghiên cứu tiếp theo, chúng tôi dự kiến sẽ xây dựng bộ tổng hợp trên các vi điều khiển có bộ nhớ và khả năng tính toán yếu hơn như PSoC và tiến hành tối ưu tính toán cho giai đoạn phân tích văn bản. TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. [2] Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần, Luận án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông. Hình 10: Bo mạch PSoC 050. [3] http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html Module được nhúng trong hệ thống hội thoại giữa [4] D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and người và robot hút bụi. Một số câu tiếng nói lưu sẵn như CostelIlas (2004), An Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor, Proceedings sau: of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2004. BẢNG 3. CÁC CÂU NHÚNG TRÊN ROBOT HÚT [5] P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential BỤI. Pulse Coding Modulation (ADPCM) on the TMS320C54x DSP, Texas Instrument. [6] S. Dey, Monu Kedia, Anupam Basu (2007), Architectural ID Nội dung Giải thích Optimizations for Text to Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific Design Automation Conference (ASP-DAC '07) 2007. 1 Robot xin lắng nghe Sau khi robot khởi động xong và sẵn [7] T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech yêu cầu sàng đợi lệnh Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier Publisher, November, vol. 13, n°3-4. 2 Xin mời đọc lệnh Robot trong trạng thái chờ quá lâu tiếp theo [8] J. Patton (2007), Pitch Synchronous Overlap-Add, ELEC 484 Project, 2007. [9] H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd VI. KẾT LUẬN Schneider (2002), Real-Time Speech Synthesis on An Ultra Low- Resource, Programable DSP System, Proceedings of the Trong nghiên cứu này, chúng tôi đã đề xuất giải International Conference on Acoustics, Speech, and Signal pháp tối ưu lưu trữ và tính toán để xây dựng hệ tổng Processing ICASSP 2002. hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên [10] http://www.fon.hum.uva.nl/praat/ hạn chế. Trong đó, các bán âm tiết được lưu trong [11] http://www.cypress.com/?rID=51577 ISBN: 978-604-67-0349-5 438
nguon tai.lieu . vn