Xem mẫu

 1. Bài 4: Các hệ thống chuyển đổi văn bản thành giọng nói Các hệ thống chuyển đổi văn bản thành giọng nói có thể được xem như là hệ thống mã hóa tiếng nói cho phép lựa chọn kiểu ể cách nói, tốc độ, cường độ và các hiệu ứng
 2. Các thành phần trong hệ thống TTS Thành phần phân tích văn bản: – Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, phân tích cấu trúc ngôn ngữ – Chuyển đổi các ký hiệu sang dạng chuẩn. – Chuyển đổi các số sang dạng chữ tương ứng – Phân tích khoảng trống, dấu chấm câu để xác định cấu trúc ngôn ngữ ị g g Thành phần phân tích ngữ âm: – Chuyển đổi các từ đã chuẩn hóa sang các âm vị y g ị tương ứng (với thông tin như trọng âm, thời gian phát âm)
 3. Các quá trình trong thành p q g phần phân tích văn bản Xác định cấu trúc tài liệu: – Cung cấp ngữ cảnh phục vụ cho các quá trình thực hiện sau này – Ngắt câu, phân đoạn văn bản Chuẩn hóa văn bản: – Chuyển đổi ký hiệu ở dạng dạng khác nhau về dạng chuẩn Phân tí h ô Phâ tích ngôn ngữ: ữ – Phân tích đặc điểm cú pháp, ngữ nghĩa của câu từ để có thể chọn cách phát âm thích hợp
 4. Các quá trình trong thành p q g phần phân tích ngữ âm Phân biệt từ có cách viết giống nhau nhưng khác âm Phân tích từ để xác định cách phát âm thích hợp Chuyển đổi ký tự sang âm thanh và xây dựng từ điển phát âm
 5. Các quá trình được thực hiện trước có thể sinh ra nhiều kết quả và chuyển cho quá trình sau với hy vọng rằng quá trình sau có ằ thể xác định kết quả đúng đắn khi có nhiều thông tin hơn – Ví dụ: dấu chấm câu có thể được dùng sau một từ viết tắt hoặc dùng để kết thúc câu
 6. Một vài ví dụ về trường hợp nhầm lẫn trong ộ ụ g ợp g chuẩn hóa văn bản
 7. Các luồng dữ liệu Hầu hết các hệ thống TTS cung cấp tập hợp các thẻ đánh dấu để cung cấp thêm thông tin cho việc đọc văn bản
 8. W (Words): cấu trúc từ Σ: cấu trúc âm tiết C (Controls): cấu trúc âm vị S (Sy ta /Se a t c) cú p áp, ngữ nghĩa (Syntax/Semantic): pháp, gữ g a – NP (Noun Phrase) – VP (Verb Phrase) – S (Sentence)
 9. W Σ, C: cấu trúc âm tiết và âm vị được sinh ra từ cấu trúc từ W bằng từ vựng và các quy tắc ắ W S: cấu trúc từ được dùng để xác định cú pháp và ngữ nghĩa. Ví dụ như danh từ ú há à ữ hĩ d h d h ừ (NP), động từ (VP), câu (S) S P cú pháp, ngữ nghĩa đượ dù để P: ú há ữ hĩ được dùng xác định âm vị sử dụng trong phát âm.
 10. Xác định cấu trúc tài liệu Văn bản thô Trang web g Tài liệu XML Email a
 11. Thuật toán ngắt câu
 12. Chuẩn hóa văn bản Văn bản thường bao gồm các từ viết tắt như FDA cho từ “Food and Drug Administration” hay WTO cho từ World Trade Organization Tài liệu kỹ thuật có thể bao gồm các biểu liệ h ậ ó hể b ồ á biể thức toán học, đồ thị, bảng biểu Nội dung email có thể có các biểu tượ d il ó ó á biể tượng cảm xúc
 13. Chuẩn hóa văn bản Chuẩn hóa văn bản là quá trình đưa về biểu diễn đồng nhất cho các từ, các số, dấu ngắt câu, các ký hiệu Ví dụ: “The 7% Solution” được đọc là THE SEVEN PERCENT SOLUTION Sau khi chuẩn hóa, nó nên được đánh dấu bằng thẻ í d bằ thẻ, ví dụ: The 7% Solution
 14. Ví dụ: “at 8 am I …” Có thể được chuyển thành: ợ y At eight am I … At e g t a I … t u be eight / u be am
 15. Thuật toán mở rộng các từ viết tắt Bước 1: Nếu từ w không có trong bảng từ viết tắt dạng rút gọn chuyển sang bước 3 Bước 2 B ớ 2: Mở rộng từ viết tắt d ộ ừ iế ắ dạng rút gọn: ú – Nếu từ viết tắt tương ứng được tìm thấy trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng – Đọc từ tiếp theo và chuyển sang bước 1
 16. Bước 3: Mở rộng từ viết tắt dạng ký tự đại diện – Nếu từ w đã có trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng – Nếu không thì đọc từ w theo dạng từng ký tự – Đọc từ tiếp theo và sang bước 1
 17. Chuẩn hóa văn bản Các từ viết tắt bởi ký tự đại diện Pronounced as a word – NATO North Atl ti Treaty Organization NATO: th tlantic t i ti – scuba: self-contained underwater breathing apparatus elf- Pronounced as the names of letters – DNA: deoxyribonucleic acid eoxyribon – LED: light-emitting diode ight- Pronounced as the names of letters but with a shortcut – IEEE: Institute of Electrical and Electronics Engineers – W3C: World Wide Web Consortium Pseudo- Pseudo-acronyms – IOU: “I owe you” I you – CQR: “secure”, a brand of boat anchor 19
 18. Chuẩn hóa văn bản Number formats – Phone numbers 02-1234- 02-1234-5678 (02) 1234-5678 1234- +82- 1234- +82-2-1234-5678 – Dates 12/19/94 December nineteenth ninety four 04/27/1992 April twenty seventh nineteen ninety two May 27, 1995 May twenty seventh nineteen ninety five 1,994 one thousand nine hundred and ninety four 1994 nineteen ninety four 20