Xem mẫu

  1. Tiểu luận Tóm lược lịch sử phát triển nhận dạng tiếng nói
  2. TÀI LIỆU THAM KHẢO 2 MỤC LỤC LỜI MỞ ĐẦU ................................................................................................................. 2 PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI ............ 3 I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG ....................... 3 II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN ..... 5 III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG NHỮNG NĂM 1970 ................ 7 IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 .................... 11 V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP ..................................... 18 VI. TÓM TẮT .......................................................................................................... 20 PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG ....................... 24 I. NGUYÊN TẮC PHÂN NHỎ ............................................................................... 24 II. NGUYÊN TẮC PHẨM CHẤT CỤC BỘ ........................................................... 24 III. NGUYÊN TẮC KẾT HỢP................................................................................. 24 IV. NGUYÊN TẮC TÁCH KHỎI ........................................................................... 24 V. NGUYÊN TẮC LINH ĐỘNG ............................................................................ 24 VI. NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” ........................................... 25 VII. NGUYÊN TẮC QUAN HỆ PHẢN HỒI ......................................................... 25 VIII. NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CÓ ÍCH ........................................ 25 TÀI LIỆU THAM KHẢO ............................................................................................ 26
  3. LỜI MỞ ĐẦU 3 LỜI MỞ ĐẦU Lời nói là phương tiện chính của giao tiếp giữa con người. Vì những lý do khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua. Từ những năm 1930, khi Homer Dudley của phòng thí nghiệm Bell đề xuất một mô hình hệ thống cho phân tích và tổng hợp tiếng nói, vấn đề nhận dạng tiếng nói tự động đã tiến triển liên tục, từ một máy đơn giản có khả năng phản ứng với một tập nhỏ các âm thanh đến một hệ thống phức tạp có khả năng phản ứng với ngôn ngữ nói tự nhiên. Dựa trên những bước tiến trong mô hình thống kê tiếng nói trong những năm 1980, những hệ thống nhận dạng tiếng nói tự động ngày nay cung cấp ứng dụng rộng rãi trong những nhiệm vụ yêu cầu giao tiếp người – máy như hệ thống xử lý cuộc gọi tự động trong các mạng điện thoại và những hệ thống truy xuất thông tin như cung cấp thông tin cập nhật về du lịch, giá cả hàng hóa, chứng khoán, thông tin thời tiết… Bài tiểu luận này tóm tắt những bước tiến nổi bật trong nghiên cứu và phát triển nhận dạng tiếng nói tự động trong những thập kỷ gần đây và các nguyên tắc sáng tạo đã được sử dụng trong việc tạo ra các hệ thống nhận dạng tiếng nói.
  4. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 4 PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG NÓI Nỗ lực để phát triển các máy móc bắt chước khả năng giao tiếp bằng tiếng nói của con người có vẻ như bắt đầu vào nửa cuối thế kỷ 18. Năm 1773, nhà khoa học người Nga, Christian Kratzenstein, một giáo sư sinh lý học ở Copenhagen đã thành công trong việc tạo ra các nguyên âm bằng cách sử dụng các ống cộng hưởng kết nối với các ống organ. Sau đó, Wolfgang von Kempelen ở Vienna xây dựng một cỗ máy tạo ra âm thanh tiếng nói bằng cơ khí (1791) và giữa thế kỷ 18 Charles Wheatstone xây dựng một phiên bản cỗ máy của von Kempelen bằng cách sử dụng các bộ cộng hưởng làm bằng da, cấu hình của nó có thể được thay đổi hoặc kiểm soát bằng tay để tạo ra các âm thanh gần giống với tiếng nói như thể hiện trong hình 1. Hình 1. Phiên bản cỗ máy Kempelen của Wheatstone Trong nửa đầu của thế kỉ 20, Fletcher và những người khác tại phòng thí nghiệm Bell đã đưa ra các dẫn chứng bằng tài liệu về mối quan hệ giữa phổ tiếng nói (sự phân bố cường độ của âm thanh tiếng nói thông qua tần số) và các
  5. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 5 đặc tính âm thanh của nó cũng như tính dễ hiểu của nó đối với người nghe. Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng rất nhiều bởi các nghiên cứu của Fletcher, phát triển một cỗ máy tổng hợp tiếng nói gọi là VODER (Voice Operating Demonstrator), là phiên bản điện tử (với điều khiển bằng cơ khí) của cỗ máy Wheatstone. Hình 2 cho thấy một sơ đồ khối của VODER bao gồm một wrist bar để điều khiển tín hiệu, và bàn chân đạp để kiểm soát tần số dao động (cao độ của tiếng nói tổng hợp). Các tín hiệu truyền động được thông qua thông qua mười bộ lọc bandpass với cấp độ đầu ra được điều khiển bằng tay. 10 bộ lọc bandpass này được sử dụng để làm thay đổi sự phân bố năng lượng của tín hiệu nguồn trên một phạm vi tần số, từ đó xác định các đặc tính của âm thanh tiếng nói tại loa. Vì vậy, để tổng hợp một câu, người điều khiển VODER phải tìm hiểu làm thế nào để kiểm soát và điều khiển VODER để tạo ra câu nói. VODER được giới thiệu tại hội chợ thế giới ở New York City vào năm 1939 và coi là một cột mốc quan trọng trong sự tiến triển của máy nói. Hình 2. Sơ đồ khối của cỗ máy VODER Những người tiên phong về tiếng nói như Harvery Fletcher và Homer Dudley đã thiết lập một cách vững chắc tầm quan trọng của phổ tín hiệu để xác định chắc chắn các tính chất ngữ âm của tiếng nói. Sau chuẩn được thiết lập bởi hai nhà khoa học xuất sắc, hầu hết các hệ thống hiện đại và các thuật toán nhận
  6. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 6 dạng tiếng nói được dựa trên khái niệm về đo (time-varying) phổ cường độ tiếng nói (hoặc biến thể của nó là cepstrum), một phần do thực tế là đo phổ cường độ tiếng nói từ một tín hiệu là tương đối dễ dàng để thực hiện với kỹ thuật xử lý tín hiệu kỹ thuật số hiện đại. II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN Những nỗ lực sớm để thiết kế hệ thống nhận dạng tiếng nói tự động chủ yếu được dẫn đường bởi lý thuyết ngữ âm học, trong đó mô tả các yếu tố ngữ âm của tiếng nói (những âm thanh cơ bản của ngôn ngữ) và cố gắng giải thích làm thế nào chúng được nhận ra trong một lời nói. Những yếu tố này bao gồm các âm vị, vị trí tương ứng và cách thức phát âm được sử dụng để tạo ra âm thanh trong các ngữ cảnh ngữ âm khác nhau. Ví dụ, để tạo ra một nguyên âm ổn định, các dây thanh âm rung (để kích thích thanh quản), và không khí truyền qua thanh quản kết quả là âm thanh được cộng hưởng một cách tự nhiên giống như những gì xảy ra trong một ống âm thanh. Các chế độ cộng hưởng tự nhiên này được gọi là các thành tố hay là các tần số thành tố, được biểu hiện như các vùng chính tập trung năng lượng trong phổ cường độ tiếng nói. Năm 1952, Davis, Biddulph, và Balashek của phòng thí nghiệm Bell đã xây dựng một hệ thống nhận biết các chữ số cô lập do một người nói, bằng cách sử dụng các tần số thành tố đo (ước tính) vùng nguyên âm của mỗi chữ số. Hình 3 cho thấy biểu đồ đường biểu diễn thành tố cùng với phạm vi của các tần số thành tố thứ nhất và thứ hai cho mỗi chữ số từ 1 đến 9 và 0. Những đường biểu diễn này đóng vai trò là "mô hình tham chiếu" để xác định danh tính của một con số chưa biết.
  7. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 7 Hình 3. Biểu đồ biểu diễn thành tố 1 và 2 của các chữ số Trong thập niên 1950, Olson và Belar của phòng thí nghiệm RCA xây dựng một hệ thống nhận dạng 10 âm tiết do một người nói [10]. Và tại phòng thí nghiệm MIT Lincoln, anh em nhà Forgie đã xây dựng bộ nhận dạng 10 nguyên âm độc lập với người nói. Trong thập niên 1960, một số phòng thí nghiệm ở Nhật đã chứng minh khả năng xây dựng phần cứng với mục đích đặc biệt để thực hiện một nhiệm vụ nhận dạng tiếng nói. Đáng chú ý nhất là nhận diện nguyên âm của Suzuki và Nakata ở phòng nghiên cứu vô tuyến tại Tokyo, nhận diện âm vị của Sakai và Doshita tại Đại học Kyoto, và nhận diện chữ số của phòng thí nghiệm NEC. Nghiên cứu của Sakai và Doshita đánh dấu việc sử dụng lần đầu tiên của một phân đoạn (segmenter) tiếng nói để phân tích và nhận diện tiếng nói tại các phần khác nhau của một lời nói đầu vào. Ngược lại, nhận diện chữ số bị cô lập ngầm giả định rằng lời nói chứa một chữ số đầy đủ (và không có âm thanh tiếng nói khác xen vào) và do đó không cần một "segmenter" rõ ràng. Nghiên cứu của trường Đại học Kyoto có thể là coi là tiền thân của một hệ thống nhận dạng tiếng nói liên tục. Một hệ thống nhận dạng khác là Fry and Denes tại trường Đại học College ở Anh, đã xây dựng một bộ nhận diện âm vị để nhận ra 4 nguyên âm và 9 phụ âm. Bằng cách kết hợp thông tin thống kê về trình tự âm vị trong tiếng Anh, họ tăng độ chính xác nhận dạng âm vị tổng thể cho các từ bao gồm hai hoặc nhiều âm vị. Nghiên cứu này đánh dấu lần sử dụng đầu tiên cú pháp thống kê (ở cấp
  8. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 8 độ âm vị) trong nhận dạng tiếng nói tự động. Một thay thế cho việc sử dụng phân đoạn tiếng nói là khái niệm của việc áp dụng time scale không thống nhất cho việc sắp xếp các mẫu tiếng nói. Khái niệm này bắt đầu được chấp nhận trong thập niên 1960 thông qua nghiên cứu của Tom Martin tại phòng thí nghiệm RCA và Vintsyuk ở Liên Xô. Martin thừa nhận sự cần thiết để đối phó với thời gian không thống nhất trong các lời nói được lặp lại và đề nghị một loạt các giải pháp, bao gồm phát hiện điểm kết thúc của một lời nói, điều này nâng cao độ tin cậy của việc nhận diện. Vintsyuk đề xuất việc sử dụng lập trình động cho sự liên kết thời gian giữa hai lời nói để lấy được đánh giá đầy đủ về sự tương tự của chúng. Nghiên cứu của ông, mặc dù vẫn chưa được rõ ràng nhưng đã đi trước Sakoe và Chiba cũng như những người khác đã đề xuất những phương pháp chính thức hơn, thường được biết đến là dynamic time warping trong so sánh mẫu tiếng nói. Kể từ cuối những năm 1970, chủ yếu là sự công bố của Sakoe và Chiba, lập trình động, trong rất nhiều biến thể khác nhau (bao gồm thuật toán Viterbi), đã trở thành một kỹ thuật không thể thiếu trong nhận dạng tiếng nói tự động. III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1970 Trong cuối những năm 1960, Atal và Itakura độc lập xây dựng các khái niệm cơ bản của mã dự đoán trước tuyến tính (LPC). Nó đã đơn giản hóa rất nhiều việc đánh giá việc thanh quản phản ứng với các sóng tiếng nói. Vào giữa những năm 1970, những ý tưởng cơ bản của việc áp dụng công nghệ nhận dạng mẫu gốc để nhận dạng tiếng nói, dựa trên phương pháp LPC, đã được đề xuất bởi Itakura, Rabiner, Levinson và một số người khác. Cũng trong khoảng thời gian này, dựa trên sự thành công của mình trước đó về nghiên cứu lời nói, Tom Martin thành lập công ty thương mại về nhận dạng tiếng nói đầu tiên được gọi là Threshold Technology, Inc và phát triển sản phẩm nhận dạng tiếng nói tự động thực sự đầu tiên được gọi là hệ thống VIP- 100. Hệ thống này chỉ được sử dụng trong một vài ứng dụng đơn giản, chẳng hạn như bởi các hãng sản xuất tấm mặt TV (để kiểm soát chất lượng) và FedEx
  9. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 9 (cho việc sắp xếp gói hàng trên băng tải), nhưng tầm quan trọng của nó là ở cách nó ảnh hưởng đến Advanced Research Projects Agency (ARPA) của Bộ Quốc phòng Mỹ để tài trợ cho chương trình Speech Understanding Research (SUR) trong thời gian đầu những năm 1970. Trong số các hệ thống được xây dựng bởi các nhà thầu của chương trình ARPA là hệ thống “Harpy” của Đại học Carnegie Mellon. Nó có thể nhận dạng tiếng nói bằng cách sử dụng một bộ từ vựng 1.011 từ, và với độ chính xác tương đối. Một trong những đóng góp đặc biệt từ hệ thống “Harpy” là các khái niệm về làm một đồ thị tìm kiếm, miêu tả ngôn ngữ nhận dạng tiếng nói như là một mạng được kết nối từ miêu tả của các từ, các quy tắc ngữ pháp và các quy định ranh giới của các từ. Trong hệ thống Harpy, các tiếng nói đầu vào, sau khi đi qua một phân tích tham số, được phân đoạn và sau đó chuỗi các tham số phân đoạn của tiếng nói được so sánh với mẫu sử dụng khoảng cách Itakura. Việc tìm kiếm đồ thị, dựa trên một thuật toán băm, biên dịch, đưa ra giả thuyết, cắt xén, và sau đó kiểm tra chuỗi các từ (hoặc âm thanh) được nhận dạng với ràng buộc của hệ thống với độ chính xác cao nhất. Hệ thống Harpy có lẽ là hệ thống đầu tiên tận dụng lợi thế của một mạng trạng thái hữu hạn để giảm bớt tính toán và xác định hiệu quả chuỗi phù hợp nhất. Tuy nhiên, phương pháp tối ưu hóa mạng trạng thái hữu hạn (FSN) (về hiệu suất cũng như loại bỏ sự dư thừa) cho đến đầu những năm 1990 mới xuất hiện. Các hệ thống khác được phát triển theo chương trình SUR bao gồm Hearsay-II của CMU và HWIM của BBN. Cả hai hệ thống này đều không đạt được mục tiêu hiệu suất của ARPA khi nó kết thúc vào năm 1976. Tuy nhiên, cách tiếp cận được đề xuất bởi Hearsay-II sử dụng quy trình không đồng bộ song song mô phỏng các nguồn kiến thức cấu thành trong một hệ thống tiếng nói là một khái niệm tiên phong. Hệ thống Hearsay-II mở rộng phân tích nhận dạng âm thanh (đến mức độ giả thuyết cao hơn). Các thông tin ở mức độ thấp được chuyển đến một bảng đen toàn cục nơi tri thức từ các nguồn song song kết hợp để tạo ra giả thuyết ở mức độ cao hơn. Hệ thống HWIM của BBN, mặt
  10. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 10 khác, được biết đến những ý tưởng thú vị của nó bao gồm 1 mạng giải mã từ vựng kết hợp các quy tắc phức tạp về âm vị học (nhằm mục đích nhận dạng chính xác âm vị). Nó xử lý phân đoạn bằng 1 mạng lưới giả thiết thay thế, và khái niệm xác minh từ ở mức độ tham số. Một hệ thống đáng chú ý vào thời gian này là hệ thống DRAGON của Jim Baker. Người sau này đã chuyển tới Massachusetts để bắt đầu một công ty có cùng tên trong đầu những năm 1980. Song song với các nỗ lực khởi xướng bởi ARPA, 2 hướng khái quát trong nghiên cứu nhận dạng tiếng nói bắt đầu định hình trong những năm 1970. IBM và phòng thí nghiệm Bell của AT & T cơ bản đưa ra hai trường phái khác nhau về khả năng ứng dụng của các hệ thống nhận dạng tiếng nói tự động cho các ứng dụng thương mại. Những nghiên cứu của IBM do Fred Jelinek đảm nhiệm nhằm tạo ra một máy đánh chữ kích hoạt bằng tiếng nói (VAT). Các chức năng chính của nó là chuyển đổi một câu nói thành 1 chuỗi các chữ cái và từ để có thể được hiển thị trên 1 màn hình được đánh ra trên giấy. Hệ thống nhận dạng này được gọi là Tangora thực sự là một hệ thống độc lập người nói (máy đánh chữ phải được huấn luyện bởi mỗi người dùng cá nhân). Tập trung kỹ thuật của nó là kích thước của bộ từ vựng nhận diện (càng lớn càng tốt, với mục tiêu chính là sử dụng phù hợp với môi trường văn phòng), và cấu trúc của các mô hình ngôn ngữ được miêu tả bởi các quy tắc cú pháp thống kê mô tả một chuỗi các ký hiệu ngôn ngữ (ví dụ, âm vị hoặc từ) xuất hiện trong các tín hiệu tiếng nói như thế nào. Đây là loại nhiệm vụ nhận dạng tiếng nói thường được gọi là phiên mã. Tập hợp các quy tắc ngữ pháp hoặc cú pháp thống kê được gọi là một mô hình ngôn ngữ, trong đó mô hình n-gram xác định khả năng xuất hiện của một chuỗi được sắp xếp gồm n từ thường xuyên được sử dụng nhất. Mặc dù cả hai mô hình ngôn ngữ n-gram và ngữ pháp truyền thống đều là biểu hiện của các quy tắc của ngôn ngữ, vai trò của chúng về cơ bản là khác nhau. Mô hình n-gram mô tả mối quan giữa n từ hệ hoàn toàn dựa trên sự thuận lợi và sức mạnh của việc mô tả một quy tắc ngôn ngữ sử dụng thống kê. Nó gây ấn tượng với việc
  11. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 11 tìm kiếm từ ngữ trong nhận dạng tiếng nói. Đặc biệt nó được sử dụng trong một trò chơi từ ngữ nổi tiếng của Claude Shannon, một cuộc đấu giữa người và máy. Trong cuộc thi đấu này, cả người và máy lần lượt đoán từ kế tiếp trong một câu ngẫu nhiên. Người đoán dựa trên kinh nghiệm trong việc sử dụng ngôn ngữ. Máy dựa vào các số liệu thống kê về từ ngữ để đưa ra dự đoán tốt nhất dựa trên tính thường xuyên của các từ ngữ được ước đoán. Hầu như máy luôn thắng. Từ khi được giới thiêu trong thập niên 1980, mô hình ngôn ngữ n-gram và các biến thể của nó đã trở thành không thể thiếu trong các hệ thống nhận diện tiếng nói với vốn từ vựng lớn. Tại phòng nghiên cứu Bell của AT & T, mục tiêu của chương trình nghiên cứu là để cung cấp dịch vụ viễn thông tự động đến cộng đồng, chẳng hạn như quay số bằng tiếng nói, ra lệnh và kiểm soát việc định tuyến các cuộc gọi. Những hệ thống tự động này được mong chờ là sẽ làm việc tốt với một lượng lớn người dùng mà không cần phải huấn luyện riêng biệt với từng người. Phòng thí nghiệm Bell tập trung vào thiết kế một hệ thống độc lập với người nói có thể đối phó với biến đổi âm thanh nội tại trong các tín hiệu tiếng nói đến từ nhiều người nói khác nhau, với các giọng địa phương khác nhau. Điều này dẫn đến việc tạo ra một loạt các thuật toán phân đoạn tiếng nói cho việc tạo mô hình tham chiếu từ và âm thanh có thể được sử dụng với một loạt các người nói và giọng khác nhau. Hơn nữa, nghiên cứu để hiểu và kiểm soát sự thay đổi âm thanh của các tiếng nói khác nhau đã dẫn đến việc nghiên cứu đo khoảng cách phổ tiếng nói (ví dụ, khoảng cách Itakura) và các kỹ thuật mô hình hóa thống kê để tạo ra sự mô tả đầy đủ về tiếng nói từ một lượng lớn người khác nhau. Kể từ khi các ứng dụng như quay số bằng tiếng nói và định tuyến cuộc gọi thường bao gồm các câu nói với lượng từ vựng hạn chế và chỉ gồm một vài từ, đã có một trọng tâm của nghiên cứu tại phòng thí nghiệm Bell vào cái được gọi chung là mô hình âm học (miêu tả phổ của âm thanh hay các lời nói) qua mô hình ngôn ngữ (miêu tả ngữ pháp, cú pháp). Ngoài ra, cái quan trọng nhất trong tiếp cận của phòng thí nghiệm Bell là khái niệm từ khóa trọng tâm như là một
  12. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 12 hình thức sơ khai của sự hiểu biết lời nói. Kỹ thuật từ khoá trọng tâm nhằm phát hiện một từ khóa hoặc cụm từ khóa của một số ý nghĩa đặc biệt trong một lời nói. Sự cần thiết của từ khoá trọng tâm là để thích ứng với những người nói thích nói chuyện với những câu tự nhiên chứ không phải là bằng cách sử dụng chuỗi lệnh cứng nhắc khi yêu cầu dịch vụ (như khi họ nói chuyện với một nhà điều hành). Ví dụ, một người gọi điện thoại yêu cầu trả phí qua thẻ tín dụng có thể nói câu "Tôi muốn tính phí vào thẻ tín dụng của tôi" chứ không phải là chỉ nói "thẻ tín dụng". Trong một ứng dụng với phạm vi giới hạn, sự hiện diện của các từ khóa "thẻ tín dụng" trong một câu nói tự nhiên là đủ để cho biết ý định của người gọi là thực hiện một cuộc gọi trả phí qua thẻ. Việc phát hiện được từ khóa hoặc cụm từ quan trọng sau đó sẽ kích hoạt một hành động theo quy định (hoặc chuỗi các hành động) như là một phần của dịch vụ, đáp ứng lại lời nói của người dùng. Những tiếp cận nhận dạng tiếng nói của IBM và phòng thí nghiệm Bell của AT & T đã có một ảnh hưởng sâu sắc trong sự phát triển của công nghệ giao tiếp tiếng nói người - máy. Một trong những chủ đề phổ biến giữa những nỗ lực này, mặc dù có sự khác biệt, là hình thức và sự chặt chẽ toán học bắt đầu nổi lên như là khía cạnh riêng biệt và quan trọng của nghiên cứu nhận dạng tiếng nói. Trong khi sự khác biệt trong mục tiêu dẫn đến sự khác biệt thấy rõ của công nghệ trong các ứng dụng khác nhau, sự phát triển nhanh chóng của các phương pháp thống kê trong những năm 1980, đáng chú ý nhất là mô hình Markov ẩn (HMM), gây ra độ ảnh hưởng nhất định trong thiết kế hệ thống. Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói thực tế được dựa trên khuôn khổ thống kê và những kết quả phát triển trong những năm 1980, với những cải tiến đáng kể bổ sung trong những năm 1990. IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 Nghiên cứu nhận dạng tiếng nói trong những năm 1980 được đặc trưng bởi một sự thay đổi trong phương pháp luận từ cách tiếp cận dựa trên mẫu trực quan hơn hướng tới một khuôn khổ chặt chẽ hơn của mô hình thống kê. Mặc
  13. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 13 dù các ý tưởng cơ bản của mô hình Markov ẩn (HMM) đã được biết đến và hiểu sớm trong vài phòng thí nghiệm (ví dụ, IBM và Viện Phân tích Quốc phòng (IDA)), phương pháp luận vẫn chưa đầy đủ cho đến giữa những năm 1980 sau sự công bố rộng rãi của lý thuyết, mô hình Markov ẩn đã trở thành phương pháp ưa thích cho nhận dạng tiếng nói. Sự phổ biến và sử dụng của HMM như là nền tảng chính cho hệ thống tự động nhận dạng tiếng nói và các hệ thống hiểu biết đã không thay đổi trong hai thập kỷ qua, đặc biệt là vì sự cải tiến liên tục của công nghệ này. Mô hình Markov ẩn là một quá trình ngẫu nhiên gấp đôi, mô hình hóa biến đổi nội tại của tín hiệu tiếng nói cũng như cấu trúc của ngôn ngữ nói trong một khuôn khổ mô hình hóa thống kê tổng hợp và nhất quán. Như đã biết, một tín hiệu tiếng nói thực tế vốn rất khác nhau (do sự thay đổi trong cách phát âm và giọng, cũng như các yếu tố môi trường như độ vang và tiếng ồn). Khi mọi người nói cùng một từ, tín hiệu âm thanh không phải là giống hệt nhau (trong thực tế chúng có thể khác nhau đáng kể), mặc dù cấu trúc ngôn ngữ cơ bản, về cú pháp, phát âm và ngữ pháp, có thể (hoặc không) vẫn giống nhau. Hình thức của HMM các là một phép đo xác suất sử dụng chuỗi Markov để miêu tả cho các cấu trúc ngôn ngữ và một tập phân bố xác suất để giải thích cho các biến đổi trong việc nhận ra âm thanh trong lời nói. Với một tập các lời nói được biết đến, miêu tả cho một bộ sưu tập đầy đủ của các biến thể của các từ được quan tâm (gọi là tập huấn luyện), người ta có thể sử dụng một phương pháp ước lượng hiệu quả, được gọi là thuật toán Baum-Welch để có được tập hợp tốt nhất các thông số xác định mô hình hoặc các mô hình tương ứng. Việc ước tính các tham số để xác định mô hình tương đương với việc đạo tạo và học tập. Mô hình kết quả sau đó được sử dụng để cung cấp một chỉ số khả năng (xác suất) rằng một lời nói thực sự là một thực hiện của các từ (hoặc từ) được miêu bởi mô hình. Phép đo xác suất trình bày bởi HMM là một thành phần thiết yếu của một hệ thống nhận dạng tiếng nói theo cách tiếp cận nhận dạng mẫu thống kê, và nguồn gốc từ lý thuyết quyết định Bayes. Phương pháp luận của HMM đại diện
  14. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 14 cho một bước tiến quan trọng từ nhận dạng mẫu đơn giản và các phương pháp ngữ âm sử dụng trước đó trong các hệ thống nhận dạng tiếng nói tự động. Ý tưởng của mô hình Markov ẩn xuất hiện lần đầu tiên vào cuối những năm 1960 tại Viện Phân tích Quốc phòng (IDA) ở Princeton, NJ Len Baum xem HMM như là một tập các chức năng xác suất của 1 chuỗi Markov, trong đó theo định nghĩa, bao gồm hai sự phân bố lồng nhau, một liên quan đến chuỗi Markov và một đến tập hợp các phân bố xác suất, mỗi cái liên quan đến một trạng thái của chuỗi Markov theo thứ tự. Mô hình HMM cố gắng để xác định các đặc điểm của một chuỗi xác suất quan sát nhưng không phải là một chức năng cố định, thay vì vậy nó thay đổi theo một chuỗi Markov. Quá trình ngẫu nhiên gấp đôi được tìm thấy thực sự hữu ích trong một số ứng dụng như dự đoán thị trường chứng khoán và phân tích crypto của mật mã quay được sử dụng rộng rãi trong Thế chiến II. Kỹ thuật ước tính và mô hình hóa của Baum lần đầu tiên xuất hiện làm những quan sát riêng biệt (tức là, người ta giả định các giá trị từ một tập hợp hữu hạn và do đó được điều chỉnh bởi các phân bố xác suất rời rạc) và sau đó các quan sát ngẫu nhiên đã được mô phỏng bằng cách sử dụng hàm mật độ xác suất log-concave. Kỹ thuật này khá mạnh mẽ nhưng bị hạn chế. Liporace, cũng thuộc IDA, đã nới lỏng các ràng buộc mật độ log-concave để bao gồm một ràng buộc mật độ đối xứng elip (do đó bao gồm cả mật độ Gaussian và mật độ Cauchy), với sự giúp đỡ từ một miêu tả định lý cũ của Fan. Quá trình ngẫu nhiên gấp đôi của Baum bắt đầu tìm các ứng dụng trong lĩnh vực tiếng nói, ban đầu trong các hệ thống nhận dạng người nói, vào cuối năm những 1970. Khi kỹ thuật HMM được sử dụng nhiều, nó đã bộc lộ hạn chế, hình thức của các chức năng mật độ áp đặt một giới hạn về hiệu suất của hệ thống, đặc biệt là các nhiệm vụ độc lập với người nói khi sự phân phối tham số tiếng nói không thể mô hình hóa đầy đủ bởi một log-concave đơn hoặc hàm mật độ đối xứng elip. Vào đầu những năm 1980, tại phòng thí nghiệm Bell, lý thuyết HMM đã được mở rộng mật độ hỗn hợp kể từ khi chứng minh sự quan trọng sống còn của chúng trong việc đảm bảo độ nhận dạng chính xác,
  15. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 15 đặc biệt là đối với các nhiệm vụ đòi hòi độc lập người nói, nhận giạng tiếng nói với vốn từ vựng lớn. Việc kết hợp của mô hình Markov ẩn (với lợi thế của nó trong tính chắc chắn của thống kê, đặc biệt là trong việc xử lý biến đổi âm thanh) và mạng trạng thái hữu hạn (với hiệu quả tính toán và tìm kiếm của mình, đặc biệt là trong việc xử lý giả thuyết thứ tự các từ) là một sự quan trọng. Hình 4. Mô hình tổng hợp các trạng thái hữu hạn cho lời nói “show all alerts” Hình 4 cho thấy một mô hình tổng hợp các trạng thái hữu hạn cho lời nói “show all alerts”, được xây dựng từ một số mô hình subword phụ thuộc vào bối cảnh để miêu tả cho các âm vị giống như đơn vị lời nói tương ứng (bao gồm cả một đơn vị cho sự im lặng đó có thể xảy ra vào lúc bắt đầu và kết thúc của câu, cũng như ở cuối của bất kỳ từ trong câu, như có thể xảy ra trong quá trình tạm dừng khi nói). Đồ thị trạng thái hữu hạn được thực hiện như là một chuỗi Markov để tính khả năng xảy ra, dựa trên trình tự quan sát của một lời nói. Lưu ý rằng mỗi nút trong biểu đồ liên kết với một phân bố xác suất giải thích cho biến đổi trong việc thực hiện những âm thanh giống như âm vị tương ứng. Khả năng một lời nói tạo ra bởi mạng trạng thái hữu hạn đại diện bởi mô hình được tính như là một tổng tuần tự các khả năng cục bộ (liên quan đến các đơn vị cơ bản của mô hình tổng hợp) sau khi một liên kết trạng thái lập trình động được thực hiện để tối đa sự phù hợp giữa các đơn vị được gán nhãn và các phần
  16. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 16 tương ứng của các quan sát (observation) tiếng nói (ngay cả đối với các mô hình của các trình tự từ không chính xác). Tại thời điểm bất kỳ, luôn có một số đơn vị giả thuyết và sự xác định danh tính âm thanh được dựa trên giá trị khả năng tối đa. Số các đơn vị giả thuyết để so sánh và các con đường để tìm kiếm có thể vô cùng lớn và do đó phải yêu cầu các thuật toán tính toán hiệu quả để giải quyết vấn đề. Một công cụ, được gọi là thư viện FSM (finite-state machine), thể hiện cách tiếp cận mạng trạng thái hữu hạn trong khuôn khổ bộ chuyển đổi thống nhất đã được phát triển vào giữa những năm 1990 và đã trở thành một thành phần chính của hầu hết các hệ thống nhận dạng và hiểu tiếng nói hiện đại. Một công nghệ khác được giới thiệu lại vào cuối những năm 1980 là ý tưởng về mạng thần kinh nhân tạo (ANN). Các mạng thần kinh lần đầu tiên được giới thiệu vào những năm 1950, nhưng không tạo ra được các kết quả đáng chú ý. Sự xuất hiện của mô hình xử lý phân phối song song (PDP) trong những năm 1980, nó là 1 kết nối dày đặc của các thành phần tính toán đơn giản, và 1 phương thức "đào tạo" tương ứng, được gọi là lan truyền ngược đã làm sống lại sự quan tâm xung quanh ý tưởng cũ về bắt chước cơ chế xử lý thần kinh con người. Một hình thức đặc biệt của PDP là perceptron nhiều lớp, được miêu tả trong hình 5, có lẽ nhận được sự chú ý nhiều nhất, không phải nó giống với xử lý thần kinh mà vì khả năng của nó trong xấp xỉ bất kỳ hàm (đầu vào) nào với một độ chính xác tùy ý, miễn là không có giới hạn nào trong sự phức tạp của cấu hình xử lý bị áp đặt. Nếu một bộ nhận dạng mẫu được xem xét thực hiện một hàm ánh xạ một mẫu đầu vào vào lớp nhận dạng, perceptron nhiều lớp là một ứng cử viên cho mục đích này. Những cố gắng sử dụng mạng thần kinh cho nhận dạng tiếng nói tập trung vào những nhiệm vụ đơn giản như nhận ra một vài âm vị hoặc một vài từ (ví dụ, chữ số bị cô lập) với những thành công tốt đẹp. Tuy nhiên, vấn đề của nhận dạng tiếng nói chắc chắn đòi hỏi phải xử lý sự thay đổi thời gian, mạng lưới thần kinh dưới hình thức ban đầu đã không đảm nhận được nhiệm vụ này. Những nghiên cứu đang diễn ra tập trung vào
  17. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 17 việc tích hợp mạng thần kinh với các cấu trúc cần thiết của mô hình Markov ẩn để tận dụng khả năng xử lý thời gian của HMM. Trong năm 1990, một số sáng kiến đã diễn ra trong lĩnh vực nhận dạng mẫu. Vấn đề nhận dạng mẫu, truyền thống theo khuôn khổ của Bayes và yêu cầu ước tính sự phân bố dữ liệu, được chuyển đổi thành vấn đề tối ưu hóa liên quan đến giảm thiểu các lỗi nhận dạng từ thực tế. Sự thay đổi cơ bản này của mô hình gây ra bởi sự công nhận thực tế rằng các hàm phân bố cho các tín hiệu tiếng nói có thể được lựa chọn hoặc xác định không chính xác, và rằng lý thuyết quyết định Bayes không áp dụng được trong những trường hợp này. Sau tất cả, mục tiêu của một thiết kế bộ nhận dạng nên là để đạt được ít lỗi nhận dạng nhất hơn một hàm phân phối phù hợp nhất các bộ dữ liệu được ủng hộ bởi các tiêu chuẩn Bayes. Khái niệm về phân loại tối thiểu hoặc lỗi thực nghiệm sau đó đã cho ra đời một số kỹ thuật, trong đó phân biệt đào tạo và phương pháp kernel-based như support vector machines (SVM) đã trở thành đối tượng phổ biến của nghiên cứu. Hình 5. Perceptron nhiều lớp Thành công của phương pháp thống kê khơi lại sự quan tâm từ DARPA vào cuối những năm 1980 và đầu những năm 1990, dẫn đến một số hệ thống nhận dạng tiếng nói bao gồm hệ thống Sphinx từ CMU, hệ thống Byblos từ BBN và hệ thống DECIPHER từ SRI. Hệ thống Sphinx của CMU đã thành
  18. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 18 công trong việc tích hợp các phương pháp thống kê của mô hình Markov ẩn với sức mạnh mạng tìm kiếm của hệ thống Harpy. Do đó, nó có thể đào tạo và nhúng vào các mô hình âm vị phụ thuộc vào bối cảnh trong một mạng lưới giải mã từ vựng phức tạp, đạt được những kết quả đáng chú ý trong nhận dạng tiếng nói liên tục với vốn từ vựng lớn. Với sự hỗ trợ của DARPA, việc đánh giá công nghệ nhận dạng tiếng nói cho một loạt các nhiệm vụ đã được theo đuổi trong suốt những năm 1990 và thế kỷ 21. Những đánh giá như vậy chủ yếu dựa trên các đo lường tỷ lệ lỗi từ (và câu) như là con số hiệu năng của các hệ thống nhận dạng. Hơn nữa, những đánh giá được tiến hành có hệ thống qua những nhiệm vụ được thiết kế cẩn thận với mức độ khó khăn tăng dần, từ nhận dạng tiếng nói liên tục với cấu trúc ngữ pháp cách điệu (như được sử dụng thường xuyên trong các nhiệm vụ quân sự) đến lời nói đàm thoại. Hình 6 cho thấy một biểu đồ tóm tắt việc đo lường hiệu năng của các nhiệm vụ nhận dạng tiếng nói liên tục với vốn từ vựng lớn theo đánh giá của DARPA và NIST. Trong biểu đồ, nhiệm vụ “quản lý tài nguồn lực” quan đến một cụm từ cứng nhắc kiểu quân đội với một vốn từ vựng gần 1000 từ. ATIS là một nhiệm vụ có liên quan đến cuộc trò chuyện tự nhiên với một hệ thống lấy thông tin du lịch hàng không tự động; mặc dù lối nói là tự nhiên, cấu trúc ngôn ngữ của nó khá hạn chế. WSJ đề cập đến sự phiên âm của một số đoạn đọc từ báo Wall Street Journal, kích thước từ vựng có thể lên tới 60K từ. Nhiệm vụ tổng đài là một trong những thách thức lớn nhất được đề xuất bởi DARPA. Lối nói theo kiểu đàm thoại thông thường, tự nhiên, với nhiều từ không hoàn chỉnh, nói ngập ngừng… Nhận dạng những câu đàm thoại kiểu này (không tuân thủ theo các ràng buộc ngôn ngữ) khó khăn hơn nhiều so với các cuộc nói chuyện được định hướng tuân thủ các nguyên tắc ngữ pháp và ngữ nghĩa. Ngoài ra, chương trình đánh giá cho thấy rằng việc tăng số lượng dữ liệu tiếng nói được sử dụng để đánh giá các thông số nhận diện (như kích thước của tập huấn luyện) luôn luôn dẫn đến giảm tỷ lệ lỗi từ. (Một hệ thống nhận diện tiếng nói với vốn từ vựng lớn được coi là chấp nhận được nếu tỷ lệ lỗi từ
  19. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 19 dưới 10%). Trong những năm 1990 tiến bộ to lớn từ sự phát triển của các công cụ phần mềm cho phép nhiều chương trình nghiên cứu cá nhân trên toàn thế giới. Khi hệ thống trở nên phức tạp hơn (nhiều hệ thống từ vựng lớn liên quan đến hàng chục ngàn mô hình âm vị và hàng triệu các thông số), một hệ thống phần mềm tham khảo được cấu trúc tốt là không thể thiếu cho việc nghiên cứu thêm và phát triển để kết hợp các khái niệm và các thuật toán mới. Hệ thống đã được thực hiện bởi nhóm nghiên cứu tại Đại học Cambridge (được dẫn dắt bởi Steve Young), được gọi là bộ công cụ mô hình Markov ẩn (HTK), là một trong những công cụ phần mềm được chấp nhận rộng rãi nhất cho nghiên cứu nhận dạng tiếng nói. Hình 6. Đánh giá khả năng nhận dạng giọng nói cho một số nhiệm vụ thực hiện bởi DARPA V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP Hầu hết các nghiên cứu nhận giạng tiếng nói cho đến những năm 1980 đều coi vấn đề chính của nghiên cứu là chuyển sóng tiếng nói thành từ ngữ. Nhiều
  20. PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 20 nhà nghiên cứu cũng tin rằng quá trình speech-to-text là bước cần thiết đầu tiên trong quá trình cho phép một máy tính có thể hiểu và trả lời lại tiếng nói của con người. Trong lĩnh vực đánh giá công nghệ nhận dạng và hiểu tiếng nói cho một loạt các nhiệm vụ, có hai điều quan trọng đã tìm ra về quá trình giao tiếp bằng tiếng nói giữa con người và máy móc. Đầu tiên, những người sử dụng tiềm năng của một hệ thống nhận dạng tiếng nói có xu hướng nói những câu tự nhiên thường không đáp ứng đầy đủ các ràng buộc ngữ pháp của bộ nhận dạng, và lời nói cũng thường xuyên bị hỏng bởi các thành phần nhiễu như tiếng ồn xung quanh, âm thanh, tiếng nói không liên quan. Thứ hai, như trong giao tiếp giữa người với người, các ứng dụng tiếng nói thường yêu cầu một cuộc đối thoại giữa người dùng và máy tính để đạt được một số trạng thái hiểu biết mong muốn. Một cuộc hội thoại như vậy thường yêu cầu những hoạt động như truy vấn và xác nhận, do đó cung cấp một số hạn định cho lỗi trong nhận dạng và hiểu tiếng nói. Phương pháp từ khóa trọng tâm (và ứng dụng của nó trong hệ thống xử lý cuộc gọi nhận dạng tiếng nói (VRCP) của AT & T đã đề cập ở phần trước), đã được giới thiệu để đáp ứng yếu tố đầu tiên trong khi yếu tố thứ hai tập trung sự chú ý của cộng đồng nghiên cứu vào lĩnh vực quản lý cuộc hội thoại. Nhiều ứng dụng và hệ thống chứng thực tầm quan trọng của quản lý hội thoại qua độ chính xác nhận dạng từ thô của một hệ thống được giới thiệu vào đầu những năm 1990 với mục tiêu cuối cùng tạo ra một máy tính có thể thực sự bắt chước khả năng giao tiếp của con người. Trong số các hệ thống này, Pegasus và Jupiter được phát triển tại Viện Công nghệ Massachusetts dưới sự chỉ đạo của Victor Zue được chú ý đặc biệt, và hệ thống “Làm thế nào tôi có thể giúp bạn” (HMIHY) của AT & T phát triển bởi Al Gorin là một dịch vụ cũng được chú ý như vậy được giới thiệu như là một phần của hệ thống chăm sóc khách hàng của AT & T cho dịch vụ giao tiếp khách hàng của họ trong năm 2000. Pegasus là một hệ thống giao tiếp tiếng nói cung cấp thông tin về tình trạng các chuyến bay của hãng hàng không trên một đường dây điện thoại
nguon tai.lieu . vn