Xem mẫu
- Tiểu luận
Tóm lược lịch sử phát triển
nhận dạng tiếng nói
- TÀI LIỆU THAM KHẢO 2
MỤC LỤC
LỜI MỞ ĐẦU ................................................................................................................. 2
PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI ............ 3
I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG ....................... 3
II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN ..... 5
III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG NHỮNG NĂM 1970 ................ 7
IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 .................... 11
V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP ..................................... 18
VI. TÓM TẮT .......................................................................................................... 20
PHẦN II. CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG ....................... 24
I. NGUYÊN TẮC PHÂN NHỎ ............................................................................... 24
II. NGUYÊN TẮC PHẨM CHẤT CỤC BỘ ........................................................... 24
III. NGUYÊN TẮC KẾT HỢP................................................................................. 24
IV. NGUYÊN TẮC TÁCH KHỎI ........................................................................... 24
V. NGUYÊN TẮC LINH ĐỘNG ............................................................................ 24
VI. NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” ........................................... 25
VII. NGUYÊN TẮC QUAN HỆ PHẢN HỒI ......................................................... 25
VIII. NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CÓ ÍCH ........................................ 25
TÀI LIỆU THAM KHẢO ............................................................................................ 26
- LỜI MỞ ĐẦU 3
LỜI MỞ ĐẦU
Lời nói là phương tiện chính của giao tiếp giữa con người. Vì những lý do
khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của
con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương
tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng
nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua.
Từ những năm 1930, khi Homer Dudley của phòng thí nghiệm Bell đề
xuất một mô hình hệ thống cho phân tích và tổng hợp tiếng nói, vấn đề nhận
dạng tiếng nói tự động đã tiến triển liên tục, từ một máy đơn giản có khả năng
phản ứng với một tập nhỏ các âm thanh đến một hệ thống phức tạp có khả năng
phản ứng với ngôn ngữ nói tự nhiên. Dựa trên những bước tiến trong mô hình
thống kê tiếng nói trong những năm 1980, những hệ thống nhận dạng tiếng nói
tự động ngày nay cung cấp ứng dụng rộng rãi trong những nhiệm vụ yêu cầu
giao tiếp người – máy như hệ thống xử lý cuộc gọi tự động trong các mạng điện
thoại và những hệ thống truy xuất thông tin như cung cấp thông tin cập nhật về
du lịch, giá cả hàng hóa, chứng khoán, thông tin thời tiết… Bài tiểu luận này
tóm tắt những bước tiến nổi bật trong nghiên cứu và phát triển nhận dạng tiếng
nói tự động trong những thập kỷ gần đây và các nguyên tắc sáng tạo đã được sử
dụng trong việc tạo ra các hệ thống nhận dạng tiếng nói.
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 4
PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN
NHẬN DẠNG TIẾNG NÓI
I. TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG
NÓI
Nỗ lực để phát triển các máy móc bắt chước khả năng giao tiếp bằng tiếng
nói của con người có vẻ như bắt đầu vào nửa cuối thế kỷ 18. Năm 1773, nhà
khoa học người Nga, Christian Kratzenstein, một giáo sư sinh lý học ở
Copenhagen đã thành công trong việc tạo ra các nguyên âm bằng cách sử dụng
các ống cộng hưởng kết nối với các ống organ. Sau đó, Wolfgang von
Kempelen ở Vienna xây dựng một cỗ máy tạo ra âm thanh tiếng nói bằng cơ
khí (1791) và giữa thế kỷ 18 Charles Wheatstone xây dựng một phiên bản cỗ
máy của von Kempelen bằng cách sử dụng các bộ cộng hưởng làm bằng da, cấu
hình của nó có thể được thay đổi hoặc kiểm soát bằng tay để tạo ra các âm
thanh gần giống với tiếng nói như thể hiện trong hình 1.
Hình 1. Phiên bản cỗ máy Kempelen của Wheatstone
Trong nửa đầu của thế kỉ 20, Fletcher và những người khác tại phòng thí
nghiệm Bell đã đưa ra các dẫn chứng bằng tài liệu về mối quan hệ giữa phổ
tiếng nói (sự phân bố cường độ của âm thanh tiếng nói thông qua tần số) và các
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 5
đặc tính âm thanh của nó cũng như tính dễ hiểu của nó đối với người nghe.
Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng rất nhiều bởi các
nghiên cứu của Fletcher, phát triển một cỗ máy tổng hợp tiếng nói gọi là
VODER (Voice Operating Demonstrator), là phiên bản điện tử (với điều khiển
bằng cơ khí) của cỗ máy Wheatstone. Hình 2 cho thấy một sơ đồ khối của
VODER bao gồm một wrist bar để điều khiển tín hiệu, và bàn chân đạp để
kiểm soát tần số dao động (cao độ của tiếng nói tổng hợp). Các tín hiệu truyền
động được thông qua thông qua mười bộ lọc bandpass với cấp độ đầu ra được
điều khiển bằng tay. 10 bộ lọc bandpass này được sử dụng để làm thay đổi sự
phân bố năng lượng của tín hiệu nguồn trên một phạm vi tần số, từ đó xác định
các đặc tính của âm thanh tiếng nói tại loa. Vì vậy, để tổng hợp một câu, người
điều khiển VODER phải tìm hiểu làm thế nào để kiểm soát và điều khiển
VODER để tạo ra câu nói. VODER được giới thiệu tại hội chợ thế giới ở New
York City vào năm 1939 và coi là một cột mốc quan trọng trong sự tiến triển
của máy nói.
Hình 2. Sơ đồ khối của cỗ máy VODER
Những người tiên phong về tiếng nói như Harvery Fletcher và Homer
Dudley đã thiết lập một cách vững chắc tầm quan trọng của phổ tín hiệu để xác
định chắc chắn các tính chất ngữ âm của tiếng nói. Sau chuẩn được thiết lập bởi
hai nhà khoa học xuất sắc, hầu hết các hệ thống hiện đại và các thuật toán nhận
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 6
dạng tiếng nói được dựa trên khái niệm về đo (time-varying) phổ cường độ
tiếng nói (hoặc biến thể của nó là cepstrum), một phần do thực tế là đo phổ
cường độ tiếng nói từ một tín hiệu là tương đối dễ dàng để thực hiện với kỹ
thuật xử lý tín hiệu kỹ thuật số hiện đại.
II. NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG
ĐẦU TIÊN
Những nỗ lực sớm để thiết kế hệ thống nhận dạng tiếng nói tự động chủ
yếu được dẫn đường bởi lý thuyết ngữ âm học, trong đó mô tả các yếu tố ngữ
âm của tiếng nói (những âm thanh cơ bản của ngôn ngữ) và cố gắng giải thích
làm thế nào chúng được nhận ra trong một lời nói. Những yếu tố này bao gồm
các âm vị, vị trí tương ứng và cách thức phát âm được sử dụng để tạo ra âm
thanh trong các ngữ cảnh ngữ âm khác nhau. Ví dụ, để tạo ra một nguyên âm
ổn định, các dây thanh âm rung (để kích thích thanh quản), và không khí truyền
qua thanh quản kết quả là âm thanh được cộng hưởng một cách tự nhiên giống
như những gì xảy ra trong một ống âm thanh. Các chế độ cộng hưởng tự nhiên
này được gọi là các thành tố hay là các tần số thành tố, được biểu hiện như các
vùng chính tập trung năng lượng trong phổ cường độ tiếng nói. Năm 1952,
Davis, Biddulph, và Balashek của phòng thí nghiệm Bell đã xây dựng một hệ
thống nhận biết các chữ số cô lập do một người nói, bằng cách sử dụng các tần
số thành tố đo (ước tính) vùng nguyên âm của mỗi chữ số. Hình 3 cho thấy biểu
đồ đường biểu diễn thành tố cùng với phạm vi của các tần số thành tố thứ nhất
và thứ hai cho mỗi chữ số từ 1 đến 9 và 0. Những đường biểu diễn này đóng vai
trò là "mô hình tham chiếu" để xác định danh tính của một con số chưa biết.
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 7
Hình 3. Biểu đồ biểu diễn thành tố 1 và 2 của các chữ số
Trong thập niên 1950, Olson và Belar của phòng thí nghiệm RCA xây
dựng một hệ thống nhận dạng 10 âm tiết do một người nói [10]. Và tại phòng
thí nghiệm MIT Lincoln, anh em nhà Forgie đã xây dựng bộ nhận dạng 10
nguyên âm độc lập với người nói. Trong thập niên 1960, một số phòng thí
nghiệm ở Nhật đã chứng minh khả năng xây dựng phần cứng với mục đích đặc
biệt để thực hiện một nhiệm vụ nhận dạng tiếng nói. Đáng chú ý nhất là nhận
diện nguyên âm của Suzuki và Nakata ở phòng nghiên cứu vô tuyến tại Tokyo,
nhận diện âm vị của Sakai và Doshita tại Đại học Kyoto, và nhận diện chữ số
của phòng thí nghiệm NEC. Nghiên cứu của Sakai và Doshita đánh dấu việc sử
dụng lần đầu tiên của một phân đoạn (segmenter) tiếng nói để phân tích và nhận
diện tiếng nói tại các phần khác nhau của một lời nói đầu vào. Ngược lại, nhận
diện chữ số bị cô lập ngầm giả định rằng lời nói chứa một chữ số đầy đủ (và
không có âm thanh tiếng nói khác xen vào) và do đó không cần một
"segmenter" rõ ràng. Nghiên cứu của trường Đại học Kyoto có thể là coi là tiền
thân của một hệ thống nhận dạng tiếng nói liên tục.
Một hệ thống nhận dạng khác là Fry and Denes tại trường Đại học College
ở Anh, đã xây dựng một bộ nhận diện âm vị để nhận ra 4 nguyên âm và 9 phụ
âm. Bằng cách kết hợp thông tin thống kê về trình tự âm vị trong tiếng Anh, họ
tăng độ chính xác nhận dạng âm vị tổng thể cho các từ bao gồm hai hoặc nhiều
âm vị. Nghiên cứu này đánh dấu lần sử dụng đầu tiên cú pháp thống kê (ở cấp
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 8
độ âm vị) trong nhận dạng tiếng nói tự động.
Một thay thế cho việc sử dụng phân đoạn tiếng nói là khái niệm của việc
áp dụng time scale không thống nhất cho việc sắp xếp các mẫu tiếng nói. Khái
niệm này bắt đầu được chấp nhận trong thập niên 1960 thông qua nghiên cứu
của Tom Martin tại phòng thí nghiệm RCA và Vintsyuk ở Liên Xô. Martin thừa
nhận sự cần thiết để đối phó với thời gian không thống nhất trong các lời nói
được lặp lại và đề nghị một loạt các giải pháp, bao gồm phát hiện điểm kết thúc
của một lời nói, điều này nâng cao độ tin cậy của việc nhận diện. Vintsyuk đề
xuất việc sử dụng lập trình động cho sự liên kết thời gian giữa hai lời nói để lấy
được đánh giá đầy đủ về sự tương tự của chúng. Nghiên cứu của ông, mặc dù
vẫn chưa được rõ ràng nhưng đã đi trước Sakoe và Chiba cũng như những
người khác đã đề xuất những phương pháp chính thức hơn, thường được biết
đến là dynamic time warping trong so sánh mẫu tiếng nói. Kể từ cuối những
năm 1970, chủ yếu là sự công bố của Sakoe và Chiba, lập trình động, trong rất
nhiều biến thể khác nhau (bao gồm thuật toán Viterbi), đã trở thành một kỹ
thuật không thể thiếu trong nhận dạng tiếng nói tự động.
III. CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1970
Trong cuối những năm 1960, Atal và Itakura độc lập xây dựng các khái
niệm cơ bản của mã dự đoán trước tuyến tính (LPC). Nó đã đơn giản hóa rất
nhiều việc đánh giá việc thanh quản phản ứng với các sóng tiếng nói. Vào giữa
những năm 1970, những ý tưởng cơ bản của việc áp dụng công nghệ nhận dạng
mẫu gốc để nhận dạng tiếng nói, dựa trên phương pháp LPC, đã được đề xuất
bởi Itakura, Rabiner, Levinson và một số người khác.
Cũng trong khoảng thời gian này, dựa trên sự thành công của mình trước
đó về nghiên cứu lời nói, Tom Martin thành lập công ty thương mại về nhận
dạng tiếng nói đầu tiên được gọi là Threshold Technology, Inc và phát triển sản
phẩm nhận dạng tiếng nói tự động thực sự đầu tiên được gọi là hệ thống VIP-
100. Hệ thống này chỉ được sử dụng trong một vài ứng dụng đơn giản, chẳng
hạn như bởi các hãng sản xuất tấm mặt TV (để kiểm soát chất lượng) và FedEx
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 9
(cho việc sắp xếp gói hàng trên băng tải), nhưng tầm quan trọng của nó là ở
cách nó ảnh hưởng đến Advanced Research Projects Agency (ARPA) của Bộ
Quốc phòng Mỹ để tài trợ cho chương trình Speech Understanding Research
(SUR) trong thời gian đầu những năm 1970. Trong số các hệ thống được xây
dựng bởi các nhà thầu của chương trình ARPA là hệ thống “Harpy” của Đại
học Carnegie Mellon. Nó có thể nhận dạng tiếng nói bằng cách sử dụng một bộ
từ vựng 1.011 từ, và với độ chính xác tương đối. Một trong những đóng góp
đặc biệt từ hệ thống “Harpy” là các khái niệm về làm một đồ thị tìm kiếm, miêu
tả ngôn ngữ nhận dạng tiếng nói như là một mạng được kết nối từ miêu tả của
các từ, các quy tắc ngữ pháp và các quy định ranh giới của các từ. Trong hệ
thống Harpy, các tiếng nói đầu vào, sau khi đi qua một phân tích tham số, được
phân đoạn và sau đó chuỗi các tham số phân đoạn của tiếng nói được so sánh
với mẫu sử dụng khoảng cách Itakura. Việc tìm kiếm đồ thị, dựa trên một thuật
toán băm, biên dịch, đưa ra giả thuyết, cắt xén, và sau đó kiểm tra chuỗi các từ
(hoặc âm thanh) được nhận dạng với ràng buộc của hệ thống với độ chính xác
cao nhất. Hệ thống Harpy có lẽ là hệ thống đầu tiên tận dụng lợi thế của một
mạng trạng thái hữu hạn để giảm bớt tính toán và xác định hiệu quả chuỗi phù
hợp nhất. Tuy nhiên, phương pháp tối ưu hóa mạng trạng thái hữu hạn (FSN)
(về hiệu suất cũng như loại bỏ sự dư thừa) cho đến đầu những năm 1990 mới
xuất hiện.
Các hệ thống khác được phát triển theo chương trình SUR bao gồm
Hearsay-II của CMU và HWIM của BBN. Cả hai hệ thống này đều không đạt
được mục tiêu hiệu suất của ARPA khi nó kết thúc vào năm 1976. Tuy nhiên,
cách tiếp cận được đề xuất bởi Hearsay-II sử dụng quy trình không đồng bộ
song song mô phỏng các nguồn kiến thức cấu thành trong một hệ thống tiếng
nói là một khái niệm tiên phong. Hệ thống Hearsay-II mở rộng phân tích nhận
dạng âm thanh (đến mức độ giả thuyết cao hơn). Các thông tin ở mức độ thấp
được chuyển đến một bảng đen toàn cục nơi tri thức từ các nguồn song song kết
hợp để tạo ra giả thuyết ở mức độ cao hơn. Hệ thống HWIM của BBN, mặt
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 10
khác, được biết đến những ý tưởng thú vị của nó bao gồm 1 mạng giải mã từ
vựng kết hợp các quy tắc phức tạp về âm vị học (nhằm mục đích nhận dạng
chính xác âm vị). Nó xử lý phân đoạn bằng 1 mạng lưới giả thiết thay thế, và
khái niệm xác minh từ ở mức độ tham số. Một hệ thống đáng chú ý vào thời
gian này là hệ thống DRAGON của Jim Baker. Người sau này đã chuyển tới
Massachusetts để bắt đầu một công ty có cùng tên trong đầu những năm 1980.
Song song với các nỗ lực khởi xướng bởi ARPA, 2 hướng khái quát trong
nghiên cứu nhận dạng tiếng nói bắt đầu định hình trong những năm 1970. IBM
và phòng thí nghiệm Bell của AT & T cơ bản đưa ra hai trường phái khác nhau
về khả năng ứng dụng của các hệ thống nhận dạng tiếng nói tự động cho các
ứng dụng thương mại.
Những nghiên cứu của IBM do Fred Jelinek đảm nhiệm nhằm tạo ra một
máy đánh chữ kích hoạt bằng tiếng nói (VAT). Các chức năng chính của nó là
chuyển đổi một câu nói thành 1 chuỗi các chữ cái và từ để có thể được hiển thị
trên 1 màn hình được đánh ra trên giấy. Hệ thống nhận dạng này được gọi là
Tangora thực sự là một hệ thống độc lập người nói (máy đánh chữ phải được
huấn luyện bởi mỗi người dùng cá nhân). Tập trung kỹ thuật của nó là kích
thước của bộ từ vựng nhận diện (càng lớn càng tốt, với mục tiêu chính là sử
dụng phù hợp với môi trường văn phòng), và cấu trúc của các mô hình ngôn
ngữ được miêu tả bởi các quy tắc cú pháp thống kê mô tả một chuỗi các ký hiệu
ngôn ngữ (ví dụ, âm vị hoặc từ) xuất hiện trong các tín hiệu tiếng nói như thế
nào. Đây là loại nhiệm vụ nhận dạng tiếng nói thường được gọi là phiên mã.
Tập hợp các quy tắc ngữ pháp hoặc cú pháp thống kê được gọi là một mô hình
ngôn ngữ, trong đó mô hình n-gram xác định khả năng xuất hiện của một chuỗi
được sắp xếp gồm n từ thường xuyên được sử dụng nhất. Mặc dù cả hai mô
hình ngôn ngữ n-gram và ngữ pháp truyền thống đều là biểu hiện của các quy
tắc của ngôn ngữ, vai trò của chúng về cơ bản là khác nhau. Mô hình n-gram
mô tả mối quan giữa n từ hệ hoàn toàn dựa trên sự thuận lợi và sức mạnh của
việc mô tả một quy tắc ngôn ngữ sử dụng thống kê. Nó gây ấn tượng với việc
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 11
tìm kiếm từ ngữ trong nhận dạng tiếng nói. Đặc biệt nó được sử dụng trong một
trò chơi từ ngữ nổi tiếng của Claude Shannon, một cuộc đấu giữa người và
máy. Trong cuộc thi đấu này, cả người và máy lần lượt đoán từ kế tiếp trong
một câu ngẫu nhiên. Người đoán dựa trên kinh nghiệm trong việc sử dụng ngôn
ngữ. Máy dựa vào các số liệu thống kê về từ ngữ để đưa ra dự đoán tốt nhất dựa
trên tính thường xuyên của các từ ngữ được ước đoán. Hầu như máy luôn
thắng. Từ khi được giới thiêu trong thập niên 1980, mô hình ngôn ngữ n-gram
và các biến thể của nó đã trở thành không thể thiếu trong các hệ thống nhận
diện tiếng nói với vốn từ vựng lớn.
Tại phòng nghiên cứu Bell của AT & T, mục tiêu của chương trình nghiên
cứu là để cung cấp dịch vụ viễn thông tự động đến cộng đồng, chẳng hạn như
quay số bằng tiếng nói, ra lệnh và kiểm soát việc định tuyến các cuộc gọi.
Những hệ thống tự động này được mong chờ là sẽ làm việc tốt với một lượng
lớn người dùng mà không cần phải huấn luyện riêng biệt với từng người.
Phòng thí nghiệm Bell tập trung vào thiết kế một hệ thống độc lập với người
nói có thể đối phó với biến đổi âm thanh nội tại trong các tín hiệu tiếng nói đến
từ nhiều người nói khác nhau, với các giọng địa phương khác nhau. Điều này
dẫn đến việc tạo ra một loạt các thuật toán phân đoạn tiếng nói cho việc tạo mô
hình tham chiếu từ và âm thanh có thể được sử dụng với một loạt các người nói
và giọng khác nhau. Hơn nữa, nghiên cứu để hiểu và kiểm soát sự thay đổi âm
thanh của các tiếng nói khác nhau đã dẫn đến việc nghiên cứu đo khoảng cách
phổ tiếng nói (ví dụ, khoảng cách Itakura) và các kỹ thuật mô hình hóa thống
kê để tạo ra sự mô tả đầy đủ về tiếng nói từ một lượng lớn người khác nhau. Kể
từ khi các ứng dụng như quay số bằng tiếng nói và định tuyến cuộc gọi thường
bao gồm các câu nói với lượng từ vựng hạn chế và chỉ gồm một vài từ, đã có
một trọng tâm của nghiên cứu tại phòng thí nghiệm Bell vào cái được gọi
chung là mô hình âm học (miêu tả phổ của âm thanh hay các lời nói) qua mô
hình ngôn ngữ (miêu tả ngữ pháp, cú pháp). Ngoài ra, cái quan trọng nhất trong
tiếp cận của phòng thí nghiệm Bell là khái niệm từ khóa trọng tâm như là một
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 12
hình thức sơ khai của sự hiểu biết lời nói. Kỹ thuật từ khoá trọng tâm nhằm
phát hiện một từ khóa hoặc cụm từ khóa của một số ý nghĩa đặc biệt trong một
lời nói. Sự cần thiết của từ khoá trọng tâm là để thích ứng với những người nói
thích nói chuyện với những câu tự nhiên chứ không phải là bằng cách sử dụng
chuỗi lệnh cứng nhắc khi yêu cầu dịch vụ (như khi họ nói chuyện với một nhà
điều hành). Ví dụ, một người gọi điện thoại yêu cầu trả phí qua thẻ tín dụng có
thể nói câu "Tôi muốn tính phí vào thẻ tín dụng của tôi" chứ không phải là chỉ
nói "thẻ tín dụng". Trong một ứng dụng với phạm vi giới hạn, sự hiện diện của
các từ khóa "thẻ tín dụng" trong một câu nói tự nhiên là đủ để cho biết ý định
của người gọi là thực hiện một cuộc gọi trả phí qua thẻ. Việc phát hiện được từ
khóa hoặc cụm từ quan trọng sau đó sẽ kích hoạt một hành động theo quy định
(hoặc chuỗi các hành động) như là một phần của dịch vụ, đáp ứng lại lời nói
của người dùng.
Những tiếp cận nhận dạng tiếng nói của IBM và phòng thí nghiệm Bell
của AT & T đã có một ảnh hưởng sâu sắc trong sự phát triển của công nghệ
giao tiếp tiếng nói người - máy. Một trong những chủ đề phổ biến giữa những
nỗ lực này, mặc dù có sự khác biệt, là hình thức và sự chặt chẽ toán học bắt đầu
nổi lên như là khía cạnh riêng biệt và quan trọng của nghiên cứu nhận dạng
tiếng nói. Trong khi sự khác biệt trong mục tiêu dẫn đến sự khác biệt thấy rõ
của công nghệ trong các ứng dụng khác nhau, sự phát triển nhanh chóng của
các phương pháp thống kê trong những năm 1980, đáng chú ý nhất là mô hình
Markov ẩn (HMM), gây ra độ ảnh hưởng nhất định trong thiết kế hệ thống.
Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói thực tế được dựa trên
khuôn khổ thống kê và những kết quả phát triển trong những năm 1980, với
những cải tiến đáng kể bổ sung trong những năm 1990.
IV. HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990
Nghiên cứu nhận dạng tiếng nói trong những năm 1980 được đặc trưng
bởi một sự thay đổi trong phương pháp luận từ cách tiếp cận dựa trên mẫu trực
quan hơn hướng tới một khuôn khổ chặt chẽ hơn của mô hình thống kê. Mặc
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 13
dù các ý tưởng cơ bản của mô hình Markov ẩn (HMM) đã được biết đến và
hiểu sớm trong vài phòng thí nghiệm (ví dụ, IBM và Viện Phân tích Quốc
phòng (IDA)), phương pháp luận vẫn chưa đầy đủ cho đến giữa những năm
1980 sau sự công bố rộng rãi của lý thuyết, mô hình Markov ẩn đã trở thành
phương pháp ưa thích cho nhận dạng tiếng nói. Sự phổ biến và sử dụng của
HMM như là nền tảng chính cho hệ thống tự động nhận dạng tiếng nói và các
hệ thống hiểu biết đã không thay đổi trong hai thập kỷ qua, đặc biệt là vì sự cải
tiến liên tục của công nghệ này.
Mô hình Markov ẩn là một quá trình ngẫu nhiên gấp đôi, mô hình hóa biến
đổi nội tại của tín hiệu tiếng nói cũng như cấu trúc của ngôn ngữ nói trong một
khuôn khổ mô hình hóa thống kê tổng hợp và nhất quán. Như đã biết, một tín
hiệu tiếng nói thực tế vốn rất khác nhau (do sự thay đổi trong cách phát âm và
giọng, cũng như các yếu tố môi trường như độ vang và tiếng ồn). Khi mọi
người nói cùng một từ, tín hiệu âm thanh không phải là giống hệt nhau (trong
thực tế chúng có thể khác nhau đáng kể), mặc dù cấu trúc ngôn ngữ cơ bản, về
cú pháp, phát âm và ngữ pháp, có thể (hoặc không) vẫn giống nhau. Hình thức
của HMM các là một phép đo xác suất sử dụng chuỗi Markov để miêu tả cho
các cấu trúc ngôn ngữ và một tập phân bố xác suất để giải thích cho các biến
đổi trong việc nhận ra âm thanh trong lời nói. Với một tập các lời nói được biết
đến, miêu tả cho một bộ sưu tập đầy đủ của các biến thể của các từ được quan
tâm (gọi là tập huấn luyện), người ta có thể sử dụng một phương pháp ước
lượng hiệu quả, được gọi là thuật toán Baum-Welch để có được tập hợp tốt nhất
các thông số xác định mô hình hoặc các mô hình tương ứng. Việc ước tính các
tham số để xác định mô hình tương đương với việc đạo tạo và học tập. Mô hình
kết quả sau đó được sử dụng để cung cấp một chỉ số khả năng (xác suất) rằng
một lời nói thực sự là một thực hiện của các từ (hoặc từ) được miêu bởi mô
hình. Phép đo xác suất trình bày bởi HMM là một thành phần thiết yếu của một
hệ thống nhận dạng tiếng nói theo cách tiếp cận nhận dạng mẫu thống kê, và
nguồn gốc từ lý thuyết quyết định Bayes. Phương pháp luận của HMM đại diện
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 14
cho một bước tiến quan trọng từ nhận dạng mẫu đơn giản và các phương pháp
ngữ âm sử dụng trước đó trong các hệ thống nhận dạng tiếng nói tự động.
Ý tưởng của mô hình Markov ẩn xuất hiện lần đầu tiên vào cuối những
năm 1960 tại Viện Phân tích Quốc phòng (IDA) ở Princeton, NJ Len Baum
xem HMM như là một tập các chức năng xác suất của 1 chuỗi Markov, trong
đó theo định nghĩa, bao gồm hai sự phân bố lồng nhau, một liên quan đến chuỗi
Markov và một đến tập hợp các phân bố xác suất, mỗi cái liên quan đến một
trạng thái của chuỗi Markov theo thứ tự. Mô hình HMM cố gắng để xác định
các đặc điểm của một chuỗi xác suất quan sát nhưng không phải là một chức
năng cố định, thay vì vậy nó thay đổi theo một chuỗi Markov. Quá trình ngẫu
nhiên gấp đôi được tìm thấy thực sự hữu ích trong một số ứng dụng như dự
đoán thị trường chứng khoán và phân tích crypto của mật mã quay được sử
dụng rộng rãi trong Thế chiến II. Kỹ thuật ước tính và mô hình hóa của Baum
lần đầu tiên xuất hiện làm những quan sát riêng biệt (tức là, người ta giả định
các giá trị từ một tập hợp hữu hạn và do đó được điều chỉnh bởi các phân bố
xác suất rời rạc) và sau đó các quan sát ngẫu nhiên đã được mô phỏng bằng
cách sử dụng hàm mật độ xác suất log-concave. Kỹ thuật này khá mạnh mẽ
nhưng bị hạn chế. Liporace, cũng thuộc IDA, đã nới lỏng các ràng buộc mật độ
log-concave để bao gồm một ràng buộc mật độ đối xứng elip (do đó bao gồm
cả mật độ Gaussian và mật độ Cauchy), với sự giúp đỡ từ một miêu tả định lý
cũ của Fan. Quá trình ngẫu nhiên gấp đôi của Baum bắt đầu tìm các ứng dụng
trong lĩnh vực tiếng nói, ban đầu trong các hệ thống nhận dạng người nói, vào
cuối năm những 1970. Khi kỹ thuật HMM được sử dụng nhiều, nó đã bộc lộ
hạn chế, hình thức của các chức năng mật độ áp đặt một giới hạn về hiệu suất
của hệ thống, đặc biệt là các nhiệm vụ độc lập với người nói khi sự phân phối
tham số tiếng nói không thể mô hình hóa đầy đủ bởi một log-concave đơn hoặc
hàm mật độ đối xứng elip. Vào đầu những năm 1980, tại phòng thí nghiệm
Bell, lý thuyết HMM đã được mở rộng mật độ hỗn hợp kể từ khi chứng minh
sự quan trọng sống còn của chúng trong việc đảm bảo độ nhận dạng chính xác,
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 15
đặc biệt là đối với các nhiệm vụ đòi hòi độc lập người nói, nhận giạng tiếng nói
với vốn từ vựng lớn.
Việc kết hợp của mô hình Markov ẩn (với lợi thế của nó trong tính chắc
chắn của thống kê, đặc biệt là trong việc xử lý biến đổi âm thanh) và mạng
trạng thái hữu hạn (với hiệu quả tính toán và tìm kiếm của mình, đặc biệt là
trong việc xử lý giả thuyết thứ tự các từ) là một sự quan trọng.
Hình 4. Mô hình tổng hợp các trạng thái hữu hạn
cho lời nói “show all alerts”
Hình 4 cho thấy một mô hình tổng hợp các trạng thái hữu hạn cho lời nói
“show all alerts”, được xây dựng từ một số mô hình subword phụ thuộc vào bối
cảnh để miêu tả cho các âm vị giống như đơn vị lời nói tương ứng (bao gồm cả
một đơn vị cho sự im lặng đó có thể xảy ra vào lúc bắt đầu và kết thúc của câu,
cũng như ở cuối của bất kỳ từ trong câu, như có thể xảy ra trong quá trình tạm
dừng khi nói). Đồ thị trạng thái hữu hạn được thực hiện như là một chuỗi
Markov để tính khả năng xảy ra, dựa trên trình tự quan sát của một lời nói. Lưu
ý rằng mỗi nút trong biểu đồ liên kết với một phân bố xác suất giải thích cho
biến đổi trong việc thực hiện những âm thanh giống như âm vị tương ứng. Khả
năng một lời nói tạo ra bởi mạng trạng thái hữu hạn đại diện bởi mô hình được
tính như là một tổng tuần tự các khả năng cục bộ (liên quan đến các đơn vị cơ
bản của mô hình tổng hợp) sau khi một liên kết trạng thái lập trình động được
thực hiện để tối đa sự phù hợp giữa các đơn vị được gán nhãn và các phần
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 16
tương ứng của các quan sát (observation) tiếng nói (ngay cả đối với các mô
hình của các trình tự từ không chính xác). Tại thời điểm bất kỳ, luôn có một số
đơn vị giả thuyết và sự xác định danh tính âm thanh được dựa trên giá trị khả
năng tối đa. Số các đơn vị giả thuyết để so sánh và các con đường để tìm kiếm
có thể vô cùng lớn và do đó phải yêu cầu các thuật toán tính toán hiệu quả để
giải quyết vấn đề. Một công cụ, được gọi là thư viện FSM (finite-state
machine), thể hiện cách tiếp cận mạng trạng thái hữu hạn trong khuôn khổ bộ
chuyển đổi thống nhất đã được phát triển vào giữa những năm 1990 và đã trở
thành một thành phần chính của hầu hết các hệ thống nhận dạng và hiểu tiếng
nói hiện đại.
Một công nghệ khác được giới thiệu lại vào cuối những năm 1980 là ý
tưởng về mạng thần kinh nhân tạo (ANN). Các mạng thần kinh lần đầu tiên
được giới thiệu vào những năm 1950, nhưng không tạo ra được các kết quả
đáng chú ý. Sự xuất hiện của mô hình xử lý phân phối song song (PDP) trong
những năm 1980, nó là 1 kết nối dày đặc của các thành phần tính toán đơn giản,
và 1 phương thức "đào tạo" tương ứng, được gọi là lan truyền ngược đã làm
sống lại sự quan tâm xung quanh ý tưởng cũ về bắt chước cơ chế xử lý thần
kinh con người. Một hình thức đặc biệt của PDP là perceptron nhiều lớp, được
miêu tả trong hình 5, có lẽ nhận được sự chú ý nhiều nhất, không phải nó giống
với xử lý thần kinh mà vì khả năng của nó trong xấp xỉ bất kỳ hàm (đầu vào)
nào với một độ chính xác tùy ý, miễn là không có giới hạn nào trong sự phức
tạp của cấu hình xử lý bị áp đặt. Nếu một bộ nhận dạng mẫu được xem xét thực
hiện một hàm ánh xạ một mẫu đầu vào vào lớp nhận dạng, perceptron nhiều lớp
là một ứng cử viên cho mục đích này. Những cố gắng sử dụng mạng thần kinh
cho nhận dạng tiếng nói tập trung vào những nhiệm vụ đơn giản như nhận ra
một vài âm vị hoặc một vài từ (ví dụ, chữ số bị cô lập) với những thành công
tốt đẹp. Tuy nhiên, vấn đề của nhận dạng tiếng nói chắc chắn đòi hỏi phải xử lý
sự thay đổi thời gian, mạng lưới thần kinh dưới hình thức ban đầu đã không
đảm nhận được nhiệm vụ này. Những nghiên cứu đang diễn ra tập trung vào
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 17
việc tích hợp mạng thần kinh với các cấu trúc cần thiết của mô hình Markov ẩn
để tận dụng khả năng xử lý thời gian của HMM.
Trong năm 1990, một số sáng kiến đã diễn ra trong lĩnh vực nhận dạng
mẫu. Vấn đề nhận dạng mẫu, truyền thống theo khuôn khổ của Bayes và yêu
cầu ước tính sự phân bố dữ liệu, được chuyển đổi thành vấn đề tối ưu hóa liên
quan đến giảm thiểu các lỗi nhận dạng từ thực tế. Sự thay đổi cơ bản này của
mô hình gây ra bởi sự công nhận thực tế rằng các hàm phân bố cho các tín hiệu
tiếng nói có thể được lựa chọn hoặc xác định không chính xác, và rằng lý
thuyết quyết định Bayes không áp dụng được trong những trường hợp này. Sau
tất cả, mục tiêu của một thiết kế bộ nhận dạng nên là để đạt được ít lỗi nhận
dạng nhất hơn một hàm phân phối phù hợp nhất các bộ dữ liệu được ủng hộ bởi
các tiêu chuẩn Bayes. Khái niệm về phân loại tối thiểu hoặc lỗi thực nghiệm
sau đó đã cho ra đời một số kỹ thuật, trong đó phân biệt đào tạo và phương
pháp kernel-based như support vector machines (SVM) đã trở thành đối tượng
phổ biến của nghiên cứu.
Hình 5. Perceptron nhiều lớp
Thành công của phương pháp thống kê khơi lại sự quan tâm từ DARPA
vào cuối những năm 1980 và đầu những năm 1990, dẫn đến một số hệ thống
nhận dạng tiếng nói bao gồm hệ thống Sphinx từ CMU, hệ thống Byblos từ
BBN và hệ thống DECIPHER từ SRI. Hệ thống Sphinx của CMU đã thành
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 18
công trong việc tích hợp các phương pháp thống kê của mô hình Markov ẩn với
sức mạnh mạng tìm kiếm của hệ thống Harpy. Do đó, nó có thể đào tạo và
nhúng vào các mô hình âm vị phụ thuộc vào bối cảnh trong một mạng lưới giải
mã từ vựng phức tạp, đạt được những kết quả đáng chú ý trong nhận dạng tiếng
nói liên tục với vốn từ vựng lớn.
Với sự hỗ trợ của DARPA, việc đánh giá công nghệ nhận dạng tiếng nói
cho một loạt các nhiệm vụ đã được theo đuổi trong suốt những năm 1990 và thế
kỷ 21. Những đánh giá như vậy chủ yếu dựa trên các đo lường tỷ lệ lỗi từ (và
câu) như là con số hiệu năng của các hệ thống nhận dạng. Hơn nữa, những đánh
giá được tiến hành có hệ thống qua những nhiệm vụ được thiết kế cẩn thận với
mức độ khó khăn tăng dần, từ nhận dạng tiếng nói liên tục với cấu trúc ngữ
pháp cách điệu (như được sử dụng thường xuyên trong các nhiệm vụ quân sự)
đến lời nói đàm thoại. Hình 6 cho thấy một biểu đồ tóm tắt việc đo lường hiệu
năng của các nhiệm vụ nhận dạng tiếng nói liên tục với vốn từ vựng lớn theo
đánh giá của DARPA và NIST. Trong biểu đồ, nhiệm vụ “quản lý tài nguồn
lực” quan đến một cụm từ cứng nhắc kiểu quân đội với một vốn từ vựng gần
1000 từ. ATIS là một nhiệm vụ có liên quan đến cuộc trò chuyện tự nhiên với
một hệ thống lấy thông tin du lịch hàng không tự động; mặc dù lối nói là tự
nhiên, cấu trúc ngôn ngữ của nó khá hạn chế. WSJ đề cập đến sự phiên âm của
một số đoạn đọc từ báo Wall Street Journal, kích thước từ vựng có thể lên tới
60K từ. Nhiệm vụ tổng đài là một trong những thách thức lớn nhất được đề
xuất bởi DARPA. Lối nói theo kiểu đàm thoại thông thường, tự nhiên, với
nhiều từ không hoàn chỉnh, nói ngập ngừng… Nhận dạng những câu đàm thoại
kiểu này (không tuân thủ theo các ràng buộc ngôn ngữ) khó khăn hơn nhiều so
với các cuộc nói chuyện được định hướng tuân thủ các nguyên tắc ngữ pháp và
ngữ nghĩa. Ngoài ra, chương trình đánh giá cho thấy rằng việc tăng số lượng dữ
liệu tiếng nói được sử dụng để đánh giá các thông số nhận diện (như kích thước
của tập huấn luyện) luôn luôn dẫn đến giảm tỷ lệ lỗi từ. (Một hệ thống nhận
diện tiếng nói với vốn từ vựng lớn được coi là chấp nhận được nếu tỷ lệ lỗi từ
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 19
dưới 10%).
Trong những năm 1990 tiến bộ to lớn từ sự phát triển của các công cụ
phần mềm cho phép nhiều chương trình nghiên cứu cá nhân trên toàn thế giới.
Khi hệ thống trở nên phức tạp hơn (nhiều hệ thống từ vựng lớn liên quan đến
hàng chục ngàn mô hình âm vị và hàng triệu các thông số), một hệ thống phần
mềm tham khảo được cấu trúc tốt là không thể thiếu cho việc nghiên cứu thêm
và phát triển để kết hợp các khái niệm và các thuật toán mới. Hệ thống đã được
thực hiện bởi nhóm nghiên cứu tại Đại học Cambridge (được dẫn dắt bởi Steve
Young), được gọi là bộ công cụ mô hình Markov ẩn (HTK), là một trong những
công cụ phần mềm được chấp nhận rộng rãi nhất cho nghiên cứu nhận dạng
tiếng nói.
Hình 6. Đánh giá khả năng nhận dạng giọng nói cho
một số nhiệm vụ thực hiện bởi DARPA
V. HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP
Hầu hết các nghiên cứu nhận giạng tiếng nói cho đến những năm 1980 đều
coi vấn đề chính của nghiên cứu là chuyển sóng tiếng nói thành từ ngữ. Nhiều
- PHẦN I. TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 20
nhà nghiên cứu cũng tin rằng quá trình speech-to-text là bước cần thiết đầu tiên
trong quá trình cho phép một máy tính có thể hiểu và trả lời lại tiếng nói của
con người. Trong lĩnh vực đánh giá công nghệ nhận dạng và hiểu tiếng nói cho
một loạt các nhiệm vụ, có hai điều quan trọng đã tìm ra về quá trình giao tiếp
bằng tiếng nói giữa con người và máy móc. Đầu tiên, những người sử dụng
tiềm năng của một hệ thống nhận dạng tiếng nói có xu hướng nói những câu tự
nhiên thường không đáp ứng đầy đủ các ràng buộc ngữ pháp của bộ nhận dạng,
và lời nói cũng thường xuyên bị hỏng bởi các thành phần nhiễu như tiếng ồn
xung quanh, âm thanh, tiếng nói không liên quan. Thứ hai, như trong giao tiếp
giữa người với người, các ứng dụng tiếng nói thường yêu cầu một cuộc đối
thoại giữa người dùng và máy tính để đạt được một số trạng thái hiểu biết mong
muốn. Một cuộc hội thoại như vậy thường yêu cầu những hoạt động như truy
vấn và xác nhận, do đó cung cấp một số hạn định cho lỗi trong nhận dạng và
hiểu tiếng nói. Phương pháp từ khóa trọng tâm (và ứng dụng của nó trong hệ
thống xử lý cuộc gọi nhận dạng tiếng nói (VRCP) của AT & T đã đề cập ở phần
trước), đã được giới thiệu để đáp ứng yếu tố đầu tiên trong khi yếu tố thứ hai
tập trung sự chú ý của cộng đồng nghiên cứu vào lĩnh vực quản lý cuộc hội
thoại. Nhiều ứng dụng và hệ thống chứng thực tầm quan trọng của quản lý hội
thoại qua độ chính xác nhận dạng từ thô của một hệ thống được giới thiệu vào
đầu những năm 1990 với mục tiêu cuối cùng tạo ra một máy tính có thể thực sự
bắt chước khả năng giao tiếp của con người. Trong số các hệ thống này,
Pegasus và Jupiter được phát triển tại Viện Công nghệ Massachusetts dưới sự
chỉ đạo của Victor Zue được chú ý đặc biệt, và hệ thống “Làm thế nào tôi có
thể giúp bạn” (HMIHY) của AT & T phát triển bởi Al Gorin là một dịch vụ
cũng được chú ý như vậy được giới thiệu như là một phần của hệ thống chăm
sóc khách hàng của AT & T cho dịch vụ giao tiếp khách hàng của họ trong năm
2000.
Pegasus là một hệ thống giao tiếp tiếng nói cung cấp thông tin về tình
trạng các chuyến bay của hãng hàng không trên một đường dây điện thoại
nguon tai.lieu . vn