Xem mẫu
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Hệ thống tra cứu thông tin đào tạo tín chỉ
qua mạng điện thoại
Trần Khải Thiện1, Vũ Thanh Hiền5 Trần Khải Cát Tiên2, Mai Anh Thơ3,
Khoa CNTT - Đại học Ngoại Ngữ Tin Học Nguyễn Minh Nhật4
TP.HCM Khoa CNTT - Đại học Nông Lâm TP.HCM
TP.HCM, Việt Nam TP.HCM, Việt Nam
thientk@gmail.com cattientk@gmail.com
Tóm tắt—Bài báo giới thiệu hệ thống EDUvoice - ứng của công nghệ này bao gồm Nhận dạng tiếng nói và
dụng trong các hệ hỏi đáp thông tin qua mạng điện thoại Tổng hợp tiếng nói đã và đang được 2 nhóm nghiên cứu
(PSTN). Hệ thống có thể hiểu được các câu lệnh tiếng nói
của người dùng, giúp cho việc tra cứu thông tin đào tạo tại chính là Viện Công nghệ thông tin (Viện Khoa học và
khoa CNTT trường đại học Nông Lâm bằng tiếng nói Công nghệ Việt Nam) và trường Đại học Khoa học tự
tiếng Việt thông qua mạng điện thoại. Điểm đặc biệt của nhiên (ĐHQG-HCM) thực hiện và cho ra nhiều công bố
hệ thống là có khả năng phân tích cú pháp và ngữ nghĩa được đánh giá cao [3], [5], [7], [10], [16]. Tuy nhiên,
của các câu lệnh tiếng nói sau khi được nhận dạng bởi
thành phần nhận dạng tiếng nói. EDUvoice bao gồm các những kết quả nghiên cứu nói trên chỉ tập trung vào
thành phần chính như sau: thành phần giao tiếp mạng việc nâng cao hiệu quả xử lý tiếng nói tiếng Việt mà
điện thoại; thành phần nhận dạng tiếng nói tiếng Việt; chưa quan tâm đến vấn đề xử lý ngữ nghĩa của các câu
thành phần xử lý ngôn ngữ tự nhiên và thành phần tổng
hợp tiếng nói tiếng Việt. Theo hiểu biết của chúng tôi, đây
lệnh tiếng nói.
là một trong những hệ thống đầu tiên tại Việt Nam thực
hiện việc tích hợp cơ chế xử lý ngôn ngữ tự nhiên vào các EDUvoice là hệ thống voice server được xây dựng dựa
ứng dụng tiếng nói. Điều này giúp cho các ứng dụng tiếng trên sự kết hợp giữa xử lý ngôn ngữ nói và ngôn ngữ
nói trở lên thông minh hơn, có thể giao tiếp với con người viết, hệ thống có thể nhận dạng nhiều dạng câu lệnh
bằng ngôn ngữ tự nhiên với độ chính xác cao và tốc độ xử
lý nhanh. Hệ thống qua thực nghiệm đạt độ chính xác cao bằng tiếng nói tiếng Việt để chuyển thành dạng văn bản,
và thân thiện với người dùng là minh chứng rõ nét cho kế tiếp xử lý cú pháp và ngữ nghĩa của chúng, rồi phát
tính thực tế của nghiên cứu. sinh các truy vấn cơ sở dữ liệu, cuối cùng là trả lời cho
Từ khóa—Spoken Dialog Systems, Natural Language
người dùng với những dữ liệu đã truy vấn được bằng
Processing, Voice Server, EDUvoice. giọng đọc tiếng Việt. Việc xử lý cú pháp và ngữ nghĩa
của các câu lệnh trong hệ thống được giải quyết với
I. GIỚI THIỆU
DCG (Definite Clause Grammar) [4]. Trong phần xử lý
Trên thế giới, từ những năm 1960 -1970 đã xuất hiện tiếng nói, chúng tôi sử dụng công cụ HTK (Hidden
những nghiên cứu về các hệ giao tiếp bằng tiếng nói Markov Model Toolkit) [14] cho việc nhận dạng tiếng
(Spoken Dialog Systems) điển hình như ELIZA [18] và nói và áp dụng phương pháp Unit-selection [1] cho việc
SHRDLU [19]. Nhưng phải đến những năm 1990 thì tổng hợp tiếng nói.
các hệ giao tiếp bằng tiếng nói mới thật sự phát huy tính
ứng dụng cao bởi sự tích hợp với các hệ thống tương tác
qua điện thoại (Telephone IVR Systems) như TRAIN
[15], RAILTEL [2], và hiện nay IBM Watson, SIRI và
trợ lý ảo Cortana đang là những sản phẩm ưu tú nhất
của ứng dụng tiếng nói.
Ở Việt Nam, trong những năm vừa qua, các nghiên cứu Hình 1. Hệ thống EDUvoice
về công nghệ xử lý tiếng nói cũng đã thu được những
kết quả đáng khích lệ. Hai nội dung nghiên cứu chính
ISBN: 978-604-67-0349-5 458
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
II. KIẾN TRÚC HỆ THỐNG Để hiện thực các chức năng nói trên, hệ thống cần có
Hệ thống được thiết kế có chức năng như sau: Nhận những thành phần sau (Hình 3):
dạng câu truy vấn qua điện thoại; xử lý câu truy vấn; A. Bộ nhận dạng tiếng nói: chuyển dữ liệu âm thanh là
tiến hành truy xuất thông tin trong cơ sở dữ liệu; trả lời tiếng nói của người dùng thành dữ liệu văn bản.
lại cho người dùng qua điện thoại và được thực hiện
B. Bộ xử lý ngôn ngữ tiếng Việt: xử lý cú pháp, ngữ
theo kịch bản sau: nghĩa của các câu truy vấn của người dùng.
(0) Trạng thái chờ C. Bộ xử lý trung tâm: kết nối các thành phần trong hệ
(1) User gọi vào hệ thống và hỏi bằng tiếng Việt thống thông qua việc:
(2) Hệ thống xác nhận user nội dung vừa hỏi 1. Chuyển dữ liệu văn bản từ bộ nhận dạng tiếng nói
(2.0) Nếu user xác nhận đúng, hệ thống tiếp tục thành dạng dữ liệu chuẩn thực thi tập tin Prolog
xử lý bước (3) trong bộ xử lý ngôn ngữ.
(2.1) Nếu user xác nhận sai, hệ thống quay về 2. Chuyển đổi những biểu diễn ngữ nghĩa của các
trạng thái chờ (0) câu truy vấn thành tập những câu lệnh truy xuất đến
(3) Tiếng nói được đưa qua bộ nhận dạng và
cơ sở dữ liệu, đồng thời thực thi chúng.
chuyển thành câu truy vấn dạng văn bản tiếng
3. Lọc, sắp xếp và trả về kết quả xử lý của hệ thống
Việt
cho người dùng.
(4) Hệ thống phân tích cú pháp và xử lý ngữ nghĩa
câu truy vấn D. Cơ sở dữ liệu: chứa thông tin đào tạo tín chỉ.
(4.0) Nếu câu truy vấn đúng cú pháp E. Bộ tổng hợp tiếng nói tiếng Việt: chuyển dữ liệu văn
- Hệ thống thực hiện việc truy vấn cơ sở bản thành tiếng nói.
dữ liệu và trả kết quả bằng tiếng nói
đến người dùng
- Kết thúc và quay về bước (0)
(4.1) eNgược lại, nếu là câu truy vấn sai cú
pháp thì hệ thống sẽ thông báo bằng tiếng
nói lại cho user để thực hiện lại câu truy
vấn.
Hình 3. Kiến trúc hệ thống
III. MÔ-ĐUN GIAO TIẾP
Nhiệm vụ của mô-đun này là giao tiếp máy tính
và hệ thống điện thoại. Ngoài ra, mô-đun giao tiếp còn
tiếp nhận, xử lý tín hiệu đến từ điện thoại và trả lời
thông tin từ máy tính trở lại hệ thống điện thoại.
Về phần cứng, chúng tôi sử dụng modem Intel®
536EP Modem của Intel. Modem kết nối trực tiếp với
Hình 2. Mô phỏng kịch bản hoạt động
line điện thoại và máy tính, làm cầu nối trung gian
truyền tải tín hiệu giữa hệ thống điện thoại và máy tính.
ISBN: 978-604-67-0349-5 459
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Hình 4. Vai trò của Voice Modem
Về phần mềm, chúng tôi sử dụng bộ thư viện TAPI,
mà cụ thề là TAPI 3 do Microsoft và Intel hợp tác đưa ra
[6].
Hình 5. Sơ đồ các công đoạn xây dựng bộ nhận dạng tiếng nói sử
IV. BỘ NHẬN DẠNG TIẾNG NÓI dụng HTK [17]
Trong hệ thống EDUvoice, chúng tôi sử dụng HTK
để xây dựng thành phần nhận dạng tiếng nói. HTK cung B. Dữ liệu huấn luyện
cấp các công cụ xử lý tiếng nói, đặc biệt là nhận dạng Tập dữ liệu huấn luyện được thu âm trong 160 phút
tiếng nói, dựa trên HMM [14]. Dựa theo cách tiếp cận
với 2429 mẫu câu. Dữ liệu này được lấy mẫu ở mức
của [9], [11], [17], chúng tôi đã áp dụng mô hình phụ
thuộc ngữ cảnh (“context-dependent model”) dựa trên 8000 Hz, 16 bit theo định dạng PCM trong điều kiện
triphone để nhận dạng các từ trong bộ từ vựng, đồng môi trường ít tiếng ồn với 7 giọng đọc của nam.
thời định nghĩa văn phạm chứa các cấu trúc câu có thể
có trong ngữ cảnh của ứng dụng giúp cho việc nhận Bảng 1. BỘ TỪ VỰNG GỒM 68 TIẾNG
dạng các chuỗi từ (câu) được chính xác.
ai bao bản bộ cao
A. Các bước xây dựng bộ nhận dạng tiếng nói
cơ của dạy giảng gì
Việc xây dựng một hệ nhận dạng tiếng nói gồm có hai
giai đoạn chính: khoa không kế kỳ là
1) Giai đoạn huấn luyện: môn mạng mấy mềm một
a) Chuẩn bị tập dữ liệu tiếng nói cần huấn luyện
những nào này nâng phân
và mã hóa tập dữ liệu này.
b) Gán nhãn, lập từ điển. thu thuyết thông thơ thầy
c) Tạo các mô hình HMM (prototype HMM) cho
mỗi đơn vị phone. trong trình tích tín tính
Đầu ra của giai đoạn huấn luyện là tập các mô hình
chỉ các có cô công
HMM đã được huấn luyện (hmmset).
2) Giai đoạn nhận dạng: hai hành hùng hệ học
a) Tập các mô hình HMM đã được huấn luyện lý lập mi máy mã
(hmmset) - là kết quả của giai đoạn huấn luyện.
b) Xây dựng văn phạm. mở nghệ ngành nhiêu nhập
c) Trích đặc trưng cho chuỗi âm thanh cần nhận
phí phần phụ quyết thiết
dạng.
Đầu ra của giai đoạn nhận dạng là chuỗi văn bản. thống thực tin tiên tiết
viên và web
ISBN: 978-604-67-0349-5 460
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
C. Xây dựng văn phạm V. XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Mô hình ngôn ngữ cung cấp thông tin về cú pháp, A. Cú pháp câu lệnh truy vấn
ngữ nghĩa, trật tự từ của câu. Thành phần này giúp hệ
Trong hệ thống của chúng tôi có tất cả 48 dạng câu
thống lựa chọn ra kết quả nhận dạng tốt nhất trong danh
truy vấn và được chia thành 6 chủ đề, một số dạng câu
sách các ứng viên chọn lọc được bởi tiến trình nhận
tiêu biểu được trình bày trong bảng 2.
dạng. Cấu trúc câu có thể có trong ngữ cảnh của ứng
dụng. Việc xây dựng mô hình ngôn ngữ bao gồm việc Bảng 2. MỘT SỐ DẠNG CÂU TRUY VẤN PHÂN THEO
xác định văn phạm cho ngôn ngữ đó. Tính phức tạp của CHỦ ĐỀ
văn phạm phụ thuộc vào mức độ phức tạp của hệ thống
cần nhận dạng. Cấu trúc văn phạm là một đồ thị có STT Chủ đề Dạng câu truy vấn
hướng tổng quát, chứa các cấu trúc câu có thể có trong
ngữ cảnh của ứng dụng. Trong ứng dụng của chúng tôi,
một phần của tập tin văn phạm (dạng có mã hóa 1 Khoa – Bộ môn [Ngành] có những bộ môn nào
TELEX) thể hiện như sau:
$Khoa = (NGAFNH | KHOA) [COONG NGHEEJ THOONG TIN]; 2 Bộ môn – Giảng viên có những (giảng viên
$ $Bomon = BOOJ MOON (HEEJ THOOSNG THOONG TIN | | thầy cô) nào
MAJNG MASY TISNH | COONG NGHEEJ PHAAFN MEEFM);
$Giangviennao = GIARNG VIEEN | THAAFY COO;
… 3 Môn học – Giảng viên (thầy cô | giảngviên) nào dạy
$sen1 = $Khoa COS $nhungcac BOOJ MOON NAFO ;
dạy những (môn |
D. Tổng hợp tiếng nói môn học) nào
Hệ thống tổng hợp tiếng (Text-To-Speech) nói gồm
02 công đoạn chính là phân tích văn bản (quá trình xử có dạy không
có thể tổng hợp được) và tổng hợp tiếng nói (tạo ra tín
có những (giáo viên
hiệu tiếng nói từ kết quả của phần phân tích văn bản). | thầy cô | giảngviên) nào dạy
Việc tổng hợp tiếng nói có thể được thực hiện bằng tổng
hợp Formant [10] hay phương pháp Unit-selection
4 Môn học có mã môn học là gì
[10],… Với EDUvoice, chúng tôi chọn cách tiếp cận
tổng hợp bằng phương pháp Unit-selection, thực hiện có môn tiên quyết là
theo quy trình theo hình 6. môn nào
có bao nhiêu tiết lý
thuyết
có bao nhiêu tiết
thực hành
có bao nhiêu tín chỉ
5 Học phí có học phí là bao
nhiêu
6 Phụ thu [Ngành] có không
[Ngành] có là bao
nhiêu
Hình 6. Quy trình tổng hợp bằng phương pháp ghép nối chọn đơn
vị [10]
ISBN: 978-604-67-0349-5 461
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
B. Phân tích ngữ nghĩa câu lệnh Ví dụ 1: Ngành Công Nghệ Thông Tin có những bộ
Để biểu diễn ngữ nghĩa cho các câu truy vấn, chúng môn nào?
tôi sử dụng DCG [4], có tất cả 17 cấu trúc biểu diễn Luật cú pháp và ngữ nghĩa DCG được định nghĩa như
nghĩa cho bởi bảng 3. sau:
query(which_depts(Faculty)) --> p_industry,
Bảng 3. CÁC CẤU TRÚC BIỂU DIỄN NGHĨA CỦA CÂU n_faculty(Faculty),p_have, p_plural, p_dept, p_which.
TRUY VẤN
n_ industry -->[ngành].
n_faculty(faculty(công, nghệ, thông , tin)) -->[ công, nghệ, thông ,
STT Chủ đề Cấu trúc nghĩa câu truy vấn tin].
p_have-->[cos].
p_plural-->[những].
1 Bộ môn which_depts(Faculty) p_dept-->[bộ,môn].
p_which-->[nào].
2 Giảng viên which_teachers(Dept)
Ta được luật cú pháp và ngữ nghĩa xác định cấu trúc
which_teachers(Course)
nghĩa của câu truy vấn ví dụ 1 như sau:
which_depts (faculty (công, nghệ, thông , tin))
yesno_teacher(Teacher,Course)
Cấu trúc nghĩa này là cấu trúc nghĩa số 1 mục 1.
3 Môn học course(Teacher) Từ các cấu trúc nghĩa này, chúng tôi tiến hành
chuyển đổi thành câu lệnh SQL tương ứng để truy xuất
vào cơ sở dữ liệu.
4 Mã môn học course_id(Course)
VI. THỬ NGHIỆM VÀ ĐÁNH GIÁ
5 Môn tiên quyết prerequisite(Course) Việc thử nghiệm trước tiên được tiến hành theo từng
thành phần của hệ thống; gồm Thành phần Nhận dạng
6 Số tín chỉ credit(Course) tiếng nói, Thành phần Xử lý ngôn ngữ Tiếng Việt và Bộ
Xử lý trung tâm. Kế đến, chúng tôi tiến hành các thử
theory_credit(Course) nghiệm trên cả hệ thống, cũng như tiến hành các khảo
sát về cảm nhận/ đánh giá của người dùng về hệ thống,
practise_credit(Course)
bao gồm thành phần Tổng hợp Tiếng nói.
7 Số tiết lý thuyết theory(Course) A. Thành phần nhận dạng tiếng nói
– thực hành
Hiệu năng của hệ thống nhận dạng tiếng nói thường
practise(Course)
được đánh giá qua độ đo WER (Word Error Rate), biểu
diễn bởi công thức sau: WER= (S + D + I) / N x 100%.
8 Học phí fee(Course)
Trong đó, N là tổng số từ, S là số lỗi sửa, I là số lỗi chèn
và D là số lỗi xóa.
9 Học kỳ yesno_course(Semester,Course)
Ở đây, chúng tôi sử dụng độ đo WAR (Word Accuracy
yesno_teacher_mon(Teacher,Cours Rate) để đánh giá hiệu năng của hệ thống, biểu diễn bởi
e,Semester)
công thức: WAR = (1 – (S + D + I) / N) x 100%
10 Phụ thu yesno_surcharge(Faculty) Hiệu năng hệ thống
Chúng tôi lần lượt tiến hành các thử nghiệm offline
surcharge(Faculty)
được chia theo: khu vực, giới tính, độ tuổi và ngữ liệu
huấn luyện, độ chính xác của hệ thống cho bởi các bảng
4, 5, 6 và 7.
ISBN: 978-604-67-0349-5 462
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Bảng 4. THỬ NGHIỆM THEO KHU VỰC B. Thành phần xử lý ngôn ngữ tự nhiên
WAR
Với thành phần xử lý ngôn ngữ tự nhiên, chúng tôi
Mô hình Mô tả tiến hành thử nghiệm trên 100 câu, thành phần này cho
Bắc Trun Nam kết quả đúng với cả 100 mẫu câu thử. Đây là các mẫu
g câu nằm trong phạm vi các cấu trúc cú pháp đã được xây
dựng cho hệ thống. Hệ thống có khả năng xử lý đúng
VNSE_ Tập ngữ liệu huấn 95% 75% 92% toàn bộ các câu chuẩn này, điều này cho thấy hệ thống
A1 luyện chỉ bao gồm
các giọng đọc miền có tính ổn định và chính xác.
Bắc Độ bao phủ: Với những câu không thuộc phạm vi
các cấu trúc cú pháp thì hệ thống sẽ trả về kết quả phân
Bảng 5. THỬ NGHIỆM THEO GIỚI TÍNH tích cú pháp là false. Điều này cho thấy các qui tắc cú
pháp DCG mà đề tài đã xây dựng và bộ từ điển vẫn chưa
WAR bao quát hết tất cả các trường hợp. Nếu bổ sung thêm bộ
Mô hình Mô tả từ điển từ loại và hoàn thiện các qui tắc cú pháp DCG,
độ bao phủ của hệ thống sẽ được tăng lên rất cao.
Nữ Nam
C. Khảo sát người dùng
VNSE_ Tập ngữ liệu huấn 87% 96% Chúng tôi cũng đã tiến hành các khảo sát người sử
G1 luyện chỉ bao gồm dụng hệ thống với câu hỏi: “Hệ thống có dễ sử dụng hay
giọng đọc giới tính nam không?” với 4 mức đánh giá, và được kết quả như bảng
8.
Bảng 8. KHẢO SÁT MỨC TIỆN DỤNG CỦA HỆ THỐNG
Bảng 6. THỬ NGHIỆM THEO ĐỘ TUỔI
WAR Rất tiện Khá tiện Hơi tiện dụng Không tiện
Mô hình Mô tả dụng dụng dụng
18-30 Khác
30% 27% 23% 20%
VNSE_D1 Tập ngữ liệu huấn 93,73% 91% D. Thử nghiệm trên toàn bộ hệ thống
luyện gồm giọng đọc
có độ tuổi 18-30 Hệ thống được xây dựng trên môi trường PC với
ngôn ngữ lập trình MS Visual C# 2012 và SWI-Prolog
version 7.1.9.
Bảng 7. THỬ NGHIỆM THEO ĐỘ LỚN TẬP NGỮ LIỆU
Bảng 9. THÔNG SỐ THỰC NGHIỆM
WAR
Mô hình Mô tả
Số lượng câu truy vấn 100
Người Người
tham không
gia tham Môi trường trong nhà (in-door)
huấn gia
luyện huấn
luyện Tốc độ lấy mẫu 8 kHz
VNSE_C01 Tập ngữ liệu huấn 99% 64%
luyện 1 giọng đọc Lượng tử hóa (Quantization) 16 bits
VNSE_C05 Tập ngữ liệu huấn 99% 90%
luyện 5 giọng đọc Định dạng PCM
VNSE _C7 Tập ngữ liệu huấn 98,49% 93,73%
luyện 7 giọng đọc Thiết bị điện thoại di động
ISBN: 978-604-67-0349-5 463
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
Hệ thống cho kết quả chính xác với 94/100 câu truy [5] Hue Nguyen, Truong Tran, Nhi Le, Nhut Pham, Quan Vu,
“iSago: The Vietnamese Mobile Speech Assistant for Food-
vấn tiếng Việt. Như đã nhận thấy ở trên, các kết quả court and Restaurant Location,” RIVF-VLSP 2012, Ho Chi
không mong đợi đều thuộc về giai đoạn nhận dạng. Minh City, Viet Nam, 2012.
Thời gian phản hồi trung bình của hệ thống là 2.6 giây. [6] Michelle Quinton, Windows NT 5.0 Brings You New
Telephony Development Features with TAPI 3.0, Microsoft
E. Đánh giá Systems Journal. [Online]. Available:
http://www.microsoft.com/msj/1198/tapi3/tapi3.aspx, 1998.
Trong quá trình kiểm thử, thành phần nhận dạng
[7] Nhut Pham, Quan Vu, “A Spoken Dialog System for Stock
tiếng nói đã nhận dạng sai 25 câu trong tổng số 100 câu Information Inquiry,” in Proc. IT@EDU, Ho Chi Minh City,
đưa vào thử nghiệm. Nhưng xét về mặt ngữ nghĩa có Viet Nam, 2012.
đến 19/25 câu nhận dạng sai vẫn bảo toàn được nghĩa [8] Patrick Blackburn, Johan Bos, “Representation and Inference
ban đầu và được hệ thống xử lý đúng bởi thành phần xử for Natural Language: A First Course in Computational
Semantics”. CSLI Press, pp. 1 – 376, Chicago, 2007.
lý ngôn ngữ tự nhiên, chỉ có 6 câu cho nghĩa sai bởi giai
[9] Quan Vu et al., (2012). “Nghiên cứu xây dựng hệ thống Voice
đoạn nhận dạng. Điều này cho thấy thành phần xử lý Server và ứng dụng cho các dịch vụ trả lời tự động qua điện
ngôn ngữ tự nhiên đóng vai trò quan trọng trong hệ thoại”. Technical report, Research project, HCM City
thống, thành phần này có thể “sửa sai” cho cả giai đoạn Department of Science and Technology, Viet Nam.
nhận dạng tiếng nói. [10] Quan Vu, “VOS: The Corpus-based Vietnamese Text-to-speech
System,” Journal on Information, Technologies, anh
Communications, 2010.
VII. KẾT LUẬN
[11] Quoc The Van, Nguyen B. P. Nguyen, Anh K. V. Nguyen, Hien
Bài báo đã trình bày mô hình kiến trúc của hệ thống Thanh Vu, Thien Khai Tran “Vietnamese Speech Processing and
EDUvoice cũng như cách tiếp cận để xây dựng nó. Synthesis in VNSExpenses System”. International Journal of
Advanced Research in Computer and Communication
Trong hệ thống, thành phần xử lý ngôn ngữ tiếng Việt – Engineering. Vol. 3, Issue 4, 2014.
nơi chịu trách nhiệm phân tích cú pháp và ngữ nghĩa
[12] Richard Montague, Formal Philosophy: Selected Papers of
của các dạng câu lệnh là thành phần cốt lõi của hệ Richard Montague. Bell & Howell Information & Lea, pp. 1 –
thống. Theo hiểu biết của chúng tôi, đây là một trong 119, New Haven, 1974.
những hệ thống đầu tiên tại Việt Nam được trang bị một [13] Sandiway Fong, “LING 364: Introduction to Formal Semantics.
www.dingo.sbs.arizona.edu/~sandiway ”, 2012.
cơ chế xử lý ngôn ngữ tự nhiên hiệu quả vào ứng dụng
tiếng nói, giúp cho hệ thống trở nên thông minh và linh [14] Steve Young et al, The HTK Book (version 3.4). [Online].
Available: www.htk.eng.cam.ac.uk/docs/docs.shtml, 2006.
hoạt. Nghiên cứu này cũng mở ra một hướng phát triển
[15] Sikorski,T. and Allen, J., A task‐based evaluation of the
mới cho việc xây dựng và phát triển các hệ thống hỏi TRAINS-95 dialogue system. In Proc. ECAI Workshop on
đáp có thể hiểu và giao tiếp bằng tiếng nói tiếng Việt Dialogue Processing in Spoken Language Systems (1996).
với người dùng. Hoạt động sắp tới của chúng tôi là triển [16] Thang Vu, Mai Luong, “The Development of Vietnamese
khai ứng dụng voice server với mô-đun giao tiếp sử Corpora Toward Speech Translation System,” RIVF-VLSP
2012, Ho Chi Minh City, Viet Nam, 2012.
dụng tổng đài nguồn mở Asterisk nhằm giúp hệ thống
hoạt động linh hoạt hơn. [17] Thien Khai Tran, Dang Tuan Nguyen (2013). “Semantic
Processing Mechanism for Listening and Comprehension in
VNSCalendar System”. International Journal on Natural
TÀI LIỆU THAM KHẢO Language Computing (IJNLC) Vol. 2, No.2, April 2013.
[1] A. Hunt, A. Black and W. Alan, “Unit selection in a [18] Weizenbaum, J., ELIZA A computer program for the study of
concatenative speech synthesis system using a large speech natural language communication between man and machine.
database," Pro c. ICASSP-96, 1, pp. 373, 1996. Commun. ACM, Vol.9, No.1, pp.36‐‐45 (1966).
[2] Bennacef, S., Devillers, L., Rosset, S., and Lame1, L.: Dialogin [19] Winograd, T.,Understanding Natural Langauge.Academic Press
the RAILTEL telephone‐based system. In Proc. ICSLP, (1972)
pp.550‐‐553 (1996)
[3] Duong Dau, Minh Le, Cuong Le and Quan Vu, “A Robust
Vietnamese Voice Server for Automated Directory Assistance
Application,” RIVF-VLSP 2012, Ho Chi Minh City, Viet Nam,
2012.
[4] Fernando C. N. Pereira and Stuart M. Shieber, Prolog and
Natural-Language Analysis. Microtome Publishing, pp. 1 – 284,
Massachusetts, 2005.
ISBN: 978-604-67-0349-5 464
nguon tai.lieu . vn