Xem mẫu

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGUYỄN VĂN HUY

NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU TRONG NHẬN DẠNG
TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC

Chuyên ngành: Cơ sở toán học cho tin học
Mã số:

62460110

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI – 2016

Công trình được hoàn thành tại: Học Viện Khoa học và Công nghệ,
Viện Hàn Lâm Khoa học và Công nghệ Việt Nam.

Người hướng dẫn khoa học 1: PGS. TS. Lương Chi Mai
Người hướng dẫn khoa học 2: TS. Vũ Tất Thắng

Phản biện 1: PGS. TS. Nguyễn Quốc Cường
Phản biện 2: PGS. TS. Nguyễn Phương Thái
Phản biện 3: PGS. TS. Lê Thanh Hương

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học
Viện họp tại: Học viện Khoa học và Công nghệ-Viện Hàn lâm
Khoa học và Công nghệ Việt Nam
Vào hồi….. giờ, ngày…..tháng…..năm

Có thể tìm hiểu về luận án tại:
- Thư viện Quốc gia
- Thư viện Học viện Khoa học và Công nghệ

Danh mục các công trình khoa học đã công bố
của tác giả và các cộng sự
A. Tạp chí quốc gia
1. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Áp dụng Bottle neck
Feature cho nhận dạng tiếng nói tiếng Việt, Journal of Computer
Science and Cybernetics, Vietnam, ISSN 1813-9663, Vol 29, No 4,
Oct-2013.
2. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Do Quoc Truong,
Vietnamese recognition using tonal phoneme based on multi space
distribution, Journal of Computer Science and Cybernetics, Vietnam,
ISSN 1813-9663, Vol 30, No 1, Jan-2014.
3. Nguyễn Văn Huy, Nâng cao chất lượng đặc trưng bottle neck cho nhận
dạng tiếng nói tiếng Việt, Tạp chí Khoa học và Công nghệ Đại học Thái
Nguyên, ISSN 1859-2171, Tập 137, Số 07, 2015.
B. Hội thảo quốc tế
1. Kevin Kilgour, Christian Mohr, Michael Heck, Quoc Bao Nguyen, Van
Huy Nguyen, Evgeniy Shin, Igor Tseyzer, Jonas Gehring, Markus
Muller, Matthias Sperber, Sebastian Stuker and Alex Waibel , The 2013
KIT IWSLT Speech-to-Text Systems for German and English,
International Workshop on Spoken Language Translation (IWSLT),
Germany, Dec-2013.
2. Jonas Gehring, Kevin Kilgour, Quoc Bao Nguyen, Van Huy Nguyen,
Florian Metze, Zaid A. W. Sheikh, Alex Waibel , Models of tone for
tonal and non-tonal languages, IEEE Automatic Speech Recognition
and Understanding (ASRU), Czech Republic, Dec-2013.
3. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Adapting bottle neck
feature to multi space distribution for Vietnamese speech recognition,
Conference of the Oriental chapter of the International Coordinating
Committee on Speech Databases and Speech I/O Systems and
Assessment (OCOCOSDA), Phuket-Thailan, Oct-2014.
4. Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu, Tonal phoneme
based model for Vietnamese LVCSR, IEEE Conference of the Oriental
chapter of the International Coordinating Committee on Speech
Databases and Speech I/O Systems and Assessment (OCOCOSDA),
Shanghai-China, Oct-2015.
5. Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong,
The IOIT English ASR system for IWSLT 2015, International
Workshop on Spoken Language Translation (IWSLT), Da Nang,
Vietnam, Dec-2015.
1

Lời nói đầu
Tiếng Việt có sáu thanh điệu, một cách tổng quát có thể coi
như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương
ứng với sáu thanh điệu đó. Việc nhận dạng tiếng Việt có thanh điệu
là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm hữu thanh.
Các nghiên cứu hiện nay mới chỉ ở những bước đầu tiên và chủ yếu
áp dụng cho tiếng nói rời rạc, lượng từ vựng nhỏ cỡ vài trăm từ. Từ
các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình
thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên
tục”. Với mục tiêu chính là nghiên cứu các vấn đề trong nhận dạng
tiếng nói tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các
vấn đề về mô hình thanh điệu cho tiếng Việt.
Nội dung chính của luận án được trình bày thành 5 chương
với nội dung như sau: Chương 1: Giới thiệu tổng quan về nhận dạng
tiếng nói và ứng dụng. Tình hình nghiên cứu tổng quan về nhận dạng
tiếng nói nói chung và nhận dạng tiếng Việt nói tiêng. Giới thiệu các
mục tiêu nghiên cứu chính của luận án; Chương 2: Mô hình nhận
dạng tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu. Hệ thống
nhận dạng cơ sở; Chương 3: Trình bày mô hình thanh điệu sử dụng
MSD-HMM cho nhận dạng tiếng Việt có thanh điệu; Chương 4:
Trình bày phương pháp tăng cường đặc trưng ngữ âm cho tiếng Việt
sử dụng mạng nơron; Chương 5: Trình bày phương pháp tăng cường
đặc trưng thanh điệu tiếng Việt và mô hình tích hợp MSD-HMM với
Bottleneck.
Thái Nguyên, ngày 27 tháng 02 năm 2016
Nguyễn Văn Huy

2

Mục lục

Danh mục các công trình khoa học đã công bố .......................................................................... 1
của tác giả và các cộng sự .......................................................................................................... 1
Lời nói đầu................................................................................................................................. 2
Mục lục ...................................................................................................................................... 3
Danh mục các từ viết tắt ............................................................................................................ 4
Danh mục bảng biểu .................................................................................................................. 5
Danh mục hình ảnh .................................................................................................................... 5
Chương 1: Mở đầu ..................................................................................................................... 6
1.1. Tóm tắt chương ............................................................................................................. 6
1.2. Tổng quan về nhận dạng tiếng nói ................................................................................. 6
1.3. Các thành phần chính của một hệ thống nhận dạng tiếng nói ........................................ 6
1.4. Đánh giá chất lượng hệ thống nhận dạng tiếng nói ........................................................ 6
1.5. Tình hình nghiên cứu hiện nay về nhận dạng tiếng nói.................................................. 7
1.6. Nhận dạng tiếng nói tiếng Việt và các nghiên cứu hiện nay .......................................... 7
1.7. Một số nghiên cứu gần đây trên các ngôn ngữ có thanh điệu ........................................ 7
1.8. Kết luận và các nội dung nghiên cứu chính của luận án ................................................ 8
Chương 2: Mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục ............ 9
2.1. Tóm tắt chương ............................................................................................................. 9
2.2. Tổng quan về tiếng Việt ................................................................................................ 9
2.3. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn ............................................... 9
2.4. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có thanh điệu....................... 10
2.5. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) ......... 10
2.6. Dữ liệu thử nghiệm ...................................................................................................... 10
2.7. Tổng quan về công cụ HTK& HTS cho nhận dạng tiếng nói....................................... 11
2.8. Thử nghiệm mô hình không có thanh điệu (Hệ thống nhận dạng cơ sở Baseline) ....... 11
2.9. Thử nghiệm mô hình có thanh điệu ............................................................................. 11
2.10. Kết luận chương ........................................................................................................ 11
Chương 3: Mô hình thanh điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm
liên tục ..................................................................................................................................... 12
3.1. Tóm tắt chương ........................................................................................................... 12
3.2. Vai trò của đặc trưng thanh điệu .................................................................................. 12
3.3. Đặc trưng thanh điệu và vấn đề không liên tục ............................................................ 12
3.4. Tổng quan về mô hình MSD-HMM ............................................................................ 13
3.5. Các nghiên cứu đã công bố về áp dụng MSD-HMM trong nhận dạng tiếng nói.......... 13
3.6. Chuẩn hóa đặc trưng AMDF và NCC cho mô hình MSD-HMM................................. 13
3.7. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu ...................... 14
3.8. Cài đặt thử nghiệm và kết quả ..................................................................................... 14
3.9. Kết luận chương .......................................................................................................... 14
Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron .............................................. 15
4.1. Tóm tắt chương ........................................................................................................... 15
4.2. Tổng quan về mạng nơron MLP (Multilayer Perceptron) ............................................ 15
4.3. Ứng dụng mạng nơron trong nhận dạng tiếng nói........................................................ 15
4.4. Trích chọn đặc trưng Bottleneck sử dụng mạng MLP ................................................. 15
4.5. Cài đặt thử nghiệm ...................................................................................................... 15
4.6. Tối ưu đặc trưng Bottleneck ........................................................................................ 16
4.7. Kết luận chương .......................................................................................................... 16
Chương 5: Cải tiến đặc trưng thanh điệu sử dụng mạng nơron và mô hình tích hợp MSD-HMM
với Bottleneck.......................................................................................................................... 17
5.1. Tóm tắt chương ........................................................................................................... 17
5.2. Trích chọn đặc trưng thanh điệu sử dụng mạng nơron ................................................. 17
5.3. Gán nhãn dữ liệu ......................................................................................................... 17
5.4. Lựa chọn cấu hình mạng MLP..................................................................................... 18
5.5. Thử nghiệm đặc trưng TBNF-MSD với mô hình MSD-HMM .................................... 18
5.6. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM.................................................. 18
5.7. Kết luận chương .......................................................................................................... 18
Kết luận ................................................................................................................................... 19
Các đóng góp chính luận án ..................................................................................................... 24

3

nguon tai.lieu . vn