- Trang Chủ
- Điện - Điện tử
- Đánh giá hiệu năng một số mô hình học máy thống kê với vấn đề nhận dạng thanh điệu tiếng Việt nói
Xem mẫu
- HộiHội
Thảo Quốc
Thảo GiaGia
Quốc 2015
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông CôngNghệ
Thông và Công NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
ánh giá hiu nng mt s mô hình hc máy thng kê
vi vn nhn dng thanh iu ting Vit nói
Nguyn Hng Quang, Trnh Vn Loan
Vin Công Ngh Thông Tin và Truyn Thông,
Trng i hc Bách khoa Hà Ni
Email: quangnh@soict.hust.edu.vn, loantv@soict.hust.edu.vn
Abstract— Bài báo xut phng pháp nhn dng thanh iu thanh iu dài). Nh vy nu so sánh vi hai ngôn ng trên thì
ting Vit nói s dng mô hình K láng ging gn nht KNN (K- ting Vit là ngôn ng có cu trúc thanh iu phc tp nht.
Nearest Neighbor) phân tích khác bit tuyn tính LDA (Linear iu này làm cho vic nhn dng thanh iu ting Vit tr nên
Discrimination Analysis), phân tích khác bit toàn phng QDA khó khn hơn.
(Quadratic Discrimination Analysis), b phân lp h tr véc t
Hin nay, các h thng tng hp và nhn dng ting nói
SVC (support vector classifier) và máy h tr véc t SVM
(Support Vector Machine). Theo các nhà ngôn ng hc, thanh ang c phát trin rt mnh trên th gii. Các h thng này
iu ting Vit có c tính siêu on, tn ti trên c âm tit. s óng vai trò quan trng trong vic thc hin tơng tác
Trong nghiên cu này, chúng tôi tin hành th nghim nhn ngi-máy (human-machine) hoc tơng tác máy-máy
dng thanh iu theo hai quan im: thanh iu tn ti trên c (machine-to-machine) trong tơng lai. Nghiên cu các h
âm tit và thanh iu ch tn ti trên phn hu thanh ca âm tit. thng tơng tác nh vy ang c thc hin bc u vi
Các tham s s dng cho nhn dng thanh iu gm có nng ting Vit. Vì vy nhn dng thanh iu cho các ngôn ng có
lng và tn s c bn ca ting nói. nhn dng, các tham s thanh iu trong ó có ting Vit là mt vn quan trng,
này c chun hóa theo thi gian. Kt qu c th nghim mang tính thi s hin nay.
trên 6221 t phát âm ri rc ca ting Vit vi 3 ngi nói. Các
Bên cnh ting Vit, ting ph thông Trung Quc và ting
th nghim c thc hin theo phng pháp so sánh chéo
(cross-validation). Các kt qu th nghim cho thy quan im Thái Lan cng là các ngôn ng có thanh iu. Vi c hai ngôn
coi thanh iu ch tn ti trên phn hu thanh ca âm tit cho ng này, Yang, W. [3], Charnvivit, P. [4] và cng s ã s
kt qu nhn dng cao hn so vi quan im coi thanh iu tn dng tn s cơ bn làm tham s s dng cho quá trình nhn
ti trên c âm tit. Ngoài ra, trong các phng pháp nhn dng dng thanh iu. Kt qu ca các nghiên cu này cho thy F0
c th nghim, phng pháp QDA cho kt qu nhn dng cao là mt tham s hiu qu khi s dng mô hình HMM biu
nht. din cho thanh iu.
Trong nhng nm gn ây, ã có mt s công trình nghiên
Keywords- thanh iu ting Vit, nhn dng thanh iu, tn s cu nhn dng ting Vit nói trong ó có b sung thông tin v
c bn F0, phân tích khác bit tuyn tính, phân tích khác bit toàn
phng, K láng ging gn nht, máy h tr véc t.
thanh iu. Lê Vit Bc và cng s [9][12] s dng phơng
pháp thích nghi t mt ngôn ng không có thanh iu (ting
I. GII THIU Pháp) xây dng mô hình cho ting Vit. Trong khi ó, V
Hi Quân [10], V Ngc Thng [11] và cng s li b sung tn
Khác vi phn ln các ngôn ng trên th gii, ting Vit là s cơ bn F0 nh mt tham s cùng vi các tham s MFCC
mt trong các ngôn ng có thanh iu. Vi loi ngôn ng này, dùng làm tham s c trng cho tng khung ting nói.
ng ngha ca âm tit s thay i khi thay i thanh iu ca Mt hng nghiên cu khác là tách ri, thc hin song
âm tit ó [1]. Hai yu t chính phân bit bao gm cao và song nhn dng âm tit cơ bn (âm tit coi nh không có thanh
mc bin thiên phc tp ca thanh iu. Các thanh iu iu) vi nhn dng thanh iu riêng r. Nguyn Hng Quang
c phân bit vi nhau ch yu qua qui lut bin thiên theo và cng s [14] ã s dng các tham s MFCC, F0 xây
thi gian ca tn s cơ bn F0. Ting Vit bao gm 6 thanh dng mô hình HMM nhn dng cho thanh iu ting Vit.
iu: thanh ngang, thanh sc, thanh huyn, thanh hi, thanh ngã Tuy nhiên, cha có nhng kt qu rõ rt c gng th
và thanh nng. Các thanh iu này có th c phân chia theo nghim nhn dng thanh iu ting Vit theo phơng pháp
cao : 3 thanh iu cao và 3 thanh iu thp và phân chia theo biu din mi thanh iu bng mt véc tơ tham s, cng nh
t gãy (lut bng-trc): 4 thanh iu bin thiên ơn iu nghiên cu nh hng trc tip ca ng cong F0 n kt qu
(thanh bng) và 2 thanh iu t gãy (thanh trc). So vi mt nhn dng thanh iu. Bài báo này s thc hin nghiên cu
s ngôn ng có thanh iu khác nh ting ph thông Trung nhng vn trên.
Quc (Mandarin) thì Mandarin ch có 4 thanh iu trong ó ch Phn còn li ca bài báo c t chc nh sau:
có 1 thanh iu t gãy [3]. Ting Qung ông Trung Quc có • Phn II mô t chi tit c im ca h thng thanh iu
ti 9 thanh iu, song tt c các thanh iu này u là các thanh ca ting Vit.
iu bin thiên ơn iu và phân bit vi nhau 3 cao và • Phn III phân tích u im và nhc im ca các
dài ca thanh iu (thanh iu ngn, thanh iu trung bình và phơng pháp nhn dng ã c áp dng: phân tích
khác bit tuyn tính LDA (Linear Discrimination
ISBN: 978-604-67-0635-9 342
342
- HộiHội
Thảo Quốc
Thảo Gia
Quốc Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông vàCông
Thông và CôngNghệ
Nghệ Thông
Thông TinTin (ECIT
(ECIT 2015)
2015)
Analysis), phân tích khác bit toàn phơng QDA Cao Thanh bng Thanh trc
(Quadratic Discrimination Analysis), K láng ging gn Cao Thanh ngang Thanh sc Thanh hi
nht KNN (K-Nearest Neighbor), b phân lp h tr Thp Thanh huyn Thanh nng Thanh ngã
véc tơ SVC (support vector classifier) và máy h tr
véc tơ SVM (Support Vector Machine). III. CÁC PHƠNG PHÁP TH NGHIM NHN DNG
• Phn IV trình bày các kt qu th nghim nhn dng Trong bài báo này, thc hin nhn dng thanh iu ting
thanh iu và phân tích ánh giá các kt qu thu c. Vit, chúng tôi s dng các phơng pháp: K láng ging gn
• Kt lun và hng phát trin c a ra trong phn nht KNN (K-Nearest Neighbor), phân tích khác bit tuyn
V. tính LDA (Linear Discrimination Analysis), phân tích khác bit
toàn phơng QDA (Quadratic Discrimination Analysis), s
II. C IM THANH IU CA TING VIT dng b phân lp h tr véc tơ SVC (support vector classifier)
Trong phơng ng Bc ca ting Vit (c coi là phơng và máy h tr véc tơ SVM (Support Vector Machine).
ng chun ca Vit Nam) có 6 thanh iu khác nhau: ngang, Phng pháp phân tích khác bit tuyn tính LDA:
huyn, sc, nng, hi, ngã. Các thanh iu này thng c Gi s các i tng thuc vào K lp. k là xác sut tiên
các nhà ngôn ng hc phân bit vi nhau thông qua ng biu nghim mt i tng n t lp th k. = =
din tn s cơ bn F0 ca thanh iu (Hình 1). Trong cách vit, | = là hàm mt xác sut i tng X ly giá tr x
mi thanh iu c biu din bng mt du c bit, tr thanh khi ang lp th k, gi nh là hàm chun Gauss nhiu
ngang là không có du hiu quy c. bin (phơng trình 1).
Nu các âm tit kt thúc bng các ph âm tc /t/ và /p/ thì
các âm tit ó ch có th i vi thanh sc hoc thanh nng. Vì = − − Σ − (1)
/ ||/
vy mt s nhà nghiên cu [1] coi ting Vit là h thng bao
gm 8 thanh iu: trong ó thanh sc và thanh nng c coi
nh lý Bayes cho phép tính xác sut hu nghim i tng
nh có 2 bin th (trong các âm tit kt thúc hoc không kt
thuc vào lp k khi có giá tr bng x c mô t phơng trình
thúc bng /t/ hoc /p/). Trong bài báo này, ơn gin, chúng
2.
tôi gi nh ting Vit ch có 6 thanh iu chun nh cách biu
din trong vn phong ting Vit. = | = = 2
i tng c nhn dng vào lp có giá tr xác sut hu
nghim ln nht (phơng trình 2) s tơng ng vi lp này.
Vi phơng pháp phân tích s khác bit tuyn tính LDA,
gi s mi lp có riêng giá tr k vng µ k song tt c các lp
u có chung ma trn hip phơng sai Σ. Thc hin ly logarit
phơng trình (4) s thu c phơng trình (3).
= Σ − Σ + (3)
Trong phơng trình (5), c gi là hàm phân bit
(discriminant function). Vì là hàm tuyn tính ca x nên
phơng pháp này c gi là LDA. Các tham s µ k và Σk c
xác nh da trên s c lng tham s t b d liu hun
luyn.
Phân tích khác bit toàn phng QDA:
Vi phơng pháp này, gi s mi lp s có mt ma trn
Hình 1. ng cong tn s c bn F0 biu din cho thanh hip phơng sai riêng Σ, khi ó hàm phân bit s c biu
iu ca ging n thuc phng ng Bc Vit Nam [5] din bng phơng trình 4.
Theo các nhà ngôn ng hc, có th phân loi các thanh iu
theo mt s tiêu chí. Tiêu chí phân loi u tiên là cao ca = − Σ + Σ − Σ − Σ +
thanh iu: các thanh ngang, thanh sc, thanh hi c coi (4)
mc cao, trong khi ó các thanh huyn, thanh nng, thanh ngã
c coi mc thp. Tiêu chí phân loi th hai là theo lut Các tham s and Σ trong các phơng trình (3) và (4) s
bng-trc, tc là mc t gãy trong ng biu din F0 ca c xác nh trong quá trình hun luyn da vào các d liu
thanh iu. Các thanh ngang, thanh sc, thanh huyn, thanh hun luyn.
nng c coi là thanh bng và thanh hi, thanh ngã c coi K láng ging gn nht KNN:
là thanh trc. Chi tit v phân loi các thanh iu ting Vit Vi mi i tng x trong tp th nghim, tính giá tr ()
c mô t bng 1. theo phơng trình 5.
Bng 1. Phân loi thanh iu theo cao và theo lut () = Σ ∈ () (5)
bng-trc.
343
343
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trong phơng trình 5, () là láng ging ca x, bao gm áp dng SVM cho bài toán phân lp nhiu mu, phơng
K im gn x nht trong tp hun luyn, là trng s ca im
pháp c s dng là one-versus-one: xây dng b phân
trong tp hun luyn xi. i tng x c nhn dng vào lp L 2
nu () t giá tr ln nht khi so sánh vi các giá tr (). lp cho tng cp lp. Mi mu th nghim s c a qua tt
B phân lp phân tách tuyn tính vi l cc i (maximal c các b phân lp này. Lp nào chim a s s c coi là kt
margin classifier): qu nhn dng.
L cc i c xác nh nh sau: vi mi mu trong tp Nhn xét:
hun luyn, tính khong cách trc giao n biên gii phân lp; Trong ba phơng pháp u tiên, phơng pháp QDA thc
l là khong cách trc giao ti thiu tìm c. B phân lp này hin phân bit gia các lp thông qua biên gii phân lp tuyn
chn biên gii phân lp có l t giá tr ln nht, ngha là biên tính, nh vy là biên gii phân lp tơng i thô vi các b d
gii phân lp phân bit tt nht các mu trong tp hun luyn. liu phc tp. Trong khi ó vi phơng pháp KNN, kt qu
Các véc tơ nm trên l c gi là các véc tơ h tr (support nhn dng li quá ph thuc vào mt s mu nht nh (K mu)
vector). xung quanh mu cn nhn dng. Do ó phơng pháp KNN cho
B phân lp h tr véc t SVC: kt qu rt dao ng theo b d liu. Phơng pháp QDA là mt
Phơng pháp này là s m rng ca b phân lp phân tách ci tin ca phơng pháp LDA, phơng pháp này cho phép to
tuyn tính vi l cc i (maximal margin classifier), cho phép ra biên gii phân lp phi tuyn, nh vy cho phép nhn dng
phân lp vi các lp không th phân tách bng mt biên gii các mu mm do hơn.
tuyn tính [2]. Phơng pháp này s tìm biên gii phân lp phù Các phơng pháp trên ã s dng toàn b d liu hun
hp nht vi a s các mu, và chp nhn mt s mu hun luyn xây dng biên gii phân lp. Trong khi ó, phơng
luyn b phân lp sai (c iu chnh bng tham s C – pháp SVM ch s dng các véc tơ h tr quyt nh biên
phơng trình 7). gii phân lp. Phơng pháp s dng b phân lp h tr véc tơ
Máy h tr véc t SVM: ch s dng biên gii phân lp tuyn tính, trong khi ó phơng
Phơng pháp SVC ch có kh nng tìm c biên gii phân pháp SVM li cho phép xây dng biên gii phi tuyn, vi s
lp tuyn tính. Trong khi ó biên gii phân lp tuyn tính li m rng s lng tham s ln. Trên cơ s nhn xét trên, chúng
không phù hp vi mt s d liu c th. vn có th s tôi hy vng phơng pháp QDA và SVM s cho kt qu nhn
dng biên gii phân lp tuyn tính, mt phơng pháp c dng tt nht. Các th nghim nhn dng thanh iu cho ting
xut là m rng s tham s biu din i tng da trên các Vit c trình bày phn tip theo.
tham s ã có. SVM là phơng pháp cho phép thc hin hiu IV. NHN DNG THANH IU CA TING VIT
qu s m rng này vi mc tính toán hp lý.
Xét bài toán s dng SVM phân chia các mu thành 2 C s d liu ting Vit nói:
lp. Gi s tp hun luyn bao gm N mu xi, i=1, 2,…, N. Các u tiên, chúng tôi xây dng tt c các t ơn âm tit ca
mu này c phân vào lp yi, i=1, 2, …, N; các giá tr y ch ting Vit nói. ây là các t c s dng trong ngôn ng giao
ly -1 hoc 1. Biên gii phân lp c biu din bng v trái tip thng ngày. Có tng cng 6221 t ã c tp hp. Phân
ca phơng trình 6. b thanh iu trong cơ s d liu c mô t trong bng 2.
() = + Bng 2. Phân b thanh iu trong c s d liu ting
(, ) (6)
Thc cht a phn các giá tr αi u bng 0, ch tr nhng nói.
Thanh iu Tng s t
giá tr αi ca các véc tơ h tr. Các giá tr này b gii hn theo Thanh ngang 1257
phơng trình 7. Thanh huyn 1022
0 ≤ ≤ , = 1, 2, … , (7) Thanh sc 1591
C là giá tr cho phép các mu b vi phm. Khi C càng nh Thanh nng 1203
thì l s càng rng, và ngc li khi C càng ln thì l s càng Thanh hi 706
hp. Thanh ngã 442
K là hàm kernel ca h thng, vi b phân lp h tr véc tơ Tng cng 6221
SVC thì K c tính theo phơng trình 8.
K(u, v) = uTv (8) Trong cơ s d liu, có 3 ging nam u n t phơng
Vi SVM, hàm K c s dng bin i không gian ng Bc, có tui t 22 n 24 tui. Mi ngi c yêu cu
tham s, và c tính theo phơng trình 9. phát âm mi t mt ln. Ting nói c thu âm trong phòng
K(u, v) = exp{-|u-v|2} (9) làm vic bình thng, vi tn s ly mu 16KHz, ơn kênh, 16
Khi ó gii thut thc hin tìm các giá tr 0 và αi theo bit/mu. Nh vy tng s file trong cơ s d liu là 18663 file.
phơng trình 10. Phng pháp nhn dng:
min 1 − ( ) + (10)
Phơng pháp so sánh chéo (cross-validation) c áp dng
, th nghim nhn dng thanh iu. Mi th nghim c
vi K là ma trn NxN tính trên tt c các cp mu s dng thc hin ba ln: vi mi ln thì d liu ca 1 trong 3 ngi nói
trong quá trình hun luyn. c s dng làm d liu th nghim, trong khi ó d liu ca
Quá trình phân lp c thc hin tính hàm f (phơng trình hai ngi còn li c s dng hun luyn h thng. Kt
6) trên mu cn th nghim. Tùy vào du ca hàm f mà mu qu ca th nghim là trung bình cng các kt qu ca ba th
th nghim s c phân vào 1 trong 2 lp. nghim. Các th nghim c thc hin s dng các phơng
344
344
- HộiHội
Thảo Quốc
Thảo Gia
Quốc Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông vàCông
Thông và CôngNghệ
Nghệ Thông
Thông TinTin (ECIT
(ECIT 2015)
2015)
pháp nhn dng LDA, QDA và KNN. Mi phơng pháp c pháp QDA (các kt qu trên ct LDA nh hơn so vi các kt
thc hin 2 th nghim: mt th nghim vi quan im coi qu trên ct QDA tơng ng). Ngoài ra phơng pháp coi thanh
thanh iu tn ti trên c âm tit và th nghim th hai c iu ch tn ti trên phn hu thanh ca âm tit cng cho kt
thc hin trên quan im coi thanh iu ch nm trên phn hu qu tt hơn so vi phơng pháp coi thanh iu tn ti trên c
thanh ca âm tit. âm tit. Các kt qu tt nht t c vi s thành phn chun
Biu din tham s cho mi thanh iu: hóa N = 5. Giá tr này c s dng cho th nghim nhn dng
Hai tham s c s dng là tn s cơ bn F0 và nng thanh iu theo phơng pháp KNN, SVC và SVM.
lng thi gian ngn E. Khong thi gian tính toán là s S dng phng pháp KNN:
dng ca s có rng 100 miligiây, dch ca ca s là 10 th nghim phơng pháp KNN, mt tham s cn xác
miligiây. Phơng pháp t tơng quan AC (auto-correlation) nh chính là s láng ging K s dng xác nh kt qu cho
c s dng xác nh tn s cơ bn F0. Do trong ting nói, tng mu th nghim. Các giá tr K c th nghim bao gm
ch các on hu thanh mi có tn s F0, vì vy nhng on tín t 1 n 40. Th nghim c thc hin vi phơng pháp
hiu không tính c F0 thì c coi nh các on vô thanh. KNN và quan im coi thanh iu tn ti trên toàn b âm tit.
tin hành chun hóa các giá tr tn s cơ bn F0 và nng Kt qu c mô t trên hình 2.
lng E theo thi gian, vi mi thanh iu chiu dài tn ti ca
thanh iu c chia thành N phn. Ti mi im chia s xác
nh tn s F0 và nng lng tơng ng. Nh vy mi âm th
hin cho mt thanh iu s c biu din bng mt véc tơ
tham s có N thành phn. Các giá tr N c th nghim trong
bài báo là t 2 n 10. Các kt qu th nghim c mô t
phn V.
Trong bài báo này, chúng tôi th nghim hai quan im v
cu trúc ca thanh iu trong âm tit ting Vit. Quan im th
nht coi thanh iu nm trên toàn b âm tit, trong khi ó quan
im th hai coi thanh iu ch tn ti trong phn hu thanh
ca âm tit. Vi quan im th hai, phn hu thanh s c
Hình 2. Kt qu nhn dng thanh iu theo phng
chúng tôi xác nh là phn có tn s cơ bn F0 trong âm tit.
pháp KNN vi các giá tr K t 1 n 40.
Còn th nghim theo quan im u tiên, nhng phn vô
Hình 2 cho chúng ta thy kt qu nhn dng tt nht t
thanh trong âm tit (thng là phn u và phn cui âm tit)
c ti K=15. Giá tr K này c s dng cho th nghim
không có tn s cơ bn F0 s c ni suy tuyn tính F0 t các
nhn dng thanh iu vi các thành phn chun hóa thanh iu
giá tr F0 ã có.
theo thi gian N khác nhau. Kt qu thu c mô t trong bng
V. KT QU NHN DNG THANH IU CA TING 4.
VIT Bng 4. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp KNN.
S dng phng pháp LDA và QDA:
S thành Thanh iu tn Thanh iu ch tn
Kt qu th nghim vi phơng pháp LDA và QDA c phn chun ti trên toàn b ti trên phn hu
mô t bng 3 vi quan im thanh iu tn ti trên c âm tit hóa N âm tit thanh ca âm tit
và vi quan im thanh iu ch tn ti trên phn hu thanh 2 36.77 37.71
ca âm tit. Trong bng 3, N là s thành phn chun hóa theo 3 38.69 42.42
thi gian ca mi th hin ca thanh iu. 4 46.63 47.97
Bng 3. Kt qu nhn dng thanh iu úng (t l phn 5 47.32 48.96
trm) s dng phng pháp LDA và QDA. 6 47.36 49.07
S thành Thanh iu tn ti Thanh iu ch tn 7 47.69 48.94
phn trên toàn b âm tit ti trên phn hu 8 47.02 49.09
chun thanh ca âm tit 9 47.16 49.29
hóa N LDA QDA LDA QDA 10 47.25 48.87
2 39.03 40.66 36.03 39.50
3 39.86 40.61 42.86 45.11 Kt qu bng 4 cho thy vi phơng pháp KNN, kt qu
4 39.04 49.20 46.57 50.88 tt nht vi trng hp thanh iu tn ti trên toàn b âm tit
5 39.27 47.94 48.33 51.88 và trng hp thanh iu ch tn ti trên phn hu thanh ca
6 38.43 47.46 47.75 51.50 âm tit tơng ng vi s thành phn chun hóa N=7 và N=9.
7 37.36 47.38 47.79 51.17
S dng phng pháp SVC và SVM:
8 37.55 46.92 48.28 51.28
Mt tham s chung quyt nh n t l nhn dng úng
9 37.71 46.27 48.30 50.39
ca hai phơng pháp này là C (phơng trình 7). Ngoài ra vi
10 37.44 45.20 48.15 49.22
SVM tham s (phơng trình 9) cng quyt nh n kt qu
nhn dng. Bng 5 mô t kt qu nhn dng ca hai phơng
Kt qu trên bng 3 cho thy phơng pháp LDA cho kt
pháp vi các giá tr khác nhau ca C và . Th nghim c
qu nhn dng chính xác thanh iu kém hơn so vi phơng
345
345
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
thc hin s thành phn chun hóa ca thanh iu N = 5 và trên toàn b âm tit, và LDA_2, QDA_2, KNN_2, SVC_2,
quan im coi thanh iu tn ti trên toàn b âm tit SVM_2 là ca phơng pháp coi thanh iu ch tn ti trên phn
hu thanh ca âm tit.
Bng 5. Kt qu nhn dng thanh iu úng (t l phn Hình 3 cho thy vi s thành phn chun hóa N thp (N=2
trm) s dng phng pháp SVC và SVM vi s thành và N=3), kt qu nhn dng thanh iu kém nht. Trong các
phn chia thanh iu N=5. thành phn N còn li thì kt qu không thc s khác bit nhiu.
Phng pháp Giá tr C Các kt qu nhn dng thanh iu tt nht thc hin trong
0.1 1 10 bài báo c mô t bng 7.
SVC 43.52 43.53 43.51 Bng 7. Tng kt các kt qu nhn dng thanh iu ca
SVM, =0.5 39.46 43.82 42.33 ting Vit nói.
SVM, =1 29.96 40.60 40.72 Phng Thanh iu nm Thanh iu ch nm
SVM, =2 25.80 34.35 35.16 pháp nhn trên toàn b âm trên phn hu thanh
dng tit ca âm tit
Bng 5 cho thy phơng pháp SVC cho kt qu tt nht vi LDA 39.86 48.33
C=1, và phơng pháp SVM cho kt qu tt nht vi C=1 và KNN 47.69 49.29
=1. Các giá tr này c s dng cho th nghim trên tt c QDA 49.20 51.88
các phn chia thanh iu. Kt qu th nghim c mô t SVC 43.52 51.86
bng 6. SVM 45.52 51.23
Bng 6. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp SVC và SVM. Các kt qu th nghim cho thy quan im coi thanh iu
S thành Thanh iu tn ti Thanh iu ch tn ch tn ti trên phn hu thanh ca âm tit cho kt qu nhn
phn trên toàn b âm tit ti trên phn hu dng cao hơn so vi quan im coi thanh iu tn ti trên c
chun thanh ca âm tit âm tit. Ngoài ra, trong các phơng pháp nhn dng c th
hóa N SVC SVM SVC SVM nghim, phơng pháp QDA cho kt qu nhn dng cao nht.
2 41.01 40.29 41.36 44.04
3 41.34 36.63 44.23 45.17
4 41.60 45.52 50.33 51.23 VI. KT LUN
5 43.52 43.82 51.34 50.52 Bài báo ã xut phơng pháp nhn dng thanh iu ca
6 41.79 43.75 50.50 50.17
ting Vit nói s dng mô hình phân tích khác bit tuyn tính
7 41.21 42.16 51.52 49.43
LDA (Linear Discrimination Analysis), phân tích khác bit
8 41.36 40.00 51.86 48.70
9 40.95 38.98 51.26 47.75
toàn phơng QDA (Quadratic Discrimination Analysis), K láng
10 40.98 38.18 51.55 46.96 ging gn nht KNN (K-Nearest Neighbor), b phân lp h tr
véc tơ SVC (support vector classifier) và máy h tr véc tơ
SVM (Support Vector Machine). Các th nghim nhn dng
thanh iu c tin hành theo hai quan im: thanh iu tn
ti trên c âm tit và thanh iu ch tn ti trên phn hu thanh
ca âm tit. Các kt qu th nghim cho thy quan im coi
thanh iu ch tn ti trên phn hu thanh ca âm tit cho kt
qu nhn dng cao hơn so vi quan im coi thanh iu tn ti
trên c âm tit. Ngoài ra, trong các phơng pháp nhn dng
c th nghim, phơng pháp QDA cho kt qu nhn dng
cao nht.
Hng nghiên cu tip theo s là áp dng phơng pháp
mng nơ ron và hc sâu. Ngoài ra có th kt hp tiêu chí phân
loi thanh iu nh phân loi theo cao hay theo lut bng-
trc trong nhn dng thanh iu. K thut nhn dng thanh iu
cng s c áp dng trong nghiên cu ca chúng tôi v nhn
dng và tng hp ting Vit nói.
TÀI LIU THAM KHO
Hình 3. Kt qu nhn dng thanh iu theo s thành [1] oàn Thin Thut, “Ng âm ting Vit”, Nhà xut bn Giáo dc, Hà
phn chun hóa theo thi gian N. Ni, 1997.
[2] Trevor Hastie, Robert Tibshirani, Jerome Friedman, “The Elements of
ánh giá nh hng ca s thành phn chun hóa N n Statistical Learning, Data Mining, Inference, and Prediction ”, Springer,
kt qu nhn dng thanh iu, chúng tôi biu din kt qu ca USA 2014.
các phơng pháp nhn dng theo s thành phn chun hóa N [3] Yang, W.-J. & Lee, J.-C. & Chang, Y.-C. & Wang, H.-C. ”Hidden
Markov model for Mandarin lexical tone recognition”, Acoustics,
nh trong hình 3. Trong hình này, LDA_1, QDA_1, KNN_1, Speech and Signal Processing, IEEE Transactions on (Volume:36 ,
SVC_1, SVM1 là kt qu ca phơng pháp coi thanh iu nm Issue: 7 ), 2002
346
346
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông vàCông
Thông và CôngNghệ
Nghệ Thông
Thông TinTin (ECIT
(ECIT 2015)
2015)
[4] Charnvivit, P. & Jitapunkul, S. & Ahkuputra, V & Maneenoi, E & [11] Ngoc, Thang V. & Schultz, T. ”Vietnamese large vocabulary continuous
Thathong, U. & Thampanitchawong, B. ”F0 Feature Extraction by speech recognition”, Automatic Speech Recognition & Understanding,
Polynomial Regression Function for Monosyllabic Thai Tone 2009
Recognition”, INTERSPEECH, 2001. [12] Viet Bac Le & Besacier, L. ”Automatic Speech Recognition for Under-
[5] Brunelle, M. ”Coarticulation effects in northern Vietnamese tones”, Resourced Languages: Application to Vietnamese Language”, Audio,
Proceedings of the 15th International Conference of Phonetic Sciences, Speech, and Language Processing, IEEE Transactions on (Volume:17 ,
2003. Issue: 8 ), 2009
[6] Michaud, A. ”Final Consonants and Glottalization: New Perspectives [13] Davis, S.; Mermelstein, P. ”Comparison of parametric representations
from Hanoi Vietnamese”, 2004. for monosyllabic word recognition in continuously spoken sentences”,
[7] Pham, H. ”Vietnamese Tone – A New Analysis”, New York: Routledge, IEEE Trans. Acoust., Speech, Signal Processing, vol. 28, pp. 357-366,
ISBN 0-415-96762-7, 2003. 1980.
[8] Chu, Mai N. ”Cơ s ngôn ng hc và ting Vit”, Vietnam Education [14] Hong Quang Nguyen; Nocera, P.; Castelli, E.; Van Loan, T., ”Tone
Publishing House, 1997. recognition of Vietnamese continuous speech using hidden Markov
[9] Viet Bac Le & Besacier, L. ”First steps in fast acoustic modeling for a model”, Communications and Electronics, 2008. HUT-ICCE 2008.
new target language: Application to Vietnamese”, ICASSP 2005 Second International Conference on , vol., no., pp.235,239, 4-6 June
[10] Quan, V. & Kris, D. & Dirk, V. ”Vietnamese Automatic Speech 2008.
Recognition: The FLaVoR Approach”, Chinese Spoken Language
Processing Lecture Notes in Computer Science Volume 4274, 2006.
347
347
nguon tai.lieu . vn