Xem mẫu
- -1-
B GIÁO D C VÀ ĐÀO T O
Đ I H C ĐÀ N NG
ĐINH TH M H NH
TÌM HI U HI N TƯ NG NH P NH NG
TRONG TI NG VI T VÀ KH NĂNG KH C PH C
TRONG SO N TH O VĂN B N
Chuyên ngành : KHOA H C MÁY TÍNH
Mã s : 60.48.01
TÓM T T LU N VĂN TH C SĨ K THU T
Đà N ng - Năm 2011
- -2-
Công trình ñư c hoàn thành t i
Đ I H C ĐÀ N NG
Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH
Ph n bi n 1: PGS.TS. Võ Trung Hùng
Ph n bi n 2: TS. Trương Công Tu n
Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t
nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19
tháng 6 năm 2011.
* Có th tìm hi u lu n văn t i:
- Trung tâm Thông tin - H c li u, Đ i h c Đà N ng
- Trung tâm H c li u, Đ i h c Đà N ng.
- -3-
M Đ U
1. Lý do ch n ñ tài
Trong h th ng ngôn ng trên th gi i hi n nay, ti ng Vi t
ñư c xem là m t trong nh ng ngôn ng có s phong phú và ña d ng.
Chính s phong phú và ph c t p c a ti ng Vi t ñã d n ñ n nh ng
khó khăn cho c ngư i s d ng theo cách thông thư ng và khi x lý
trên máy tính.
Do nh ng nh hư ng c a l ch s hình thành và phát tri n,
ti ng Vi t có tính lai t p v m t ngôn ng г t cao, ñ c bi t nh
hư ng t ti ng Hán và ti ng Pháp. S ña nghĩa trong ti ng Vi t cũng
chính là m t ñ c ñi m n i b t. Ngoài ra, do thói quen s d ng c a
m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i
nh t ñ nh, th m chí s thi u nh t quán trong cách nói, cách vi t.
Ti ng Vi t ngày nay còn b nh hư ng b i thói quen s d ng
ngôn ng trên Internet ho c các thi t b truy n thông hi n ñ i như
ñi n tho i di ñ ng, ñi u này làm xu t hi n thêm nhi u t m i ñư c
ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i
tr như câu “Bu i sinh nh t hôm nay vui wá!”.
S nh p nh ng trong khi nói, vi t ho c di n ñ t ý nghĩ ñã d n
ñ n nh ng s hi u l m nhi u m c ñ khác nhau. Và cũng chính
nh ng ñ c ñi m nói trên ñã làm cho ti ng Vi t v n ñã ph c t p l i
càng ph c t p hơn, ñ c bi t là m t s y u t ñã làm m t ñi tính trong
sáng và giá tr t t ñ p v n có c a ti ng Vi t.
Gìn gi s trong sáng c a ti ng Vi t là m t yêu c u và nhi m
v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa,
ngôn ng l n nh ng ngư i s d ng thông thư ng.
Xu t phát t nh ng phân tích và quan sát trên, nhi m v
nghiên c u c a ñ tài “Tìm hi u hi n tư ng nh p nh ng trong
- -4-
ti ng Vi t và kh năng kh c ph c trong so n th o văn b n” là tìm
hi u v nh ng v n ñ cơ b n trong x lý ngôn ng , x lý ti ng Vi t,
ñ c bi t là v n ñ “nh p nh ng” trong ti ng Vi t, t ñó ñ xu t m t
gi i pháp ñ kh c ph c trong quá trình so n th o văn b n cho m t s
trư ng h p c th c a hi n tư ng nh p nh ng.
2. M c tiêu c a ñ tài
Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý
ti ng Vi t. Tác gi cũng b nhi u th i gian nghiên c u v các hi n
tư ng nh p nh ng thư ng x y ra trong ti ng Vi t. Đ tài còn nghiên
c u các kh năng x lý nh p nh ng và xây d ng ng d ng h tr x
lý nh p nh ng ti ng Vi t trong m t ph m vi h p.
3. Ph m vi và gi i h n c a ñ tài
V n ñ nh p nh ng trong ti ng Vi t có r t nhi u trư ng h p,
tuy nhiên trong ph m vi c a ñ tài này tác gi gi i h n l i m t s n i
dung sau ñây:
V m t lý thuy t: Tìm hi u lý thuy t v XLNN và XLTV, l ch
s hình thành và phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v các
v n ñ liên quan ñ n hi n tư ng nh p nh ng trong ti ng Vi t; Tìm
hi u nh ng v n ñ cơ b n v so n th o văn b n, ph n m m so n th o
văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN do vi t sai l i chính
t ti ng Vi t (gi i h n nh ng l i chính t c p ñ âm ti t) và HTNN
do xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t.
V m t chương trình: Xây d ng ng d ng h tr x lý nh p
nh ng gây ra do l i chính t v m t âm ti t, ñ ng th i chương trình
h tr vi c tách văn b n thành các t ñ c l p ñ ngư i s d ng d
dàng hi u n i dung văn b n. K t qu c a vi c tách t s ñư c s
d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n ñ phân
tích nh p nh ng v phân lo i t và cú pháp câu.
- -5-
4. Phương pháp nghiên c u
Thu th p, tìm hi u, phân tích các tài li u và thông tin có liên
quan ñ n ñ tài; Phân tích và thi t k h th ng chương trình; Tri n
khai xây d ng chương trình; Ki m th , nh n xét và ñánh giá k t qu .
5. Ý nghĩa khoa h c và th c ti n c a ñ tài
Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ cơ b n trong x lý
ti ng Vi t, x lý nh p nh ng trong ti ng Vi t; Đ xu t ñư c gi i
pháp ñ h tr x lý m t s hi n tư ng nh p nh ng trong so n th o
văn b n ti ng Vi t.
Ý nghĩa th c ti n: Hi u và ng d ng ñư c nh ng ki n th c
n n t ng trong x lý ti ng Vi t ñ x lý nh p nh ng trong ti ng Vi t;
Có th ng d ng chương trình này ñ h tr x lý nh p nh ng trong
so n th o văn b n ti ng Vi t; Có ý nghĩa trong vi c b o t n và phát
huy các giá tr c a ti ng Vi t.
6. B c c lu n văn
M ñ u
Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên
Chương 2: So n th o văn b n và hi n tư ng nh p nh ng trong
so n th o văn b n
Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng
K t lu n.
- -6-
CHƯƠNG 1:
CƠ S LÝ THUY T V X LÝ NGÔN NG T NHIÊN
1.1. X LÝ NGÔN NG T NHIÊN
1.1.1. Khái ni m
1.1.2. Các bư c x lý
1.1.3. Các bài toán và ng d ng
1.2. TÌM HI U V TI NG VI T VÀ V N Đ X LÝ
TI NG VI T
1.2.1. S hình thành c a ti ng Vi t
1.2.2. Đ c ñi m c a ti ng Vi t
1.2.2.1. Đ c ñi m ng âm
1.2.2.2. Đ c ñi m t v ng
1.2.2.3. Đ c ñi m ng pháp
1.2.3. T trong ti ng Vi t
1.2.3.1. Khái ni m
T là ñơn v nh nh t có nghĩa, có k t c u v ng âm b n
v ng, hoàn ch nh, có ch c năng g i tên, ñư c v n d ng ñ c l p, tái
hi n t do trong l i nói ñ t o câu[7].
1.2.3.2. Đơn v c u t o
Đơn v cơ s ñ c u t o t ti ng Vi t là các ti ng, cái mà ng
âm h c v n g i là các âm ti t.
1.2.3.3. Phương th c c u t o
1.2.4. Bi n th c a t
1.3. HI N TƯ NG NH P NH NG TRONG X LÝ
VĂN B N TI NG VI T
1.3.1. Khái ni m
Nh p nh ng là hi n tư ng mà khi nói, vi t ho c di n t nh ng
t ng , ý nghĩ mơ h , không rõ nghĩa ho c có nhi u nghĩa làm cho
- -7-
ngư i ñ c ho c ngư i nghe không phân bi t rõ ràng, gây ra s
hi u l m.
Khái ni m nh p nh ng cũng có th hi u theo m t cách khác
như sau: trong m i lĩnh v c, các v n ñ thư ng ñư c ñ c p, trình
bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n này có th ñư c
quy ư c b ng văn b n ho c quy ư c ng m ñ nh. Khi ñó t t c nh ng
cách hi u, cách ñ c p ho c trình bày v n ñ n m ngoài ph m vi
chu n ñó ñư c xem là nh p nh ng.
1.3.2. M t s hi n tư ng nh p nh ng
1.3.2.1. Hi n tư ng nh p nh ng do vi t sai chính t
ti ng Vi t
Vi c vi t sai l i chính t ti ng Vi t ñang m c ñáng báo
ñ ng, hi n tư ng này không nh ng di n ra ph bi n trong gi i tr ,
ñ c bi t trong gi i tr s d ng internet mà còn xu t hi n nhi u trên
các phương ti n thông tin ñ i chúng và các văn b n c a Nhà nư c.
Chính nh ng sai sót v chính t này có th gây ra nh ng nh p nh ng
trong vi c ti p nh p thông tin.
Trong c ng ñ ng s d ng m ng Internet cũng hình thành m t
l p t m i chưa có trong t ñi n ti ng Vi t, ñi u này cũng d n ñ n
nh ng thói quen s d ng t ng không t t trong ngư i s d ng, ñ c
bi t gi i tr .
Có nh ng trư ng h p sai chính t có th d n ñ n nh ng h
qu x u như hình thành thói quen nói sai, vi t sai và hi u sai v n ñ .
1.3.2.2. Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a
các t
Trong m t s ngôn ng như ti ng Anh, vi c xác ñ nh ranh
gi i, ph m vi gi a các t khá d dàng, m i t riêng l ñã mang tr n
v n m t nghĩa và ranh gi i c a chúng ñư c xác ñ nh thông qua
- -8-
kho ng tr ng. Ti ng Vi t thì khác, do là ngôn ng ñơn l p nên t
v ng ch y u là các t ghép vì th kho ng tr ng không ph i luôn
luôn là ranh gi i chính xác.
Trong ti ng Vi t, vi c xác ñ nh chính xác ph m vi, ranh gi i
gi a các t có th h tr r t nhi u cho quá trình kh nh p nh ng, ñ c
bi t ñ i v i ngôn ng vi t. Đây cũng chính là m c ñích chính mà báo
cáo này mu n ñ c p ñ n.
1.3.2.3. Hi n tư ng nh p nh ng do tính ña nghĩa c a t
B t c ngôn ng nào cũng có t ña nghĩa, nguyên nhân là vì
r t nhi u khái ni m có các s c thái ý nghĩa tuy không hoàn toàn trùng
kh p nhau nhưng l i có nhi u nét tương ñ ng. Hi n tư ng này gây
c n tr cho vi c d ch t ñ ng, chương trình không bi t d ch t ña
nghĩa theo nghĩa nào trong nhóm nghĩa c a nó.
1.3.2.4. Hi n tư ng nh p nh ng ng nghĩa khi s d ng các
t ñ ng âm
Hai t ñ ng âm v i nhau nghĩa là hai t có âm gi ng nhau
nhưng mang nghĩa khác nhau, còn ñ ng t là hai t v m t ký t là
gi ng nhau nhưng nghĩa khác nhau. Do ñ c ñi m c a ti ng Vi t t
ñ ng âm cũng thư ng là t ñ ng t , các ngôn ng khác hai hi n
tư ng này không trùng kh p nhau.
Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, trong t ña
nghĩa, các nghĩa ñ u có chung m t ngu n g c và do v y luôn có nét
tương ñ ng trong khi ñó trong t ñ ng t chúng không có liên h v
ngu n g c v i nhau, nghĩa c a chúng khác nhau rõ r t.
Ví d 1
T “ki m” trong hai câu sau ñây là hai t ñ ng t :
Anh ta s d ng ki m r t ñiêu luy n.
Ki m ăn bây gi khó l m.
- -9-
1.3.2.5. Hi n tư ng nh p nh ng trong cách phân bi t t lo i
T lo i là m t y u t quan tr ng trong vi c xác ñ nh nghĩa
chính xác c a t và s p x p các t thành câu hoàn ch nh trong d ch
t ñ ng.
T lo i giúp kh nh p nh ng, nhưng chính b n thân nó trong
m t s trư ng h p cũng nh p nh ng. V i các ngôn ng không bi n
hình như ti ng Vi t, v n ñ xác ñ nh t lo i yêu c u các thu t toán
ph c t p hơn, b t bu c ph i phân tích cú pháp. M t khác, ngay trong
n i b ngành ngôn ng v n chưa có s th ng nh t v phân lo i t
lo i cho ti ng Vi t.
1.3.2.6. Hi n tư ng nh p nh ng khi s d ng ti ng Vi t
không d u
Ngày nay, vi c gõ ti ng Vi t không d u tr nên ph bi n hơn,
ñ c bi t trên các ng d ng Internet ho c ñi n tho i di ñ ng như
email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác
nhanh hơn, nhưng trong m t s trư ng h p nó l i gây ra nh ng s
hi u nh m tai h i ñ i v i ngư i ñ c.
1.3.2.7. Hi n tư ng nh p nh ng v s v n d ng
Cùng m t câu nhưng khi s d ng trong các hoàn c nh khác
nhau c a ngôn ng nói ho c ngôn ng vi t, n u không bi t cách s
d ng m t cách phù h p cũng s gây ra s “nh p nh ng”, s hi u l m
cho ngư i ñ c ho c ngư i nghe. Hi n tư ng này ñ c bi t ph bi n
trong ti ng Vi t, vì ti ng Vi t v n ña nghĩa, ña s c thái và có tính
bi u c m r t cao. Đi u này ñòi h i ngư i s d ng ngôn ng m t s
khéo léo và tinh t nh t ñ nh, có s hi u bi t m t m c ñ c n thi t
ñ có th t n d ng h t nh ng giá tr bi u ñ t c a ngôn ng .
- - 10 -
1.3.2.8. Hi n tư ng nh p nh ng trong phân tích cú pháp
ti ng Vi t
Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng
x y ra nhi u m c, t m c t , t lo i ñ n m c cú pháp câu. Đi u
này d n ñ n m t câu có th ñư c phân tích theo nhi u cách khác
nhau, trong khi ch có m t vài cách phân tích trong s ñó ñúng.
1.4. K T LU N CHƯƠNG
Chương này trình bày khái ni m và các bư c ñ x lý ngôn
ng t nhiên, các bài toán liên quan ñ n x lý ngôn ng t nhiên như
nh n d ng ti ng nói, t ng h p ti ng nói, d ch t ñ ng, tìm ki m văn
b n, tóm t t văn b n… Ngoài ra còn trình bày v s hình thành, phát
tri n và m t s ñ c ñi m n i b t c a ti ng Vi t. Chương 1 còn dành
m t s lư ng l n các trang ñ trình bày khái ni m cũng như nh ng
hi n tư ng nh p nh ng ph bi n nh t trong x lý văn b n ti ng Vi t.
- - 11 -
CHƯƠNG 2:
SO N TH O VĂN B N VÀ HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N
2.1. M TS V N Đ V SO N TH O VĂN B N
2.1.1. Đ t v n ñ
2.1.2. Khái ni m ký t , t , câu, dòng, ño n
2.1.3. Nguyên t c t xu ng dòng c a t
2.1.4. M t s quy t c gõ văn b n cơ b n
2.1.5. Ph n m m so n th o văn b n
2.2. HI N TƯ NG NH P NH NG TRONG SO N
TH O VĂN B N
Nh ng m c ñ nh p nh ng trong STVB: Trong quá trình
so n th o văn b n, hi n tư ng nh p nh ng có th x y ra nhi u m c
ñ khác nhau:
M c m t, nh p nh ng x y ra do sai sót v t , c m t , sai sót
ch vi t t t, cách vi t ngày tháng năm, vi t các ký hi u. M c hai,
nh p nh ng m c ñ cú pháp câu. M c ba, nh p nh ng v m t
ng nghĩa.
2.3. CÁCH PHÁT HI N HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N
Th nh t, phát hi n HTNN trư c khi ti n hành STVB. Quá
trình này chính là kh nh p nh ng trong tư duy, suy nghĩ c a ngư i
so n th o, nói chính xác hơn thì trong trư ng h p này, b n thân
ngư i so n th o ph i t tìm cách ñ kh nh p nh ng b ng cách n m
v ng các quy t c v chính t ti ng Vi t, quy t c STVB, hi u bi t v
ngôn ng ti ng Vi t và bi t cách v n d ng phù h p. N u b n thân
ngư i so n th o không th t tìm và kh ñư c nh ng nh p nh ng
- - 12 -
trong tư duy, suy nghĩ thì có th trao ñ i v i ngư i khác ñ có cách
trình bày v n ñ chính xác hơn.
Th hai, phát hi n HTNN trong quá trình STVB. N u ch s
d ng ph n m m h tr STVB ti ng Vi t (mà không s d ng kèm
m t chương trình h tr tìm và kh nh p nh ng cho văn b n ti ng
Vi t nào khác) thì ch có m t cách ñ phát hi n nh p nh ng là ngư i
s d ng ph i t làm th công. Tuy nhiên cách làm này s không ñem
l i nhi u hi u qu và ñ chính xác không cao. Do ñó nh t thi t ph i
có m t chương trình h tr phát hi n và kh nh p nh ng ñi kèm.
Th ba, phát hi n HTNN sau khi vi c STVB hoàn t t. Nghĩa
là ngư i s d ng s m t p văn b n ñã so n th o, sau ñó g i ch c
năng phát hi n nh p nh ng ñ x lý.
Theo tìm hi u c a tác gi , hi n nay v n chưa có m t h th ng
hay chương trình nào có th x lý ñư c t t c các HTNN trong
STVB ti ng Vi t. Các k t qu ñã có cũng ch m i là nh ng gi i pháp
cho m t s trư ng h p c th .
2.4. CÁC GI I PHÁP X LÝ NH P NH NG ĐÃ CÓ
TRƯ C ĐÂY
Trong bài báo “Phân tích cú pháp ti ng Vi t s d ng văn
ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi
ñã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng và các hi n
tư ng cú pháp ph thu c t trong phân tích cú pháp ti ng Vi t. Bài
báo ñ xu t vi c xây d ng m t công c phân tích cú pháp d a trên
văn ph m phi ng c nh v i lu t có ch a thông tin v xác su t và
t v ng.
Trong tài li u [24], nhóm tác gi ñã trình bày chi ti t các th
nghi m v gán nhãn t lo i cho các văn b n ti ng Vi t b ng cách áp
d ng b gán nhãn QTAG. Công vi c gán nhãn t lo i cho m t văn
- - 13 -
b n là xác ñ nh t lo i c a m i t trong ph m vi văn b n ñó. Khi h
th ng văn b n ñã ñư c gán nhãn, hay nói cách khác là ñã ñư c chú
thích t lo i thì nó s ñư c ng d ng r ng rãi trong các h th ng tìm
ki m thông tin, trong các ng d ng t ng h p ti ng nói, các h th ng
nh n d ng ti ng nói cũng như trong các h th ng d ch máy. Đ ti n
hành vi c gán nhãn t lo i, nhóm tác gi ñã ti n hành ba bư c: Phân
tách xâu ký t thành các t , gán nhãn tiên nghi m, quy t ñ nh k t
qu gán nhãn, t c lo i b nh p nh ng.
Văn b n ñã ñư c phân ño n t
(WORD SEGMENTED TEXT)
T p lu t nh n di n POS
Mô hình gán nhãn cho t
(POS Tagging Model)
Kho ng li u ti ng Vi t
Văn b n ñã ñư c gán t lo i
(POS TAGGED TEXTS)
Hình 2.1. Mô hình t ng quát bài toán gán nhãn t lo i
2.5. K T LU N CHƯƠNG
Chương 2 trình bày nh ng v n ñ cơ b n v so n th o văn
b n, khái ni m v ký t , t , câu, dòng, ño n. Trong chương này còn
trình bày khái ni m v hi n tư ng nh p nh ng trong ti ng Vi t.
Ngoài ra còn trình bày m t s hi n tư ng nh p nh ng ph bi n trong
ti ng Vi t, qua ñó chúng ta có th th y r ng hi n tư ng nh p nh ng
khá ph bi n và r t khó ñ x lý m t cách tri t ñ . Ph n cu i
chương, tác gi ñã trình bày nh ng k t qu nghiên c u v v n ñ x
lý nh p nh ng trong ngôn ng t nhiên nói chung và ti ng Vi t
nói riêng.
- - 14 -
CHƯƠNG 3:
Đ XU T GI I PHÁP KH C PH C NH P NH NG
3.1. GI I THI U VÀ PHÂN TÍCH BÀI TOÁN
Trong s các hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n
trong chương 2, trong ph n này, tác gi ch ch n m t s hi n tư ng
nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c. Đó là nh p
nh ng do vi t sai l i chính t ti ng Vi t c p ñ âm ti t (vi t
nh ng âm ti t không có trong ti ng Vi t) và nh p nh ng do
không xác ñ nh ñư c ph m vi, ranh gi i gi a các t trong
văn b n.
N u xem nh ng quy t c v chính t ti ng Vi t là mi n chu n,
và nh ng gì n m trong mi n chu n y ñư c ch p nh n và không gây
nh p nh ng thì nh ng trư ng h p vi t sai chính t ti ng Vi t n m
ngoài mi n chu n (t c vi t sai chính t ) ñ u ñư c xem là
nh p nh ng.
Trong ph m vi báo cáo này, tác gi x lý m t ph n các l i
chính t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng,
ñó là x lý l i chính t m c âm ti t ti ng Vi t. Ví d có th phát
hi n ra l i chính t c a t và ñưa ra m t lo t g i ý ñ ngư i s d ng
ch nh s a l i.
Xét m t ví d v hi n tư ng nh p nh ng do không xác ñ nh
ñư c ph m vi, ranh gi i gi a các t .
Ví d 32
Ngư i dân thu c ñ a bàn ñô th có m c thu nh p bình quân
ñ u ngư i cao hơn vùng nông thôn.
Trong ví d 32, m t s ñ i tư ng, ví d tr em có th s xác
ñ nh không ñúng ph m vi gi a các t s d n ñ n hi u sai (nh p
nh ng) n i dung câu. C m t thu c ñ a bàn s có hai cách phân tách,
- - 15 -
th nh t là thu c/ ñ a bàn (nghĩa là n m trên ñ a bàn nào ñó), th hai
là thu c ñ a/ bàn (nghĩa là ngư i dân thu c ñ a bàn b c v ñi u gì
ñó, ñây là cách phân tách sai trong ng c nh trên). Trong ti ng Vi t
t n t i khá nhi u nh ng c m t tương t như trên.
Do ñó, khi xác ñ nh ñúng ph m vi t s ñ c ñúng và hi u
ñúng, nghĩa là tránh ñư c nh p nh ng. Gi i quy t ñư c bài toán v
xác ñ nh ph m vi, ranh gi i t s là cơ s quan tr ng ñ th c hi n
gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t.
Gi i quy t bài toán:
Bài toán bây gi ñư c chia làm hai bư c x lý:
- X lý l i chính t ti ng Vi t m c âm ti t
- Phân tách văn b n thành các t ñ c l p
Kho d li u
âm ti t T ñi n
ti ng Vi t ti ng Vi t
Văn b n X lý l i chính t
Tách văn b n thành Văn b n
c n x lý TV m c âm ti t
các t riêng bi t ñã ñư c
x lý
nh p nh ng
(*)
Đ U VÀO
QUÁ TRÌNH X LÝ Đ U RA Giao di n
ngư i s d ng
Ngư i
s d ng
Hình 3.1. Mô hình ki n trúc t ng quan c a quá trình x lý
Gi i h n ph m vi gi i quy t c a bài toán:
Khái ni m văn b n ñư c ñ c p ñ n trong báo cáo này là văn
b n ch ch a ch , không ch a hình v .
- - 16 -
Chương trình cũng chưa x lý các ñ nh d ng c a văn b n
ñ u vào.
Th i ñi m x lý văn b n: Chương trình ñư c tích h p trong
ng d ng Microsoft Word và chương trình s l y n i dung văn b n
ñư c so n th o s n ñ x lý. Ngư i s d ng có th tùy ch n ti n
hành ki m l i chính t m c âm ti t ñ i văn b n ñ u vào, sau ñó ti n
hành phân tách t . Chương trình không ñư c g i th c thi m t cách t
ñ ng mà c n có thao tác c a ngư i s d ng.
Lo i nh p nh ng ñư c x lý: bài toán gi i quy t s nh p
nh ng gây ra do sai sót v l i chính t ti ng Vi t m c âm ti t và h
tr x lý nh p nh ng có th có do không xác ñ nh ñư c ph m vi,
ranh gi i gi a các t trong ti ng Vi t.
Kho d li u ti ng Vi t:
Chương trình dùng 2 kho d li u h tr cho quá trình x lý:
Kho d li u âm ti t ti ng Vi t: lưu hơn 10.000 âm ti t ti ng
Vi t, h tr cho ch c năng tìm và s a l i, ñ ng th i có th ñư c c p
nh p thêm t m i thông qua bư c x lý l i chính t . Các âm ti t
ñư c lưu b ng mã Unicode.
T ñi n ti ng Vi t h tr ch c năng tách t g m g n 24.000 t
ti ng Vi t. Ngoài ra, ñ h tr t t hơn cho vi c tách t , tác gi còn b
sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n.
3.2. THI T K CƠ S D LI U VÀ CÁC THU T
TOÁN CHÍNH
3.2.1. Thi t k cơ s d li u
Cơ s d li u cho bài toán tương ñ i ñơn gi n, d li u ñư c
chia thành 2 ph n riêng bi t, m t ph n ph c v cho ch c năng ki m
l i chính t ti ng Vi t m c âm ti t, m t ph n ph c v cho ch c
năng tách t trong văn b n.
- - 17 -
3.2.1.1. D li u cho ch c năng ki m l i chính t ti ng Vi t
m c âm ti t
D li u cho ch c năng x lý nh p nh ng do sai l i chính t
ti ng Vi t m c âm ti t g m 1 b ng AmTiet (Âm ti t) ch a t t c
các âm ti t có trong ti ng Vi t.
AM_TIET
STT
Am_Tiet
Hình 3.4 D li u lưu các âm ti t ti ng Vi t
B ng 3.1. B ng t ñi n d li u
Tên trư ng Ki u d li u Kích thư c Gi i thích
STT Autonumber Integer Th t c a m c t
Am_Tiet Text 10 Âm ti t ti ng Vi t
3.2.1.2. D li u cho ch c năng tách t trong văn b n
Đ ph c v cho gi i thu t này, ta c n xây d ng cơ s d li u
ch a t t c các t có trong ti ng Vi t. Tác gi xây d ng kho d li u
này trên cơ s t p tin d li u c a ph n m m VietDict c a tác gi H
Ng c Đ c, t i mi n phí t i ñ a ch http://vietdict.viet.net. T p tin này
ñư c lưu v i ñuôi *.txt, ch a g n 24.000 t và gi i thích t (Vi t –
Vi t), c u trúc trình bày g n gi ng các quy n t ñi n ti ng Vi t.
Tác gi ñã vi t m t th t c ñơn gi n ñ ti n hành tìm và tách
l y t t c các t ti ng Vi t trong t p tin ñ lưu vào cơ s d li u. Đây
chưa ph i là t t c các t có trong ti ng Vi t, ch là d li u ñ demo
chương trình.
D li u c a ch c năng tách t là 1 b ng d li u ch a các t có
trong ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m 3 trư ng d li u
- - 18 -
là s th t , m c t Word và kích thư c c a t Length. Ví d t
ban mai có Length =2, t s ch sành sanh có Length =3. Trư ng
Length dùng ph c v cho m t s gi i thu t c a chương trình.
TuTV
stt
Word
Lenght
Hình 3.5 D li u ch a các t ti ng Vi t
M i b ng ñ u có 2 trư ng d li u:
B ng 3.2. T ñi n d li u
Tên trư ng Ki u d li u Kích thư c Gi i thích
stt Autonumber Integer Th t m c t
Word Text 30 T ti ng Vi t
Length Number Byte Kích thư c t
B ng d li u này ch có m c ñích là lưu tr d li u. D li u
ñư c lưu b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d
li u c a ph n ki m l i chính t ti ng Vi t ñã trình bày ph n trên
c a báo cáo.
3.2.2. Các gi i thu t chính
3.2.2.1. Gi i thu t tìm và h tr s a l i chính t ti ng Vi t
m c âm ti t
3.2.2.2. Thu t toán xác ñ nh t trong văn b n
3.2.2.3. Thu t toán tách ño n văn b n thành các t
riêng bi t
Đây là ch c năng chính c a chương trình. Trư c khi trình bày
gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i
thu t mà tác gi ñã tìm hi u ñư c liên quan ñ n v n ñ này.
- - 19 -
Theo tài li u [23], nhóm tác gi này ñã ti n hành xây d ng
otomat ñoán nh n t v ng, ph c v cho vi c tách t v ng trong văn
b n ti ng Vi t. Tư tư ng c a thu t toán tách t v ng là quy vi c
phân tách câu v vi c tìm ñư ng ñi trên m t ñ th có hư ng, không
tr ng s .
Gi s câu ban ñ u là m t dãy g m n+1 âm ti t s0, s1, ...,
sn. Ta xây d ng m t ñ th có n+2 ñ nh v0, v1, ..., vn, vn+1, s p th
t trên m t ñư ng th ng t trái sang ph i; trong ñó, t ñ nh vi ñ n
ñ nh vj có cung (i < j) n u các âm ti t si, si+1, ..., sj-1 theo th t l p
thành m t t . Khi ñó m i cách phân tách câu khác nhau tương ng
v i m t ñư ng ñi trên ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1.
Trong th c t , cách phân tích câu ñúng ñ n nh t thư ng ng v i
ñư ng ñi qua ít cung nh t trên ñ th .
Trong trư ng h p câu có s nh p nh ng thì ñ th s có nhi u
hơn m t ñư ng ñi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê toàn
b các ñư ng ñi ng n nh t trên ñ th , t ñó ñưa ra t t c các phương
án tách câu có th và ñ ngư i dùng quy t ñ nh s ch n phương án
nào, tuỳ thu c vào ng nghĩa ho c văn c nh. Ví d , xét m t câu có
c m "thu c ñ a bàn", ta có ñ th như hình 3.7 sau:
thu c ñ a
thu c
ña bàn
ñ a bàn
Hình 3.7 Otomat ñoán nh n c m t “thu c ñ a bàn”
C m này có s nh p nh ng gi a thu c ñ a và ñ a bàn và ta s
có hai k t qu phân tách là "thu c ñ a / bàn" và "thu c / ñ a bàn". Ta
có th ch ra r t nhi u nh ng c m nh p nh ng trong ti ng Vi t, ch ng
- - 20 -
h n "t h p âm ti t", "b ng ch ng c ",... Trư ng h p trong câu có
âm ti t không n m trong t ñi n thì rõ ràng ôtômát âm ti t không
ñoán nh n ñư c âm ti t này. K t qu là ñ th ta xây d ng t câu ñó
là không liên thông.
D a vào tính ch t này, ta th y r ng n u ñ th không liên
thông thì d dàng phát hi n ra r ng ñơn v âm ti t không ñoán nh n
ñư c không n m trong t ñi n âm ti t, t c nó b vi t sai chính t
ho c là m t ñơn v âm ti t (t v ng) m i.
Đ tri n khai ñư c thu t toán nói trên c n có m t cơ s d li u
l n và hoàn ch nh, ñ c bi t c n xây d ng ñư c ñ th n i gi a các t
ti ng Vi t. V i s lư ng g n 74.000 t ti ng Vi t, ñây là m t công
vi c ñòi h i s ñ u tư th i gian và trí tu c a nhi u ngư i. Do ñó,
trong th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác
gi ch n m t gi i pháp khác ñ ñ m b o xây d ng ñư c m t chương
trình demo h tr x lý m t s hi n tư ng nh p nh ng c th . Trên
cơ s ý tư ng c a thu t toán ñư c ñ c p trong tài li u Error!
Reference source not found., tác gi xây d ng cho mình m t gi i
thu t khác, gi i thu t này cũng d a trên tính ch t “cách phân tách t i
ưu nh t là tách ñư c nh ng t có nhi u âm ti t nh t”.
Trư c tiên chương trình s ti n hành ki m tra l i chính t
m c âm ti t ñ ñ m b o r ng văn b n ñã ñư c vi t ñúng chính t
ti ng Vi t m c th p nh t là m c âm ti t, sau ñó thay vì ti n hành
ñ c vào t ng âm ti t và ki m tra tính liên thông (như thu t toán ñã ñ
c p trên) thì s ñ c vào m t âm ti t (g i là âm ti t X) là âm ti t ñ u
tiên c a ph n văn b n s ñư c x lý, sau ñó ki m tra s t n t i c a
c m t dài nh t ch a âm ti t v a ñ c (g i là t Y) có t n t i trong
ti ng Vi t hay không, n u t n t i thì xem như ñây là cách tách t t i
ưu nh t và không chia nh c m t Y, n u không t n t i thu t toán s
nguon tai.lieu . vn