Xem mẫu

  1. -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG ĐINH TH M H NH TÌM HI U HI N TƯ NG NH P NH NG TRONG TI NG VI T VÀ KH NĂNG KH C PH C TRONG SO N TH O VĂN B N Chuyên ngành : KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: PGS.TS. Võ Trung Hùng Ph n bi n 2: TS. Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng 6 năm 2011. * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng.
  3. -3- M Đ U 1. Lý do ch n ñ tài Trong h th ng ngôn ng trên th gi i hi n nay, ti ng Vi t ñư c xem là m t trong nh ng ngôn ng có s phong phú và ña d ng. Chính s phong phú và ph c t p c a ti ng Vi t ñã d n ñ n nh ng khó khăn cho c ngư i s d ng theo cách thông thư ng và khi x lý trên máy tính. Do nh ng nh hư ng c a l ch s hình thành và phát tri n, ti ng Vi t có tính lai t p v m t ngôn ng г t cao, ñ c bi t nh hư ng t ti ng Hán và ti ng Pháp. S ña nghĩa trong ti ng Vi t cũng chính là m t ñ c ñi m n i b t. Ngoài ra, do thói quen s d ng c a m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i nh t ñ nh, th m chí s thi u nh t quán trong cách nói, cách vi t. Ti ng Vi t ngày nay còn b nh hư ng b i thói quen s d ng ngôn ng trên Internet ho c các thi t b truy n thông hi n ñ i như ñi n tho i di ñ ng, ñi u này làm xu t hi n thêm nhi u t m i ñư c ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i tr như câu “Bu i sinh nh t hôm nay vui wá!”. S nh p nh ng trong khi nói, vi t ho c di n ñ t ý nghĩ ñã d n ñ n nh ng s hi u l m nhi u m c ñ khác nhau. Và cũng chính nh ng ñ c ñi m nói trên ñã làm cho ti ng Vi t v n ñã ph c t p l i càng ph c t p hơn, ñ c bi t là m t s y u t ñã làm m t ñi tính trong sáng và giá tr t t ñ p v n có c a ti ng Vi t. Gìn gi s trong sáng c a ti ng Vi t là m t yêu c u và nhi m v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa, ngôn ng l n nh ng ngư i s d ng thông thư ng. Xu t phát t nh ng phân tích và quan sát trên, nhi m v nghiên c u c a ñ tài “Tìm hi u hi n tư ng nh p nh ng trong
  4. -4- ti ng Vi t và kh năng kh c ph c trong so n th o văn b n” là tìm hi u v nh ng v n ñ cơ b n trong x lý ngôn ng , x lý ti ng Vi t, ñ c bi t là v n ñ “nh p nh ng” trong ti ng Vi t, t ñó ñ xu t m t gi i pháp ñ kh c ph c trong quá trình so n th o văn b n cho m t s trư ng h p c th c a hi n tư ng nh p nh ng. 2. M c tiêu c a ñ tài Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý ti ng Vi t. Tác gi cũng b nhi u th i gian nghiên c u v các hi n tư ng nh p nh ng thư ng x y ra trong ti ng Vi t. Đ tài còn nghiên c u các kh năng x lý nh p nh ng và xây d ng ng d ng h tr x lý nh p nh ng ti ng Vi t trong m t ph m vi h p. 3. Ph m vi và gi i h n c a ñ tài V n ñ nh p nh ng trong ti ng Vi t có r t nhi u trư ng h p, tuy nhiên trong ph m vi c a ñ tài này tác gi gi i h n l i m t s n i dung sau ñây: V m t lý thuy t: Tìm hi u lý thuy t v XLNN và XLTV, l ch s hình thành và phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v các v n ñ liên quan ñ n hi n tư ng nh p nh ng trong ti ng Vi t; Tìm hi u nh ng v n ñ cơ b n v so n th o văn b n, ph n m m so n th o văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN do vi t sai l i chính t ti ng Vi t (gi i h n nh ng l i chính t c p ñ âm ti t) và HTNN do xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t. V m t chương trình: Xây d ng ng d ng h tr x lý nh p nh ng gây ra do l i chính t v m t âm ti t, ñ ng th i chương trình h tr vi c tách văn b n thành các t ñ c l p ñ ngư i s d ng d dàng hi u n i dung văn b n. K t qu c a vi c tách t s ñư c s d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n ñ phân tích nh p nh ng v phân lo i t và cú pháp câu.
  5. -5- 4. Phương pháp nghiên c u Thu th p, tìm hi u, phân tích các tài li u và thông tin có liên quan ñ n ñ tài; Phân tích và thi t k h th ng chương trình; Tri n khai xây d ng chương trình; Ki m th , nh n xét và ñánh giá k t qu . 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ cơ b n trong x lý ti ng Vi t, x lý nh p nh ng trong ti ng Vi t; Đ xu t ñư c gi i pháp ñ h tr x lý m t s hi n tư ng nh p nh ng trong so n th o văn b n ti ng Vi t. Ý nghĩa th c ti n: Hi u và ng d ng ñư c nh ng ki n th c n n t ng trong x lý ti ng Vi t ñ x lý nh p nh ng trong ti ng Vi t; Có th ng d ng chương trình này ñ h tr x lý nh p nh ng trong so n th o văn b n ti ng Vi t; Có ý nghĩa trong vi c b o t n và phát huy các giá tr c a ti ng Vi t. 6. B c c lu n văn M ñ u Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên Chương 2: So n th o văn b n và hi n tư ng nh p nh ng trong so n th o văn b n Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng K t lu n.
  6. -6- CHƯƠNG 1: CƠ S LÝ THUY T V X LÝ NGÔN NG T NHIÊN 1.1. X LÝ NGÔN NG T NHIÊN 1.1.1. Khái ni m 1.1.2. Các bư c x lý 1.1.3. Các bài toán và ng d ng 1.2. TÌM HI U V TI NG VI T VÀ V N Đ X LÝ TI NG VI T 1.2.1. S hình thành c a ti ng Vi t 1.2.2. Đ c ñi m c a ti ng Vi t 1.2.2.1. Đ c ñi m ng âm 1.2.2.2. Đ c ñi m t v ng 1.2.2.3. Đ c ñi m ng pháp 1.2.3. T trong ti ng Vi t 1.2.3.1. Khái ni m T là ñơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hoàn ch nh, có ch c năng g i tên, ñư c v n d ng ñ c l p, tái hi n t do trong l i nói ñ t o câu[7]. 1.2.3.2. Đơn v c u t o Đơn v cơ s ñ c u t o t ti ng Vi t là các ti ng, cái mà ng âm h c v n g i là các âm ti t. 1.2.3.3. Phương th c c u t o 1.2.4. Bi n th c a t 1.3. HI N TƯ NG NH P NH NG TRONG X LÝ VĂN B N TI NG VI T 1.3.1. Khái ni m Nh p nh ng là hi n tư ng mà khi nói, vi t ho c di n t nh ng t ng , ý nghĩ mơ h , không rõ nghĩa ho c có nhi u nghĩa làm cho
  7. -7- ngư i ñ c ho c ngư i nghe không phân bi t rõ ràng, gây ra s hi u l m. Khái ni m nh p nh ng cũng có th hi u theo m t cách khác như sau: trong m i lĩnh v c, các v n ñ thư ng ñư c ñ c p, trình bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n này có th ñư c quy ư c b ng văn b n ho c quy ư c ng m ñ nh. Khi ñó t t c nh ng cách hi u, cách ñ c p ho c trình bày v n ñ n m ngoài ph m vi chu n ñó ñư c xem là nh p nh ng. 1.3.2. M t s hi n tư ng nh p nh ng 1.3.2.1. Hi n tư ng nh p nh ng do vi t sai chính t ti ng Vi t Vi c vi t sai l i chính t ti ng Vi t ñang m c ñáng báo ñ ng, hi n tư ng này không nh ng di n ra ph bi n trong gi i tr , ñ c bi t trong gi i tr s d ng internet mà còn xu t hi n nhi u trên các phương ti n thông tin ñ i chúng và các văn b n c a Nhà nư c. Chính nh ng sai sót v chính t này có th gây ra nh ng nh p nh ng trong vi c ti p nh p thông tin. Trong c ng ñ ng s d ng m ng Internet cũng hình thành m t l p t m i chưa có trong t ñi n ti ng Vi t, ñi u này cũng d n ñ n nh ng thói quen s d ng t ng không t t trong ngư i s d ng, ñ c bi t gi i tr . Có nh ng trư ng h p sai chính t có th d n ñ n nh ng h qu x u như hình thành thói quen nói sai, vi t sai và hi u sai v n ñ . 1.3.2.2. Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a các t Trong m t s ngôn ng như ti ng Anh, vi c xác ñ nh ranh gi i, ph m vi gi a các t khá d dàng, m i t riêng l ñã mang tr n v n m t nghĩa và ranh gi i c a chúng ñư c xác ñ nh thông qua
  8. -8- kho ng tr ng. Ti ng Vi t thì khác, do là ngôn ng ñơn l p nên t v ng ch y u là các t ghép vì th kho ng tr ng không ph i luôn luôn là ranh gi i chính xác. Trong ti ng Vi t, vi c xác ñ nh chính xác ph m vi, ranh gi i gi a các t có th h tr r t nhi u cho quá trình kh nh p nh ng, ñ c bi t ñ i v i ngôn ng vi t. Đây cũng chính là m c ñích chính mà báo cáo này mu n ñ c p ñ n. 1.3.2.3. Hi n tư ng nh p nh ng do tính ña nghĩa c a t B t c ngôn ng nào cũng có t ña nghĩa, nguyên nhân là vì r t nhi u khái ni m có các s c thái ý nghĩa tuy không hoàn toàn trùng kh p nhau nhưng l i có nhi u nét tương ñ ng. Hi n tư ng này gây c n tr cho vi c d ch t ñ ng, chương trình không bi t d ch t ña nghĩa theo nghĩa nào trong nhóm nghĩa c a nó. 1.3.2.4. Hi n tư ng nh p nh ng ng nghĩa khi s d ng các t ñ ng âm Hai t ñ ng âm v i nhau nghĩa là hai t có âm gi ng nhau nhưng mang nghĩa khác nhau, còn ñ ng t là hai t v m t ký t là gi ng nhau nhưng nghĩa khác nhau. Do ñ c ñi m c a ti ng Vi t t ñ ng âm cũng thư ng là t ñ ng t , các ngôn ng khác hai hi n tư ng này không trùng kh p nhau. Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, trong t ña nghĩa, các nghĩa ñ u có chung m t ngu n g c và do v y luôn có nét tương ñ ng trong khi ñó trong t ñ ng t chúng không có liên h v ngu n g c v i nhau, nghĩa c a chúng khác nhau rõ r t. Ví d 1 T “ki m” trong hai câu sau ñây là hai t ñ ng t : Anh ta s d ng ki m r t ñiêu luy n. Ki m ăn bây gi khó l m.
  9. -9- 1.3.2.5. Hi n tư ng nh p nh ng trong cách phân bi t t lo i T lo i là m t y u t quan tr ng trong vi c xác ñ nh nghĩa chính xác c a t và s p x p các t thành câu hoàn ch nh trong d ch t ñ ng. T lo i giúp kh nh p nh ng, nhưng chính b n thân nó trong m t s trư ng h p cũng nh p nh ng. V i các ngôn ng không bi n hình như ti ng Vi t, v n ñ xác ñ nh t lo i yêu c u các thu t toán ph c t p hơn, b t bu c ph i phân tích cú pháp. M t khác, ngay trong n i b ngành ngôn ng v n chưa có s th ng nh t v phân lo i t lo i cho ti ng Vi t. 1.3.2.6. Hi n tư ng nh p nh ng khi s d ng ti ng Vi t không d u Ngày nay, vi c gõ ti ng Vi t không d u tr nên ph bi n hơn, ñ c bi t trên các ng d ng Internet ho c ñi n tho i di ñ ng như email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác nhanh hơn, nhưng trong m t s trư ng h p nó l i gây ra nh ng s hi u nh m tai h i ñ i v i ngư i ñ c. 1.3.2.7. Hi n tư ng nh p nh ng v s v n d ng Cùng m t câu nhưng khi s d ng trong các hoàn c nh khác nhau c a ngôn ng nói ho c ngôn ng vi t, n u không bi t cách s d ng m t cách phù h p cũng s gây ra s “nh p nh ng”, s hi u l m cho ngư i ñ c ho c ngư i nghe. Hi n tư ng này ñ c bi t ph bi n trong ti ng Vi t, vì ti ng Vi t v n ña nghĩa, ña s c thái và có tính bi u c m r t cao. Đi u này ñòi h i ngư i s d ng ngôn ng m t s khéo léo và tinh t nh t ñ nh, có s hi u bi t m t m c ñ c n thi t ñ có th t n d ng h t nh ng giá tr bi u ñ t c a ngôn ng .
  10. - 10 - 1.3.2.8. Hi n tư ng nh p nh ng trong phân tích cú pháp ti ng Vi t Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng x y ra nhi u m c, t m c t , t lo i ñ n m c cú pháp câu. Đi u này d n ñ n m t câu có th ñư c phân tích theo nhi u cách khác nhau, trong khi ch có m t vài cách phân tích trong s ñó ñúng. 1.4. K T LU N CHƯƠNG Chương này trình bày khái ni m và các bư c ñ x lý ngôn ng t nhiên, các bài toán liên quan ñ n x lý ngôn ng t nhiên như nh n d ng ti ng nói, t ng h p ti ng nói, d ch t ñ ng, tìm ki m văn b n, tóm t t văn b n… Ngoài ra còn trình bày v s hình thành, phát tri n và m t s ñ c ñi m n i b t c a ti ng Vi t. Chương 1 còn dành m t s lư ng l n các trang ñ trình bày khái ni m cũng như nh ng hi n tư ng nh p nh ng ph bi n nh t trong x lý văn b n ti ng Vi t.
  11. - 11 - CHƯƠNG 2: SO N TH O VĂN B N VÀ HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N 2.1. M TS V N Đ V SO N TH O VĂN B N 2.1.1. Đ t v n ñ 2.1.2. Khái ni m ký t , t , câu, dòng, ño n 2.1.3. Nguyên t c t xu ng dòng c a t 2.1.4. M t s quy t c gõ văn b n cơ b n 2.1.5. Ph n m m so n th o văn b n 2.2. HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Nh ng m c ñ nh p nh ng trong STVB: Trong quá trình so n th o văn b n, hi n tư ng nh p nh ng có th x y ra nhi u m c ñ khác nhau: M c m t, nh p nh ng x y ra do sai sót v t , c m t , sai sót ch vi t t t, cách vi t ngày tháng năm, vi t các ký hi u. M c hai, nh p nh ng m c ñ cú pháp câu. M c ba, nh p nh ng v m t ng nghĩa. 2.3. CÁCH PHÁT HI N HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Th nh t, phát hi n HTNN trư c khi ti n hành STVB. Quá trình này chính là kh nh p nh ng trong tư duy, suy nghĩ c a ngư i so n th o, nói chính xác hơn thì trong trư ng h p này, b n thân ngư i so n th o ph i t tìm cách ñ kh nh p nh ng b ng cách n m v ng các quy t c v chính t ti ng Vi t, quy t c STVB, hi u bi t v ngôn ng ti ng Vi t và bi t cách v n d ng phù h p. N u b n thân ngư i so n th o không th t tìm và kh ñư c nh ng nh p nh ng
  12. - 12 - trong tư duy, suy nghĩ thì có th trao ñ i v i ngư i khác ñ có cách trình bày v n ñ chính xác hơn. Th hai, phát hi n HTNN trong quá trình STVB. N u ch s d ng ph n m m h tr STVB ti ng Vi t (mà không s d ng kèm m t chương trình h tr tìm và kh nh p nh ng cho văn b n ti ng Vi t nào khác) thì ch có m t cách ñ phát hi n nh p nh ng là ngư i s d ng ph i t làm th công. Tuy nhiên cách làm này s không ñem l i nhi u hi u qu và ñ chính xác không cao. Do ñó nh t thi t ph i có m t chương trình h tr phát hi n và kh nh p nh ng ñi kèm. Th ba, phát hi n HTNN sau khi vi c STVB hoàn t t. Nghĩa là ngư i s d ng s m t p văn b n ñã so n th o, sau ñó g i ch c năng phát hi n nh p nh ng ñ x lý. Theo tìm hi u c a tác gi , hi n nay v n chưa có m t h th ng hay chương trình nào có th x lý ñư c t t c các HTNN trong STVB ti ng Vi t. Các k t qu ñã có cũng ch m i là nh ng gi i pháp cho m t s trư ng h p c th . 2.4. CÁC GI I PHÁP X LÝ NH P NH NG ĐÃ CÓ TRƯ C ĐÂY Trong bài báo “Phân tích cú pháp ti ng Vi t s d ng văn ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi ñã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng và các hi n tư ng cú pháp ph thu c t trong phân tích cú pháp ti ng Vi t. Bài báo ñ xu t vi c xây d ng m t công c phân tích cú pháp d a trên văn ph m phi ng c nh v i lu t có ch a thông tin v xác su t và t v ng. Trong tài li u [24], nhóm tác gi ñã trình bày chi ti t các th nghi m v gán nhãn t lo i cho các văn b n ti ng Vi t b ng cách áp d ng b gán nhãn QTAG. Công vi c gán nhãn t lo i cho m t văn
  13. - 13 - b n là xác ñ nh t lo i c a m i t trong ph m vi văn b n ñó. Khi h th ng văn b n ñã ñư c gán nhãn, hay nói cách khác là ñã ñư c chú thích t lo i thì nó s ñư c ng d ng r ng rãi trong các h th ng tìm ki m thông tin, trong các ng d ng t ng h p ti ng nói, các h th ng nh n d ng ti ng nói cũng như trong các h th ng d ch máy. Đ ti n hành vi c gán nhãn t lo i, nhóm tác gi ñã ti n hành ba bư c: Phân tách xâu ký t thành các t , gán nhãn tiên nghi m, quy t ñ nh k t qu gán nhãn, t c lo i b nh p nh ng. Văn b n ñã ñư c phân ño n t (WORD SEGMENTED TEXT) T p lu t nh n di n POS Mô hình gán nhãn cho t (POS Tagging Model) Kho ng li u ti ng Vi t Văn b n ñã ñư c gán t lo i (POS TAGGED TEXTS) Hình 2.1. Mô hình t ng quát bài toán gán nhãn t lo i 2.5. K T LU N CHƯƠNG Chương 2 trình bày nh ng v n ñ cơ b n v so n th o văn b n, khái ni m v ký t , t , câu, dòng, ño n. Trong chương này còn trình bày khái ni m v hi n tư ng nh p nh ng trong ti ng Vi t. Ngoài ra còn trình bày m t s hi n tư ng nh p nh ng ph bi n trong ti ng Vi t, qua ñó chúng ta có th th y r ng hi n tư ng nh p nh ng khá ph bi n và r t khó ñ x lý m t cách tri t ñ . Ph n cu i chương, tác gi ñã trình bày nh ng k t qu nghiên c u v v n ñ x lý nh p nh ng trong ngôn ng t nhiên nói chung và ti ng Vi t nói riêng.
  14. - 14 - CHƯƠNG 3: Đ XU T GI I PHÁP KH C PH C NH P NH NG 3.1. GI I THI U VÀ PHÂN TÍCH BÀI TOÁN Trong s các hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n trong chương 2, trong ph n này, tác gi ch ch n m t s hi n tư ng nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c. Đó là nh p nh ng do vi t sai l i chính t ti ng Vi t c p ñ âm ti t (vi t nh ng âm ti t không có trong ti ng Vi t) và nh p nh ng do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t trong văn b n. N u xem nh ng quy t c v chính t ti ng Vi t là mi n chu n, và nh ng gì n m trong mi n chu n y ñư c ch p nh n và không gây nh p nh ng thì nh ng trư ng h p vi t sai chính t ti ng Vi t n m ngoài mi n chu n (t c vi t sai chính t ) ñ u ñư c xem là nh p nh ng. Trong ph m vi báo cáo này, tác gi x lý m t ph n các l i chính t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng, ñó là x lý l i chính t m c âm ti t ti ng Vi t. Ví d có th phát hi n ra l i chính t c a t và ñưa ra m t lo t g i ý ñ ngư i s d ng ch nh s a l i. Xét m t ví d v hi n tư ng nh p nh ng do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t . Ví d 32 Ngư i dân thu c ñ a bàn ñô th có m c thu nh p bình quân ñ u ngư i cao hơn vùng nông thôn. Trong ví d 32, m t s ñ i tư ng, ví d tr em có th s xác ñ nh không ñúng ph m vi gi a các t s d n ñ n hi u sai (nh p nh ng) n i dung câu. C m t thu c ñ a bàn s có hai cách phân tách,
  15. - 15 - th nh t là thu c/ ñ a bàn (nghĩa là n m trên ñ a bàn nào ñó), th hai là thu c ñ a/ bàn (nghĩa là ngư i dân thu c ñ a bàn b c v ñi u gì ñó, ñây là cách phân tách sai trong ng c nh trên). Trong ti ng Vi t t n t i khá nhi u nh ng c m t tương t như trên. Do ñó, khi xác ñ nh ñúng ph m vi t s ñ c ñúng và hi u ñúng, nghĩa là tránh ñư c nh p nh ng. Gi i quy t ñư c bài toán v xác ñ nh ph m vi, ranh gi i t s là cơ s quan tr ng ñ th c hi n gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t. Gi i quy t bài toán: Bài toán bây gi ñư c chia làm hai bư c x lý: - X lý l i chính t ti ng Vi t m c âm ti t - Phân tách văn b n thành các t ñ c l p Kho d li u âm ti t T ñi n ti ng Vi t ti ng Vi t Văn b n X lý l i chính t Tách văn b n thành Văn b n c n x lý TV m c âm ti t các t riêng bi t ñã ñư c x lý nh p nh ng (*) Đ U VÀO QUÁ TRÌNH X LÝ Đ U RA Giao di n ngư i s d ng Ngư i s d ng Hình 3.1. Mô hình ki n trúc t ng quan c a quá trình x lý Gi i h n ph m vi gi i quy t c a bài toán: Khái ni m văn b n ñư c ñ c p ñ n trong báo cáo này là văn b n ch ch a ch , không ch a hình v .
  16. - 16 - Chương trình cũng chưa x lý các ñ nh d ng c a văn b n ñ u vào. Th i ñi m x lý văn b n: Chương trình ñư c tích h p trong ng d ng Microsoft Word và chương trình s l y n i dung văn b n ñư c so n th o s n ñ x lý. Ngư i s d ng có th tùy ch n ti n hành ki m l i chính t m c âm ti t ñ i văn b n ñ u vào, sau ñó ti n hành phân tách t . Chương trình không ñư c g i th c thi m t cách t ñ ng mà c n có thao tác c a ngư i s d ng. Lo i nh p nh ng ñư c x lý: bài toán gi i quy t s nh p nh ng gây ra do sai sót v l i chính t ti ng Vi t m c âm ti t và h tr x lý nh p nh ng có th có do không xác ñ nh ñư c ph m vi, ranh gi i gi a các t trong ti ng Vi t. Kho d li u ti ng Vi t: Chương trình dùng 2 kho d li u h tr cho quá trình x lý: Kho d li u âm ti t ti ng Vi t: lưu hơn 10.000 âm ti t ti ng Vi t, h tr cho ch c năng tìm và s a l i, ñ ng th i có th ñư c c p nh p thêm t m i thông qua bư c x lý l i chính t . Các âm ti t ñư c lưu b ng mã Unicode. T ñi n ti ng Vi t h tr ch c năng tách t g m g n 24.000 t ti ng Vi t. Ngoài ra, ñ h tr t t hơn cho vi c tách t , tác gi còn b sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n. 3.2. THI T K CƠ S D LI U VÀ CÁC THU T TOÁN CHÍNH 3.2.1. Thi t k cơ s d li u Cơ s d li u cho bài toán tương ñ i ñơn gi n, d li u ñư c chia thành 2 ph n riêng bi t, m t ph n ph c v cho ch c năng ki m l i chính t ti ng Vi t m c âm ti t, m t ph n ph c v cho ch c năng tách t trong văn b n.
  17. - 17 - 3.2.1.1. D li u cho ch c năng ki m l i chính t ti ng Vi t m c âm ti t D li u cho ch c năng x lý nh p nh ng do sai l i chính t ti ng Vi t m c âm ti t g m 1 b ng AmTiet (Âm ti t) ch a t t c các âm ti t có trong ti ng Vi t. AM_TIET STT Am_Tiet Hình 3.4 D li u lưu các âm ti t ti ng Vi t B ng 3.1. B ng t ñi n d li u Tên trư ng Ki u d li u Kích thư c Gi i thích STT Autonumber Integer Th t c a m c t Am_Tiet Text 10 Âm ti t ti ng Vi t 3.2.1.2. D li u cho ch c năng tách t trong văn b n Đ ph c v cho gi i thu t này, ta c n xây d ng cơ s d li u ch a t t c các t có trong ti ng Vi t. Tác gi xây d ng kho d li u này trên cơ s t p tin d li u c a ph n m m VietDict c a tác gi H Ng c Đ c, t i mi n phí t i ñ a ch http://vietdict.viet.net. T p tin này ñư c lưu v i ñuôi *.txt, ch a g n 24.000 t và gi i thích t (Vi t – Vi t), c u trúc trình bày g n gi ng các quy n t ñi n ti ng Vi t. Tác gi ñã vi t m t th t c ñơn gi n ñ ti n hành tìm và tách l y t t c các t ti ng Vi t trong t p tin ñ lưu vào cơ s d li u. Đây chưa ph i là t t c các t có trong ti ng Vi t, ch là d li u ñ demo chương trình. D li u c a ch c năng tách t là 1 b ng d li u ch a các t có trong ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m 3 trư ng d li u
  18. - 18 - là s th t , m c t Word và kích thư c c a t Length. Ví d t ban mai có Length =2, t s ch sành sanh có Length =3. Trư ng Length dùng ph c v cho m t s gi i thu t c a chương trình. TuTV stt Word Lenght Hình 3.5 D li u ch a các t ti ng Vi t M i b ng ñ u có 2 trư ng d li u: B ng 3.2. T ñi n d li u Tên trư ng Ki u d li u Kích thư c Gi i thích stt Autonumber Integer Th t m c t Word Text 30 T ti ng Vi t Length Number Byte Kích thư c t B ng d li u này ch có m c ñích là lưu tr d li u. D li u ñư c lưu b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d li u c a ph n ki m l i chính t ti ng Vi t ñã trình bày ph n trên c a báo cáo. 3.2.2. Các gi i thu t chính 3.2.2.1. Gi i thu t tìm và h tr s a l i chính t ti ng Vi t m c âm ti t 3.2.2.2. Thu t toán xác ñ nh t trong văn b n 3.2.2.3. Thu t toán tách ño n văn b n thành các t riêng bi t Đây là ch c năng chính c a chương trình. Trư c khi trình bày gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i thu t mà tác gi ñã tìm hi u ñư c liên quan ñ n v n ñ này.
  19. - 19 - Theo tài li u [23], nhóm tác gi này ñã ti n hành xây d ng otomat ñoán nh n t v ng, ph c v cho vi c tách t v ng trong văn b n ti ng Vi t. Tư tư ng c a thu t toán tách t v ng là quy vi c phân tách câu v vi c tìm ñư ng ñi trên m t ñ th có hư ng, không tr ng s . Gi s câu ban ñ u là m t dãy g m n+1 âm ti t s0, s1, ..., sn. Ta xây d ng m t ñ th có n+2 ñ nh v0, v1, ..., vn, vn+1, s p th t trên m t ñư ng th ng t trái sang ph i; trong ñó, t ñ nh vi ñ n ñ nh vj có cung (i < j) n u các âm ti t si, si+1, ..., sj-1 theo th t l p thành m t t . Khi ñó m i cách phân tách câu khác nhau tương ng v i m t ñư ng ñi trên ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1. Trong th c t , cách phân tích câu ñúng ñ n nh t thư ng ng v i ñư ng ñi qua ít cung nh t trên ñ th . Trong trư ng h p câu có s nh p nh ng thì ñ th s có nhi u hơn m t ñư ng ñi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê toàn b các ñư ng ñi ng n nh t trên ñ th , t ñó ñưa ra t t c các phương án tách câu có th và ñ ngư i dùng quy t ñ nh s ch n phương án nào, tuỳ thu c vào ng nghĩa ho c văn c nh. Ví d , xét m t câu có c m "thu c ñ a bàn", ta có ñ th như hình 3.7 sau: thu c ñ a thu c ña bàn ñ a bàn Hình 3.7 Otomat ñoán nh n c m t “thu c ñ a bàn” C m này có s nh p nh ng gi a thu c ñ a và ñ a bàn và ta s có hai k t qu phân tách là "thu c ñ a / bàn" và "thu c / ñ a bàn". Ta có th ch ra r t nhi u nh ng c m nh p nh ng trong ti ng Vi t, ch ng
  20. - 20 - h n "t h p âm ti t", "b ng ch ng c ",... Trư ng h p trong câu có âm ti t không n m trong t ñi n thì rõ ràng ôtômát âm ti t không ñoán nh n ñư c âm ti t này. K t qu là ñ th ta xây d ng t câu ñó là không liên thông. D a vào tính ch t này, ta th y r ng n u ñ th không liên thông thì d dàng phát hi n ra r ng ñơn v âm ti t không ñoán nh n ñư c không n m trong t ñi n âm ti t, t c nó b vi t sai chính t ho c là m t ñơn v âm ti t (t v ng) m i. Đ tri n khai ñư c thu t toán nói trên c n có m t cơ s d li u l n và hoàn ch nh, ñ c bi t c n xây d ng ñư c ñ th n i gi a các t ti ng Vi t. V i s lư ng g n 74.000 t ti ng Vi t, ñây là m t công vi c ñòi h i s ñ u tư th i gian và trí tu c a nhi u ngư i. Do ñó, trong th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác gi ch n m t gi i pháp khác ñ ñ m b o xây d ng ñư c m t chương trình demo h tr x lý m t s hi n tư ng nh p nh ng c th . Trên cơ s ý tư ng c a thu t toán ñư c ñ c p trong tài li u Error! Reference source not found., tác gi xây d ng cho mình m t gi i thu t khác, gi i thu t này cũng d a trên tính ch t “cách phân tách t i ưu nh t là tách ñư c nh ng t có nhi u âm ti t nh t”. Trư c tiên chương trình s ti n hành ki m tra l i chính t m c âm ti t ñ ñ m b o r ng văn b n ñã ñư c vi t ñúng chính t ti ng Vi t m c th p nh t là m c âm ti t, sau ñó thay vì ti n hành ñ c vào t ng âm ti t và ki m tra tính liên thông (như thu t toán ñã ñ c p trên) thì s ñ c vào m t âm ti t (g i là âm ti t X) là âm ti t ñ u tiên c a ph n văn b n s ñư c x lý, sau ñó ki m tra s t n t i c a c m t dài nh t ch a âm ti t v a ñ c (g i là t Y) có t n t i trong ti ng Vi t hay không, n u t n t i thì xem như ñây là cách tách t t i ưu nh t và không chia nh c m t Y, n u không t n t i thu t toán s
nguon tai.lieu . vn