Xem mẫu

  1. B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG NGUY N T N PHƯƠNG NGHIÊN C U NG D NG KHAI PHÁ D LI U TRONG PHÂN TÍCH S LI U DÂN CƯ Chuyên ngành: Khoa h c máy tính Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. -1- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TSKH TR N QU C CHI N Ph n bi n 1: PGS.TS. PHAN HUY KHÁNH Ph n bi n 2: GS.TS. NGUY N THANH THU Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 10 tháng 9 năm 2011. Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
  3. -1- M Đ U 1. Lý do ch n ñ tài Trong vài th p niên g n ñây, cùng v i s thay ñ i và phát tri n không ng ng c a ngành công ngh thông tin, lu ng thông tin ñư c chuy n t i mau l ñ n chóng m t, ư c tính c kho ng 20 tháng lư ng thông tin trên th gi i l i tăng g p ñôi. Nh ng ngư i ra quy t ñ nh trong các t ch c tài chính, thương m i, khoa h c…không mu n b sót b t c thông tin nào, h thu th p, lưu tr t t c m i thông tin vì cho r ng trong nó n ch a nh ng giá tr nh t ñ nh nào ñó. Hi n nay lư ng d li u mà con ngư i thu th p và lưu tr trong các kho d li u là r t l n, nh ng k thu t truy n th ng không ñ kh năng làm vi c v i d li u thô, không th phân tích b ng tay vì ph i t n r t nhi u th i gian ñ khám phá ra thông tin có ích, ph n l n d li u chưa bao gi ñư c phân tích như nh n ñ nh c a Usama Fayyad:“H sâu kh năng sinh ra d li u và kh năng s d ng d li u”. Gi i pháp duy nh t giúp phân tích t ñ ng kh i lư ng d li u l n ñó là k thu t phát hi n tri th c và khai phá d li u (KDD - Knowledge Discovery and Data Mining). K thu t phát hi n tri th c và khai phá d li u ñã và ñang ñư c nghiên c u ng d ng r ng trên toàn th gi i, v i k thu t KDD, tác gi mu n nghiên c u ng d ng trong phân tích s li u dân cư Vi t Nam ñ phát hi n nh ng tri th c v tăng trư ng dân s . V n ñ tăng trư ng dân s quá nhanh Vi t Nam trong nh ng th p niên g n ñây ñư c s quan tâm r t l n c a các c p lãnh ñ o, ñi n hình là vi c chính ph Vi t Nam ñưa ra chính sách k ho ch hoá gia ñình “M i gia ñình ch có 1 ho c 2 con”. Đã có nhi u bi n pháp x lý nh ng gia ñình vi ph m chính sách k ho ch hoá gia ñình, nhưng qua ñ t th ng kê dân s g n ñây nh t vào năm 2009 còn r t nhi u gia ñình
  4. -2- vi ph m chính sách k ho ch hoá gia ñình (sinh trên 2 con). Nh ng gia ñình vi ph m chính sách có nh ng ñ c ñi m chung nào? V i lư ng l n d li u thu th p ñư c qua m i ñ t th ng kê dân s t i Vi t Nam, vi c ng d ng khai phá d li u trong phân tích s li u dân cư là c n thi t ñ phát hi n nh ng ñ c ñi m chung v các gia ñình vi ph m chính sách k ho ch hoá gia ñình, h tr lãnh ñ o ban dân s k ho ch hoá gia ñình các c p ñưa ra bi n pháp phù h p, tôi quy t ñ nh ch n ñ tài: “Nghiên c u ng d ng khai phá d li u trong phân tích s li u dân cư”. 2. M c ñích nghiên c u M c ñích c a ñ tài là tìm hi u các k thu t khai phá d li u, nghiên c u ng d ng k thu t khai phá d li u trong phân tích s li u dân cư, nh m phát hi n các ñ c ñi m chung c a nh ng gia ñình vi ph m chính sách k ho ch hóa gia ñình, h tr cho các c p lãnh ñ o có nh ng nh n ñ nh ñ ñưa ra bi n pháp phù h p. 3. Đ i tư ng và ph m vi nghiên c u - Tìm hi u lý thuy t v phát hi n tri th c và khai phá d li u - Qu n lí và t ch c lưu tr cơ s d li u t s li u th ng kê dân s t i t nh Qu ng Nam. - Nghiên c u m t s mã ngu n m áp d ng trong khai phá d li u. - Áp d ng k thu t khai phá d li u trên cơ s d li u lưu tr . 4. Phương pháp nghiên c u - Thu th p s li u th ng kê dân s t ngu n d li u th ng kê dân s t i t nh Qu ng Nam - Ch n phương pháp khai phá d li u thích h p. - L a ch n công ngh cài ñ t chương trình.
  5. -3- - Phân tích và ki m ñ nh k t qu ñ t ñư c. 5. Ý nghĩa khoa h c và th c ti n - Cung c p m t cách nhìn t ng quan v phát hi n tri th c và khai phá d li u. - Áp d ng các thu t toán khai phá d li u trên cơ s d li u th ng kê dân s Vi t Nam. (D li u thu th p t ngu n d li u th ng kê dân s t i t nh Qu ng Nam) - Tìm ra các ñ c ñi m chung c a nh ng gia ñình vi ph m chính sách k ho ch hóa gia ñình h tr các nhà lãnh ñ o có nh ng nh n ñ nh c th . - Chương trình ñư c s d ng cho lãnh ñ o ban dân s k ho ch hóa gia ñình các c p. 6. C u trúc c a lu n văn Chương 1: Gi i thi u khái ni m, tính ch t, các bư c trong quá trình khai phá d li u. Phương pháp, d ng cơ s d li u có th khai phá và nh ng thách th c trong quá trình khai phá d li u. Chương 2: Trình bày khái ni m và các bư c trong quá trình khai phá d li u b ng lu t k t h p, trình bày thu t toán Apriori. Trình bày khái ni m và các bư c trong quá trình khai phá d li u b ng cây quy t ñ nh, trình bày thu t toán C4.5 Chương 3: Xây d ng h th ng cây quy t ñ nh trong phân tích s li u dân cư.
  6. -4- CHƯƠNG 1 NGHIÊN C U T NG QUAN V KHAI PHÁ D LI U 1.1. GI I THI U CHUNG V KHÁM PHÁ TRI TH C VÀ KHAI PHÁ D LI U Hi n nay, lư ng d li u mà con ngư i thu th p, lưu tr trong các kho d li u là r t l n, nh ng k thu t truy n th ng không ñ kh năng làm vi c v i d li u thô. V y làm th nào chúng ta có th trích l c ñư c nh ng thông tin có ích t m t kho d li u r t l n. Đ gi i quy t v n ñ ñó, k thu t khám phá tri th c trong cơ s d li u ñã ra ñ i. 1.2. QUÁ TRÌNH KHÁM PHÁ TRI TH C Hình 1.1: Các bư c trong quá trình khám phá tri th c. 1.3. QUÁ TRÌNH KHAI PHÁ D LI U Hình 1.2: Quá trình khai phá d li u
  7. -5- 1.4. CÁC PHƯƠNG PHÁP KHAI PHÁ D LI U 1.4.1. Theo quan ñi m c a h c máy 1.4.2. Theo các l p bài toán c n gi i quy t 1.5. CÁC D NG CƠ S D LI U CÓ TH KHAI PHÁ - Cơ s d li u quan h - Cơ s d li u ña chi u - Cơ s d li u giao tác - Cơ s d li u quan h - hư ng ñ i tư ng - D li u không gian và th i gian - Cơ s d li u ña phương ti n … 1.6. M T S THÁCH TH C TRONG KHAI PHÁ D LI U - Các cơ s d li u l n - S chi u l n (s thu c tính c a d li u quá nhi u) - Thay ñ i d li u và tri th c - D li u b thi u ho c nhi u - Quan h gi a các trư ng ph c t p - Giao ti p gi a ngư i s d ng v i các tri th c ñã có - Tích h p v i các h th ng khác… 1.7. K T LU N Quá trình nghiên c u t ng quan v khai phá d li u giúp chúng ta hi u ñư c các bư c trong qui trình khai phá d li u, phương pháp, d ng d li u có th khai phá và nh ng v n ñ c n gi i quy t trong khai phá d li u.
  8. -6- CHƯƠNG 2 KHAI PHÁ D LI U B NG LU T K T H P VÀ PHÂN L P 2.1 KHAI PHÁ D LI U B NG LU T K T H P 2.1.1. Khái ni m v t p ph bi n và lu t k t h p Trư c khi ñi vào tìm hi u k thu t khai thác d li u b ng lu t k t h p, ta có m t s khái ni m cơ b n như sau: H ng m c (Item): là m t thu c tính nào ñó (i k ) c a ñ i tư ng ñang xét trong cơ s d li u. ( ik : k ∈ { ...m}, v i m là s thu c tính 1 c a ñ i tư ng). T p các h ng m c (Itemset) I = {i1 , i2 ,..., im }: là t p h p các thu c tính c a ñ i tư ng ñang xét trong cơ s d li u. Giao d ch (transaction): là t p các h ng m c trong cùng m t ñơn v tương tác, m i giao d ch ñư c x lý m t cách nh t quán mà không ph thu c vào các giao d ch khác. Cơ s d li u giao d ch D: là t p các giao d ch mà m i giao d ch ñư c ñánh nhãn v i m t ñ nh danh duy nh t (cơ s d li u giao d ch D = { 1 , T 2 ,..., T n } T i ⊆ I ). T , M t giao d ch T ∈ D h h m t t p X ⊆ I n u nó ch a t t c các m c c a X. Đ h tr (supp) c a t p các h ng m c X trong cơ s d li u giao d ch D là t l gi a s các giao d ch ch a X trên t ng s giao d ch trong D. Supp( X ) = T ng s giao d ch ( 2.1) S lư ng giao d ch ch a X T p các h ng m c ph bi n X hay t p ph bi n là t p các h ng m c có ñ h tr tho mãn ñ h tr t i thi u (minsupp) (minsupp là m t giá tr do ngư i dùng xác ñ nh trư c).
  9. -7- N u t p m c X có Supp ( X ) ≥ minsupp thì ta nói X là m t t p các m c ph bi n. T p ph bi n t i ñ i là t p ph bi n và không t n t i t p nào bao nó là t p ph bi n. T p ph bi n ñóng là t p ph bi n và không t n t i t p nào bao nó có cùng ñ h tr như nó. V n ñ khám phá lu t k t h p ñư c phát bi u như sau: Cho trư c 2 thông s ñ h tr θ và ñ tin c y β . Đánh s t t c các m u trong D có ñ h tr và ñ tin c y l n hơn hay b ng θ và β tương ng. Lu t k t h p cho bi t ph m vi mà trong ñó s xu t hi n các m c X nào ñó trong các giao d ch c a cơ s d li u giao d ch D s kéo theo s xu t hi n t p nh ng m c Y cũng trong giao d ch ñó. M i lu t k t h p ñư c ñ c trưng b i hai thông s là ñ h tr và ñ tin c y (supp, conf). Lu t k t h p X → Y t n t i m t ñ tin c y confidence (c/conf). Đ tin c y conf ñư c ñ nh nghĩa là kh năng giao d ch T h tr X thì cũng h tr Y. Ta có công th c tính ñ tin c y conf như sau: Supp ( X ∪ Y ) Conf ( X → Y ) = (2.2) Supp ( X ) Khai phá d li u b ng lu t k t h p phân thành hai bài toán con : Bài toán 1: Tìm t t c các t p m c mà có ñ h tr l n hơn ñ h tr t i thi u do ngư i dùng xác ñ nh. Các t p m c tho mãn ñ h tr t i thi u ñư c g i là các t p m c ph bi n. Bài toán 2 : Dùng các t p m c ph bi n ñ sinh ra các lu t mong mu n. Ý tư ng chung là n u g i XY và X là các t p m c ph bi n, thì chúng ta có th xác ñ nh lu t n u X → Y v i t l ñ tin c y : Conf ( X → Y ) = Supp ( XY ) ( 2.3) Supp ( X )
  10. -8- N u conf(X → Y) ≥ minconf thì lu t k t h p X → Y ñư c gi l i (Lu t này s tho mãn ñ h tr t i thi u vì X là ph bi n). Các tính ch t c a t p m c ph bi n Tính ch t 1: V i X và Y là t p các m c, n u X ⊆Y thì : Supp ( X ) ≥ Supp ( Y ) . Đi u này là rõ ràng vì t t c các giao d ch c a D h tr Y thì cũng h tr X. Tính ch t 2 : M t t p ch a m t t p không ph bi n thì cũng là t p không ph bi n. N u t p m c X không có ñ h tr t i thi u trên D nghĩa là Supp ( X ) < minsupp thì m i t p Y ch a t p X s không ph i là m t t p ph bi n vì Supp (Y ) ≤ Supp ( X ) < minsupp (theo tính ch t 1) Tính ch t 3: Các t p con c a t p ph bi n cũng là t p ph bi n. N u t p m c Y là t p ph bi n trên D, nghĩa là Supp (Y ) ≥ minsupp thì t p con X c a Y là t p ph bi n trên D vì Supp ( X ) ≥ Supp (Y ) > minsupp. Các tính ch t c a lu t k t h p Tính ch t 1: N u X → Z và Y → Z thì X ∪ Y → Z chưa ch c x y ra vì chúng còn ph thu c vào ñ h tr c a m i trư ng h p. Tính ch t 2: N u X ∪ Y → Z thì X → Z và Y → Z chưa ch c x y ra vì chúng còn ph thu c vào ñ tin c y trong m i trư ng h p. Tính ch t 3: N u X → Y và Y → Z thì X → Z chưa ch c x y ra vì chúng còn ph thu c vào ñ tin c y. Tính ch t 4:
  11. -9- N u A → ( L − A) không tho mãn ñ tin c y c c ti u thì lu t B → ( L − B ) cũng không th a mãn, v i các t p tho L, A, B và B ⊆ A ⊂ L. 2.1.2. Các ng d ng khai thác t p ph bi n và lu t k t h p 2.1.3. M t s hư ng ti p c n trong khai thác lu t k t h p 2.1.4. Thu t toán khai phá d li u b ng lu t k t h p 2.1.4.1. Qui trình khai phá d li u b ng lu t k t h p Bư c 1. Tìm t t c các t p ph bi n theo ngư ng minsupp Bư c 2. T o ra các lu t t các t p ph bi n. Đ i v i t p ph bi n S, t o ra các t p con khác r ng c a S. V i m i t p con khác r ng A c a S: Lu t A → ( S − A) là lu t k t h p c n tìm n u Conf ( A → ( S − A)) = Supp( S ) / Supp( A) ≥ minconf. 2.1.4.2. Thu t toán Apriori khai phá d li u b ng lu t k t h p Bài toán ñ t ra: - Tìm t t c các t p m c có ñ h tr minsupp cho trư c. - S d ng các t p m c ph bi n ñ sinh ra các lu t k t h p v i ñ tin c y minconf cho trư c. * Quá trình th c hi n ñ tìm t t c các t p m c ph bi n v i minsupp cho trư c: Bư c 1: Th c hi n nhi u l n duy t l p ñi l p l i, trong ñó t p k- m c ñư c s d ng cho vi c tìm t p (k + 1)-m c. Bư c 2 : Các l n duy t sau s d ng k t qu tìm ñư c bư c trư c ñó ñ sinh ra các t p m c ng viên, ki m tra ñ ph bi n các ng viên trên cơ s d li u và lo i b các ng viên không ph bi n Bư c 3 : Th c hi n l p ñ tìm L3, …., Lk cho ñ n khi không tìm th y t p m c ph bi n nào n a.
  12. - 10 - Gi i thu t Apriori Các ký hi u : Lk : t p t t c k-m c ph bi n (t c t p t t c k-m c có ñ h tr l n hơn ñ h tr t i thi u ). M i ph n t c a t p này có 2 trư ng : t p m c (itemset) và s m u tin h tr (support-count). Ck : T p t t c k-m c ng viên, m i ph n t trong t p này cũng có 2 trư ng là t p m c (itemset) và s m u tin h tr (support-count). |D| : T ng s giao d ch trên D. Count: Bi n ñ ñ m t n su t xu t hi n c a t p m c ñang xét tương ng, giá tr kh i t o b ng 0. N i dung thu t toán Apriori ñư c trình bày như sau: Input: T p các giao d ch D, ñ h tr t i thi u minsupp Output: L- t p m c ph bi n trong D Thu t toán: L1={ t p 1-m c ph bi n}// tìm t p ph bi n 1 h ng m c For (l n lư t duy t các m u tin t ñ u ñ n cu i trong t p Lk) do Begin Ck+1=apriori-gen(Lk);//sinh ra t p ng viên (k+1) h ng m c For (m i m t giao d ch T ∈ D ) do //duy t csdl ñ tính support Begin CT=subset(Ck+1, T); //l y t p con c a T là ng viên trong Ck+1 For (m i m t ng viên c ∈ CT ) do c.count++; //tăng b ñ m t n su t 1 ñơn v end; c.count Lk+1 = {c ∈ C k +1 ≥ minsupp} |D| End; Return ∪ k Lk
  13. - 11 - + Trong giai ño n th nh t ñ m support cho các m c và gi l i các m c mà supp c a nó l n hơn ho c b ng minsupp. + Trong các giai ño n th k ( k ≥ 1 ), m i giai ño n g m có 2 pha: Trư c h t t t c các t p Ti trong t p Lk ñư c s d ng ñ sinh ra các t p ng viên Ck+1, b ng cách th c hi n hàm Apriori_gen. Ti p theo CSDL D s ñư c quét ñ tính ñ h tr cho m i ng viên trong Ck+1. Thu t toán sinh t p ng viên c a hàm Apriori_gen v i ñ i s Lk s cho k t qu là t p h p c a t t c các Lk+1. Thu t toán hàm Apriori_gen Input: t p m c ph bi n Lk có kích thư c k-m c Output: t p ng viên Ck+1 Thu t toán: Function apriori-gen(Lk: t p m c ph bi n có kích thư c k) Begin For (m i Ti ∈ Lk) do For (m i Tj ∈ Lk) do Begin If (Ti và Tj ch khác nhau 1 h ng m c) then C= Ti ∪ Tj ;// h p Ti v i Tj sinh ra ng viên c If subset(c, Lk) then //ki m tra t p con không ph bi n c trong Lk Remove (c)// xoá ng viên c Else C k +1 = C k +1 ∪ {c}; // k t t p c vào Ck+1 End; Return Ck+1 End;
  14. - 12 - 2.2 KHAI PHÁ D LI U B NG PHÂN L P D LI U 2.2.1. Khái ni m s phân l p Phân l p d li u là k thu t d a trên t p hu n luy n ñ phân l p d li u m i. • M c ñích: Gán các m u vào các l p v i ñ chính xác cao nh t ñ d ñoán nh ng nhãn phân l p cho các b d li u m i. • Đ u vào: M t t p các m u d li u hu n luy n, v i m t nhãn phân l p cho m i m u d li u. • Đ u ra: Mô hình cây quy t ñ nh d a trên t p hu n luy n và nh ng nhãn phân l p. 2.2.2. Quá trình phân l p 2.2.3. Phân l p b ng phương pháp quy n p cây quy t ñ nh 2.2.3.1. Khái ni m cây quy t ñ nh 2.2.3.2. T o cây quy t ñ nh T o cây quy t ñ nh bao g m 2 giai ño n: T o cây và t a cây - T o cây: th i ñi m b t ñ u t t c nh ng m u hu n luy n ñ u g c, sau ñó phân chia m u d a trên các thu c tính ñư c ch n. - T a cây: là xác ñ nh và xóa nh ng nhánh mà có ph n t h n lo n ho c nh ng ph n t n m ngoài các l p cho trư c. 2.2.3.3. S d ng cây quy t ñ nh Ki m tra giá tr thu c tính c a t ng nút b t ñ u t nút g c c a cây quy t ñ nh và suy ra các lu t tương ng. * Thu t toán quy n p cây quy t ñ nh: 1. Cây ñư c xây d ng ñ quy t trên xu ng dư i. 2. th i ñi m b t ñ u, t t c nh ng m u hu n luy n g c. 3. Thu c tính ñư c phân lo i theo giá tr . 4. Nh ng m u hu n luy n ñư c phân chia ñ quy d a trên thu c tính mà nó ch n l a.
  15. - 13 - 5. Ki m tra nh ng thu c tính ñư c ch n d a trên n n t ng c a heuristic ho c m t ñ nh lư ng th ng kê. 2.2.3.4. Gi i thu t qui n p cây quy t ñ nh C4.5 Ý tư ng gi i thu t C4.5 như sau: Đ u vào: M t t p h p các m u hu n luy n. M i m u hu n luy n bao g m các thu c tính v i giá tr phân lo i c a nó. Đ u ra: Cây quy t ñ nh có kh năng phân lo i ñúng ñ n các m u hu n luy n và cho c các b chưa g p trong tương lai. Gi i thu t: Function induce_tree (t p_m u_hu n_luy n, t p_thu c_tính) begin if m i m u trong t p_m u_hu n_luy n ñ u n m trong cùng m t l p then return m t nút lá ñư c gán nhãn b i l p ñó else if t p_thu c_tính là r ng then return nút lá ñư c gán nhãn b i tuy n c a t t c các l p trong t p_m u_hu n_luy n else begin ch n m t thu c tính P, l y nó làm g c cho cây hi n t i; //(thu c tính P có ñ ño GainRatio l n nh t ) xóa P ra kh i t p_thu c_tính; v i m i giá tr V c a P begin t o m t nhánh c a cây gán nhãn V; Đ t vào phân_vùng V các m u trong t p_m u_hu n_luy n có giá tr V t i thu c tính P; G i induce_tree(phân_vùngV, t p_thu c_tính) //g n k t qu vào nhánh V end end end
  16. - 14 - 2.2.3.5. M t s v n ñ c n gi i quy t trong vi c phân l p d li u * Vi c ch n thu c tính nào ñ phân chia các m u? Ta có th ch n b t kỳ thu c tính nào làm nút c a cây, ñi u này có kh năng xu t hi n nhi u cây quy t ñ nh khác nhau cùng bi u di n m tt pm u Thu c tính ñư c ch n là thu c tính cho ñ ño t t nh t, có l i nh t cho quá trình phân l p. Đ ño ñ ñánh giá ch t lư ng phân chia là ñ ño ñ ng nh t. • Information Gain • Information Gain Ratio • Gini Index • X2 – s th ng kê b ng ng u nhiên • G – th ng kê (statistic) * Đi u ki n ñ d ng vi c phân chia: 1. T t c nh ng m u hu n luy n thu c v cùng m t l p. 2. Không còn thu c tính còn l i nào ñ phân chia ti p. 3. Không còn m u nào còn l i. * Đ l i thông tin (Information Gain) trong cây quy t ñ nh: Information Gain (Gain): là ñ i lư ng ñư c s d ng ñ l a ch n thu c tính có ñ l i thông tin l n nh t ñ phân l p. Đ ño Information Gain ñư c tính d a vào 2 ñ ño info (I) và entropy (E). Info là ñ ño thông tin kỳ v ng ñ phân l p m t m u trong t p d li u. Gi s cho P, N là hai l p và S là t p d li u ch a p ph n t c a l p P và n ph n t c a l p N. Kh i lư ng thông tin c n ñ quy t ñ nh m t m u tùy ý trong S thu c l p P ho c N ñư c ñ nh nghĩa như sau: p p n n I ( p , n) = − log 2 − log 2 (2.6) p+n p+n p+n p+n
  17. - 15 - Entropy là khái ni m ñ ño tính thu n nh t c a m t t p hu n luy n. Gi s r ng s d ng thu c tính A ñ phân ho ch t p h p S thành nh ng t p h p {S1, S2, ... ,Sv}. N u Si ch a nh ng pi m u c a l p P và ni m u c a N, entropy hay thông tin mong ñ i c n ñ phân l p nh ng ñ i tư ng trong t t c các cây con Si là: i + n v p E ( A ) = ∑ i I ( p , n ) (2.7) p + n i i i=1 Đ l i thông tin nh n ñư c b i vi c phân nhánh trên thu c tính A là: Gain ( A ) = I ( p , n ) − E ( A ) ( 2.8) Ta nh n th y ñ ño Gain có xu hư ng ch n các thu c tính có nhi u giá tr , tuy nhiên thu c tính có nhi u giá tr không ph i lúc nào cũng cho vi c phân l p t t nh t, vì v y ta c n chu n hóa ñ ño Gain, vi c ch n thu c tính không ch d a vào ñ ño Gain mà còn ph thu c vào ñ ño GainRation. SplitInfo là ñ ño thông tin trung bình c a t ng thu c tính, ñ h n ch xu hư ng ch n thu c tính có nhi u giá tr , thông tin trung bình c a thu c tính A ñư c tính: v D j D j SplitInfo(A) = − ∑ log 2 ( ) ( 2.9) j =1 D D Vi c ch n thu c tính ñ phân nhánh d a vào ñ ño GainRation GainRatio(A) = Gain(A) / SplitInfo(A) ( 2.10) Đây là công th c tính ñ ño GainRatio cho thu c tính A trên cơ s d li u D, sau ñó ta ch n thu c tính nào có ñ ño GainRatio l n nh t ñ phân l p theo thu c tính ñó. * V n ñ quá kh p trong phân l p * V n ñ phân l p cây quy t ñ nh trong cơ s d li u l n
  18. - 16 - 2.3 K T LU N Hai phương pháp khai phá d li u b ng lu t k t h p và phân l p mà chúng ta tìm hi u trên ñây, m i phương pháp có các thu t toán ñi n hình, chúng ti p c n khai phá d li u khác nhau, m i phương pháp có ưu và khuy t ñi m riêng tùy thu c vào d ng d li u, mi n d li u, kh i lư ng d li u...Như chúng ta ñã phân tích trên, ưu ñi m khai phá d li u b ng phương pháp phân l p d li u ñ i v i kh i lư ng d li u l n, chính vì th mà chúng ta áp d ng thu t toán C4.5 ñ phân l p d li u dân cư. Thu t toán này là 1 trong s 10 thu t toán “n i ti ng nh t – best known” trong Data Mining, ñư c trao ph n thư ng t i ICDM’06-Hong Kong. CHƯƠNG 3 NG D NG TRONG PHÂN TÍCH S LI U DÂN CƯ 3.1 MÔ T BÀI TOÁN Qua kh o sát th c t , vi c thu th p d li u dân cư trên toàn qu c ñư c th c hi n theo chu kỳ 5 năm và có m t s ñ a phương còn th c hi n vi c kh o sát và c p nh t thư ng xuyên theo t ng tháng, t ng quí, t ng năm nh m th ng kê dân s theo ñ tu i, gi i tính, trình ñ văn hóa, m c ñ tăng trư ng dân s ...theo t ng vùng và trên c nư c. Đây là công vi c c n thi t, giúp các nhà lãnh ñ o có nh n ñ nh nên h tr nh ng y u t nào và h n ch nh ng y u t nào, t o ñi u ki n thu n l i n ñ nh xã h i và phát tri n ñ t nư c. V i mong mu n ng d ng khai phá d li u trong phân tích s li u dân cư ñ tìm ra nh ng ñ i tư ng thư ng hay vi ph m k ho ch hóa gia ñình, h tr cho ban lãnh ñ o DS-KHHGĐ các c p t p trung v n ñ ng, tuyên truy n và giáo d c cho nh ng ñ i tư ng có th vi ph m k ho ch hóa gia ñình góp ph n th c hi n chi n lư c dân s cho giai
  19. - 17 - ño n t i ñ t k t qu t t hơn. Tác gi ñã thu th p m t kh i lư ng l n thông tin qua các cu c t ng ñi u tra dân s , th c hi n phân tích, lưu tr d li u dư i h qu n tr CSDL quan h SQL Server 2005 và s d ng thu t toán C4.5 khai phá d li u b ng mô hình cây quy t ñ nh. 3.2 PHÂN TÍCH VÀ THI T K H TH NG Xác ñ nh các th c th Mô hình th c th k t h p(ERD) Mô hình th c th k t h p Chuy n mô hình ERD thành mô hình quan h Theo phân tích d li u lưu tr và m i quan h c a các b ng cơ s d li u ñ ng th i qua kh o sát th c t , ta th y vi c có vi ph m hay không vi ph m k ho ch hóa gia ñình ph thu c vào nhi u thu c tính
  20. - 18 - khác nhau. Như trình ñ h c v n, khu v c sinh s ng, thu nh p, gi i tính c a con… Xét các thu c tính: 1. Trình ñ h c v n (TH cơ sơ, TH ph thông, THCN) 2. Khu v c sinh s ng (Thành th , Nông thôn, Mi n núi) 3. Thu nh p (Th p, Trung bình, Cao) 4. Gi i tính c a 2 con (1 trai 1 gái, 2 trai, 2 gái) T d li u lưu tr ta rút trích các m u d li u theo b ng sau: B ng3.3 M t s m u d li u trong cơ s d li u dân cư (S) STT H và tên Trình ñ h c v n Thu nh p Nơi Gi i tính Vi ph m 1 Hà Lương TH ph thông Trung bình Thành th 1 trai, 1 gái Không 2 Ph m Văn Chánh TH cơ s Cao Nông thôn 2 gái Có 3 Nguy n Công Tr ng TH ph thông Trung bình Mi n núi 1 trai, 1 gái Không 4 Võ Bé TH CN tr lên Th p Thành th 2 trai Không 5 Lê Thanh Tùng TH ph thông Th p Thành th 2 gái Có 6 Đ Ng c Thái TH cơ s Trung bình Nông thôn 2 trai Có 7 Nguy n Long TH CN tr lên Th p Mi n núi 2 gái Có 8 Trương Ng c L c TH ph thông Cao Thành th 2 gái Không 9 Nguy n Hưu Tuân TH cơ s Th p Mi n núi 2 trai Có 10 Lê Thanh Tùng TH cơ s Cao Mi n núi 1 trai, 1 gái Không 11 Nguy n Minh K TH ph thông Th p Nông thôn 2 trai Không 12 Lê Văn Th ng TH CN tr lên Cao Nông thôn 1 trai, 1 gái Không 13 Huỳnh Thi Chung TH ph thông Th p Thành th 2 trai Không 14 Ph m Th Hoang TH Ph thông Trung bình Mi n núi 2 gái Có 15 Đoàn Văn Ng TH cơ s Th p Nông thôn 1 trai, 1 gái Có 16 Ph m Hùng TH CN tr lên Cao Mi n núi 2 gái Không 17 Võ Trung Thông TH CN tr lên Th p Thành th 1 trai, 1 gái Không 18 Lê Đ c Sơn TH ph thông Cao Nông thôn 2 trai Không 19 A Vi t Ngai TH cơ s Th p Mi n núi 1 trai, 1 gái Có 20 Ph m Văn C m TH cơ s Cao Nông thôn 1 trai, 1 gái Không Đ xây d ng cây quy t ñ nh, t i m i nút c a cây thì thu t toán ñ u ño lư ng thông tin nh n ñư c trên các thu c tính và ch n thu c tính có lư ng thông tin t t nh t làm nút phân tách trên cây nh m ñ ñ t ñư c cây có ít nút nhưng có kh năng d ñoán cao.
nguon tai.lieu . vn