Xem mẫu

  1. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chương 4. KIỂM ĐỊNH GIẢ THUYẾT I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA) Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu. Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit. Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển dạng tối ưu nhất. Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu (hematocytometer) (Fisher, 1990). Dữ liệu Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12 Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2 (1) Nhập dữ liệu vào Minitab Cách 1. Dùng các lệnh từ thanh Menu Calc > Make Patterned Data > Arbitrary Set of Numbers ... Store patterned data in: C1 Arbitrary set of numbers: 1 (số tế bào máu) Numbers of times to list each value: 20 (tần số) Number of times to list the sequence: 1 Lặp lại Calc > Make Patterned Data > Arbitrary Set of Numbers ... Store patterned data in: C2 Arbitrary set of numbers: 2 (số tế bào máu) Numbers of times to list each value: 43 (tần số) Number of times to list the sequence: 1 Tiến hành tương tự với các giá trị còn lại từ 3 đến 12. Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12. Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13). Đặt tên cột này là Count Data > Stack >/Column... Stack the following columns: C1 – C12 Store stacked data in:  Column of current worksheet: C13  OK Data > Display data... 55
  2. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Cách 2. Gõ lệnh vào Session Window Editor > Enable commands MTB > SET C1 DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10 DATA> (10)5 (11)2 (12)2 DATA> END MTB> NAME C1 ‘Count’ MTB > PRINT C1 Kết quả dữ liệu xuất ra trên cửa sổ session như sau Data Display Count 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 11 11 12 12 (2) Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: Count Variable N Mean SE Mean StDev Minimum Q1 Median Count 400 4.680 0.106 2.114 1.000 3.000 4.000 Variable Q3 Maximum Count 6.000 12.000 56
  3. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Summary for Count A nderson-D arling N orm ality T est A -S quared 4.94 P -V alue < 0.005 M ean 4.6800 S tD ev 2.1139 V ariance 4.4688 S kew ness 0.531363 K urtosis 0.311605 N 400 M inimum 1.0000 1st Q uartile 3.0000 M edian 4.0000 3rd Q uartile 6.0000 2.4 4.8 7.2 9.6 12.0 M aximum 12.0000 95% C onfidence Interv al for M ean 4.4722 4.8878 95% C onfidence I nterv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tD ev 9 5 % C o nfidence I nte r v a ls 1.9769 2.2716 Mean Median 4.0 4.2 4.4 4.6 4.8 5.0 Probability Plot of Counts 0.999 Mean 4.68 StDev 2.114 0.99 N 400 AD 4.938 0.95 P-Value
  4. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chuyển dạng căn bậc 2 Minitab output Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là SqrtCnt. Calc > Calculator... Mô tả dữ liệu trong cột SqrtCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtCnt Variable N Mean SE Mean StDev Minimum Q1 SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321 Variable Median Q3 Maximum SqrtCnt 2.0000 2.4495 3.4641 58
  5. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Summary for SqrtCnt A nderson-D arling N orm ality T est A -S quared 4.50 P -V alue < 0.005 M ean 2.1040 S tD ev 0.5040 V ariance 0.2540 S kew ness -0.137839 K urtosis -0.132102 N 400 M inimum 1.0000 1st Q uartile 1.7321 M edian 2.0000 3rd Q uartile 2.4495 1.2 1.6 2.0 2.4 2.8 3.2 M aximum 3.4641 95% C onfidence Interv al for M ean 2.0544 2.1535 95% C onfidence I nterv al for M edian 2.0000 2.2361 95% C onfidence Interv al for S tD ev 9 5 % C o nfidence I nte r v a ls 0.4713 0.5415 Mean Median 2.00 2.05 2.10 2.15 2.20 2.25 Probability Plot for Square Root Count 0.999 Mean 2.104 StDev 0.5040 0.99 N 400 AD 4.497 0.95 P-Value
  6. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chuyển dạng Log Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô Expression. Minitab output Calc > Calculator... Mô tả dữ liệu trong cột LogCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogCount Variable N Mean SE Mean StDev Minimum Q1 LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986 Variable Median Q3 Maximum LogCount 1.3863 1.7918 2.4849 60
  7. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Summary for LogCount A nderson-D arling N orm ality T est A -S quared 9.39 P -V alue < 0.005 M ean 1.4234 S tD ev 0.5269 V ariance 0.2776 S kew ness -0.868773 K urtosis 0.707780 N 400 M inimum 0.0000 1st Q uartile 1.0986 M edian 1.3863 3rd Q uartile 1.7918 0.0 0.4 0.8 1.2 1.6 2.0 2.4 M aximum 2.4849 95% C onfidence Interv al for M ean 1.3716 1.4752 95% C onfidence I nterv al for M edian 1.3863 1.6094 95% C onfidence Interv al for S tD ev 9 5 % C o nfidence I nte r v a ls 0.4927 0.5662 Mean Median 1.40 1.45 1.50 1.55 1.60 Probability Plot of LogCount 0.999 Mean 1.423 StDev 0.5269 0.99 N 400 AD 9.388 0.95 P-Value
  8. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chuyển dạng căn bậc hai Calc > Calculator... Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: SqrtOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29 Summary for SqrtOocy A nderson-D arling N orm ality T est A -S quared 1.30 P -V alue < 0.005 M ean 71.175 S tD ev 22.137 V ariance 490.039 S kew ness 0.806398 K urtosis 0.471601 N 100 M inimum 34.641 1st Q uartile 53.852 M edian 67.082 3rd Q uartile 81.700 40 60 80 100 120 140 M aximum 146.287 95% C onfidence Interv al for M ean 66.782 75.567 95% C onfidence I nterv al for M edian 63.624 73.659 95% C onfidence Interv al for S tD ev 9 5 % C o nfidence I nte r v a ls 19.436 25.716 Mean Median 65.0 67.5 70.0 72.5 75.0 Probability Plot of SqrtOocy 0.999 Mean 71.17 StDev 22.14 0.99 N 100 AD 1.299 0.95 P-Value
  9. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chuyển dạng Log Calc > Calculator.... Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: LogOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061 Variable Maximum LogOocy 9.9711 Summary for LogOocy A nderson-D arling N orm ality T est A -S quared 0.24 P -V alue 0.757 M ean 8.4385 S tD ev 0.6073 V ariance 0.3688 S kew ness 0.099690 K urtosis -0.459615 N 100 M inimum 7.0901 1st Q uartile 7.9725 M edian 8.4118 3rd Q uartile 8.8061 7.2 7.8 8.4 9.0 9.6 M aximum 9.9711 95% C onfidence Interv al for M ean 8.3180 8.5590 95% C onfidence I nterv al for M edian 8.3059 8.5989 95% C onfidence Interv al for S tD ev 9 5 % C o nfidence I nte r v a ls 0.5332 0.7055 Mean Median 8.30 8.35 8.40 8.45 8.50 8.55 8.60 Probability Plot of LogOocy Normal 0.999 Mean 8.438 StDev 0.6073 0.99 N 100 AD 0.244 0.95 P-Value 0.757 0.9 0.8 Probability 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 6 7 8 9 10 LogOocy Chuyển dạng thành công – Phân bố đối xứng 63
  10. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả thuyết (hypothesis testing). Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate hypothesis), ký hiệu là H1. H1 sẽ được chấp nhận khi H0 bị bác bỏ. Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách nào?. Các nhà thống kê đều nhất trí nguyên lý sau: “Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ không xảy ra” Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện của một sự kiện quan sát được là “nhỏ” Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102). Ở một giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác? Cách giải: Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày. Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc 295)  275  285 295  285  = P Z  or Z    10 10  = P (Z < -1 hoặc Z > 1) = 2 * P(Z < - 1) = 2 * 0.1587 = 0.3174 0.159 0.159 275 295 Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết trung bình tổng thể là 285 ngày. 64
  11. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305 ngày. Ta có thể kết luận gì? Cách giải: Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m < 265 ngày Xác suất của biến cố này là: P(X < 265 hoặc X>305)  265  285 305  285  = PZ  or Z    10 10  = P (Z < -2 hoặc Z > 2) = 2 * P(Z < - 2) = 2 * 0.0228 = 0.0456 0.0228 0.0228 265 305 Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý nghĩa so với 285 ngày. Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai loại sai lầm: (1) Bác bỏ H0 khi thực ra H0 là đúng  sai lầm loại I (2) Chấp nhận H0 khi thực ra H0 là sai  sai lầm loại II Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây: Kết luận Chấp nhận H0 Bác bỏ H0 Thực tế H0 đúng Kết luận đúng Sai lầm loại I H0 sai Sai lầm loại II Kết luận đúng III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH) 1. Kiểm định Z Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn, trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102). Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò: 307 293 293 283 294 297 65
  12. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác với 285 ngày? Cách giải: Giả định  = 10 ngày dùng z-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m  285 ngày với m = trung bình thời gian mang thai của giống bò mới x = (307+293+293+283+294+297)/6 = 294.5 ngày Kiểm định: (x  m) (x  m) z  2 /n se( x ) Trong thí dụ trên 294.5  285 z  2.33 102 / 6 Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc (standard normal distribution). Chúng ta tính xác suất để: P  P( x  275.5 or x  294.5) = P( Z  2.33 or Z  2.33) = 2* P( Z  2.33) = 2*0.010  0.020 0.01 0.01 - 2.33 2.33 Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta bác bỏ giả thuyết H0. Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý nghĩa so với 285 ngày. Tổng quát: P < 0.05 (ít hơn 1/20)  bác bỏ H0 P > 0.05 (lớn hơn 1/20)  chấp nhận H0 66
  13. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi H0 đúng. Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2 ng.ml-1. Các bước tiến hành Bước 1. Nhập liệu Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này: 0.64 0.74 0.48 0.66 0.34 0.70 Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’ Descriptive Statistics: Hormone Variable N Mean SE Mean StDev Minimum Median Maximum Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400 Bước 3. Kiểm tra tính phân bố chuẩn Graph > Boxplot …/Simple 0.3 0.4 0.5 0.6 0.7 0.8 Hormone Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ (outlier). Bước 4. Kiểm định Stat > Basic Statistics > 1-sample Z…/ Samples in Columns: Hormone Standard deviation: 0.2 Test mean: 0.4 67
  14. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com One-Sample Z: Hormone Test of mu = 0.4 vs not = 0.4 The assumed standard deviation = 0.2 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.081650 Variable 95% CI Z P Hormone (0.433303, 0.753364) 2.37 0.018 Giả thuyết không và giả thuyết đối được viết bởi Minitab là: Test of mu = 0.4 vs not = 0.4 Chúng ta sẽ viết lại như sau: Giả thuyết không: H0 : m = 0.4 ng.ml-1 Giả thuyết đối : H1 : m ≠ 0.4 ng.ml-1 Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới. Bước 5. Kết luận Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp gây mê mới 2. Kiểm định t Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống cũ. Kết quả phân tích sẽ thay đổi như thế nào? Cách giải Không thể giả định  = 10 ngày  dùng t-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m  285 ngày x = 294.5 ngày và s = 7.74 ngày Kiểm định (x  m) (x  m) t  độ tự do: df = n – 1 2 s /n se Trong thí dụ trên: 294.5  285 9.5 t   3.01 df = 6 – 1 = 5 2 (7.74) / 6 3.16 nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5. 68
  15. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 0.4 z 0.3 0.2 0.1 t 0.0 -5.0 -2.5 0.0 2.5 5.0 7.5 Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ tự do tăng lên, t  phân bố chuẩn. Giá trị P của t-test là: P = P( x  275.5 or x  294.5) = P(T5  3.01 or T5  3.01) = 2* P (T5  3.01) = 2*0.0015 = 0.03 Kết luận: Vì P < 0.05 nên ta bác bỏ giả thuyết H0 và kết luận rằng giống bò mới có thời gian mang thai dài hơn. Thí dụ 2: giống thí dụ trong kiểm định z Bước 4. Kiểm định Stat > Basic Statistics > 1-sample t…/ Samples in Columns: Hormone Test mean: 0.4 One-Sample T: Hormone Test of mu = 0.4 vs not = 0.4 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.062325 Variable 95% CI T P Hormone (0.433121, 0.753546) 3.10 0.027 3. Khoảng tin cậy của trung bình tổng thể (m) Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp với trung bình mẫu x ? 69
  16. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval) Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới, giá trị trung bình mẫu là x = 294.5 ngày. Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai tổng thể, ta sẽ có  = 10 ngày và xác định khoảng tin cậy cho kiểm định z. x  z ( /2) *  2 / n  x  z (0.025) * se Trong đó z(/2) = z(0.025) = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc. Trong thí dụ trên 95% CI  294.5  1.96* 102 / 6  294.5  8.00  (286.5, 302.5) Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5 ngày. Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với phương sai tổng thể, ta sẽ phải ước lượng  bằng độ lệch chuẩn mẫu s và dùng khoảng tin cậy cho kiểm định t. ( x  tdf /2) * s 2 / n  x  tn 1 * se (0.025)  Trong đó tdf /2  tn1 là đuôi bên phải của phân bố t với độ tự do df = n – 1. (0.025) Trong thí dụ trên: độ lệch chuẩn mẫu là s = 7.74 ngày với df = n – 1 = 5 thì t5(0.025) = 2.57 95% CI  294.5  2.57 * 7.742 / 6  294.5  8.1  (286.4, 302.6) Như vậy một lần nữa ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.4 đến 302.6 ngày. Lưu ý: - khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z. - ta cũng có thể tính khoảng tin cậy 99% và 99.9%. - Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI. IV. KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU) Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua các phương pháp kiểm tra thống kê sinh học. Mục đích nhằm khẳng định giữa các số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có ý nghĩa thống kê ở mức độ bao nhiêu. 70
  17. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 1. Hai mẫu độc lập, phương sai bằng nhau Thí dụ: So sánh trọng lượng của hai giống bò. Giống 1 khảo sát 12 con, giống 2 khảo sát 15 con. Kế quả ghi nhận được như trong bảng 4.1 Bảng 4.1. Trọng lượng (kg) của hai giống bò (Peter, 2001) Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3 203.8 190.2 201.0 194.7 221.1 186.7 203.1 Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3 163.5 146.6 162.4 140.2 159.4 181.8 165.1 165.0 141.6 Dữ liệu thống kê mô tả cho thấy: Giống 1 Giống 2 Trung bình mẫu (kg) 196.2 153.7 Độ lệch chuẩn mẫu (kg) 10.62 12.3 Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không? Số liệu thu thập được có dạng: x11 , x12 , x13 ,..., x1n1 nhóm mẫu 1 x21 , x22 , x23 ,..., x2 n2 nhóm mẫu 2 trong trường hợp trên n1 = 12 và n2 = 15 Các số liệu có thể được mô hình hóa dưới dạng: [ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ] xij = mi + ij i = 1, 2 (nhóm mẫu) j = 1, 2, ..., n i (số lần lặp lại của mỗi mẫu) Ở thí dụ trên: m1 = trung bình trọng lượng của bò (kg) thuộc Giống 1 m2 = trung bình trọng lượng của bò (kg) thuộc Giống 2 Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh hai trung bình mẫu. Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải thỏa các yêu cầu: (1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau. (2) Dữ liệu có phân bố chuẩn, xij ~N(m,2), cở mẫu nhỏ (n < 30) (3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau. Có thể so sánh hai phương sai mẫu bằng hai cách: Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn độ lệch chuẩn lớn nhất
  18. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com trong thí dụ trên: s2/s1 = 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần bằng nhau. Cách 2: Tiến hành kiểm tra F (F test) Stat > Basic Statistic ... >/ 2 Variances... Tuỳ chọn:  Samples in one column  Samples in different column  Sumarized Data  OK Kết quả: Test for Equal Variances F-Test 1 Test Statistic 0.74 P-Value 0.631 2 6 8 10 12 14 16 18 20 22 Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau. Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt nhau. X m1 m2 Giả thiết: H0 : m1 = m2 H1 : m1  m2 72
  19. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Công thức tính t : x1  x2 x x t  1 2 1 1 se s2 (  ) p n1 n2 2 2 ( n1  1) s1  (n 2  1) s 2 trong đó s p  sp là độ lệch chuẩn gộp (p = pool) n1  n 2  2 df  (n1  1)  (n 2  1)  n1  n 2  2 df = độ tự do (degree of freedom) Như vậy trong thí dụ về trọng lượng bò nêu trên: x1  x2  196.2  153.7  42.5 kg 2 11*(10.62)2  14*(12.30) 2 s  p  134.33 kg 25 s p  134.33  11.59 kg Cần lưu ý rằng sp phải luôn luôn nằm trong khoảng giữa s1 và s2 10.62 kg
  20. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Trong thí dụ trên hiệu giữa hai trung bình mẫu là x1  x 2  42.5kg cho thấy nếu tính trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg. Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau: ( 1 1 x1  x2  tdf / 2) * s 2     x1  x2  tn1  n2  2 *se (0.025)  n1 n2  (0.025) trong đó tn  n  2 là đuôi bên phải (2.5%) của phân bố t với độ tự do là n1 + n2 – 2. 1 2 1 1 vì n1 + n2 -2 = 25, t2 = 2.06 và se = 134.33 * (  ) = 4.489 kg nên: 12 15 95% CI = 42.5 kg  2.06 x 4.498 = (33.2 , 51.7) kg Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu nằm trong khoảng từ 33.2 kg đến 51.7 kg. Cách tính bằng Minitab: Worksheet: Cattle weights Bước 1. Kiểm tra sự giống nhau giữa hai độ lệch chuẩn Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: Group A, Group B Variable N Mean StDev Minimum Q1 Median Q3 Maximum Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10 Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80 Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 1 = 2 Như vậy có thể dùng phương pháp kiểm tra t gộp. Bước 2. Kiểm tra sự phân bố chuẩn Graph > Boxplot ... / Multiple Y’s/Simple Group A Group B 140 150 160 170 180 190 200 210 220 230 Trọng lượng (kg) Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn. 74
nguon tai.lieu . vn