Xem mẫu
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Chương 4. KIỂM ĐỊNH GIẢ THUYẾT
I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA)
Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì
trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu
sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất
không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết
quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu.
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình
này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và
chuyển dạng theo hàm logarit.
Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển
dạng tối ưu nhất.
Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu
(hematocytometer) (Fisher, 1990).
Dữ liệu
Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12
Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2
(1) Nhập dữ liệu vào Minitab
Cách 1. Dùng các lệnh từ thanh Menu
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C1
Arbitrary set of numbers: 1 (số tế bào máu)
Numbers of times to list each value: 20 (tần số)
Number of times to list the sequence: 1
Lặp lại
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C2
Arbitrary set of numbers: 2 (số tế bào máu)
Numbers of times to list each value: 43 (tần số)
Number of times to list the sequence: 1
Tiến hành tương tự với các giá trị còn lại từ 3 đến 12.
Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12.
Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13).
Đặt tên cột này là Count
Data > Stack >/Column...
Stack the following columns: C1 – C12
Store stacked data in:
Column of current worksheet: C13 OK
Data > Display data...
55
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Cách 2. Gõ lệnh vào Session Window
Editor > Enable commands
MTB > SET C1
DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10
DATA> (10)5 (11)2 (12)2
DATA> END
MTB> NAME C1 ‘Count’
MTB > PRINT C1
Kết quả dữ liệu xuất ra trên cửa sổ session như sau
Data Display
Count
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 8 8 8 8 8 8 8 8 8 8 8 8
8 8 8 8 8 8 9 9 9 9 9 9 9 9 9
9 10 10 10 10 10 11 11 12 12
(2) Mô tả dữ liệu
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: Count
Variable N Mean SE Mean StDev Minimum Q1 Median
Count 400 4.680 0.106 2.114 1.000 3.000 4.000
Variable Q3 Maximum
Count 6.000 12.000
56
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Summary for Count
A nderson-D arling N orm ality T est
A -S quared 4.94
P -V alue < 0.005
M ean 4.6800
S tD ev 2.1139
V ariance 4.4688
S kew ness 0.531363
K urtosis 0.311605
N 400
M inimum 1.0000
1st Q uartile 3.0000
M edian 4.0000
3rd Q uartile 6.0000
2.4 4.8 7.2 9.6 12.0
M aximum 12.0000
95% C onfidence Interv al for M ean
4.4722 4.8878
95% C onfidence I nterv al for M edian
4.0000 5.0000
95% C onfidence Interv al for S tD ev
9 5 % C o nfidence I nte r v a ls
1.9769 2.2716
Mean
Median
4.0 4.2 4.4 4.6 4.8 5.0
Probability Plot of Counts
0.999
Mean 4.68
StDev 2.114
0.99 N 400
AD 4.938
0.95 P-Value
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Chuyển dạng căn bậc 2
Minitab output
Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công
cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là
SqrtCnt.
Calc > Calculator...
Mô tả dữ liệu trong cột SqrtCnt
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: SqrtCnt
Variable N Mean SE Mean StDev Minimum Q1
SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321
Variable Median Q3 Maximum
SqrtCnt 2.0000 2.4495 3.4641
58
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Summary for SqrtCnt
A nderson-D arling N orm ality T est
A -S quared 4.50
P -V alue < 0.005
M ean 2.1040
S tD ev 0.5040
V ariance 0.2540
S kew ness -0.137839
K urtosis -0.132102
N 400
M inimum 1.0000
1st Q uartile 1.7321
M edian 2.0000
3rd Q uartile 2.4495
1.2 1.6 2.0 2.4 2.8 3.2
M aximum 3.4641
95% C onfidence Interv al for M ean
2.0544 2.1535
95% C onfidence I nterv al for M edian
2.0000 2.2361
95% C onfidence Interv al for S tD ev
9 5 % C o nfidence I nte r v a ls
0.4713 0.5415
Mean
Median
2.00 2.05 2.10 2.15 2.20 2.25
Probability Plot for Square Root Count
0.999
Mean 2.104
StDev 0.5040
0.99 N 400
AD 4.497
0.95 P-Value
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Chuyển dạng Log
Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’)
sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm
Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô
Expression.
Minitab output
Calc > Calculator...
Mô tả dữ liệu trong cột LogCnt
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: LogCount
Variable N Mean SE Mean StDev Minimum Q1
LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986
Variable Median Q3 Maximum
LogCount 1.3863 1.7918 2.4849
60
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Summary for LogCount
A nderson-D arling N orm ality T est
A -S quared 9.39
P -V alue < 0.005
M ean 1.4234
S tD ev 0.5269
V ariance 0.2776
S kew ness -0.868773
K urtosis 0.707780
N 400
M inimum 0.0000
1st Q uartile 1.0986
M edian 1.3863
3rd Q uartile 1.7918
0.0 0.4 0.8 1.2 1.6 2.0 2.4
M aximum 2.4849
95% C onfidence Interv al for M ean
1.3716 1.4752
95% C onfidence I nterv al for M edian
1.3863 1.6094
95% C onfidence Interv al for S tD ev
9 5 % C o nfidence I nte r v a ls
0.4927 0.5662
Mean
Median
1.40 1.45 1.50 1.55 1.60
Probability Plot of LogCount
0.999
Mean 1.423
StDev 0.5269
0.99
N 400
AD 9.388
0.95 P-Value
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Chuyển dạng căn bậc hai
Calc > Calculator...
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: SqrtOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29
Summary for SqrtOocy
A nderson-D arling N orm ality T est
A -S quared 1.30
P -V alue < 0.005
M ean 71.175
S tD ev 22.137
V ariance 490.039
S kew ness 0.806398
K urtosis 0.471601
N 100
M inimum 34.641
1st Q uartile 53.852
M edian 67.082
3rd Q uartile 81.700
40 60 80 100 120 140
M aximum 146.287
95% C onfidence Interv al for M ean
66.782 75.567
95% C onfidence I nterv al for M edian
63.624 73.659
95% C onfidence Interv al for S tD ev
9 5 % C o nfidence I nte r v a ls
19.436 25.716
Mean
Median
65.0 67.5 70.0 72.5 75.0
Probability Plot of SqrtOocy
0.999
Mean 71.17
StDev 22.14
0.99 N 100
AD 1.299
0.95 P-Value
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Chuyển dạng Log
Calc > Calculator....
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: LogOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3
LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061
Variable Maximum
LogOocy 9.9711
Summary for LogOocy
A nderson-D arling N orm ality T est
A -S quared 0.24
P -V alue 0.757
M ean 8.4385
S tD ev 0.6073
V ariance 0.3688
S kew ness 0.099690
K urtosis -0.459615
N 100
M inimum 7.0901
1st Q uartile 7.9725
M edian 8.4118
3rd Q uartile 8.8061
7.2 7.8 8.4 9.0 9.6
M aximum 9.9711
95% C onfidence Interv al for M ean
8.3180 8.5590
95% C onfidence I nterv al for M edian
8.3059 8.5989
95% C onfidence Interv al for S tD ev
9 5 % C o nfidence I nte r v a ls
0.5332 0.7055
Mean
Median
8.30 8.35 8.40 8.45 8.50 8.55 8.60
Probability Plot of LogOocy
Normal
0.999
Mean 8.438
StDev 0.6073
0.99
N 100
AD 0.244
0.95 P-Value 0.757
0.9
0.8
Probability
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
6 7 8 9 10
LogOocy
Chuyển dạng thành công – Phân bố đối xứng
63
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT
Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng
thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay
sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm
định giả thuyết (hypothesis testing).
Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết
không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài
ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate
hypothesis), ký hiệu là H1. H1 sẽ được chấp nhận khi H0 bị bác bỏ.
Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách
nào?. Các nhà thống kê đều nhất trí nguyên lý sau:
“Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ
không xảy ra”
Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện
của một sự kiện quan sát được là “nhỏ”
Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102). Ở một
giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị
quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của
giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác?
Cách giải:
Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày.
Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc 295)
275 285 295 285
= P Z or Z
10 10
= P (Z < -1 hoặc Z > 1)
= 2 * P(Z < - 1)
= 2 * 0.1587 = 0.3174
0.159 0.159
275 295
Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết
trung bình tổng thể là 285 ngày.
64
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305
ngày. Ta có thể kết luận gì?
Cách giải:
Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m < 265 ngày
Xác suất của biến cố này là:
P(X < 265 hoặc X>305)
265 285 305 285
= PZ or Z
10 10
= P (Z < -2 hoặc Z > 2)
= 2 * P(Z < - 2)
= 2 * 0.0228 = 0.0456
0.0228 0.0228
265 305
Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình
tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý
nghĩa so với 285 ngày.
Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai
loại sai lầm:
(1) Bác bỏ H0 khi thực ra H0 là đúng sai lầm loại I
(2) Chấp nhận H0 khi thực ra H0 là sai sai lầm loại II
Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây:
Kết luận
Chấp nhận H0 Bác bỏ H0
Thực tế
H0 đúng Kết luận đúng Sai lầm loại I
H0 sai Sai lầm loại II Kết luận đúng
III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH)
1. Kiểm định Z
Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn,
trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102).
Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò:
307 293 293 283 294 297
65
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có
bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác
với 285 ngày?
Cách giải:
Giả định = 10 ngày dùng z-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
với m = trung bình thời gian mang thai của giống bò mới
x = (307+293+293+283+294+297)/6 = 294.5 ngày
Kiểm định:
(x m) (x m)
z
2 /n se( x )
Trong thí dụ trên
294.5 285
z 2.33
102 / 6
Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc
(standard normal distribution).
Chúng ta tính xác suất để:
P P( x 275.5 or x 294.5)
= P( Z 2.33 or Z 2.33)
= 2* P( Z 2.33)
= 2*0.010 0.020
0.01 0.01
- 2.33 2.33
Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta
bác bỏ giả thuyết H0.
Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý
nghĩa so với 285 ngày.
Tổng quát:
P < 0.05 (ít hơn 1/20) bác bỏ H0
P > 0.05 (lớn hơn 1/20) chấp nhận H0
66
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể
quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả
năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi
H0 đúng.
Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ
epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay
đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây
mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2
ng.ml-1.
Các bước tiến hành
Bước 1. Nhập liệu
Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này:
0.64 0.74 0.48 0.66 0.34 0.70
Bước 2. Mô tả dữ liệu
Stat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’
Descriptive Statistics: Hormone
Variable N Mean SE Mean StDev Minimum Median Maximum
Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400
Bước 3. Kiểm tra tính phân bố chuẩn
Graph > Boxplot …/Simple
0.3 0.4 0.5 0.6 0.7 0.8
Hormone
Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ
(outlier).
Bước 4. Kiểm định
Stat > Basic Statistics > 1-sample Z…/
Samples in Columns: Hormone
Standard deviation: 0.2
Test mean: 0.4
67
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
One-Sample Z: Hormone
Test of mu = 0.4 vs not = 0.4
The assumed standard deviation = 0.2
Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.081650
Variable 95% CI Z P
Hormone (0.433303, 0.753364) 2.37 0.018
Giả thuyết không và giả thuyết đối được viết bởi Minitab là:
Test of mu = 0.4 vs not = 0.4
Chúng ta sẽ viết lại như sau:
Giả thuyết không: H0 : m = 0.4 ng.ml-1
Giả thuyết đối : H1 : m ≠ 0.4 ng.ml-1
Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng
phương pháp gây mê mới.
Bước 5. Kết luận
Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp
gây mê mới
2. Kiểm định t
Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định
rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống
cũ. Kết quả phân tích sẽ thay đổi như thế nào?
Cách giải
Không thể giả định = 10 ngày dùng t-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
x = 294.5 ngày và s = 7.74 ngày
Kiểm định
(x m) (x m)
t độ tự do: df = n – 1
2
s /n se
Trong thí dụ trên:
294.5 285 9.5
t 3.01 df = 6 – 1 = 5
2
(7.74) / 6 3.16
nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5.
68
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
0.4
z
0.3
0.2
0.1
t
0.0
-5.0 -2.5 0.0 2.5 5.0 7.5
Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch
chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ
tự do tăng lên, t phân bố chuẩn.
Giá trị P của t-test là:
P = P( x 275.5 or x 294.5)
= P(T5 3.01 or T5 3.01)
= 2* P (T5 3.01)
= 2*0.0015 = 0.03
Kết luận: Vì P < 0.05 nên ta bác bỏ giả thuyết H0 và kết luận rằng giống bò mới có
thời gian mang thai dài hơn.
Thí dụ 2: giống thí dụ trong kiểm định z
Bước 4. Kiểm định
Stat > Basic Statistics > 1-sample t…/
Samples in Columns: Hormone
Test mean: 0.4
One-Sample T: Hormone
Test of mu = 0.4 vs not = 0.4
Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.062325
Variable 95% CI T P
Hormone (0.433121, 0.753546) 3.10 0.027
3. Khoảng tin cậy của trung bình tổng thể (m)
Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một
giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp
với trung bình mẫu x ?
69
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval)
Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân
bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới,
giá trị trung bình mẫu là x = 294.5 ngày.
Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai
tổng thể, ta sẽ có = 10 ngày và xác định khoảng tin cậy cho kiểm định z.
x z ( /2) * 2 / n x z (0.025) * se
Trong đó z(/2) = z(0.025) = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc.
Trong thí dụ trên
95% CI 294.5 1.96* 102 / 6 294.5 8.00 (286.5, 302.5)
Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò
mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5
ngày.
Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với
phương sai tổng thể, ta sẽ phải ước lượng bằng độ lệch chuẩn mẫu s và dùng
khoảng tin cậy cho kiểm định t.
(
x tdf /2) * s 2 / n x tn 1 * se
(0.025)
Trong đó tdf /2 tn1 là đuôi bên phải của phân bố t với độ tự do df = n – 1.
(0.025)
Trong thí dụ trên:
độ lệch chuẩn mẫu là s = 7.74 ngày
với df = n – 1 = 5 thì t5(0.025) = 2.57
95% CI 294.5 2.57 * 7.742 / 6 294.5 8.1 (286.4, 302.6)
Như vậy một lần nữa ta có thể tin đến 95% rằng trung bình thời gian mang thai của
giống bò mới nằm đâu đó trong khoảng 286.4 đến 302.6 ngày.
Lưu ý:
- khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z.
- ta cũng có thể tính khoảng tin cậy 99% và 99.9%.
- Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI.
IV. KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU)
Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu
trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của
chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua
các phương pháp kiểm tra thống kê sinh học. Mục đích nhằm khẳng định giữa các
số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có
ý nghĩa thống kê ở mức độ bao nhiêu.
70
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
1. Hai mẫu độc lập, phương sai bằng nhau
Thí dụ: So sánh trọng lượng của hai giống bò. Giống 1 khảo sát 12 con, giống 2
khảo sát 15 con. Kế quả ghi nhận được như trong bảng 4.1
Bảng 4.1. Trọng lượng (kg) của hai giống bò (Peter, 2001)
Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3 203.8
190.2 201.0 194.7 221.1 186.7 203.1
Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3
163.5 146.6 162.4 140.2 159.4 181.8
165.1 165.0 141.6
Dữ liệu thống kê mô tả cho thấy:
Giống 1 Giống 2
Trung bình mẫu (kg) 196.2 153.7
Độ lệch chuẩn mẫu (kg) 10.62 12.3
Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không?
Số liệu thu thập được có dạng:
x11 , x12 , x13 ,..., x1n1 nhóm mẫu 1
x21 , x22 , x23 ,..., x2 n2
nhóm mẫu 2
trong trường hợp trên n1 = 12 và n2 = 15
Các số liệu có thể được mô hình hóa dưới dạng:
[ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ]
xij = mi + ij
i = 1, 2 (nhóm mẫu) j = 1, 2, ..., n i (số lần lặp lại của mỗi mẫu)
Ở thí dụ trên:
m1 = trung bình trọng lượng của bò (kg) thuộc Giống 1
m2 = trung bình trọng lượng của bò (kg) thuộc Giống 2
Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh
hai trung bình mẫu. Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải
thỏa các yêu cầu:
(1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau.
(2) Dữ liệu có phân bố chuẩn, xij ~N(m,2), cở mẫu nhỏ (n < 30)
(3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau.
Có thể so sánh hai phương sai mẫu bằng hai cách:
Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn
độ lệch chuẩn lớn nhất
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
trong thí dụ trên: s2/s1 = 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần
bằng nhau.
Cách 2: Tiến hành kiểm tra F (F test)
Stat > Basic Statistic ... >/ 2 Variances...
Tuỳ chọn:
Samples in one column
Samples in different column
Sumarized Data OK
Kết quả:
Test for Equal Variances
F-Test
1 Test Statistic 0.74
P-Value 0.631
2
6 8 10 12 14 16 18 20 22
Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau.
Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai
phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt
nhau.
X
m1 m2
Giả thiết:
H0 : m1 = m2
H1 : m1 m2
72
- THỐNG KÊ SINH HỌC
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Công thức tính t :
x1 x2 x x
t 1 2
1 1 se
s2 ( )
p
n1 n2
2 2
( n1 1) s1 (n 2 1) s 2
trong đó s p sp là độ lệch chuẩn gộp (p = pool)
n1 n 2 2
df (n1 1) (n 2 1) n1 n 2 2 df = độ tự do (degree of freedom)
Như vậy trong thí dụ về trọng lượng bò nêu trên:
x1 x2 196.2 153.7 42.5 kg
2 11*(10.62)2 14*(12.30) 2
s
p 134.33 kg
25
s p 134.33 11.59 kg
Cần lưu ý rằng sp phải luôn luôn nằm trong khoảng giữa s1 và s2
10.62 kg
- BÙI TẤN ANH
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trong thí dụ trên hiệu giữa hai trung bình mẫu là x1 x 2 42.5kg cho thấy nếu tính
trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg.
Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau:
( 1 1
x1 x2 tdf / 2) * s 2 x1 x2 tn1 n2 2 *se
(0.025)
n1 n2
(0.025)
trong đó tn n 2 là đuôi bên phải (2.5%) của phân bố t với độ tự do là n1 + n2 – 2.
1 2
1 1
vì n1 + n2 -2 = 25, t2 = 2.06 và se = 134.33 * ( ) = 4.489 kg nên:
12 15
95% CI = 42.5 kg 2.06 x 4.498 = (33.2 , 51.7) kg
Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu
nằm trong khoảng từ 33.2 kg đến 51.7 kg.
Cách tính bằng Minitab: Worksheet: Cattle weights
Bước 1. Kiểm tra sự giống nhau giữa hai độ lệch chuẩn
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: Group A, Group B
Variable N Mean StDev Minimum Q1 Median Q3 Maximum
Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10
Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80
Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 1 = 2
Như vậy có thể dùng phương pháp kiểm tra t gộp.
Bước 2. Kiểm tra sự phân bố chuẩn
Graph > Boxplot ... / Multiple Y’s/Simple
Group A
Group B
140 150 160 170 180 190 200 210 220 230
Trọng lượng (kg)
Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn.
74
nguon tai.lieu . vn