PHÂN TÍCH DỮ LIỆU
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Khoa KTXD - Bộ môn KTTNN
Chương 3: Kiểm định giả thuyết thống kê
NỘI DUNG MÔN HỌC
Giảng viên: PGS. TS. NGUYỄN THỐNG
E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: http://www4.hcmut.edu.vn/~nguyenthong/
1
PGS. TS. Nguyễn Thống
Tél. (08) 38 691 592- 098 99 66 719
Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định giả thuyết thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
KIỂM ĐỊNH THỐNG KÊ
Được sử dụng khi phải đưa ra các
kết luận liên quan đến các biến
thống kê ở dạng xác suất.
Ví dụ: So sánh 2 giá trị của biến
thống kê Xét 2 biến thống kê dạng
PHÂN PHỐI CHUẨN N(0,1) biến liên tục
liên tục Xác suất để 2 biến này BẰNG
nhau là bằng 0 !
3
PGS. TS. Nguyễn Thống
Giá trị TB
p(t)
vôùi
1
e
2
Độ lệch
chuẩn
t2
2
p(t)
Haøm maät ñoä
xaùc suaát
t [, ]
S1
S2
0
-2.5
-1.5
-0.5
t
t2
PGS. TS. Nguyễn Thống 1
0.5
t0
1.5
t
2.5
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
4
Chương 3: Kiểm định giả thuyết thống kê
KIỂM ĐỊNH THỐNG KÊ
Hoặc xác định quy luật của
một biến quan sát có bản chất
là biến xác suất so với một quy
luật xác suất DỰ KIẾN.
So sánh giá trị TB từ mẫu
khảo sát so với giá trị giả thiết
đưa ra.
PGS. TS. Nguyễn Thống
Kiểm định giả thiết là một kỹ thuật cho phép đưa ra các
kết luận, với một độ tin cậy cho trước, khi tiến hành
so sánh giữa các biến thống kê.
Các bước kiểm định:
• Bước 1: Thành lập giả thiết H0 và phản giả thiết H1.
• Bước 2: Đề xuất ngưỡng chấp nhận của kiểm định.
• Bước 3: Chọn lựa tham số thống kê thích hợp cho
kiểm định.
• Bước 4: Xác định giá trị tới hạn thống kê của kiểm
định.
• Bước 5: Thiết lập giá trị được lấy bởi kiểm định.
• Bước 6: Ra quyết định.
5
6
PGS. TS. Nguyễn Thống
1
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
KIỂM ĐỊNH GIÁ TRỊ
TRUNG BÌNH THỐNG KÊ
KIỂM ĐỊNH GIÁ TRỊ
TRUNG BÌNH VỚI P/P CHUẨN.
Để kiểm định người ta dùng
hoặc:
Phân phối chuẩn.
Dùng phân phối Student.
T/hợp sử dụng:
n > 30
Hoặc n < 30, tập hợp mẹ theo
phân phối chuẩn và biết σ.
7
PGS. TS. Nguyễn Thống
8
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Ví dụ. Keát quaû chòu löïc trung bình cuûa vaät lieäu
Z ñöôïc coâng boá laø 15000N/cm2. Giaû thieát giaù
trò trung bình theo phaân phoái chuaån.
Ñeå kieåm ñònh giaù trò trung bình, ngöôøi ta laáy
ngaãu nhieân n=60 maãu vaø keát quaû tính cho
thaáy giaù trò chòu löïc trung bình laø
14000N/cm2, = 4000N/cm2.
Haõy kieåm ñònh sự sai biệt vôùi möùc ñoä ruûi ro
=5% (ñoä tin caäy 95%).
H0:
x a : giá trị chịu lực trung bình là bằng
15000N/m2.
H1: x a : giá trị chịu lực trung bình là khác
15000N/m2.
a : tham số cần xác định.
H1 :α%
-2.5
9
PGS. TS. Nguyễn Thống
H0: (1-)
p(t)
-1.5
-t 0
t
0
-0.5
t0
0.5
1.5
2.5 10
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Ta coù:
Pr H1 \ H 0 Pr x a \ x
1 Pr a x a = Pr(-
0.95 = Pr(-
HD:
0.95 Pr t 0 t t 0
a
x -μ a
<
< )
σx
σx
σx
p(t)
a
a
x
< t < ) vôùi
t
σx
σx
Tra baûng
a
x
PGS. TS. Nguyễn Thống
x
1.96
Giaù trò tra töø p/p
chuaån N(0,1)
11
-2.5
-1.5
-t 0
t
0
-0.5
0.5
t0
1.5
2.5
0.025 Pr t t 0
12
PGS. TS. Nguyễn Thống
2
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Töø ñoù:
a 1,96 x 1,96 *
a=1012,14
n
Ngoài ra từ số liệu mẫu ta thấy:
x 1000 a 1012,14
Giả thiết H0 được chấp nhận.
Kết luận: Với mức độ rủi ro là 5% (độ tin
cậy 95%) ta có thể kết luận giá trị chịu
lực trung bình là 15000N/m2.
Bài tập. Keát quaû trọng löôïng töï nhieân trung
bình cuûa ñaát trong thiết kế ñöôïc coâng boá laø
16kN/m3.
Ñeå kieåm ñònh soá lieäu, ngöôøi ta laáy ngaãu nhieân
n=36 maãu vaø keát quaû tính cho thaáy giaù trò
trung bình vaø ñoä leäch chuaån laø 14.8kN/m3,
s= = 2kN/m3.
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro laø
=5% (ñoä tin caäy 95%).
13
14
PGS. TS. Nguyễn Thống
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
KIEÅM ÑÒNH GIAÙ TRÒ
TRUNG BÌNH
VÔÙI PHAÂN PHOÁI
STUDENT
Phân phối Student được áp dụng
thay thế phân phối chuẩn trong
kiểm định giá trị trung bình khi:
Mẫu có kích thước bé (n < 30);
Phân phối mẹ là phân phối
chuẩn nhưng độ lệch chuẩn
không biết.
15
PGS. TS. Nguyễn Thống
16
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Ví dụ. Keát quaû chòu löïc trung bình cuûa vaät
lieäu Z ñöôïc coâng boá laø 15000N/cm2.
Ñeå kieåm ñònh giaù trò trung bình coâng boá neâu
treân, ngöôøi ta laáy maãu ngaãu nhieân n=16
maãu vaø keát quaû tính cho thaáy giaù trò chòu
löïc trung bình vaø ñoä leäch chuaån cuûa maãu
laø 14000N/cm2 vaø =1500N/cm2 .
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro
laø =5% (ñoä tin caäy 95%).
Ví dụ. Cơ quan thống kê thành phố A cho
biết thu nhập trung bình của dân thành
phố là 15000$/năm.
Để kiểm định kết quả này, người ta lấy một
mẫu ngẫu nhiên n =16 gia đình và kết
quả tính cho giá trị trung bình là 13500$
và độ lệch chuẩn của mẫu là 4000$.
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro laø
=5% (ñoä tin caäy 95%).
17
PGS. TS. Nguyễn Thống
18
PGS. TS. Nguyễn Thống
3
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Pr H1 \ H 0
Ta coù:
Ngoài ra từ số liệu mẫu ta thấy:
x
a
Pr( t a )
Pr x a \ x Pr
x
x
x
Với α=5% và df=(16-1)=15, tra bảng phân
phối Student ta có:
a
x
2.131
a 2,131*
4000
2131
16
19
PGS. TS. Nguyễn Thống
x 1500 a 2131
Giả thiết H0 được chấp nhận.
Kết luận: Với một độ tin cậy 95% (hay với mức độ
rủi ro là 5%) ta có thể nói là thu nhập bình
quân của dân thành phố A là 15000$.
Ví dụ: Tương tự bài trên với n=26 và giá trị độ
lệch chuẩn tính từ mẫu là 3000$.
Đáp số: Kết luận: H1 chấp nhận thu nhập trung
20
bình khác 15000$.
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
KIỂM ĐỊNH GIẢ THUYẾT
VỀ SỰ SAI BIỆT CỦA
GIÁ TRỊ TRUNG BÌNH VÀ 0
VỚI PHÂN PHỐI STUDENT.
Ví dụ. Nghieân cöùu moät bieán thoáng keâ töø
moät maãu ngaãu nhieân goàm n=16 phaàn
töû, ngöôøi ta xaùc ñònh ñöôïc giaù trò trung
bình X laø 1,5 vaø ñoä leäch chuaån töø maãu
laø 2.
Haõy kieåm ñònh sự sai biệt cuûa giaù trò trung
bình noùi treân vaø giaù trò 0 vôùi ñoä ruõi ro
laø 5% (ñoä tin caäy 95%).
21
PGS. TS. Nguyễn Thống
22
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Giaûi
H0:
YÙ nghóa ñoà thò:
x 0 a
x0
H0
p(t)
Giá trị TB BẰNG giá trị 0 theo quan điểm
thống kê.
x
H1: α%
a x 0
H1:
Giá trị TB KHÁC giá trị 0 theo quan điểm
thống kê.
-2.5
-1.5
-a
0.5
a
t
1.5
2.5
Pr( H1 \ H 0 ) Pr( x 0 a)
23
PGS. TS. Nguyễn Thống
0
-0.5
24
PGS. TS. Nguyễn Thống
4
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Töø ñoù:
Pr(
x
x
a
x
) Pr( t
a
x
)
Từ bảng tra phân phối Student với bậc tự do
df=16-1=15 và α=5%, ta có:
a
X
2,131
a 2,131 X 2,131
Ta thaáy: X 1,5 1.065
H1
2
1,065
16
H1 chaáp nhaän
Keát luaän: Vôùi ñoä tin caäy 95%, giaù trò X laø khaùc 0
theo quan ñieåm thoáng keâ.
Chương 3: Kiểm định giả thuyết thống kê
CHÚ Ý
Người ta gọi tỷ số X / tỷ
X
Student của X.
Trong thực hành nguời ta hay
kiểm định giá trị TB của 1 biến
thống kê là KHÁC hay BẰNG 0.
Loại kiểm định này gọi là T test !
25
PGS. TS. Nguyễn Thống
26
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
Baøi taäp 1: Nghieân cöùu bieán thoáng keâ töø
maãu n=9 cho thaáy giaù trò trung bình X
laø 3,5 vaø ñoä leäch chuaån cuûa maãu laø 4.
Kieåm ñònh giaû thieát söï sai bieät giöõa X
vaø giaù trò 0 vôùi ñoä tin caäy 95% (H1).
(Kiểm định xem gía trị X là KHÁC 0 hay
BẰNG 0 theo quan điểm thống kê).
Baøi taäp 2: Töông töï baøi treân vôùi n=9,
X=5,2 vaø =9 (H0).
Anh (Chò) ruùt ra keát luaän gì töø 2 baøi taäp
neâu treân trong keát luaän về giaù trò trung
bình cuûa bieán thoáng keâ laø khaùc hay
baèng giaù trò 0 ?
27
PGS. TS. Nguyễn Thống
28
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
PHÂN TÍCH DỮ LIỆU
Chương 3: Kiểm định giả thuyết thống kê
Chương 3: Kiểm định giả thuyết thống kê
CHÚ Ý
Giá trị TB của 1 biến thống kê sẽ
khác 0 hay bằng 0 phụ thuộc
vào:
Bản thân giá trị TB ghi nhận
Độ lệch chuẩn của biến thống
kê nghiên cứu.
Ví dụ: Khảo sát một mẫu thống kê có kích
thước n=10, cho thấy giá trị trung bình là
xtb=10 và độ lệch chuẩn là s=6. Với rũi ro
5%, so sánh giá trị trung bình nêu trên
với 0.
H0:
x 0 a x 0
H1:
x
a
29
PGS. TS. Nguyễn Thống
x0
30
PGS. TS. Nguyễn Thống
5
nguon tai.lieu . vn