Xem mẫu

PHÂN TÍCH DỮ LIỆU
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê
Khoa KTXD - Bộ môn KTTNN

Chương 3: Kiểm định giả thuyết thống kê
NỘI DUNG MÔN HỌC

Giảng viên: PGS. TS. NGUYỄN THỐNG

E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: http://www4.hcmut.edu.vn/~nguyenthong/
1

PGS. TS. Nguyễn Thống

Tél. (08) 38 691 592- 098 99 66 719

Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định giả thuyết thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

KIỂM ĐỊNH THỐNG KÊ
 Được sử dụng khi phải đưa ra các
kết luận liên quan đến các biến
thống kê ở dạng xác suất.
 Ví dụ: So sánh 2 giá trị của biến
thống kê  Xét 2 biến thống kê dạng

PHÂN PHỐI CHUẨN N(0,1)  biến liên tục

liên tục  Xác suất để 2 biến này BẰNG
nhau là bằng 0 !
3

PGS. TS. Nguyễn Thống

Giá trị TB

p(t) 
vôùi

1
e
2

Độ lệch
chuẩn 

t2

2

p(t)

Haøm maät ñoä
xaùc suaát

t  [, ]
S1

S2

0
-2.5
-1.5
-0.5
t
t2
PGS. TS. Nguyễn Thống 1

0.5

t0

1.5

t
2.5

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

4

Chương 3: Kiểm định giả thuyết thống kê

KIỂM ĐỊNH THỐNG KÊ
Hoặc xác định quy luật của
một biến quan sát có bản chất
là biến xác suất so với một quy
luật xác suất DỰ KIẾN.
 So sánh giá trị TB từ mẫu
khảo sát so với giá trị giả thiết
đưa ra.
PGS. TS. Nguyễn Thống

Kiểm định giả thiết là một kỹ thuật cho phép đưa ra các
kết luận, với một độ tin cậy cho trước, khi tiến hành
so sánh giữa các biến thống kê.
Các bước kiểm định:
• Bước 1: Thành lập giả thiết H0 và phản giả thiết H1.
• Bước 2: Đề xuất ngưỡng chấp nhận của kiểm định.
• Bước 3: Chọn lựa tham số thống kê thích hợp cho
kiểm định.
• Bước 4: Xác định giá trị tới hạn thống kê của kiểm
định.
• Bước 5: Thiết lập giá trị được lấy bởi kiểm định.
• Bước 6: Ra quyết định.

5

6

PGS. TS. Nguyễn Thống

1

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

KIỂM ĐỊNH GIÁ TRỊ
TRUNG BÌNH THỐNG KÊ

KIỂM ĐỊNH GIÁ TRỊ
TRUNG BÌNH VỚI P/P CHUẨN.

Để kiểm định người ta dùng
hoặc:
 Phân phối chuẩn.
 Dùng phân phối Student.

T/hợp sử dụng:
 n > 30
 Hoặc  n < 30, tập hợp mẹ theo
phân phối chuẩn và biết σ.

7

PGS. TS. Nguyễn Thống

8

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

Ví dụ. Keát quaû chòu löïc trung bình cuûa vaät lieäu
Z ñöôïc coâng boá laø 15000N/cm2. Giaû thieát giaù
trò trung bình theo phaân phoái chuaån.
Ñeå kieåm ñònh giaù trò trung bình, ngöôøi ta laáy
ngaãu nhieân n=60 maãu vaø keát quaû tính cho
thaáy giaù trò chòu löïc trung bình laø
14000N/cm2,  = 4000N/cm2.
Haõy kieåm ñònh sự sai biệt vôùi möùc ñoä ruûi ro
=5% (ñoä tin caäy 95%).

H0:

x    a : giá trị chịu lực trung bình là bằng

15000N/m2.
H1: x    a : giá trị chịu lực trung bình là khác
15000N/m2.
a : tham số cần xác định.
H1 :α%

-2.5

9

PGS. TS. Nguyễn Thống

H0: (1-)

p(t)

-1.5

-t 0

t

0
-0.5

t0

0.5

1.5

2.5 10

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

Ta coù:



  Pr  H1 \ H 0   Pr x    a \ x  





1    Pr a  x    a = Pr(-

0.95 = Pr(-



HD:

0.95  Pr  t 0  t  t 0 

a
x -μ a
<
< )
σx
σx
σx

p(t)

a
a
x 
< t < ) vôùi
t
σx
σx

Tra baûng 

a

x
PGS. TS. Nguyễn Thống

x

 1.96

Giaù trò tra töø p/p
chuaån N(0,1)
11

-2.5

-1.5

-t 0

t

0
-0.5

0.5

t0

1.5

2.5

0.025  Pr t  t 0 
12

PGS. TS. Nguyễn Thống

2

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê


Töø ñoù:
a  1,96 x  1,96 *
 a=1012,14
n
Ngoài ra từ số liệu mẫu ta thấy:

x    1000  a  1012,14
 Giả thiết H0 được chấp nhận.
Kết luận: Với mức độ rủi ro là 5% (độ tin
cậy 95%) ta có thể kết luận giá trị chịu
lực trung bình là 15000N/m2.

Bài tập. Keát quaû trọng löôïng töï nhieân trung
bình cuûa ñaát trong thiết kế ñöôïc coâng boá laø
16kN/m3.
Ñeå kieåm ñònh soá lieäu, ngöôøi ta laáy ngaãu nhieân
n=36 maãu vaø keát quaû tính cho thaáy giaù trò
trung bình vaø ñoä leäch chuaån laø 14.8kN/m3,
s= = 2kN/m3.
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro laø
=5% (ñoä tin caäy 95%).

13

14

PGS. TS. Nguyễn Thống

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

KIEÅM ÑÒNH GIAÙ TRÒ
TRUNG BÌNH
VÔÙI PHAÂN PHOÁI
STUDENT

Phân phối Student được áp dụng
thay thế phân phối chuẩn trong
kiểm định giá trị trung bình khi:
 Mẫu có kích thước bé (n < 30);
 Phân phối mẹ là phân phối
chuẩn nhưng độ lệch chuẩn 
không biết.

15

PGS. TS. Nguyễn Thống

16

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

Ví dụ. Keát quaû chòu löïc trung bình cuûa vaät
lieäu Z ñöôïc coâng boá laø 15000N/cm2.
Ñeå kieåm ñònh giaù trò trung bình coâng boá neâu
treân, ngöôøi ta laáy maãu ngaãu nhieân n=16
maãu vaø keát quaû tính cho thaáy giaù trò chòu
löïc trung bình vaø ñoä leäch chuaån cuûa maãu
laø 14000N/cm2 vaø =1500N/cm2 .
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro
laø =5% (ñoä tin caäy 95%).

Ví dụ. Cơ quan thống kê thành phố A cho
biết thu nhập trung bình của dân thành
phố là 15000$/năm.
Để kiểm định kết quả này, người ta lấy một
mẫu ngẫu nhiên n =16 gia đình và kết
quả tính cho giá trị trung bình là 13500$
và độ lệch chuẩn của mẫu là 4000$.
Haõy kieåm ñònh keát quaû coâng boá vôùi ñoä ruõi ro laø
=5% (ñoä tin caäy 95%).

17

PGS. TS. Nguyễn Thống

18

PGS. TS. Nguyễn Thống

3

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

  Pr  H1 \ H 0 

Ta coù:

Ngoài ra từ số liệu mẫu ta thấy:

 x
a 
  Pr( t  a )
 Pr x    a \ x    Pr 

 x
x 
x







Với α=5% và df=(16-1)=15, tra bảng phân
phối Student ta có:


a

x

 2.131 

a  2,131*

4000
 2131
16
19

PGS. TS. Nguyễn Thống

x    1500  a  2131
 Giả thiết H0 được chấp nhận.
Kết luận: Với một độ tin cậy 95% (hay với mức độ
rủi ro là 5%) ta có thể nói là thu nhập bình
quân của dân thành phố A là 15000$.
Ví dụ: Tương tự bài trên với n=26 và giá trị độ
lệch chuẩn tính từ mẫu là 3000$.
Đáp số: Kết luận: H1 chấp nhận  thu nhập trung
20
bình khác 15000$.

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

KIỂM ĐỊNH GIẢ THUYẾT
VỀ SỰ SAI BIỆT CỦA
GIÁ TRỊ TRUNG BÌNH VÀ 0
VỚI PHÂN PHỐI STUDENT.

Ví dụ. Nghieân cöùu moät bieán thoáng keâ töø
moät maãu ngaãu nhieân goàm n=16 phaàn
töû, ngöôøi ta xaùc ñònh ñöôïc giaù trò trung
bình X laø 1,5 vaø ñoä leäch chuaån töø maãu
laø 2.
Haõy kieåm ñònh sự sai biệt cuûa giaù trò trung
bình noùi treân vaø giaù trò 0 vôùi ñoä ruõi ro
laø 5% (ñoä tin caäy 95%).

21

PGS. TS. Nguyễn Thống

22

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

Giaûi
H0:

YÙ nghóa ñoà thò:

x 0  a



x0
H0

p(t)

 Giá trị TB BẰNG giá trị 0 theo quan điểm
thống kê.

x

H1: α%

a  x 0

H1:
 Giá trị TB KHÁC giá trị 0 theo quan điểm
thống kê.

-2.5

-1.5

-a

0.5

a

t
1.5

2.5

  Pr( H1 \ H 0 )  Pr( x  0  a)

23

PGS. TS. Nguyễn Thống

0
-0.5

24

PGS. TS. Nguyễn Thống

4

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê
Töø ñoù:

  Pr(

x

x



a

x

)  Pr( t 

a

x

)

Từ bảng tra phân phối Student với bậc tự do
df=16-1=15 và α=5%, ta có:

a

X

 2,131 

a  2,131 X  2,131

Ta thaáy: X  1,5  1.065 

H1

2
 1,065
16

 H1 chaáp nhaän

Keát luaän: Vôùi ñoä tin caäy 95%, giaù trò X laø khaùc 0
theo quan ñieåm thoáng keâ.

Chương 3: Kiểm định giả thuyết thống kê

CHÚ Ý
 Người ta gọi tỷ số X /   tỷ
X
Student của X.
 Trong thực hành nguời ta hay
kiểm định giá trị TB của 1 biến
thống kê là KHÁC hay BẰNG 0.
 Loại kiểm định này gọi là T test !

25

PGS. TS. Nguyễn Thống

26

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

Baøi taäp 1: Nghieân cöùu bieán thoáng keâ töø
maãu n=9 cho thaáy giaù trò trung bình X
laø 3,5 vaø ñoä leäch chuaån cuûa maãu laø 4.
Kieåm ñònh giaû thieát söï sai bieät giöõa X
vaø giaù trò 0 vôùi ñoä tin caäy 95% (H1).
(Kiểm định xem gía trị X là KHÁC 0 hay
BẰNG 0 theo quan điểm thống kê).

Baøi taäp 2: Töông töï baøi treân vôùi n=9,
X=5,2 vaø =9 (H0).
Anh (Chò) ruùt ra keát luaän gì töø 2 baøi taäp
neâu treân trong keát luaän về giaù trò trung
bình cuûa bieán thoáng keâ laø khaùc hay
baèng giaù trò 0 ?

27

PGS. TS. Nguyễn Thống

28

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 3: Kiểm định giả thuyết thống kê

Chương 3: Kiểm định giả thuyết thống kê

CHÚ Ý
Giá trị TB của 1 biến thống kê sẽ
khác 0 hay bằng 0 phụ thuộc
vào:
 Bản thân giá trị TB ghi nhận
 Độ lệch chuẩn của biến thống
kê nghiên cứu.

Ví dụ: Khảo sát một mẫu thống kê có kích
thước n=10, cho thấy giá trị trung bình là
xtb=10 và độ lệch chuẩn là s=6. Với rũi ro
5%, so sánh giá trị trung bình nêu trên
với 0.
H0:
x 0  a  x  0
H1:

x

a

29

PGS. TS. Nguyễn Thống



x0
30

PGS. TS. Nguyễn Thống

5

nguon tai.lieu . vn