Xem mẫu

PHÂN TÍCH DỮ LIỆU
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

PHÂN TÍCH DỮ LIỆU

Chương 2: Bộ môn KTTNN
Khoa KTXD - Khoảng tin cậy

Chương 2: Khoảng tin cậy

Giảng viên: PGS. TS. NGUYỄN THỐNG
E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: http://www4.hcmut.edu.vn/~nguyenthong/
1

PGS. TS. Nguyễn Thống
Tél. (08)

38 691 592- 098 99 66 719

NỘI DUNG MÔN HỌC
Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Thống
PGS. TS. Nguyễn Giới thiệu phần mềm SPSS or R

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy
ÖÔÙC LÖÔïNG & SÖÏ LAÁY MAÃU

KHOẢNG TIN CẬY

Trong thöïc teá nghieân cöùu caùc thoâng soá thoáng keâ
cuûa moät taäp hôp meï “lớn”  ngöôøi ta thöôøng
tính toaùn treân maãu ñöôïc choïn töø taäp hôïp meï
moät caùch coù lyù luaän ñöôïc goïi laø thoáng keâ maãu.
Ví duï X vaø  bieåu thò giaù trò trung bình vaø ñoä leäch
chuaån cuûa taäp hôïp meï (thoâng thöôøng laø caùc ñaïi
löôïng khoâng bieát vì kích thöôùc maãu lôùn, tieán
haønh xaùc ñònh ñuùng thöôøng toán keùm hoaëc khoâng
khaû thi !!!).

3

PGS. TS. Nguyễn Thống

4

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Thoâng soá taäp hôïp meï
Trung bình, μ

OÂN
Trung bình soá hoïc:

Ñai löôïng ñaùnh giaù

x

X

Sai bieät giaù trò trung bình
x1  x 2
2 taäp hôïp meï: μ1 - μ2



p

Ñoä leäch chuaån, σ

x1  x 2  x 3  x i  ...  x n
n

s

Tyû leä,

Phöông sai & ñoä leäch chuaån:
n

V

 (x
i 1

i

 X)2

n 1

5

PGS. TS. Nguyễn Thống

(Average)

(VAR)

 V
(STDEV)
6

PGS. TS. Nguyễn Thống

1

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

OÂN
Hieäp phöông sai cuûa 2 bieán X, Y:

CHÚ Ý
n



 (x
i 1

i

 X)2

n

Độ lệch chuẩn “kinh nghiệm”

N

Cov(X, Y) 

n



 (x i  X) 2  Độ lệch chuẩn “không lệch”
i 1

(Hàm trong Excel)

N 1

i 1

i

 X )( y i  Y )
N

r

Cov(X, Y)
 r   1  1
X Y
8

PGS. TS. Nguyễn Thống

Theo định nghĩa kinh nghiệm

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Phân phối của giá trị trung bình của mẫu
Xem xeùt moät taäp hôïp meï vôùi kích thöôùc voâ haïn.
Xeùt taäp hôïp caùc maãu coù kích thöôùc n laáy ngaãu
nhieân töø taäp hôïp meï.
 Töø ñoù tính giaù trò trung bình cuûa töøng maãu &
töø ñoù tính ñoä leäch chuaån cuûa caùc giaù trò trung
bình naøy.
Giaû thieát taäp hôïp meï laø voâ haïn vaø seõ hoaøn traû
laïi maãu sau laàn thöïc hieän.
Lyù thuyeát thoáng keâ cho bieát:

ÑÒNH LYÙ GIÔÙI HAÏN TRUNG TAÂM
Xeùt moät taäp hôïp meï baát kyø. Thöïc hieän laáy
maãu ngaãu nhieân coù kích thöôùc laø n vaø tính
giaù trò Xtb trung bình cuûa maãu.
 Neáu soá n ñuû lôùn (thoâng thöôøng >30), phaân
phoái cuûa giaù trò trung bình Xtb seõ coù daïng
phaân phoái chuaån N(X,).

9

PGS. TS. Nguyễn Thống

10

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Phân phối giá trị trung bình của mẫu

E(x)  
x 

(COVAR)

Heä soá töông quan giöõa X & Y:

7

PGS. TS. Nguyễn Thống

 (x

(giá trị trung bình tập hợp mẹ)



(σ độ lệch chuẩn tập hợp mẹ
n kích thuớc tập hợp con)

n

Trong tröôøng hôïp kích thöôùc maãu (n) laø lôùn:

x 


n

*

N kích thöôùc taäp hôïp meï

PGS. TS. Nguyễn Thống

Nn
N 1

hệ số hiệu
chỉnh t)

0

X

t

(Baûng tra ôû sau)

13

PGS. TS. Nguyễn Thống

14

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

X (x  e)


(x  e)

Phöông trình toaùn hoïc ñeå xaùc ñònh e:

x

  Pr( X  e  x  X  e)
e xX e
e

 )  1    Pr( t  )
x
x
x
x
1
e
 Pr(t 
) với t  x  X bieán trung
2
x
 X taâm & chuaån
  Pr(

Khoảng tin cậy
e: biên độ khoảng tin cậy
X : giaù trò trung bình tính töø maãu khaûo saùt.
Ghi chuù: Những khoảng tin cậy sử dụng phổ biến
trong thực tế áp dụng là các khoảng tin cậy 90%,
95% và 99%.

Vôùi α bieát, tra baûng tìm e/σx
 xaùc ñònh e khi σx bieát.

hoaù

15

PGS. TS. Nguyễn Thống

16

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Ví dụ: Ngöôøi ta muoán bieát löông trung bình cuûa
moät Xí nghieäp lôùn. Maãu n=100 coâng nhaân ñöôïc
choïn ngaãu nhieân ñeå phoûng vaán. Keát quaû töø
maãu cho thaáy löông trung bình laø 200$ vaø ñoä
leäch chuaån laø 25$.
Xaùc ñònh khoaûng tin caäy cuûa löông trung bình vôùi
ñoä tin caäy 90%, 95%.
Cho bieát löông trung bình tuaân theo phaân phoái
chuaån.
17

PGS. TS. Nguyễn Thống

Phöông trình toaùn hoïc ñeå xaùc ñònh e:

e xX e
e

 )  1    Pr( t  )
x
x
x
x
1  0.9
e
 0.05  Pr(t  )
2
x
e
Vôùi phaân phoái chuaån    1.645
x
s
25
e  1.645 * x  1.645
 1.645
 4.112
n
100
 [195 .9$  204 .1$]
PGS. TS. Nguyễn Thống
  Pr(

18

3

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

 [195 .9$  204 .1$]
Keát luaän: Löông trung bình cuûa coâng nhaân
Xí nghieäp khaûo saùt seõ naèm trong khoaûng töø
195.9$ ñeán 204.1$/thaùng vôùi xaùc suaát laø 90%.
 Lyù luaän töông töï tính vôùi =95%
(khoaûng tin caäy seõ lôùn hôn ?)

Baøi taäp 1: Ñeå nghieân cöùu gía trò trung bình
cuûa dung troïng töï nhieân  seõ duøng trong
thieát keá, töø 50 maãu ñaát thí nghieäm trong
phoøng, giaù trò trung bình laø 17,2kN/m3 vaø
ñoä leäch chuaån laø 0,5kN/m3. Giaû thieát giaù
trò trung bình cuûa  tuaân theo phaân phoái
chuaån.
Xaùc ñònh khoaûng tin caäy cuûa giaù trò trung
bình  vôùi ñoä tin caäy 95% vaø 90%.

19

PGS. TS. Nguyễn Thống

20

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Baøi taäp 2: Phoøng thí nghieäm X muoán xaùc ñònh öùng suaát
keùo chaûy trung bình cuûa theùp do xöôûng saûn xuaát ñeå
phuïc vuï tính toaùn thieát keá. Keát quaû keùo theùp töø 10
maãu thí nghieäm cho keát quaû nhö sau. Giaû thieát öùng
suaát chaûy trung bình theo phaân phoái chuaån.
a. Xaùc ñònh khoaûng tin caäy cuûa giaù trò trung bình vôùi
ñoä tin caäy 95% vaø 90%.
b. Tính giaù trò T0 ñeå xaùc suaát : Pr( T  T0 )  95 %
Maãu

1

2

3

4

5

6

7

8

9

10

T(kN/cm2) 35.7 40.2 38.3 43.4 37.9 41.0 39.5 37.0 42.0 42.0
21

PGS. TS. Nguyễn Thống

Hướng dẫn
Pr(T  T0 )  95%  Pr(
 Pr(t 

with a 0 

T   T0  

)  95%
T
T

T0  
)  Pr(t  a 0 )  95%
T

T0  
T

Với t tuân theo phân phối N(0,1)
Tra bảng tìm a0  T0

22

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

Baøi taäp 3: Keát quaû thí nghieäm neùn beâ toâng
cuûa 50 maãu trong phoøng thí nghieäm coù
giaù trò trung bình khaû naêng chòu neùn laø =
850N/cm2 vaø ñoä leäch chuaån laø 15N/cm2.
Giaû thieát giaù trò trung bình cuûa  tuaân
theo phaân phoái chuaån.
Xaùc ñònh khoaûng tin caäy cuûa giaù trò trung
bình  vôùi ñoä tin caäy 95% vaø 90%.

Bài tập 1: Một mẫu lấy ngẫu nhiên n=36 công nhân và
kết quả tính cho thấy lương trung bình tháng là
=200USD và độ lệch chuẩn của mẫu là s=12USD.
Xác định khoảng tin cậy của giá trị lương trung
bình với độ tin cậy là 95% và 90%. Giả sử giá trị
trung bình theo phân phối chuẩn và mẫu mẹ có
kích thước lớn.
Bài tập 2: Tương tự bài 1 với n=50, =400USD và
s=20USD.
Bài tập 3: Tương tự bài 2 với n=100, =400USD và
s=20USD.
 Nhận xét các kết quả rút ra từ các ví dụ. 24

23

PGS. TS. Nguyễn Thống

PGS. TS. Nguyễn Thống

4

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 2: Khoảng tin cậy

Chương 2: Khoảng tin cậy

KHOAÛNG TIN CAÄY CUÛA GIAÙ
TRÒ TRUNG BÌNH VÔÙI
TRÖÔØNG HÔÏP
PHAÂN PHOÁI STUDENT

25

PGS. TS. Nguyễn Thống

Trong thực hành, khi sự lấy mẫu không thỏa
mãn một số điều kiện  khả năng gặp sai
số lớn khi nghiên cứu giá trị trung bình.
Trong trường hợp đó  phân phối Student
sẽ dùng thay phân phối chuẩn khi nghiên
cứu giá trị trung bình. Cụ thể là khi:
- Kích thước mẫu bé (n
nguon tai.lieu . vn