Xem mẫu

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM
PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)
Khoa KTXD - Bộ môn KTTNN

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

NỘI DUNG MÔN HỌC

Giảng viên: PGS. TS. NGUYỄN THỐNG

E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: http://www4.hcmut.edu.vn/~nguyenthong/
PGS. TS. Nguyễn Thống

1

Tél. (08) 38 691 592- 098 99 66 719

Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

CAÙC PHAÂN PHOÁI THOÁNG KEÂ CÔ BAÛN
Luaät nhò thöùc.
Phaân phoái Poisson.
Phaân phoái chuaån (Laplace-Gauss).
Phaân phoái Student.
Phaân phoái 2.
Phaân phoái Fisher.

PGS. TS. Nguyễn Thống

LUẬT NHỊ THỨC (biến rời rạc)

p(i)  Cin pi q n i 

n!
p i q n i
i!(n  i)!

n  số lần thử
p  xác suất thử thành công hiện tượng
nghiên cứu
i  số lần thử thành công trong số n thử
q=1-p
PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHAÂN PHOÁI POISSON

Ñaây laø phaân phoái lieân quan ñeán bieán rôøi raïc.

  PrX  k   e 

PHAÂN PHOÁI POISSON VỚI GÍA TRỊ TRUNG BÌNH 

p (%)



k

k!

: giaù trò trung bình cuûa phaân phoái Poisson.
k: giaù trò bieán xaùc suaát nghieân cöùu.
Nhaän xeùt: caùc hieän töôïng nhö soá loãi trong caùc
trang saùch, soá tai naïn xaûy ra trong saûn xuaát
trong moät chu kyø quan saùt (ngaøy, thaùng,..)
thöôøng coù daï
PGS. TS. Nguyễn Thống ng phaân phoái Poisson.

0

1

2 3 .

.

X

DAÏNG HAØM MAÄT ÑOÄ XAÙC SUAÁT POISSON
PGS. TS. Nguyễn Thống

1

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHÂN PHỐI POISSON VỚI GIÁ TRỊ TB 


0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

k



0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

k
0

0,6065 0,5769 0,5488 0,5220 0,4966 0,4724 0,4493 0,4274 0,4066

0

0,9512 0,9048 0,8607 0,8187 0,7788 0,7408 0,7047 0,6703 0,6376

1

0,3033 0,3173 0,3293 0,3393 0,3476 0,3543 0,3595 0,3633 0,3659

1

0,0476 0,0905 0,1291 0,1637 0,1947 0,2222 0,2466 0,2681 0,2869

2

0,0758 0,0873 0,0988 0,1103 0,1217 0,1329 0,1438 0,1544 0,1647

2

0,0012 0,0045 0,0097 0,0164 0,0243 0,0333 0,0432 0,0536 0,0646

3

0,0126 0,0160 0,0198 0,0239 0,0284 0,0332 0,0383 0,0437 0,0494

3

0,0000 0,0002 0,0005 0,0011 0,0020 0,0033 0,0050 0,0072 0,0097

4

0,0016 0,0022 0,0030 0,0039 0,0050 0,0062 0,0077 0,0093 0,0111

4

0,0000 0,0000 0,0001 0,0001 0,0003 0,0004 0,0007 0,0011

5

0,0002 0,0002 0,0004 0,0005 0,0007 0,0009 0,0012 0,0016 0,0020

5

0,0000 0,0000 0,0000 0,0000 0,0001 0,0001

6

0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,0002 0,0003

PGS. TS. Nguyễn Thống

Giá trị biến nghiên cứu

PGS. TS. Nguyễn Thống

(Xem phuï luïc sau)

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHÂN PHỐI CHUẨN N(0,1)  biến liên tục

Tính chất: Haøm maät ñoä xaùc suaát p(t) luoân coù tính

chaát:

Giá trị TB

1
p(t) 
e
2
vôùi

Độ lệch
chuẩn 

t2

2

p(t)

Haøm maät ñoä
xaùc suaát

t  [, ]

 p(t)dt  1



- Xaùc suaát ñeå t1=0

1

5000

0.7

  Pr( t  t 0 )

0

0

BAÛNG TRA HAØM PHAÂN PHOÁI CHUAÅN N(0,1)

0

1

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU
Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHÂN TÍCH DỮ LIỆU
2
3
4
5
6

7

8

9

1.5
668
655
643
630
618
Chương 1: Phân phối thống kê606 bản &582 suất (ôn)
cơ 594
xác 571 559
537

526

516

505

495

485

475

465

455

446

436

427

418

409

401

392

384

375

367

359

351

344

366

329

322

314

307

301

294

1.9

287

281

274

268

262

256

250

244

239

233

2

228

222

217

212

207

202

197

192

188

183

2.1

179

174

170

166

162

158

154

150

146

143

2.2

139

136

132

129

125

122

119

116

113

110

2.3

107

104

102

99

96

94

91

89

87

84

2.4

82

80

78

75

73

71

69

68

66

64

2.5

62

60

59

57

55

54

52

51

49

48

2.6

47

45

44

43

41

40

39

38

37

36

2.7

35

34

33

32

31

30

29

28

27

26

2.8

26

25

24

23

23

22

21

20

20

19

2.9
19
18
18
PGS. TS. 13
Nguyễn Thống
3
13
13

PGS. TS. Nguyễn Thống

548

1.8

 Hoaëc tìm t0 ñeå coù giaù trò xaùc suaát
cho tröôùc ( cho tröôùc).
 Ví duï vôùi =0.166  t0=0.97

1.6
1.7

 Xaùc suaát ñeå t > t0=0.35 laø:
3632/10000=0.3632

17

16

16

15

15

14

14

12

12

11

11

10

11

10

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHÂN PHỐI STUDENT VỚI BẬC TỰ DO df biến

Hàm mật độ xác suất phân phối
Student bậc tự do n:

liên tục
Phaân phoái
Student baäc
töï do df

p(t)

t

0
-2.5

-1.5

-0.5

 n 1 
n 1


2 
1
 2  1  t  2
p n (t) 
.


n
n   n  
 
2

Phaân phoái
chuaån N(0,1)

0.5

t0

1.5

2.5

df  tăng  Phân phối Student 
PGS. TS. Nguyễn Thống phối chuẩn
Phân



(u)   e  x x u 1dx
0

 Hàm Gamma

PGS. TS. Nguyễn Thống

3

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU


Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 80 Phân phối thống kê cơ bản & xác suất1(ôn)
1:
df
60
40
20
10
5
2

%

1

0
-0.5

0.5

t0

1.5

2.5

PGS. TS. Nguyễn Thống

12.70

31.82

63.65

2.92

4.303

6.965

9.925

3

0.277

0.584

0.978

1.638

2.353

3.182

4.541

5.841

4

0.271

0.569

0.941

1.533

2.132

2.776

3.747

4.604

0.267

0.559

0.92

1.476

2.015

2.571

3.365

4.032

0.265

0.553

0.906

1.44

1.943

2.447

3.143

3.707

0.263

0.549

0.896

1.415

1.895

2.365

2.998

3.499

0.262

0.546

0.889

1.397

1.86

2.306

2.896

3.355

9

-t0

3.314

1.886

8

-1.5

3.078

1.061

7

-2.5

1.376

0.617

6

t

0.727

0.289

5

p(t)

  Pr  t  t 0 



0.325

2

0.261

0.543

0.883

1.383

1.833

2.262

2.821

3.25

10

0.26

0.542

0.879

1.372

1.812

2.228

2.764

3.169

11

0.26

0.54

0.876

1.363

1.796

2.201

2.718

3.106

12

0.259

0.539

0.873

1.356

1.782

2.179

2.681

3.055

Giá trị t0

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

df



%

13

0.259 0.538 0.87

1.35 1.771 2.16

2.65 3.012

14

0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977

15

0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947

16

0.258 0.535 0.865 1.337 1.746 2.12 2.583 2.921

17

0.257 0.534 0.863 1.333 1.74

18

0.257 0.534 0.862 1.33 1.734 2.101 2.552 2.878

19

0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861

20

0.257 0.533 0.86 1.325 1.725 2.086 2.528 2.845

21

0.257 0.532 0.859 1.323 1.721 2.08 2.518 2.831

22

0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819

2.11 2.567 2.898

PGS. TS. Nguyễn Thống

PHÂN PHỐI 2
 2 
p(  2 , )  


( )
  2 
2
2 ( )
2
1



(u)   e  x x u 1dx
0

  bậc tự do



( 1)
2

e



2
2

 hàm gamma

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Phân phối 2 dùng
trong nghiên cứu biến
xác suất có dạng là
tổng của các giá trị
bình phương.
PGS. TS. Nguyễn Thống

HÀM MẬT ĐỘ XÁC SUẤT 2
p

H0
(đại lượng kiểm tra=0)

  Pr(X   02 )
H1 (đại lượng kiểm tra khác 0)

0



2
0

x

PGS. TS. Nguyễn Thống

4

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất

2
(ôn)
0

df

(α%)
90

10

5

2.5

1

0.5

0
0.0002 0.001 0.0039 0.0158
0.01 0.0201 0.0506 0.1026 0.2107
0.0717 0.115 0.216 0.352 0.584

2.71
4.61
6.25

3.84
5.99
7.81

5.02
7.38
9.35

6.63
9.21
11.34

7.88
10.6
12.84

7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81

9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36

11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74

13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
27.69

14.86
16.75
18.55
20.28
21.96
23.59
25.19
26.76
28.3
29.82

99.5
1
2
3

4
5
6
7
8
9
10
11
12
13

0.207
0.412
0.676
0.989
1.34
1.73
2.16
2.6
3.07
3.57

99

0.297
0.554
0.872
1.24
1.65
2.09
2.56
3.05
3.57
4.11

97.5

95

0.484
0.831
1.24
1.69
2.18
2.7
3.25
3.82
4.4
5.01

0.711
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89

1.064
1.61
2.2
2.83
3.49
4.17
4.87
5.58
6.3
7.04

PGS. TS. Nguyễn Thống

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)
df

(α%)

99.5
14 4.07
4.6
15
16 5.14
18 6.26
20 7.43
24 9.89
30 13.79
40 20.71
60 35.53
120 83.85

99
4.66
5.23
5.81
7.01
8.26
10.86
14.95
22.16
37.48
86.92

97.5
5.63
6.26
6.91
8.23
9.59
12.4
16.79
24.43
40.48
91.58

95
6.57
7.26
7.96
9.39
10.85
13.85
18.49
26.51
43.19
95.7

90
7.79
8.55
9.31
10.86
12.44
15.66
20.6
29.05
46.46
100.6

10
21.06
22.31
23.54
25.99
28.41
33.2
40.26
51.81
74.4
140.2

5
23.68
25
26.3
28.87
31.41
36.42
43.77
55.76
79.08
146.5

2.5
26.12
27.49
28.85
31.53
34.17
39.36
47.98
59.34
83.3
152.2

1
29.14
30.58
32
34.81
37.57
42.98
50.89
63.69
88.38
158.9

0.5
31.32
32.8
34.27
37.16
40
45.56
53.67
66.77
91.95
163.6

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

PHAÂN PHOÁI LUAÄT FISHER
n1
2
1

p n1 ,n 2 (t)  2n n

n2
2
2

 n  n2 
 1

en1t
 2 .
 n  n 
  1  2  n1e2t  n 2
 2  2 





n1  n 2
2

  hàm gamma
n1, n2  bậc tự do
PGS. TS. Nguyễn Thống

Phân phối Fisher
dùng trong nghiên
cứu biến xác suất có
dạng là TỶ số của 2
giá trị có dạng tổng
bình phương.
PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Chương 1: Phân phối thống kê cơ bản & xác suất (ôn)

Fisher với α=5%

2\ν1
1
2
3
4
5
6
7
8
9
10
11
12
13
14

1
161
18.5
10.1
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4.84
4.75
4.67
4.6

2
200
19
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.1
3.98
3.89
3.81
3.74

PGS. TS. Nguyễn Thống

3
216
19.2
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.59
3.49
3.41
3.34

4
225
19.2
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.36
3.26
3.18
3.11

5
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
3.2
3.11
3.03
2.96

6
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
3.09
3
2.92
2.85

7
237
19.4
8.89
6.09
4.88
4.21
3.79
3.5
3.29
3.14
3.01
2.91
2.83
2.76

8
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.95
2.85
2.77
2.7

9
241
19.4
8.81
6
4.77
4.1
3.68
3.39
3.18
3.02
2.9
2.8
2.71
2.65

15
16
17
18
19
20
21
22
23
24
25
30
40
60
120

4.54
4.49
4.45
4.41
4.38
4.35
4.32
4.3
4.28
4.26
4.24
4.17
4.08
4
3.92
3.84

3.68
3.63
3.59
3.55
3.52
3.49
3.47
3.44
3.42
3.4
3.39
3.32
3.23
3.15
3.07
3

PGS. TS. Nguyễn Thống

3.29
3.24
3.2
3.16
3.13
3.1
3.07
3.05
3.03
3.01
2.99
2.92
2.84
2.76
2.68
2.6

3.06
3.01
2.96
2.93
2.9
2.87
2.84
2.82
2.8
2.78
2.76
2.69
2.61
2.53
2.45
2.37

2.9
2.85
2.81
2.77
2.74
2.71
2.68
2.66
2.64
2.62
2.6
2.53
2.45
2.37
2.29
2.21

2.79
2.74
2.7
2.66
2.63
2.6
2.57
2.55
2.53
2.51
2.49
2.42
2.34
2.25
2.18
2.1

2.71
2.66
2.61
2.58
2.54
2.51
2.49
2.46
2.44
2.42
2.4
2.33
2.25
2.17
2.09
2.01

2.64
2.59
2.55
2.51
2.48
2.45
2.42
2.4
2.37
2.36
2.34
2.27
2.18
2.1
2.02
1.94

2.59
2.54
2.48
2.46
2.42
2.39
2.37
2.34
2.32
2.3
2.28
2.21
2.12
2.04
1.96
1.88

Fisher với α=5%

5

nguon tai.lieu . vn