Xem mẫu

PHÂN TÍCH DỮ LIỆU
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

PHÂN TÍCH DỮ LIỆU

Khoa Chöông 1:môn Kỹ thuật & taû & xaùc suaát (oân) Nước
KTXD - Bộ Thoáng keâ moâ Quản lý tài nguyên

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

NỘI DUNG MÔN HỌC

Giảng viên: PGS. TS. NGUYỄN THỐNG

E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: http://www4.hcmut.edu.vn/~nguyenthong/index
1

PGS. TS. Nguyễn Thống

Tél. (08) 38 691 592- 098 99 66 719

Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

TAØI LIEÄU THAM KHAÛO

MỤC ĐÍCH MÔN HỌC
Giới thiệu các ứng dụng
của thống kê trong quản lý
& kỹ thuật
 Công cụ tin học cũng như
các cơ sở lý thuyết

1- Phaân tích döõ lieäu vaø aùp duïng vaøo döï baùo.
Taùc giaû : Dr. Nguyeãn Thoáng. NXB Thanh Nieân
2- Kinh teá löôïng öùng duïng.
Taùc giaû : Dr. Nguyeãn Thoáng. NXB ÑHQG TP.
HCM
- Phaàn meàm SPSS.
Kieåm tra cuoái moân hoïc
- Töï luaän.
- Cho xem taøi lieäu.
3

PGS. TS. Nguyễn Thống

4

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Ví dụ: Tính giaù trị trung bình của tập hợp quan saùt
sau:

PHAÂN PHỐI 1 BIẾN
Giaù trị trung bình:

X
X

n1x1  n 2 x 2  ...  n n x N
n

n
i 1

i

i 1

i

Ñaùp soá:

xi

3
2
3
3

1
2
3
4

 p1x1  p 2 x 2  ...  p n x N

với ni chỉ số lần xuất hiện giaù trị xi.
n
: tần suất xuất hiện xi.
pi  n i
N   n i : tổng số quan saùt5
ni
PGS. TS. Nguyễn 
Thống

ni

i

x1  x 2  ...  x N
N

4

n
i 1

i

 11,

PGS. TS. Nguyễn Thống

11

14
11
12
7
4

x  n x
i 1

i

i 1

i

i

 121,

X  11
6

1

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Ví dụ: Dự án có 2 dự án với kết quả dự kiến:

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Baøi taäp:
i
1
2
3
4
5

Dự án

Xaùc suaát (p)
Lôïi nhuaän (tyû)
90
0.3
30
0.7
60
0.5
2
20
0.5
Tính lợi nhuận trung bình xác suất của 2 dự án
trên.
Đáp số: Dự án 1: 48tỷ; Dự án 2 : 40tỷ
1

7

PGS. TS. Nguyễn Thống

ni
1
2
3
3
1

xi
10
11
8
12
9

8

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

YÙ nghóa cuûa V, σ: Ñaùnh giaù söï phaân taùn chung

Phương sai (V) và độ lệch chuẩn (σ)
N

x

V

i 1

 X

N 1

j

V

i

 n x
i

i 1

i

 X

N 1

2

N

2



 V

  xi  X 
i 1

N 1

n1  x1  X   n 2  x 2  X   ...  n j  x j  X 
2



2

0
X
X
V,   lớn  sự phân tán càng cao (càng

2

nhiều rũi ro) & ngược lại.

N 1

V  p1  x1  X   p 2  x 2  X   ...  p j  x j  X 
ni
vôùi pi 
N 1
2

quanh giaù trò trung bình cuûa bieán nghieân cöùu.

2

2

PGS. TS. Nguyễn Thống

2

9

10

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

HỆ SỐ BiẾN ĐỘNG CV

Chú ý:

 x



i 1, N



i 1, N

i  X

2

CV 

 Gọi là tính  kinh nghiệm.

N

 x

 X

2

i

N 1
 Gọi là tính  không
« lệch », bias (trong Excel):

.
PGS. TS. Nguyễn Thống

11


X

 CV càng lớn  giá trị biến
nghiên cứu càng phân tán xa
giá trị trung bình của biến
nghiên cứu (rũi ro cao!)
PGS. TS. Nguyễn Thống

12

.

2

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

TÍNH PHƯƠNG SAI & ĐỘ LỆCH
CHUẨN VỚI EXCEL
Các functions:
Phương sai : Var(địa chỉ
chuỗi)
 Độ lệch chuẩn : Stdev(địa chỉ
chuỗi)
13

PGS. TS. Nguyễn Thống

CÁC PHÉP BIẾN ĐỔI
SỐ LIỆU THƯỜNG SỬ DỤNG

14

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

BIẾN TRUNG TÂM HÓA VÀ CHUẨN HÓA

Normalized

Standardized
Gọi X là một biến thống kê. Một biến được xem là
trung tâm hóa và chuẩn hóa ký hiệu ti suy từ xi
được định nghĩa:
i
i

t 

Tính chất:
ti  số KHÔNG đơn vị
PGS. TS. Nguyễn Thống

x X


t

i

 0;  t i  1

i

15

ti 

x i  x min
x max  x min

Tính chất:  ti  [ 0 1]
 ti : không đơn vị
16

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Ví dụ : Tính giá trị phương sai (V) và từ đó suy
ra giá trị độ lệch chuẩn của tập số liệu xi nói
trên:

Adjusted Normalized
ti  2*

x i  x min
1
x max  x min

i
1
2
3
4

Tính chất:  ti  [ -1  1]
 ti : không đơn vị
PGS. TS. Nguyễn Thống

17

PGS. TS. Nguyễn Thống

ni
3
2
3
3
V=7.80

xi
14
11
12
7
=2.79

18

3

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Bài tập: Giống như ví dụ trước với các số liệu
sau:

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Baøi taäp: Giống như bài tập trên với các số liệu
sau:

i
1
2
3
4

ni
4
2
3
2

xi
14
11
12
9

V=3.6

=1.90

PGS. TS. Nguyễn Thống

i
1
2
3
4

19

ni
1
2
3
1

xi
14
11
12
10

20

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
Baøi taäp: Có 2 dự án với kết quả kinh doanh dự
kiến như sau:

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Dự án
[1]
[2]

Lợi nhuận (tỷ)
90
30
60
20

Xác suất p
0.3
0.7
0.5
0.5

TÍNH

t1 
t2 

Tính V1, V2 và độ lệch chuẩn σ tương ứng của 2
dự án. Với kết quả giá trị trung bình và phương
sai Anh (Chị) có nhận xét gì về 2 dự án nêu
trên? (V1=756 & V2=400). Chọn [1] or [2]?
21

PGS. TS. Nguyễn Thống

X1



48
 1,74
756

X2



40
 2,0
400

1

2

Chọn ti  max  chọn dự án 2
22

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Hệ số tương quan r:

PHÂN PHỐI 2 BIẾN
HIỆP PHƯƠNG SAI CỦA 2 BIẾN THỐNG KÊ

• Gọi xi, yi (i=1,N với N là số quan sát) là 2
biến thống kê được khảo sát. Hiệp
phương sai Cov(x,y) của 2 biến x,y được
định nghĩa:
N

Cov(x, y) 

x
i 1

i

 X  yi  Y 

Cov( x, y)
r

xy

 x

i 1, N

 x

i 1, N

i

 X y i  Y 

 X .
2

i

 y

i 1, N

 Y

2

i

  1  1

N

• Ghi chú : Cov = Covariance
PGS. TS. Nguyễn Thống

23

PGS. TS. Nguyễn Thống

24

4

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chú ý: Trong công thức tính r, độ lệch chuẩn
tính theo công thức:

Ý nghĩa của Cov, r và nhận xét:
* r : khoâng coù ñôn vò.
* (r+1) quan hệ đồng biến càng
"chặc chẻ"
* (r-1) quan hệ nghịch biến càng
"chặc chẻ"
* (r 0) ít (không) quan hệ

X  Y  r 1
PGS. TS. Nguyễn Thống



 x

i 1, N

 X

2

i

 Gọi là tính  kinh nghiệm.

N

Trong trường hợp tính (trong Excel):
gọi là  không « lệch », bias.
25



 x

i 1, N

 X

2

i

N 1

PGS. TS. Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

26

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

GIẢI THÍCH GIÁ TRỊ Cov(X,Y) BẰNG ĐỒ THỊ
Y

Giá trị r

Y

Ý NGHĨA r

r-1

yi

r1
xi

X

X

Y

r0
X
PGS. TS. Nguyễn Thống

27

PGS. TS. Nguyễn Thống

28

PHÂN TÍCH DỮ LIỆU

PHÂN TÍCH DỮ LIỆU

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)

TÍNH HIỆP PHƯƠNG SAI VỚI
EXCEL
Functions: Covar(X,Y)
Hiệp phương sai : Covar(địa
chỉ chuỗi X, địa chỉ chuỗi Y)

TÍNH r SAI VỚI EXCEL
Functions: Correl(X,Y)
Hệ số tương quan : Covar(địa
chỉ chuỗi X, địa chỉ chuỗi Y)

PGS. TS. Nguyễn Thống

29

PGS. TS. Nguyễn Thống

30

5

nguon tai.lieu . vn