Xem mẫu
- Phân tí ch tương quan & hồ i
quy
Phân tích tương quan
Phân tích hồi quy
Muc tiêu hoc tâp
̣ ̣ ̣
* Hiểu được hê sô ̣ ́ tương quan và mối quan hê qua l
̣ ại giữa các biến số thông qua phân
tích tính tương quan
* Dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và
phương trình hồi quy được tính từ phân tích hồi quy
* Thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau
trên Minitab.
- Phân tí ch tương quan và hồ i quy?
Phân tí ch tương quan
̣
Môt ky ̣
̃ thuât ma ̉
̀ chi ra được mức đô cua s
̣ ̉ ự liên kết giữa 2 biến số trong trong
số những hang muc đ
̣ ̣ ược sử dung hê sô
̣ ̣ ́ tương quan.
̣ IQ ( Chỉ số thông minh) so với thành tích hoc tâp, nghiên c
Ví du) ̣ ̣ ứu, hút thuốc
ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy
trình ngược với phát triển sản phẩm, viêc tâp thê duc so v
̣ ̣ ̉ ̣ ới dung lượng phổi
Phân tí ch hồ i quy
̣
Kỹ thuât phân ti ́ch thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra
với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến
thiên đó
X
Y
XY
XY Y X
X Y Y
X
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 2 Rev 7.0
- Tổng quát về phân tích tính tương quan
Phân tích tính tương quan
Phương pháp phân tích mức liên kết giữa các biến số. Có thể phân tích sử dụng
biểu đồ phân tán và hệ số tương quan.
Biểu đồ phân tán
̉ ̉ ̣ ̉
Trình bày các điêm biêu thi điêm dữ liêu trên bang phô
̣ ̉ ́i hợp. Biểu đồ phân
tán chỉ ra mối quan hệ giữa hai biến thiên đó.
Hê sô
̣ ́ tương quan
Đây là sự trưng bày tuyến tính giữa 2 biến số trong các số hang.
̣
(Không đề cập đến mối quan hệ chức năng )
Mẫu của hệ số tương quan r
̣ ữa 1 và 1
> Có giá tri gi
> Nếu r có ̣
giá tri (+) : t ương quan dương
̣
giá tri ( ) : t ương quan âm
giá trị gần tới 0 (không): không tương quan
giá trị gần hơn 1 hoặc đến 1: tương quan chặt chẽ
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 3 Rev 7.0
- Mối quan hệ giữa biểu đồ phân tá n và hệ số tương quan
Tương quan dương manh mẽ
̣ Tương quan dương yếu
Tương quan âm manh mẽ
̣ Tương quan âm yếu
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 4 Rev 7.0
- Trì nh tự phân tí ch tương quan
Ví dụ
Thực hiên môt phân ti
̣ ̣ ̉ ̣
́ch đê nhân biê ̣ ̣
́t mối liên hê hiên có giữa chi phí quang
̉
̉ ̉ ̉
cáo (X) và doanh số bán hàng (Y)cua san phâm được san xuâ
̉ ̣
́t tai công ty A.
(Tên file : CorrelationRegression.mtw )
Chi phí Doanh số Chi phí Doanh số
̉
quang ca ́o bán hàng ̉
quang ca ́o bán hàng
336 325
445 405
418 375
395 375
355 367
465 405
445 385
346 335
365 375
417 395
455 395
365 345
395 395
445 395
405 365
388 353
346 355
459 415
429 385
435 365
365 365
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 5 Rev 7.0
- Bướ c 1 Nhâp d
̣ ữ liêu
̣
Bướ c 2 Vẽ biêu đô
̉ ̀ phân tá n
Graph > Scatterplot
2 ̉ ̣ ̣ ứa dữ liêu
Biêu thi côt ch ̣
̉ ̣
cua truc X va ̣
̀ truc Y
1
̣
Chon hi ̣
̀nh dang
̉ ̉
cua biêu đồ
S c atte rplo t o f S ale Vo lume v s Ex pe nditure
420
400
S a le Vo lu me
380
360
340
320
350 375 400 425 450 475
Ex p e n d itu re
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 6 Rev 7.0
- Bướ c 3 Tiế n hà nh phân tí ch tương quan
Stat > Basic Statistics > Correlation
̣ ̣ ới dữ
Chon côt v
1 liêụ
Correlations: Expenditure, SaleVolume
Pearson correlation of Expenditure and SaleVolume = 0.834
PValue = 0.000
PValue
̣ ́ tương quan
Hê sô
2
Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và Pgiá
trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta
có thể kết luận rằng tương quan chi phí quang ca
̉ ́o và doanh
số bán hàng là đáng kể
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 7 Rev 7.0
- Sự lam dung va
̣ ̣ ̀ sử dung sai hê sô
̣ ̣ ́ tương quan
Ngay cả nếu có tương quan giữa hai biến số, điều đó không có nghĩa là trung
̉ ̣ ến số đó là nguyên nhân cua cái kia.
bình cua môt bi ̉
Biến số thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến số kia.
̣
Càng bi mu ỗi cắn thì
doanh thu bán kem càng lớn
có phải không?????
Mù a
Anh h
̉ ưởng
cua biê
̉ ́ n
số thứ 3
Sự tương quan không có nghĩ a là tao ra kê
̣ ́ t
qua!
̉
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 8 Rev 7.0
- Phân tích tương quan chỉ ra sức manh liên k
̣ ết
giữa hai biến số nhưng không chỉ ra mối quan
hệ chức năng chính xác.
Nếu trong trường hợp này, điều gì bạn phải làm
để ước lượng kết quả cua bỉ ến số đầu ra
vớ i biến số đầu vào ?
Điều gì nên làm?
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 9 Rev 7.0
- Tổng quan về phân tích hồi quy
Phân tí ch hồ i quy
Kỹ thuật phân tích thống kê cho phép chúng ta dự đoán biến số đầu ra với biến
số đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến số sử dụng
phương trình hồi quy.
Phương trì nh hồ i quy
Một phương trình mà dự đoán các giá trị đầu ra tương ứng với các giá trị đầu
vào
Cá c loai cua phân ti
̣ ̉ ́ ch hồ i quy
Phân loai biê
̣ ́ n số đầ u và o ( y i β0 β1x i εi )
Phân tích hồi quy đơn giản : Khi chỉ có một biến số đầu vào
Phân tích hồi quy phức tạp( : Khi có hai ho
y i β0 β1x1i ặ 2 x 2i ề
βc nhi u hơε in các bi
) ến số
Phân loại bằng mối liên hệ giữa biến số đầu ra và biế n số đầu
vào
Phân tích hồi quy tuyến : Một phân tích mô hình giả định một mối quan hệ tuyến tính
.
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 10 Rev 7.0
- Phân tích hồi quy đơn giản
Ví dụ
Chúng ta phải tìm ra tác động của chi phí quang ca
̉ ́o đến cột doanh thu của sản
phẩm A được sản xuất tại công ty S. Thực hiện phân tích hồi quy với các dũ liệu
sau. .
(Tên file: CorrelationRegression.mtw )
Chi phí Doanh số Chi phí Doanh số
̉
quang ca ́o bán hàng ̉
quang ca ́o bán hàng
336 325 445 405
418 375 395 375
355 367 465 405
445 385 346 335
365 375 417 395
455 395 365 345
395 395 445 395
405 365 388 353
346 355 459 415
429 385 435 365
365 365
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 11 Rev 7.0
- Bướ c 1 Phân tí ch hồ i quy
Tao ra ph
̣ ương trình hồi quy thông qua viêc phân ti
̣ ́ch hồi quy
Stat > Regression > Regression
1 ̣ ̣
Biến số phu thuôc
2 ̣ ̣
Biến số đôc lâp
Vẽ đồ thị
dư
Kiểm soát hiên thi k
̉ ̣ ết quả đầu ra trên của 3 Thông tin khác nhau có thể
sổ (Không hiên thi, ch
̉ ̣ ỉ hiên thi thông tin c
̉ ̣ ơ lưu trữ trên cửa sổ làm
bản, hiên thi giá tr
̉ ̣ ị phù hợp và bảng dư ra) việc (Work Sheet window)
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 12 Rev 7.0
- Kết quả thực hiện từ Minitab
Regression Analysis: SaleVolume versus Expenditure
The regression equation is
SaleVolume = 183 + 0.476 Expenditure Phương trình hồi quy
Predictor Coef SE Coef T P
Constant 182.81 29.36 6.23 0.000
Expenditure 0.47629 0.07239 6.58 0.000
Hệ số xác
S = 13.56 RSq = 69.5% RSq(adj) = 67.9% định
Analysis of Variance
Source DF SS MS F P
Regression 1 7955.9 7955.9 43.29 0.000
Residual Error 19 3492.1 183.8
Total 20 11448.0 PValue
̣
: Xác đinh co ́ hay không
số thống kê có ý
nghĩa.
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 13 Rev 7.0
- R2 (Hê sô
̣ ́ xá c đinh)
̣
R2 được gọi là hệ số xác định và đặt tại vị trí trong khoang
̉ 0≤R2≤1.
R2 là ti lê ph
̉ ̣ ương sai được giải thích bằ ng dòng hồi quy nằm ngoài tổng
các phương sai.
Đó là, nếu R2 là 0.7, 70% của phương sai được giải thích bởi phương trình
hồi quy và còn lại 30% là do nhân tố khác nhau.
R2adj(Hệ số xác định được điều chỉnh )
R2 trở nên lớn hơn như biến thiên độc lập được thêm vào mẫu hồi quy. R2
giá trị không thể sử dụng như tiêu chí chọn lựa đối với mẫu ưu tiên
trong việc phân tích hồi quy phức tạp. Thay vào đó, R2adj được sử dụng
vì nó bổ sung thêm cho các hàm yếu đã cho ở trên.
R2adj trở nên nhỏ hơn khi các biến số độc lập vô nghĩa được thêm vào
mẫu.
Do đó, R2adj thường được sử dụng như tiêu chí để chọn các mẫu ưu tiên.
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 14 Rev 7.0
- Thuyế t minh cho giá tri PValue va
̣ ̀ R2(adj)
PValue 0.05
Phương sai được tính cho mức Phương sai được tính, nhưng nó
̣
thống kê quan trong. không là mức thống kê quan trong.
̣
[Tì m thấ y môt điê
̣ ̀ u gì đó có [Cầ n thêm nhiề u dữ liêu.]
̣
R2(adj) lớ n
ý nghĩ a] Qúa ít dữ liêu co
̣ ̉ ̃n đến tình
́ thê dâ
̣ ̉
Xác nhân anh h ưởng cua nhân tô
̉ ́, ̣
trang na ̀y. Thêm vào đó những yếu
̣ ̣ ̉ ̉
đô lêch chuân, tiêu chuân..., va ̀ ý tố nằm ngoài cũng có thê cỏ ́ anh
̉
nghĩa thực tế. hưởng đáng kê.̉
Phương sai là môt phâ
̣ ̀n được tính
cho mức thống kê có ý nghĩa. Phương sai không được tính và nó
cũng không là mức thống kê có ý
[Nhữ ng X khá c] nghĩa.
R2(adj) nhỏ Quá nhiều dữ liêu co ̣ ̉ ̃n
́ thê dâ
̣ ̉
đến giá tri P nho. Nê ́u thấy R2 là [Không có gì ]
vừa đu (
̉ ngay cả sự thay đổi nhỏ ̣
Thu thâp ca ̀ng nhiều dữ liêu, va
̣ ̀ xem
này cũng có ý nghĩa vì thay đổi trong nếu đó là mối quan hê phi tuyê ̣ ́n
y rất quan trọng ) và những X ̉
tính. Kiêm tra nh ững X khác nữa.
khác
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 15 Rev 7.0
- Những gì cần được kiểm tra trước khi định nghĩa
phương trình hồi quy :
Phương trình hồi chiếu lệch số thứ nhất được xác
định
thông qua phân tích hồi quy, có chính xác không?
Có phải không cần mẫu trật tự cao?
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 16 Rev 7.0
- Bướ c 2 Xác minh mô hình hồi quy
Phân tích các mô hình hồi quy để kiểm tra xem có hay không môt mô hình h
̣ ồi quy
trình tự cao là cần thiết
Stat > Regression > Fitted Line Plot
Lưu trữ số dư và giá 4
trị phù hợp trong bảng
làm việc
1
5
2
Xác định loại mô hình hồi quy
Tuyến tính: hồi quy tuyến tính
Bình phương: hồi quy đường 3
cong
bình phương 6
Lập phương: hồi quy đường
cong
lập phương
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 17 Rev 7.0
- ̉ ực hiên t
Kết qua th ̣ ừ Minitab
Fitte d Line P lo t
[ Tuyế n tí nh ] 420
S a le Vo lu me = 182.8 + 0.4763 Exp e n d itu re
S 13.557 1
R Sq 69.5 %
The regression equation is 400
R Sq(a dj) 67.9 %
SaleVolume = 182.807 + 0.476288 Expenditure
S a le Vo lu me
380
360
S = 13.5571 RSq = 69.5 % RSq(adj) = 67.9 % 340
320
350 375 400 425 450 475
Ex p e n d itu re
[ Bì nh phương ] Fitte d Line P lo t
S a le Vo lu me = 37.3 + 1.209 Exp e n d itu re
0.000914 Exp e n d itu re **2
The regression equation is 420 S
R Sq
13.867 4
69.8 %
SaleVolume = 37.3209 + 1.20943 Expenditure
R Sq(a dj) 66.4 %
400
0.0009140 Expenditure **2
S a le Vo lu m e
380
360
S = 13.8674 RSq = 69.8 % RSq(adj) = 66.4 % 340
320
350 375 400 425 450 475
Ex p e n d itu re
[ Lâp ph
̣ ương ] Fitte d Line P lo t
S a le Vo lu me = 7213 + 56.04 Exp e n d itu re
0.1383 Exp e n d itu re **2 + 0.000114 Exp e n d itu re **3
The regression equation is 420 S
R Sq
13.085 3
74.6 %
SaleVolume = 7212.82 + 56.0416 Expenditure 400
R Sq(a dj) 70.1 %
0.138346 Expenditure **2
S a le Vo lu me
380
+ 0.0001142 Expenditure **3 360
340
S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 % 320
350 375 400 425 450 475
Ex p e n d itu re
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 18 Rev 7.0
- Polynomial Regression Analysis: SaleVolume versus Expenditure
The regression equation is
SaleVolume = 7212.82 + 56.0416 Expenditure 0.138346 Expenditure**2 + 0.0001142 Expenditure**3
S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 %
Analysis of Variance
Source DF SS MS F P
Regression 3 8537.2 2845.72 16.6197 0.000
Error 17 2910.8 171.23
Total 20 11448.0
Source DF Seq SS F P
Linear 1 7955.91 43.2871 0.000
Quadratic 1 30.59 0.1591 0.695
Cubic 1 550.66 3.2160 0.091
Mặc dù R2adj của mô hình lập phương ở trang trước, kết quả cho chúng ta biết rằng
giá trị p- cho mô hình bình phương và mô hình lập phương là lớn hơn 0,05,
và do đó các ảnh hưởng không đáng kể. Đó là, ảnh hưởng của bình phương và
lập phương là không đáng kể và do vậy mô hình tuyến tính là chính xác nhất.
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 19 Rev 7.0
- Bướ c 3 Thực hiện phân tích thừa dư
Xác đinh co
̣ ́ hay không ‘mô hình hồi quy là phù hợp’ ?
Stat > Regression > Regression > Residual Plots
Dữ liêu đ
̣ ược hình thành mới
khi thực hiên:
̣
“Storage>Residuals, Fits” trong
bước 3 “Nhận dạng mẫu hồi
quy”
̣
Chon sô ́ dư chuân ho
̉ ̉
́a tông qua ́t.
̉
Tiêu chuân ho ́a số dư
1 = (Số dư) / (đô lêch chuân cua sô
̣ ̣ ̉ ̉ ́
d ư)
2 ̣
Chon ca ̣ ̣
́c hang muc va ̀o
̣
đồ thi (plot)
̉ ̣ ̣
Vẽ tất ca hang muc na ̀y
3
Proprietary to Samsung Electronics Company Correlation and Regression Analysis 20 Rev 7.0
nguon tai.lieu . vn