Xem mẫu
- Ước tính và Thử
nghiệm giả thuyết
Ước tính
Thử nghiệm giả thuyết
Mục tiêu học tập
Hiểu cách thức ước tính các thông số, bằng cách sử dụng các dữ liệu
mẫu để kiểm tra đăc tính c
̣ ủa tập hợp số đông
Hiểu được các quy trình để đưa ra quyết định có hay không, việc chấp
nhận các giả thuyết, áp dụng cho số đông
- Sơ đồ thử nghiệm giả thiết
One population
When significance level = 0.05: Hypothesis Testing 1-Proportion
If P-value>0.05, cannot reject Ho
Stat -Basic Stats -1 proportion
Two population
If P-value
- Ướ c tí nh là
gì ?
Đinh nghi
̣ ̃ a sự ướ c tí nh
Là ước tí nh những thống kê của một tâp h
̣ ợp dựa trên dữ liệu
mẫ u
Qui trình thống kê ước tính các giá trị (ví dụ như số trung bình của tâp
̣
hợp, sự cân xứng cua tâp h
̉ ̣ ợp, biến thiên tâp ḥ ợp) biểu thị những đặc tính
của sự phân bố tâp h
̣ ợp dựa trên thống kê của các mẫu.
Kết luận thống kê và ra quyết định liên quan tới tâp h
̣ ợp dựa trên những
thống kê của các mẫu.
Tâp h
̣ ợp Mẫu
Mẫu x
Trung bình mẫu:
̣ ợp: μ
Trung bình tâp h Mẫu biến thiên: σ2
biến thiên tâp h
̣ ợp: σ2 Mẫu Mẫu cân xứng: pˆ
Cân xứng cua tâp h
̉ ̣ ợp: p
Sự ướ c tí nh
Muc đi
̣ ́ ch cua
̉ ướ c tí nh
Mục đích ước lượng là để có được những thông tin về tâp h
̣ ợp qua việc phân
tích dữ liệu mẫu và để đưa ra quyết định và có hành động đúng đắn liên quan
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 3 Rev 7.0
- Tông quan vê
̉ ̀ ướ c tí nh
Cá c loai
̣ ướ c tí nh
Điêm
̉ ướ c tí nh: Ướ c tính môt gia
̣ ́ trị cua thông sô
̉ ́.
(VD.) Vòng đời của sản phẩm B là 5 năm
Số trung bình, độ lệch chuẩn, biến thiên, số trung vị, vv...
Giá trị điêm
̉ ước tí nh không bao gồm khái niệm sai số.
Nghĩa là, đi
nào. ểm ước tính không chỉ ra giá trị ước tính gần với giá trị thực tế như thế
̉ ướ c tí nh
Khoang
Khoang ̉ ướ c tí nh mong đợi thì bao gồm giá tri thât cua thông sô
̣ ̣ ̉ ́ sử dung d
̣ ữ liêu
̣
mẫu.
Ví dụ: Tỉ lệ khuyết tật trên thị trường của sản phẩm A: (2%, 8%)
Tỉ lệ khuyết tật trên thị trường của sản phẩm A là từ 2% đến 8%.
Điêm
̉ ước tí nh không chỉ ra giá trị ước tí nh gần với giá trị thực tế
như thế nào.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 4 Rev 7.0
- Sai sót
Mặc dù chúng ta đều hy vọng rằng các giá trị đặc trưng (số trung bình, độ lệch
chuẩn, vv...) của mẫu giống như đặc tính thực của tâp h
̣ ợp nhưng trong hầu hết
các trường hợp là vẫn tồn tại một vài sự khác biệt.
Sai sót của mẫu
Mẫu 1 Sai sót của mẫu là sự
khá c nhau giữa sự ước
Tâp h
̣ ợp Mẫu 2
tí nh dựa trên một mẫu và
Mẫu 3
giá trị thực của tâp h
̣ ợp
Độ tin cậy vào khoảng ước tí nh là bao nhiêu?
̉ ước tính có tầm tin cậy khác nhau dựa vào sai số cho phép. Khoang
Khoang ̉
ướ c tí nh có tầ m tin cậy khác nhau dựa vào sai số cho phép. Khoang
̉ ước tí nh
dựa vào sai số cho phép được gọi là khoảng ước tí nh tin cậy và khoảng giá trị
được ước tính này được gọi là khoảng tin cậy.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 5 Rev 7.0
- Khoang tin cây
̉ ̣
Khoang tin cây
̉ ̣
̣ ̉
Khi giá tri sai hong la ̀ và mẫu có cùng kích thước được trích ra từ
nhiều lần, khoảng giá trị bao gồm các giá trị thực được biểu diễn là
100 ( 1 )%
̣ ̀ khoang tin cây
goi la ̉ ̣
1
Ở đây, được biêu diê
̉ ̃n như là mức tin cây.
̣
Mức tin cậy chỉ ra xác suất mà khoảng giá trị được ước tính sẽ bao
gồm các thông số.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 6 Rev 7.0
- Khá i niêm vê
̣ ̀ khoang tin cây
̉ ̣
Mức đô tin cây
̣ ̣
25% 5%
25% ̉ ̣
Khoang tin cây 5%
50% 90%
z0.25 z0.25 z0.05 z0.05
=0.5(50%) ̉
Sai hong =0.1(10%)
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 7 Rev 7.0
- Khoang tin c
̉ ậy 90% có nghĩa là gì?
Nếu các mẫu riêng (kích cỡ = n) được lấy lặp lại từ một tâp h
̣ ợp và tính
khoảng tin cậy cho từng mẫu thì khoảng tin cậy sẽ thay đổi khi mỗi
mẫu có giá trị số trung bình khác nhau.
Mẫu 1
Mẫu 2
•
•
•
•
•
•
Mẫu 10
̣ ợp
Trung bình tâp h o
Khoang tin c
̉ ậy 90% nghĩa là 90% trong tổng số 10 khoang tin c
̉ ậy được
tính toán lặp lại có chứa số trung bình của tâp h
̣ ợp
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 8 Rev 7.0
- Có phai m
̉ ức tin cậy càng lớn thì sẽ càng tốt?
Mức tin cậy càng lớn nghĩa là phạm vi khoảng giá trị càng lớn, nghĩa là tăng
phạm vi cho các thông số. Vì vậy, mức tin cậy càng lớn thì giá trị thông tin sẽ
càng ít.
Ví dụ: khi ước lượng khoảng chiều cao trung bình của những người đàn ông
trưởng thành ở Viêt nam,
̣
• Trường hợp xác định khoảng giá trị của mức tin cậy từ 1,3m đến 2,3m
Khoảng giá trị này có thể có mức tin cậy cao bởi vì nó chứa tất cả các độ cao
xác suất, nhưng không có ý nghĩa thống kê bởi vì khoảng giá trị này quá rộng.
130 140 150 160 170 180 190 200 210 220 230
• Trường hợp xác định khoảng giá trị của mức tin cậy nằm giữa 1,6m tới
1,7m
• Khoảng giá trị này không bao gồm xác suất của giá trị thực là cao hơn, nghĩa là sai số
càng lớn. Vì vậy, mặc dù có ý nghĩa thống kê nhưng mức tin cậy lại giảm.
130 140 150 160 170 180 190 200 210 220 230
Nhìn chung, mức tin cậy được áp dụng rộng rãi nhất là 0,9; 0,95 và 0,99.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 9 Rev 7.0
- Tính khoảng tin cậy sử dụng phần mềm Minitab
Tính khoảng tin cậy cho dữ liệu liên tục
Dùng phần mềm minitab tính khoảng tin cậy (Tên file: Confidence Interval ex1.mtw)
Stat > Basic Statistics > Graphical Summary
1
Trườ
Tr ng hợ
ường h p có đa biế
ợp có đa bi n số
ến s ố thì tính
thì tính
thống kê của mỗi biến số
th ố ng kê c ủ a mỗ i bi ến s ố
2 Nhậ
Nh p vào mứ
ập vào m c tin cậ
ức tin c y mà bạ
ậy mà b ạn
n
mu ố n đ ạ t đ
muốn đạt được. ượ c.
3
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 10 Rev 7.0
- Biêu đô
̉ ̀ kế t
quả
S ummary fo r S ale s Vo lume
Ande rs on Da rling Norm a lity Te s t
A S qua re d 0.53
P Va lue 0.151
Me a n 169.50
S tDe v 41.97
Va ria nc e 1761.11
S ke wne s s 0.856274
Kurtos is 0.341247
N 20
Minim um 120.00
1s t Qua rtile 131.00
Me dia n 169.00
3rd Qua rtile 192.00
120 160 200 240 280 Ma xim um 271.00
95% Confide nc e Inte rva l for Me a n
1
149.86 189.14
2 95% Confide nc e Inte rva l for Me dia n
135.18 190.82
9 5 % Co n f id e n c e In t e rv a ls
3 95% Confide nc e Inte rva l for S tDe v
31.91 61.29
Me a n
1.1.Ướ ̉ ̉ ậậ y cho sốố
c ti
c tính khoang tin c y cho s trung
Ướ ́nh khoang tin c trung
bình. (Khoảả ng tin cậậ
bình. (Kho ng tin c y 95%): Phân bô
Me d ia n
y 95%): Phân bố ́
t
130 140 150 160 170 180 190 t
Ướ ̉ ̉ ậậy cho sốố trung vị. ị.
2. 2. Ước ti
c tính khoang tin c y cho s trung v
́nh khoang tin c
(Kho ả ng tin c ậy 95%)
(Khoảng tin cậy 95%)
Ướ
3. 3. ̉ ̉ ậậ ộộ l l
ệệch
Ước ti
c tính khoang tin c
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 11 y cho đ
́nh khoang tin c y cho đ ch Rev 7.0
- Tính khoảng tin cậy cho dữ liệu rờ i rac̣
Tí nh khoang tin cây cua
̉ ̣ ̉ của tỉ lệ tổng thể của một tập hợp
Ví dụ: Một trạm phát sóng truyền hình cáp tiến hành một cuộc khảo sát qua điện
thoại, trạm chọn ngẫu nhiên 1.500 khán giả trên toàn quốc để điều tra tỉ lệ
̉ ́n cho chương trình mới phát. Khi chương trình phát sóng, người
phô biê
khảo sát đã gọi điện và biết rằng có 630 người trong số những khán giả
được khảo sát đang xem chương trình. Hãy tính khoang tin c
̉ ậy 95% cho tính
̉ ́n cua ch
phô biê ̉ ương trình được ước tính.
Stat > Basic Statistics > 1 Proportion
3
1
Khi nhậ
Khi nh p dữ
ập d liệ
ữ li ệu
u
vào c ộ t b ảng tính.
vào cột bảng tính. 2
4
5
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 12 Rev 7.0
- Xá c nhân kê
̣ ́ t quả
Test and CI for One Proportion
Test of p = 0.5 vs p not = 0.5
Exact
Sample X N Sample p 95% CI PValue
1 630 1500 0.420000 (0.394867, 0.445447) 0.000
Chúng ta có th
Chúng ta có thểể tin c
tin cậậy 95% r
y 95% rằằng tính
ng tính
phô biê
̉
phô biê
̉ ́ n c ủ a ch ươ ng trình n ằ m trong
́ n của chương trình nằm trong
kho
khoảảng 39,5% đ
ng 39,5% đếến 44,5%
n 44,5%
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 13 Rev 7.0
- Tính khoảng tin cậy cho dữ liệu rờ i rac̣
Tí nh khoang tin cây cua c
̉ ̣ ̉ ủa tỉ lệ tổng thể của hai tập hợp kha ́c
nhau
Ví d ụ: Chúng ta sẽ so sánh sự khác nhau trong tỉ lệ doanh số bán sản phẩm giữa
hai công ty sản xuất, một công ty đã bán được 300 sản phẩm G/Red trên tổng
số 1000 sản phẩm và công ty kia đã bán được 200 trên tổng số 1200 sản phẩm.
̉
Hãy tính khoang tin c ậy 95% cho sự chênh lệch trong tỉ lệ doanh số bán giữa
hai công ty.
Stat > Basic Statistics > 2 Proportions
3
1
4
2
5
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 14 Rev 7.0
- Xác nhận các kết quả
Test and CI for Two Proportions
Sample X N Sample p
1 300 1000 0.300000
2 200 1200 0.166667
Difference = p (1) p (2)
Estimate for difference: 0.133333
95% CI for difference: (0.0979593, 0.168707)
Test for difference = 0 (vs not = 0): Z = 7.39 PValue = 0.000
Chúng ta có th
Chúng ta có thểể tin c
tin cậậy 95 % r
y 95 % rằằng
ng
sự chênh l ệch khuy ế t t ậ t gi
sự chênh lệch khuyết tật giữa các ữa các
dây chuy
dây chuyềền s
n sảản xu
n xuấất c
t củủa hai công ty
a hai công ty
là n
là nằm trong khoảng 9,79% đếến n
ằm trong kho ả ng 9,79% đ
16,8%
16,8%
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 15 Rev 7.0
- Cách sử dụng khoang tin c
̉ ậy
Cách sử dụng và giải thí ch khoang tin c
̉ ậy
̉ ̣ chứ ng minh sự viêc̣ đã biết hoăc
̣ ̀ rất hữu ích trong viêc
Tính toán khoang tin cây la ̣
mong đợi sẽ được biết.
Ví dụ: Hãy giả sử rằng số trung bình được xác định của một quá trình đang tồn tại là 10.
Nếu khoảng tin cậy 95% của quá trình này có tính đến những sai số mẫu là 9,05 tới
10,34 thì có thể tin cậy giá trị trung bình giả thiết của 10 nằm trong khoảng tin cậy.
Nếu giá trị giả thiết không nằm trong khoảng tin cậy, chúng ta có thể nói rằng giá trị
đó là sai.
̉ ̣
Khoang tin cây co ̉ chứ ng minh có hay không dữ liêu đ
̀n được sử dung đê
̣ ̣ ược lấ y ra
từ cù ng môt tâp h
̣ ̣ ợp.
Ví dụ: Trong trường hợp lấy từ 2 hay nhiều nhóm mẫu thì các số trung bình hay độ lệch
chuẩn của nhóm mẫu từ cùng một tâp h ̣ ợp nên giống nhau. Vì vậy, nếu khoảng tin cậy
cho sự chênh lệch giữa các mẫu bao gồm 0 (số không biểu thị không có sự chênh lệch)
thì coi như các mẫu được lấy từ cùng tâp h ̣ ợp.
Bất kỳ sự thay đổi tới một quá trình hay một sản phẩm nào sẽ gây ra sự thay đổi trong
̣ ợp. (Các tâp h
tâp h ̣ ợp trước và sau khi thay đổi sẽ khác nhau). Trong trường hợp này,
hãy thu thập dữ liệu cả trước và sau khi thay đổi và tính khoảng tin cậy cho sự chênh
lệch này. Nếu khoảng tin cậy có chứa 0 (số không) thì coi như tâp ḥ ợp đó vẫn duy trì
những đặc tính giống nhau trước và sau khi thay đổi và sau khi thay đổi tâp h
̣ ợp không
bị ảnh hưởng gì.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 16 Rev 7.0
- Sự phân bố cua mâ
̉ ̃u
Loai phân bố
̣̣
Loai phân bố
Loai r
̣ ̣ ơờ̀i rac
Loai r ̣̣
i rac Loai liên tuc
̣̣ ̣̣
Loai liên tuc
(Xa
(Xá c suâ
́ c suấ t phân bô
́ t phân bố r
́ rơờ i rac)
̣ ̣
̀ i rac) (Xa
(Xá c suâ
́ c suấ t phân bô
́ t phân bố liên tuc)
̣ ̣
́ liên tuc)
Liên
Phân bô
Phân bố́ Phân bô
Phân bố́ Phân bô
Phân bố́ th ườ̀ng
thươ ng Weibull distribution
Weibull distribution
{
quan tới
Binomial
Binomial Poisson
Poisson số trung
bình Phân bô
Phân bố́ t t
Liên quan Phân bố
Phân bố
2
tới biến
thiên { Phân bô
Phân bố́ F
F
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 17 Rev 7.0
- Thử nghiêm gia thuyê
̣ ̉ ́t
Môt ph
̣ ương phá p chứ ng minh nhữ ng khăng đinh hay ca
̉ ̣ ́ c dữ
liêu gia thuyê
̣ ̉ ́ t.
̉ ́c đinh ro
Phai xa ̣ ̃ ràng những khăng đinh hay ca
̉ ̣ ́c dữ liêu gia
̣ ̉
thuyết.
Ví du)
Cḥ ứng minh chúng sử dung ca
̣ ́c dữ liêu thô
̣ ́ng kê
Sự viêc ban muô
̣ ̣ ́n biết là :
San l̉ ượng trung bình cua môt dây chuyê
̉ ̣ ̉
̀n san xuâ ̣
́t bánh xốp tai công
̣
đoan A la ̀ 98.5% hay cao hơn?
Ti lê lô
̉ ̣ ̃i thi tr
̣ ường cua san phâm B la
̉ ̉ ̉ ̀ 3% hay thấp hơn?
Những khăng đinh mang ti
̉ ̣ ́nh chất tuyên bố :
Máy đóng gói mới vừa được giới thiêu thi
̣ ̉ ̣ ̃i thấp hơn
̀ có ti lê lô
những máy đang sử dung.
̣
Nhân tố tiềm năng X ảnh hưởng đến Y.
Công cu na
̣ ̀ o nên được sử dung đê ch
̣ ̉ ứ ng minh nhữ ng sự kiên hay
̣
nhữ ng khăng đinh?
̉ ̣
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 18 Rev 7.0
- Tông quan vê
̉ ̀ thử nghiêm gia thuyê
̣ ̉ ́t
Đinh nghi
̣ ̃ a cua gia thuyê
̉ ̉ ́ t thử nghiêm
̣
̣
Môt ph ương pháp thống kê dùng đê quyê
̉ ̣
́t đinh châ ̣ ̣
́p nhân hay loai bo ̉
̣ ự đánh giá, môt s
môt s ̣ ự phong đoa
̉ ̣ ̉ ̣
́n hay môt khăng đinh liên quan đê ́n
̣
môt tham sô ̣
́ bằng viêc phân tích các mẫu dữ liêu đ̣ ược quan sát
Gia thuyê
̉ ́ t :
̉ ử hay khăng đinh.. tu
Gia s ̉ ̣ ̣
̀y thuôc va ̣ ́nh cua tâp h
̀o đăc ti ̉ ̣ ợp Mẫu
Thố ng kê gia thuyê
̉ ́ t thử nghiêm
̣ Mẫu
̣
(Liêu ph ương pháp đó có ý nghĩa không?) Mẫu
Tâp h
̣ ợp
Lấ y mẫ u
Muc đi
̣ ́ ch
̉ ử nghiêm thô
Đê th ̣ ̉
́ng kê có hay không biến số đầu vào X anh hưởng đến đầu ra
Y.
Đó là, thử nghiêm co
̣ ̣ ̀u ra Y thay đôi, khi biê
́ hay không giá tri đâ ̉ ́n số đầu vào X
̉
thay đôi.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 19 Rev 7.0
- Tai sao phai th
̣ ̉ ực hiên gia thuyê
̣ ̉ ́ t thử nghiêm ?
̣
̉
Rất khó đê quyê ̣
́t đinh nh ững khăng đinh vê
̉ ̣ ̀ tham số bằng trực
quan.
̉
Gia thuyê ́t thử nghiêm khiê
̣ ́n những đánh giá chu quan đ
̉ ược kiêm
̉
chứng môt ca
̣ ́ch khách quan.
Thông qua gia thuyê
̉ ́ t thử nghiêm, moi ng
̣ ̣ ườ i đề u có chung
môt kê
̣ ́ t luân!!!
̣
Bởi vì phương pháp chứng minh gia thuyê
̉ ́t dựa vào những dữ
̣ ̉
liêu cua nho ̣ ̉
́m mẫu, do đó vẫn luôn tồn tai kha năng sai l ỗi. Bởi
̣ ̉
vây, trong gia thuyê ́t thử nghiêm thô
̣ ̣
́ng kê, điều quan trong nhất là
̉
cách quan ly ́ những kha năng cua nh
̉ ̉ ững lỗi có thê mă
̉ ́c phai
̉
trước đó. Do đó, phương pháp gia thuyê
̉ ́t thử nghiêm xa
̣ ̣
́c đinh
trước những kha năng lô
̉ ̉ ̀ quyết đinh liêu co
̃i có thê va ̣ ̣ ̣
́ chấp nhân
̣ ̉
hay loai gia thuyê ́t đó.
Proprietary to Samsung Electronics Company Estimation and Hypothesis Test 20 Rev 7.0
nguon tai.lieu . vn