- Trang Chủ
- Toán học
- Giáo trình Xác suất thống kê: Phần 2 - ĐH Sư phạm kỹ thuật Nam Định
Xem mẫu
- 98 Giáo trình Xác suất thống kê
Chƣơng 3: LÝ THUYẾT ƢỚC LƢỢNG
3.1. LÝ THUYẾT MẪU
3.1.1. Khái niệm về mẫu ngẫu nhiên, thống kê mô tả
Trong thực tế, ngƣời ta thƣờng phải nghiên cứu một tập hợp các phần tử đồng
nhất theo một hay nhiều dấu hiệu định tính hoặc định lƣợng đặc trƣng cho các phần tử
đó. Chẳng hạn, một doanh nghiệp phải nghiên cứu tập hợp các khách hàng của nó thì
dấu hiệu định tính có thể là mức độ hài lòng của khách hàng đối với sản phẩm hoặc
dịch vụ của doanh nghiệp, còn dấu hiệu định lƣợng là nhu cầu của khách hàng về số
lƣợng sản phẩm của doanh nghiệp.
Để nghiên cứu tập hợp các phần tử này theo một dấu hiệu nhất định đôi khi
ngƣời ta sử dụng phƣơng pháp nghiên cứu toàn bộ, tức là thống kê toàn bộ tập hợp đó
và phân tích từng phần tử của nó theo dấu hiệu nghiên cứu. Chẳng hạn để nghiên cứu
dân số của một nƣớc theo các dấu hiệu nhƣ tuổi tác, trình độ văn hoá địa bàn cƣ trú, cơ
cấu nghề nghiệp . . . có thể tiến hành tổng điều tra dân số và phân tích từng ngƣời theo
các dấu hiệu trên, từ đó tổng hợp thành dấu hiệu chung cho toàn bộ dân số của nƣớc
đó. Tuy nhiên trong thực tế phƣơng pháp này gặp phải những khó khăn chủ yếu sau:
- Nếu quy mô của tập hợp quá lớn thì việc nghiên cứu toàn bộ sẽ đòi hỏi nhiều
chi phí vật chất và thời gian.
- Nhiều khi cũng do quy mô của tập hợp quá lớn nên có thể xảy ra trƣờng hợp
tính trùng hoặc bỏ sót các phần tử của nó.
- Do quy mô nghiên cứu lớn mà trình độ tổ chức nghiên cứu lại hạn chế dẫn đến
các sai sót trong quá trình thu thập thông tin ban đầu, hạn chế độ chính xác của kết quả
phân tích.
- Trong nhiều trƣờng hợp không thể nắm đƣợc toàn bộ các phần tử của tập hợp
cần nghiên cứu, do đó không thể tiến hành nghiên cứu toàn bộ đƣợc. . . . . . . . .
Vì thế trong thực tế phƣơng pháp nghiên cứu toàn bộ thƣờng chỉ đƣợc áp dụng
đối với các tập hợp có quy mô nhỏ, còn chủ yếu ngƣời ta áp dụng phƣơng pháp nghiên
cứu không toàn bộ, đặc biệt là phƣơng pháp nghiên cứu chọn mẫu. Phƣơng pháp này
chủ trƣơng từ tập hợp cần nghiên cứu chọn ra một số phần tử (gọi là mẫu), phân tích
các phần tử này và dựa vào đó mà suy ra các kết luận về tập hợp cần nghiên cứu. Giả
- Trƣờng ĐHSPKT Nam Định 99
sử theo một phƣơng pháp nào đó từ tổng thể lấy ra n phần tử tạo nên mẫu kích thước
n. Nếu mẫu đƣợc chọn ra một cách ngẫu nhiên và xử lý bằng các phƣơng pháp xác
suất thì vừa thu đƣợc các kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn đảm bảo
độ chính xác cần thiết.
Việc thu thập, sắp xếp và trình bày các số liệu của tổng thể hoặc một mẫu gọi là
thống kê mô tả. Còn việc sử dụng thông tin của mẫu để tiến hành các suy đoán, kết
luận về tổng thể gọi là thống kê suy diễn.
Giả sử mẫu kích thƣớc N từ tổng thể nghiên cứu có dấu hiệu là biến ngẫu nhiên
X, đƣợc lập theo phƣơng pháp chọn mẫu ngẫu nhiên đơn giản. Với cách chọn mẫu
này, mỗi lần chọn một phần tử của mẫu nhƣ làm một phép thử độc lập rút ngẫu nhiên
một giá trị của X từ tập các giá trị của nó. Rút ngẫu nhiên đƣợc hiểu là rút phù hợp với
luật phân phối xác suất của X nghĩa là xác suất để giá trị đƣợc rút đó thuộc bộ phận
nào đó, bằng xác suất của X thuộc bộ phận đó. Vì vậy ta có thể coi thành phần thứ i
trong mẫu là biến ngẫu nhiên Xi có cùng luật phân phối của X.
Định nghĩa: Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc
lập X1 , X2 , . . . , Xn được thành lập từ biến ngẫu nhiên gốc X trong tổng thể nghiên
cứu và có cùng phân phối xác suất với X.
Mẫu ngẫu nhiên thƣờng đƣợc ký hiệu là:
W = (X1 , X2 , . . . , Xn)
Giả sử một giá trị của nó là: X1 = x1 , X2 = x2 , . . . , Xn = xn. Tập hợp n giá trị x1,
x2, . . . , xn tạo thành một giá trị của mẫu ngẫu nhiên, hay còn gọi là một mẫu cụ thể,
ký hiệu: w = (x1 , x2 , . . . , xn)
Nhƣ vậy, mẫu ngẫu nhiên là tập hợp của n biến ngẫu nhiên, còn mẫu cụ thể là tập
hợp của n giá trị cụ thể quan sát đƣợc khi thực hiện một phép thử đối với mẫu ngẫu
nhiên.
Ví dụ 1: Khi nghiên cứu chiều cao của một cộng đồng ngƣời, gọi X là ĐLNN chỉ
chiều cao. Chúng ta dự định đo chiều cao của 100 ngƣời đƣợc chọn ngẫu nhiên. Trƣớc
khi chƣa tiến hành chọn mẫu, ta chƣa biết đƣợc ngƣời thứ nhất đƣợc chọn vào mẫu có
chiều cao là bao nhiêu, nó đóng vai trò là một ĐLNN, ký hiệu X1, có cùng phân phối
xác suất với X. Tƣơng tự, ta có chiều cao của ngƣời thứ 100 là X100. Khi đó bộ (X1,
- 100 Giáo trình Xác suất thống kê
X2, ..., X100) là một mẫu tổng quát có kích thƣớc 100. Sau khi đo đạc ta sẽ xác định
đƣợc các giá trị của Xi là xi, khi đó bộ số thực (x1, x2, ..., x100) là một mẫu cụ thể.
3.1.2. Các phƣơng pháp lấy mẫu
Có nhiều phƣơng pháp chọn mẫu khác nhau, nhƣng khó có thể nói rằng phƣơng
pháp nào là tốt nhất. Tùy thuộc vào đặc điểm của từng tổng thể nghiên cứu mà mẫu có
thể đƣợc chọn theo nhiều phƣơng pháp khác nhau để đảm bảo yêu cầu về tính đại diện
của mẫu. Sau đây là một số phƣơng pháp chọn mẫu chủ yếu thƣờng đƣợc sử dụng để
nghiên cứu các tổng thể kinh tế – xã hội.
a) Chọn mẫu đơn giản
Là phƣơng pháp chọn trực tiếp từ danh sách các phần tử đã đƣợc đánh số của
tổng thể. Từ tổng thể kích thƣớc N ngƣời ta dùng cách rút thăm đơn giản ra n phần tử
của mẫu theo một bảng số ngẫu nhiên nào đó. Khi đó mỗi phần tử của đám đông đều
có thể đƣợc chọn vào mẫu với cùng khả năng nhƣ nhau
Việc chọn mẫu kiểu này có 2 phƣơng thức chọn: chọn có hoàn lại và chọn không
hoàn lại. Khi số phần tử N của tổng thể rất lớn so với kích thƣớc mẫu n thì kết quả lấy
mẫu theo 2 phƣơng thức trên là sai lệch không đáng kể.
Phƣơng pháp này có ƣu điểm là cho phép thu đƣợc một mẫu có tính đại diện cao,
cho phép suy rộng kết quả của mẫu cho tổng thể với một sai số nhất định, song để vận
dụng phải có đƣợc toàn bộ danh sách các phần tử của tổng thể nghiên cứu. Mặt khác
chi phí chọn mẫu sẽ khá lớn
b) Chọn mẫu phân nhóm
Trong chọn mẫu phân nhóm, trƣớc hết ngàu ta phân chia tổng thể ra thành các
nhóm có độ thuần nhất cao để chọn ra các phần tử đại diện cho từng nhóm. Việc phân
nhóm có hiệu quả khi tổng thể nghiên cứu không thuần nhất theo dấu hiệu nghiên cứu.
Sau khi đã phân nhóm thì kích thƣớc mẫu đƣợc phân bổ cho mỗi nhóm theo một quy
tắc nào đó, chẳng hạn tỷ lệ thuận với kích thƣớc mỗi tổ
c) Chọn mẫu chùm
Trong một số trƣờng hợp, để tiện cho việc nghiên cứu ngƣời ta muốn quy diện
nghiên cứu gọn về một khu vực nhất định chứ không để cho các phần tử của mẫu phân
tán quá rộng, chẳng hạn tập trung nghiên cứu khách hàng tại một địa phƣơng nào đó.
Lúc đó mẫu đƣợc chọn theo chùm. Chẳng hạn, chùm có thể là hộ gia đình có nhiều
ngƣời, một làng có nhiều hộ gia đình . . . Theo phƣơng pháp này, trƣớc tiên tổng thể
điều tra đƣợc phân chia ra thành nhiều chùm theo nguyên tắc:
- Trƣờng ĐHSPKT Nam Định 101
- Mỗi phần tử của tổng thể chỉ đƣợc phân vào một chùm.
- Mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiên cứu,
sao cho nó có độ phân tán cao nhƣ của tổng thể.
- Phân chia sao cho các chùm tƣơng đối đồng đều nhau về quy mô.
Các chùm đƣợc chọn một cách ngẫu nhiên và tất cả các phần tử của chùm đó đều
đƣợc chọn vào mẫu.
Phƣơng pháp này có thể tiết kiệm chi phí và thời gian, nhƣng sai số chọn mẫu
cao hơn các phƣơng pháp trên.
d) Chọn mẫu có suy luận
Phƣơng pháp chọn mẫu này dựa trên ý kiến của các chuyên gia về đối tƣợng
nghiên cứu. Nhƣợc điểm của phƣơng pháp này là khó đảm bảo tính khách quan.
3.1.3. Bảng phân phối thực nghiệm
Giả sử từ tổng thể với biến ngẫu nhiên gốc X rút ra một mẫu cụ thể kích thƣớc n,
trong đó:
giá trị x1 xuất hiện n1 lần, x2 xuất hiện n2 lần, . . . , xk xuất hiện nk lần.
x1 < x2 < . . . < xk và n1 + n2 + . . . + nk = n
Khi đó:
ni đƣợc gọi là tần số của xi
ni
fi = n đƣợc gọi là tần suất xuất hiện của xi
Các bảng mô tả số liệu sau đây đƣợc gọi là bảng phân phối thực nghiệm
Bảng phân phối tần số thực nghiệm:
xi x1 x2 ... xk
ni n1 n2 ... nk
với n 1 + n2 + . . . + n k = n
Bảng phân phối tần suất thực nghiệm:
xi x1 x2 ... xk
fi f1 f2 ... fk
ni
với fi = , f1 + f2 + . . . + fk = 1
n
- 102 Giáo trình Xác suất thống kê
Ví dụ 3: Điều tra thời gian đợi phục vụ của khách hàng tại một ngân hàng (đơn
vị: phút), ngƣời ta chọn ngẫu nhiên 10 ngƣời, kết quả thu đƣợc nhƣ sau: 9, 8, 10, 10,
12, 6, 11, 10, 12, 8.
Khi đó:
Bảng phân phối tần số thực nghiệm Bảng phân phối tần suất thực nghiệm
xi 6 8 9 10 11 12 xi 6 8 9 10 11 12
ni 1 2 1 3 1 2 fi 0.1 0.2 0.1 0.3 0.1 0.2
Chú ý: Khi kích thƣớc của mẫu lớn, các giá trị của mẫu khá gần nhau, ngƣời ta
chia các giá trị của mẫu thành các lớp và lập bảng phân phối thực nghiệm của mẫu lớp.
Ví dụ 4: Đo chiều cao của 300 học sinh 12 tuổi, ta thu đƣợc bảng số liệu sau:
Lớp
Tần số ni Tần suất fi
(chiều cao cm)
117,5 – 122,5 9 0,030
122,5 – 127,5 33 0,110
127,5 – 132,5 74 0,247
132,5 – 137,5 93 0,310
137,5 – 142,5 64 0,213
142,5 – 147,5 21 0,070
147,5 – 152,5 6 0,020
Chú ý:
- Thông thƣờng ngƣời ta phân chia số liệu thành từ 5 đến 15 lớp. Nếu số liệu
nhiều hơn có thể giúp phân tích tốt hơn, nhƣng sự cải thiện không nhiều, nếu số
lớp quá ít các thông tin có thể bị mất khi xử lý.
- Giữa 2 lớp liền nhau [ai-1– ai] và [ai – ai+1] thì chúng ta quy ƣớc phần tử ai đếm
cho lớp [ai-1 – ai].
- Một bảng phân phối theo lớp có thể đƣa về bảng phân phối thực nghiệm bằng
a i 1 a i
phép lấy trung bình cộng của mỗi lớp, tức là xi = .
2
Chẳng hạn với bảng số liệu phân lớp ở ví dụ 4, ta có bảng phân phối tần số thực
nghiệm tƣơng ứng:
- Trƣờng ĐHSPKT Nam Định 103
xi 120 125 130 135 140 145 150
ni 9 33 74 93 64 21 6
3.1.4. Các đặc trƣng mẫu
Xét một mẫu ngẫu nhiên (X1, X2 , . . . , Xn) có bảng phân phối tần số thực nghiệm
nhƣ sau:
xi x1 x2 ... xk
ni n1 n2 ... nk
trong đó: n1 + n2 + . . . + nk = n
1 n
* Trung bình mẫu (Kỳ vọng mẫu): X Xi
n i1
Giả sử biến ngẫu nhiên gốc X của tổng thể có EX = ; VX = 2. Do X1 , X2 , . . . , Xn
là các biến ngẫu nhiên độc lập cùng phân phối nhƣ X, nên trung bình mẫu X cũng là
một biến ngẫu nhiên và:
1 n 1
EX
n i1
EXi n EX
n
1 n
1 2
VX 2
n
VXi n 2 n VX n
i 1
Thực hiện phép thử đối với X sẽ thu đƣợc giá trị trung bình mẫu cụ thể, ký hiệu giá
trị này là x , và đƣợc tính bằng công thức sau:
1 k
x xi ni
n i1
Chú ý: Không gây hiểu nhầm về mặt ý nghĩa X là biến ngẫu nhiên còn x là giá trị mà
biến ngẫu nhiên đó nhận, đôi khi ta vẫn dùng chung là X . Khi đó X cũng vẫn có thể
hiểu là giá trị trung bình mẫu của X.
* Phƣơng sai mẫu:
Xi X
n
1 2
S2 =
n i 1
- 104 Giáo trình Xác suất thống kê
Phƣơng sai mẫu S2 cũng là biến ngẫu nhiên, ta có thể chỉ ra:
n 1 n 1 2
ES2 = VX =
n n
Thực hiện phép thử đối với S2 ta thu đƣợc giá trị phương sai mẫu cụ thể:
k
xi x ni x 2 x
1 2 2
S2 =
n i 1
Chú ý: Độ lệch chuẩn mẫu là S S2 .
* Phƣơng sai mẫu hiệu chỉnh:
- Vì giá trị trung bình của S2 không đúng bằng 2 do đó nhiều khi thay cho phƣơng sai
mẫu, ta dùng phƣơng sai mẫu hiệu chỉnh, ký hiệu s2 để có Es2 = VX = 2.
1 n
Xi X n 2
2
s2 S
n 1 i1 n 1
- Thực hiện phép thử đối với s2 sẽ thu đƣợc một giá trị gọi là phương sai mẫu hiệu
chỉnh cụ thể
1 k n 2
s2 xi x ni
2
S
n 1 i1 n 1
- Phƣơng sai mẫu hiệu chỉnh phản ánh độ phân tán của các giá trị của mẫu xung quanh
trung bình mẫu.
- Chú ý: Độ lệch chuẩn mẫu hiệu chỉnh là s s 2
1 n
* Tỷ lệ mẫu: F Xi
n i1
trong đó Xi là ĐLNN có phân phối nhị thức: Xi nhận giá trị 1 nếu phần tử thứ i chọn
vào mẫu có tính chất A và ngƣợc lại, nhận giá trị 0 nếu phần tử i chọn vào mẫu không
có tính chất A.
Nếu cho mẫu cụ thể ta sẽ tính đƣợc giá trị tỷ lệ mẫu cụ thể của F:
m
f
n
Vì các đại lƣợng ngẫu nhiên Xi ~ B(1,p), (i=1,2,...n) với p là xác suất xuất hiện A. Do
đó dễ dàng suy ra:
pq
E(F) = p; V(F) =
n
Chú ý:
- Trƣờng ĐHSPKT Nam Định 105
1) Cho biến ngẫu nhiên X có phân phối chuẩn N(, 2) và (x1, x2, …, xn) là mẫu
của X. Khi đó đại lƣợng thống kê:
n 1
Z= s2
2
có phân phối n21
2) Cho X tuân theo luật phân phối chuẩn N(μ, 2) và (x1, x2, …, xn) (n≥1) là
mẫu của X. Khi đó đại lƣợng thống kê:
X
t= n
s
có phân phối Student với n-1 bậc tự do
3.1.5. Cách tính các đặc trƣng mẫu
a) Tính trực tiếp:
1 k 1 k 2
x i i
n i1
x n ; x 2
xi ni
n i1
2
Suy ra: S2 = x 2 x
n
s2 = S2
n 1
Ví dụ 5: Cho bảng phân phối thực nghiệm:
xi -2 1 2 3 4 5
ni 2 1 2 2 2 1
Tính trung bình mẫu, phƣơng sai mẫu và phƣơng sai mẫu hiệu chỉnh?
Giải:
Ta lập bảng:
xi ni xini xi2ni
-2 2 -4 8
1 1 1 1
2 2 4 8
3 2 6 18
4 2 8 32
5 1 5 25
Tổng n = 10 x n i i = 20 x 2
i n i = 92
- 106 Giáo trình Xác suất thống kê
Suy ra:
1 k 20
x
n i1
xini =
10
=2
1 k 2 92
x2
n i1
xi ni =
10
= 9,2
2
S2 = x 2 x = 9,2 – 22 = 5,2
n 10
s2 = S2 = .5,2 = 5,7778
n 1 9
Chú ý: Nếu dữ liệu cho ở dạng mẫu lớp, ta chỉ có thể tính gần đúng các đặc trƣng mẫu
a i 1 a i
bằng cách thay lớp [ai-1 – ai] bằng một đại diện xi =
2
Ví dụ 6: Lƣợng xăng hao phí của một ô tô đi từ A đến B sau 30 lần chạy, kết quả thu
đƣợc nhƣ sau:
Lƣợng xăng hao phí (lít) 9,6 -9,8 9,8 -10 10-10,2 10,2-10,4 10,4-10,6
Số lần tƣơng ứng 3 5 10 8 4
Giải:
Ta lập bảng:
Lớp xi ni xini xi2ni
9,6-9,8 9,7 3 29,1 282,27
9,8-10 9,9 5 49,5 490,05
10-10,2 10,1 10 101 1020,1
10,2-10,4 10,3 8 82,4 848,72
10,4-10,6 10,5 4 42 441
Tổng n = 30 x n i i = 304 x 2
i n i = 3082,14
Suy ra:
1 k 304
x
n i1
xi ni =
30
= 10,1333
1 k 2 3082,14
x2
n i1
xi ni =
30
= 102,738
- Trƣờng ĐHSPKT Nam Định 107
S2 = x 2 x = 102,738 – (10,1333)2 = 0,05423
2
n 30
s2 = S2 = .0,05423 = 0,0561
n 1 29
b) Tính gián tiếp: Khi dữ liệu lớn phức tạp và cách đều nhau ta có thể biến đổi
để giảm độ phức tạp tính toán nhƣ sau:
Bước 1: Chọn giá trị x0 tuỳ ý thuộc vào mẫu (thƣờng ở giữa mẫu)
xi x0
Bước 2: Tính di= (trong đó h = xi – xi-1)
h
Bước 3: Tính n d i i ; n d i
2
i
Bước 4: Tính:
h
x x0
n
di n i
h2 2
n i d i n i d i
2 2 1
S =
n n
n
s2 = S2
n 1
Ví dụ 7: Tính các đặc trƣng mẫu của ví dụ 6 bằng phƣơng biến đổi.
Giải:
Dễ thấy các dữ liệu của mẫu cách đều nhau một khoảng là h = 0,2
Chọn giá trị x0 = 10,1
Khi đó ta có bảng sau:
Lớp xi di ni dini di2ni
9,6-9,8 9,7 -2 3 -6 12
9,8-10 9,9 -1 5 -5 5
10-10,2 10,1 0 10 0 0
10,2-10,4 10,3 1 8 8 8
10,4-10,6 10,5 2 4 8 16
Tổng n = 30 d n
i i =5 d n
2
i i = 41
Suy ra:
- 108 Giáo trình Xác suất thống kê
h
0,2
x x0 di n i = 10,1 + .5 = 10,1333
n 30
h2 2 (0,2) 2
S2 = 2 1
nidi nidi = 41 5 2 = 0,05423
1
n n 30 30
n
s2 = S2 = 0,0561
n 1
c) Tính bằng máy tính điện tử
Ví dụ 8: Kết quả thi môn Toán của 10 sinh viên lớp A nhƣ sau:
Điểm 6 7 8 9 10
Số sinh viên 2 4 2 1 1
Tính kỳ vọng mẫu, phƣơng sai mẫu, phƣơng sai mẫu hiệu chỉnh ?
Giải:
Bước 1: Chuyển số máy tính về chế độ thống kê
Trên Casio fx-500MS: ON MODE 2
Trên Casio fx-570MS: ON MODE MODE 1
Bước 2: Nhập số liệu (các thao tác trên 2 máy là nhƣ nhau)
Sau khi bấm phím ON MODE 2 trên Casio fx-500MS và ON MODE MODE 1
trên Casio fx-570MS (vào chƣơng trình thống kê) và khai báo các số liệu cùng với tần
số:
Bấm phím: 6 SHIFT ; 2 DT 7 SHIFT ; 4 DT
8 SHIFT ; 2 DT 9 SHIFT ; 1 DT 10 SHIFT ; 1 DT
Mỗi khi khai báo xong một số liệu cùng với tần số của nó, máy sẽ tự động đếm
các số liệu đƣợc đƣa vào. Thí dụ, sau khi bấm phím 6 SHIFT ; 2 DT, màn hình sẽ hiện
n = 2 , tức là đã có 2 số liệu đƣợc khai báo (cùng bằng 6); Sau khi bấm phím tiếp 7
SHIFT ; 4 DT, màn hình sẽ hiện n = 6 , tức là đã có 6 số liệu đƣợc khai báo (hai số
liệu cùng bằng 6 và bốn số liệu cùng bằng 7). Sau khi khai báo xong toàn bộ các số
liệu, màn hình sẽ hiện n = 10 , nghĩa là: Tập hợp các số liệu gồm 10 giá trị.
Tính độ dài mẫu: Bấm phím: SHIFT S-SUM 3 = (kết quả: n = 10). Chứng tỏ
kích thƣớc mẫu bằng 10 (số các giá trị của mẫu là 10)
- Trƣờng ĐHSPKT Nam Định 109
Tính tổng số liệu: Bấm phím: SHIFT S-SUM 2 = (kết quả: ) tổng số liệu
bằng 75
Tính tổng bình phƣơng số liệu: Bấm phím: SHIFT S-SUM 1 = (kết quả: )
tổng bình phƣơng số liệu bằng 577
Tính giá trị trung bình: Bấm phím: SHIFT S-VAR 1 = (kết quả: ) x = 7,5
Tính độ lệch chuẩn: Bấm phím: SHIFT S-VAR 2 = (kết quả: )
S = 1,2041594598
Tính phƣơng sai: Bấm tiếp phím: x2 = (kết quả: )
S2 = 1,45
Tính độ lệch chuẩn hiệu chỉnh: Bấm phím: SHIFT S-VAR 3 = (kết quả: )
s = 1,269265518
Tính phƣơng sai hiệu chỉnh: Bấm tiếp phím: x2 = (kết quả: )
s2 = 1,611111111
Chú ý:
- Khi khai báo 6 SHIFT ; 2 DT, nghĩa là khai báo giá trị x1 = 6 có tần số là 2.
- Nếu bấm phím thì màn hình hiện ra Freq5 = 1, nghĩa là tần số của số liệu
thứ 5 (x = 10) là 1.
- Bấm tiếp phím: Màn hình hiện ra x5 = 10, nghĩa là số liệu thứ 5 có giá trị là
10.
Tƣơng tự, sử dụng phím, ta có thể kiểm tra tất cả các dữ liệu đƣợc đƣa vào
đã đúng hay chƣa và chúng có tần số là bao nhiêu.
- Có thể tham khảo phụ lục 2 đối với các loại máy tính khác.
3.2. KHÁI NIỆM ƢỚC LƢỢNG ĐIỂM
3.2.1. Khái niệm ƣớc lƣợng
Giả sử khi nghiên cứu ĐLNN X và biết đƣợc phân phối của X thuộc một họ phân
phối nào đó (chẳng hạn biết X có phân phối chuẩn hoặc biết X có phân phối Poisson,
... nhƣng lại không biết các tham số). Muốn xác định hoàn toàn phân phối của X ta
phải xác định đƣợc các giá trị tham số của phân phối đó.
Trong trƣờng hợp chƣa biết gì về phân phối của ĐLNN X thì việc biết đƣợc các
giá trị đặc trƣng của X cũng cho ta biết đƣợc nhiều thông tin. Chính vì vậy, việc đi tìm
- 110 Giáo trình Xác suất thống kê
các ƣớc lƣợng cho các tham số của phân phối hoặc ƣớc lƣợng cho các giá trị đặc trƣng
của X là rất cần thiết.
Giả sử mẫu ngẫu nhiên (X1 , X2 , . . . , Xn) có tập giá trị (mẫu quan sát hay mẫu cụ thể)
là (x1 , x2 , . . . , xn).
Định nghĩa: Một hàm của mẫu ngẫu nhiên:
T = T(X1 , X2 , . . . , Xn)
xác định trên tập các giá trị của mẫu ngẫu nhiên đƣợc gọi là một thống kê.
Nhƣ vậy mỗi thống kê cũng là một đại lƣợng ngẫu nhiên.
Khi cho mẫu cụ thể (x1 , x2 , . . . , xn) thì giá trị của T đƣợc xác định bởi:
T = T(x1 , x2 , . . . , xn).
Ví dụ 1: X , S2 , s2 là những thống kê.
Trên thực tế các tham số của tổng thể nhƣ: , 2, p là không biết, vì ta không thể nào
đi khảo sát hết tất cả các phần tử của tổng thể. Tuy nhiên nhiều bài toán thực tế chúng
ta cần phải ƣớc lƣợng chúng. Việc ƣớc lƣợng các tham số dựa trên một mẫu thống kê
(X1 , X2 , . . . , Xn) đƣợc gọi là bài toán ước lượng tham số.
3.2.2 Ƣớc lƣợng điểm
Để xác định hoàn toàn phân phối của X, ta phải xác định đƣợc các giá trị của
mà phân phối đó nhận.
Dựa vào các thông tin thu đƣợc từ một mẫu cụ thể (x1 , x2 , . . . , xn) của X, ta tìm
một thống kê $(x1 , x2 , . . . , xn) "đủ tốt” để thay thế tham số chƣa biết (hay ƣớc
lƣợng bằng $) đƣợc gọi là bài toán ước lượng điểm của .
Ví dụ 2:
X có phân phỗi chuẩn N( , 2) nhƣng , 2 bằng bao nhiêu chƣa biết. Ta cần
ƣớc lƣợng tham số = (,2).
Do giá trị đúng của chƣa biết nên ta không thể so sánh $ với để đánh giá chất
lƣợng của $. Vì vậy ngƣời ta đƣa ra các tiêu chuẩn sau:
3.2.3. Các tiêu chuẩn ƣớc lƣợng
a) Ƣớc lƣợng không chệch:
Định nghĩa: Thống kê $ đƣợc gọi là ƣớc lƣợng không chệch của nếu E $ =
Ngƣợc lại, nếu E $ thì $ đƣợc gọi là ƣớc lƣợng chệch của .
- Trƣờng ĐHSPKT Nam Định 111
Ý nghĩa: Ta thấy E( $ - ) = 0, tức là trung bình của độ lệch (sai số) giữa các
ƣớc lƣợng với giá trị thật bằng 0.
Ví dụ 3:
- Vì E( X ) = nên trung bình mẫu là ƣớc lƣợng không chệch của kỳ vọng (trung
bình tổng thể) .
- Vì E(s2) = 2 nên phƣơng sai mẫu hiệu chỉnh là ƣớc lƣợng không chệch của
phƣơng sai tổng thể 2.
- Vì E(F) = p nên tỷ lệ mẫu là ƣớc lƣợng không chệch của tỷ lệ tổng thể p.
2
- S2 là ƣớc lƣợng chệch của VX với độ chệch là .
n
Nhƣ vậy để ƣớc lƣợng kỳ vọng, phƣơng sai, tỷ lệ của tổng thể, ta có thể dùng những
đại lƣợng trung bình mẫu, phƣơng sai mẫu hiệu chỉnh, tỷ lệ mẫu của mẫu ngẫu nhiên.
Ví dụ 4: Cân 100 sản phẩm của xí nghiệp ta có bảng
xi (gr) 498 502 506 510
ni 40 20 20 20
Ta có trung bình mẫu là:
498.40 502.20 506.20 510.20
x 502,8 (gr)
100
Theo nhận xét trên ta dự đoán (ƣớc lƣợng) trọng lƣợng trung bình của sản phẩm trong
xí nghiệp là = 502,8 (gr).
- 112 Giáo trình Xác suất thống kê
b) Ƣớc lƣợng vững
Định nghĩa: Thống kê $ (x1 , x2 , . . . , xn) đƣợc gọi là ƣớc lƣợng vững của nếu
$ hội tụ theo xác suất đến khi n , tức là
0 lim P | $ | 1
n
Ý nghĩa: Với n đủ lớn thì với xác suất gần bằng 1 ta có thể xấp xỉ: $ =
Ví dụ 5:
- Trung bình mẫu X là ƣớc lƣợng vững của trung bình tổng thể .
- Phƣơng sai mẫu hiệu chỉnh s2 là ƣớc lƣợng vững của phƣơng sai tổng thể
2.
- Tỷ lệ mẫu F là ƣớc lƣợng vững của tỷ lệ tổng thể p.
c) Ƣớc lƣợng hiệu quả
Định nghĩa: Thống kê $ đƣợc gọi là ƣớc lƣợng hiệu quả của nếu nó là ƣớc
lƣợng không chệch của và có phƣơng sai bé nhất trong tất cả các ƣớc lƣợng không
chệch của .
3.3. ƢỚC LƢỢNG KHOẢNG
3.3.1. Bài toán ƣớc lƣợng khoảng
Giả sử cần ƣớc lƣợng tham số của biến ngẫu nhiên gốc X. Từ tổng thể lập mẫu
ngẫu nhiên kích thƣớc n:
W = (X1 , X2 , X3 , . . . , Xn)
với mẫu cụ thể là: w = (x1 , x2 , . . . , xn)
Với xác suất 1 – cho trƣớc, ta cần tìm các thống kê 1 và 2 sao cho:
P 1 2 = 1 –
trong đó:
- Trƣờng ĐHSPKT Nam Định 113
γ = 1 – đƣợc gọi là độ tin cậy của ƣớc lƣợng.
đƣợc gọi là mức ý nghĩa, đánh giá mức độ sai lầm khi ƣớc lƣợng.
( 1 , 2) đƣợc gọi là khoảng tin cậy của ƣớc lƣợng
2 = 2 - 1 đƣợc gọi là độ dài của ƣớc lƣợng.
đƣợc gọi là độ chính xác của ƣớc lƣợng.
Bài toán ƣớc lƣợng khoảng với độ tin cậy 1 – còn đƣợc gọi là bài toán tìm
khoảng tin cậy với độ tin cậy 1 – .
Để làm điều đó quy tắc chung nhƣ sau:
Đầu tiên tìm một thống kê G G(x1 , x 2 ,..., x n , ) sao cho phân phối của G xác
định hoàn toàn (không chứa tham số nữa).
Khi đó với độ tin cậy 1 cho trƣớc, ta tìm cặp giá trị 1 và 2 sao cho
1 2 (để ý chúng đều dƣơng) và tƣơng ứng với chúng là các phân vị g 1 và g12
thỏa mãn điều kiện:
P(G g1 ) 1 và P(G g12 ) 2
Suy ra: P(g1 G(x1 , x 2 ,..., x n ) g12 ) 1 1 2 1 .
P(1 2 ) 1
3.3.2. Khoảng tin cậy cho kỳ vọng
Trƣớc khi đi vào tìm khoảng tin cậy cho kỳ vọng tổng thể, ta nhắc lại kiến thức
đã học.
Cho X ~ N(0 , 1), và cho trƣớc độ tin cậy 1-, ta tìm đƣợc phân vị u sao cho:
2
P(u U u ) 2(u ) 1 1
2 2 2
(u ) 1
2 2
Tƣơng tự ta tính đƣợc: (u ) 1 .
- 114 Giáo trình Xác suất thống kê
Giả sử X ~ N( , 2) nhƣng chƣa biết tham số EX = của nó.
Muốn ƣớc lƣợng kỳ vọng EX = , ta lập mẫu ngẫu nhiên (X1 , X2 , . . . , Xn) đƣợc
sinh từ biến ngẫu nhiên gốc X, có tập giá trị là (x1 , x2 , . . . , xn)
Để xác định đƣợc khoảng tin cậy cho kỳ vọng EX = , ta cần xác định thống kê
1 và 2 sao cho:
P{θ1 < θ < θ2} = 1 – ( ở đây = )
Ta xét 2 trƣờng hợp sau:
a) Bài toán 1: Phương sai VX = 2 của biến X đã biết
Để ƣớc lƣợng khoảng cho kỳ vọng EX = với độ tin cậy 1 – , ta chọn thống kê:
X
GU n
Khi đó ta có: U ~ N(0, 1)
Chọn cặp 1 và 2 sao cho 1 2 .
Do phân vị chuẩn u11 , u 2 có tính chất u11 u 2 nên ta có:
P(u 1 U u 2 ) 1
P X u 2 X u 1 1
n n
Suy ra: với độ tin cậy 1 – α, khoảng tin cậy cho kỳ vọng là:
x u 2 x u
n n 1
Nhƣ vậy với độ tin cậy 1 cho trƣớc ta sẽ có vô số cặp 1 và 2 , tƣơng ứng với vô
số khoảng tin cậy. Ta xét một số trƣờng hợp đặc biệt:
* Khoảng tin cậy đối xứng (ứng với 1 2 ) là:
2
- Trƣờng ĐHSPKT Nam Định 115
( x - ; x + ) hoặc viết = x ± 𝜀
trong đó:
= .u (độ chính xác của ƣớc lƣợng).
n 2
1 k
x x i n i là trung bình mẫu hay kỳ vọng mẫu
n i1
Tra bảng Laplace, tìm u với u 1 ;
2
â 2
hoặc dựng hàm trong Excel: u = NORMSINV(1 - α/2)
2
* Khoảng tin cậy trái (ứng với 1 , 2 0 ) là: ( ; x + .u )
n
trong đó: u 1 , tra bảng Laplace uα = ?
hoặc dựng hàm trong Excel: uα = NORMSINV(1 - α)
* Khoảng tin cậy phải (ứng với 1 0, 2 ) là: ( x .u ; + )
n
Quy tắc tìm khoảng tin cậy đối xứng cho kỳ vọng (2 đã biết)
- Từ mẫu cụ thể tính x .
- Tính các phân vị u từ công thức (u ) 1 (tra bảng Laplace)
2 2 2
- Tính độ chính xác của ƣớc lƣợng: u .
n 2
- Khoảng tin cậy cho kỳ vọng tổng thể: ( x - ; x + ).
Tƣơng tự nhƣ vậy đối với quy tắc tìm khoảng tin cậy trái và khoảng tin cậy phải cho
kỳ vọng.
Ví dụ 1: Trọng lƣợng của một loại sản phẩm là biến ngẫu nhiên có phân phối
chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này, thu đƣợc kết quả
sau:
Trọng lƣợng (gam) 18 19 20 21
Số sản phẩm tƣơng ứng 3 5 15 2
Với độ tin cậy 95%, hãy ƣớc lƣợng khoảng:
- 116 Giáo trình Xác suất thống kê
a) Trọng lƣợng trung bình của 1 sản phẩm;
b) Trọng lƣợng trung bình tối thiểu của một sản phẩm.
Giải:
Gọi là trọng lƣợng trung bình của sản phẩm, ta cần ƣớc lƣợng khoảng tin cậy của .
Trọng lƣợng trung bình của mẫu 25 sản phẩm: x = 19,64
a) Khoảng tin cậy đối xứng cho trọng lượng trung bình sản phẩm.
Với độ tin vậy 95% ta tìm đƣợc u nhƣ sau:
2
0, 05
(u ) 1 1 0,975
2 2 2
Tra bảng 3 ta đƣợc u = 1,96.
2
1
Độ chính xác của ƣớc lƣợng là: u *1,96 0,392
n 2 5
Khoảng tin cậy phải cho trọng lƣợng trung bình của sản phẩm:
( x - ; x + ) = (19,64 - 0,392; 19,64 + 0,392)
= (19,248; 20,032)
Vậy trọng lƣợng trung bình của một sản phẩm khoảng từ 19,248 đến 20,032 gam.
b) Khoảng tin cậy phải cho trọng lượng trung bình sản phẩm.
Với độ tin vậy 95% ta tìm đƣợc u nhƣ sau:
(u ) 1 1 0,05 0,95
Tra bảng 3 ta đƣợc u = 1,645
Độ chính xác của ƣớc lƣợng:
1
u *1,645 0,329
n 5
Khoảng tin cậy phải trọng lƣợng trung bình của sản phẩm:
( x - ; ) = (19,64 - 0,329; ) = (19,311; )
Vậy trọng lƣợng trung bình tối thiểu của một sản phẩm là 19,311gam.
b) Bài toán 2: Phương sai VX = 2 của biến X chưa biết
- Trƣờng ĐHSPKT Nam Định 117
Đầu tiên ta phải ƣớc lƣợng 2 bằng phƣơng sai mẫu hiệu chỉnh, sau đó chọn
X
thống kê G T n . Khi đó T tuân theo luật Student với n -1 bậc tự do, mặt
s
khác hình dạng của mật độ phân phối này rất gần với phân phối chuẩn, nên cách ƣớc
lƣợng rất giống với bài toán 1. Ta tìm phân vị t 1 , t12 ;(t11 t 1 ) thỏa mãn:
P(t 1 T t 2 ) 1
Tƣơng tự nhƣ bài toán 1, ta xét một số khoảng tin cậy đặc biệt:
* Khoảng tin cậy đối xứng là: ( x - ; x + ) hoặc viết = x ± 𝜀
trong đó:
s
= .t là độ chính xác của ƣớc lƣợng;
n 2
k
x 1 xi ni là trung bình mẫu;
n i 1
s là độ lệch mẫu hiệu chỉnh;
Tra bảng Student (bảng 5), tìm t với: t t n 1 1
2 2
2
hoặc dùng hàm trong Excel: t = TINV(, n - 1)
2
s
* Khoảng tin cậy trái là: ( ; x + .t )
n
trong đó: t = tn-1(1 – ) tra bảng Student (bảng 5) tìm đƣợc t
hoặc dùng hàm trong Excel: t = TINV(, n - 1)
s
* Khoảng tin cậy phải là: ( x .t ; )
n
Chú ý:
1) Nếu X không có phân phối chuẩn, thì cỡ mẫu phải lớn hơn 30.
2) Nếu n > 30 thống kê T sẽ có phân phối tiệm cận chuẩn N(0; 1), do đó ta có thể thay
thế: tα = uα , tα/2 = uα/2
Quy tắc tìm khoảng tin cậy đối xứng cho kỳ vọng (2 chƣa biết)
- Từ mẫu cụ thể tính x , s
nguon tai.lieu . vn