Xem mẫu

  1. TRƯỜNG ĐẠI HỌC THĂNG LONG Khoa Kinh tế - Quản lý Tập bài giảng CÁC PHƯƠNG PHÁP NGHIÊN CỨU ĐỊNH LƯỢNG TRONG KINH TẾ Số tín chỉ: 03 Ngành: Các ngành khối Kinh tế Người biên soạn: TS. Chu Thị Thu Thuỷ Ths. Nguyễn Thị Tuyết Ths. Nguyễn Thị Thu Trang Ths. Nguyễn Thị Hà Thu Hà Nội, 2019
  2. MỤC LỤC Chương I. TỔNG QUAN VỀ XÁC SUẤT VÀ THỐNG KÊ ......................................... 1 1.1 CƠ SỞ XÁC SUẤT ĐỐI VỚI SUY LUẬN THỐNG KÊ ............................ 1 1.1.1 Tổng quan về xác suất thống kê ................................................................ 1 1.1.2 Cơ sở xác suất đối với suy luận thống kê.................................................. 3 1.2 CÁC ƯỚC LƯỢNG ........................................................................................ 5 1.2.1 Ước lượng cho mẫu lớn ............................................................................. 6 1.2.2 Ước lượng cho mẫu nhỏ về số trung bình tổng thể µ .............................. 8 1.2.3 Ước lượng sự khác biệt giữa 2 số trung bình ........................................... 9 1.2.4 Ước lượng tỷ lệ nhị thức.......................................................................... 10 1.3 KIỂM ĐỊNH GIẢ THUYẾT ........................................................................ 13 1.3.1 Khái niệm ................................................................................................. 13 1.3.2 Miền bác bỏ .............................................................................................. 13 1.3.3 Các bước làm bài toán kiểm định ........................................................... 14 1.3.4 Phần bổ sung............................................................................................ 15 1.4 CÁC PHƯƠNG PHÁP CHỌN MẪU .......................................................... 18 1.4.1 Phương pháp và tiêu chuẩn lựa chọn .................................................... 18 1.4.2 Xác định cỡ (kích thước) mẫu ................................................................. 20 1.5 SƠ LƯỢC VỀ LÝ THUYẾT BẢNG HỎI................................................... 23 1.5.1 Cơ sở thiết lập bảng hỏi ........................................................................... 23 1.5.2 Phân loại bảng hỏi ................................................................................... 24 1.5.3 Cấu trúc bảng hỏi- các loại câu hỏi ........................................................ 25 Chương II. PHÂN TÍCH HỒI QUY ĐƠN ...................................................................... 29 2.1 CÁC BƯỚC THỰC HIỆN PHÂN TÍCH HỒI QUY ................................. 29 2.1.1 Khái niệm phân tích hồi quy ................................................................... 29 2.1.2 Các bước thực hiện phân tích hồi quy .................................................... 30 2.2 MÔ HÌNH HỒI QUY .................................................................................... 31 2.2.1 Mô hình hồi quy tổng thể ........................................................................ 31 2.2.2 Mô hình hồi quy mẫu .............................................................................. 36 2.3 PHƯƠNG PHÁP BÌNH PHƯƠNG BÉ NHẤT (OLS) ............................... 38
  3. 2.3.1 Phương pháp OLS ................................................................................... 38 2.3.2 Các giả thiết về OLS2 .............................................................................. 39 2.3.3 Tính chất của các ước lượng .................................................................. 41 2.4 KIỂM ĐỊNH GIẢ THUYẾT ........................................................................ 41 2.4.1 Kiểm định giả thuyết về hệ số hồi quy .................................................... 41 2.4.2 Kiểm định tính phù hợp của mô hình ..................................................... 43 Chương III. PHÂN TÍCH HỒI QUY ĐA BIẾN (HỒI QUY BỘI) ................................ 49 3.1. MÔ HÌNH HỒI QUY .................................................................................... 49 3.1.1 Dạng và các giả thiết của mô hình.......................................................... 52 3.1.2 Ước lượng của mô hình........................................................................... 59 3.1.3 Kiểm định giả thuyết hệ số mô hình ....................................................... 71 3.1.4 Dự báo ...................................................................................................... 80 3.2 DẠNG HÀM VÀ GIẢI THÍCH Ý NGHĨA HỆ SỐ HỒI QUY ................. 82 3.2.1 Biến giả ..................................................................................................... 82 3.2.2 Hàm theo logarit của Y và/hoặc X .......................................................... 86 3.2.3 Dạng đa thức ............................................................................................ 90 3.2.4 Hàm nghịch đảo (reciprocal function): .................................................. 91 3.2.5 Dạng hàm với biến trễ ............................................................................. 92 3.2.6 Các tiêu chí lựa chọn mô hình ................................................................ 93 3.3 TỰ TƯƠNG QUAN, PHƯƠNG SAI SAI SỐ THAY ĐỔI ........................ 95 3.3.1 Hiện tượng phương sai sai số thay đổi ................................................... 95 3.3.2 Phát hiện phương sai sai số thay đổi và xử lý ........................................ 96 3.3.3 Hiện tượng tự tương quan .................................................................... 102 3.3.4 Phát hiện tự tương quan và xử lý ......................................................... 105 Chương IV. PHÂN TÍCH NHÂN TỐ ............................................................................. 113 4.1 CỠ MẪU KHI ÁP DỤNG PHÂN TÍCH NHÂN TỐ EFA ...................... 113 4.1.1 Khái niệm phân tích nhân tố khám phá EFA ...................................... 113 4.1.2 Ứng dụng của phân tích nhân tố .......................................................... 114 4.1.3 Cỡ mẫu khi áp dụng phân tích nhân tố EFA ....................................... 115 4.2 PHÂN TÍCH NHÂN TỐ EFA .................................................................... 116
  4. 4.2.1 Kiểm định về độ tin cậy của dữ liệu ...................................................... 118 4.2.2 Tiêu chuẩn chọn số nhân tố .................................................................. 119 4.2.3 Phương pháp chiếu/xoay các nhân tố .................................................. 121 4.2.4 Giá trị các nhân tố ................................................................................. 124 4.2.5 Phân tích hồi quy với các biến nhân tố ................................................ 124 4.2.6 Thực hành bài tập tình huống với Stata ............................................... 124
  5. DANH MỤC SƠ ĐỒ, ĐỒ THỊ, HÌNH VẼ, BẢNG BIỂU DANH MỤC BẢNG, BIỂU Bảng 1-1.Khoảng tin cậy cho ước lượng khoảng cho mẫu lớn ...................................... 7 Bảng 2-1.Thu nhập và chi tiêu của hộ gia đình ............................................................ 34 Bảng 2-2. Kiểm định giả thuyết thống kê ..................................................................... 42 Bảng 3-1.Biến nhị phân................................................................................................. 82 Bảng 4-1. Hệ số tải và cỡ mẫu .................................................................................... 120 DANH MỤC ĐỒ THỊ Đồ thị 1-1. Ước lượng điểm ............................................................................................ 6 Đồ Thị 1-2. Ước lượng khoảng ....................................................................................... 7 Đồ thị 1-3. Kiểm định giả thuyết về giá trị trung bình.................................................. 16 DANH MỤC HÌNH VẼ Hình 1-1. Đồ thị quan hệ giữa điểm thi và tỷ lệ học sinh/giáo viên. ............................. 2 Hình 2-1.Các bước thực hiện phân tích hồi quy .......................................................... 30 Hình 2-2. Ví dụ về mẫu ngẫu nhiên ............................................................................. 36 Hình 2-3. Mô hình hồi quy mẫu và phần dư ................................................................ 38 Hình 3-1. Biến phụ thuộc Y và các biến Xj không chứa hiện tượng đa cộng tuyến ... 56 Hình 3-2. Các trường hợp đa cộng tuyến ..................................................................... 56 Hình 3-3. Quan điểm của Ballentine về đa cộng tuyến ............................................... 57 Hình 3-4. Phân tích độ thích hợp của hồi quy.............................................................. 66 Hình 3-5. Chuyển dạng Log-log .................................................................................. 89 Hình 3-6. Đồ thị phân tán phần dư ei theo . ............................................................. 97 Hình 3-7. Đồ thị phân tán phần dư ei theo Xi............................................................... 98 Hình 3-8. Các dạng tự tương quan ............................................................................. 103 Hình 4-1. Các bước thực hiện phân tích nhân tố ....................................................... 116 Hình 4-2.Biểu diễn phép xoay nhân tố ...................................................................... 122
  6. DANH MỤC CÁC CHỮ VIẾT TẮT EFA Phân tích nhân tố SE Sai số tiêu chuẩn
  7. GIỚI THIỆU VỀ HỌC PHẦN 1. Mô tả học phần: Học phần gồm hai phần chính: Kinh tế lượng và Phân tích nhân tố. Phần kinh tế lượng tổng hợp các khái niệm cơ bản về thống kê và kinh tế lượng như thống kê mô tả, cơ sở xác suất đối với suy luận thống kê, chọn mẫu, ước lượng, kiểm định giả thuyết và thiết kế bảng hỏi. Học phần cũng cung cấp cho sinh viên những kỹ năng cần thiết về phân tích hồi quy. Phần phân tích nhân tố chủ yếu tập trung vào phương pháp và quy trình phân tích EFA 2. Mục tiêu học phần:  Nắm vững các kiến thức thống kê cơ bản  Nắm vững các kiến thức kinh tế lượng  Hiểu được các nghiên cứu định lượng được thực hiện bởi các nhà nghiên cứu khác  Có thể tự thực hiện được các nghiên cứu định lượng trong kinh tế 3. Chuẩn đầu ra của học phần - Về kỹ năng:  Vận dụng được phương pháp về thu thập và phân tích dữ liệu được cung cấp trong học phần cho tự nghiên cứu khi cần thiết  Sử dụng được phần mềm thống kê, kinh tế lương (Stata) thực hiện phân tích số liệu bằng các phương pháp đã được trang bị bởi học phần  Vận dụng kiến thức để hiểu, phân tích, đánh giá các kết quả phân tích định lượng - Về kiến thức:  Nắm vững các kiến thức thống kê cơ bản  Hiểu rõ quy trình thực hiện phân tích định lượng bằng phương pháp hồi quy  Hiểu rõ quy trình thực hiện phân tích định lượng bằng phân tích nhân tố EFA - Về thái độ:  Ham thích tìm hiểu về các vấn đề tài chính doanh nghiệp và các vấn đề liên quan.  Sẵn sàng trong việc tiếp cận với những vấn đề mới và phát triển khả năng tự học của bản thân. 4. Chuẩn bị  Địa điểm: Phòng học có máy chiếu và máy tính  Người học: Chuẩn bị giáo trình, bài giảng và vở ghi chép
  8. Chương I. TỔNG QUAN VỀ XÁC SUẤT VÀ THỐNG KÊ Số giờ 3 giờ lý thuyết + 4 giờ bài tập Mục tiêu của chương 1.1 CƠ SỞ XÁC SUẤT ĐỐI VỚI SUY LUẬN THỐNG KÊ 1.1.1 Tổng quan về xác suất thống kê Trước khi đề cập đến một số khái niệm cơ bản về xác suất và thống kê, chúng ta sẽ băt đầu từ một ví dụ về phân tích thực nghiệm. Đó là mối quan hệ giữa quy mô lớp học và đầu ra của đào tạo. Câu hỏi là: việc cắt giảm bớt một sinh viên hay giảm 8 sinh viên của một lớp có tác động như thế nào đến đầu ra của đào tạo? Ta sẽ đo đầu ra của đào tạo như thế nào. Phải chăng đó là:  Sự thỏa mãn của các bậc phụ huynh  Sự phát triển của bản thân sinh viên  Phúc lợi và / hoặc thu nhập thu được khi trưởng thành  Kết quả thi/kiểm tra của học sinh Nếu chúng ta lựa chọn kết quả thi của học sinh làm đầu ra của đào tạo thì trên cơ sở số liệu thu thập được, ví dụ số liệu điều tra của 420 trường phổ thông của California, chúng ta có thể phân tích được mối quan hệ giữa quy mô lớp học và điểm thi của học sinh. Nhờ có các phần mềm máy tính, việc phân tích số liệu đã trở nên dễ dàng và thuận tiện hơn. Với số liệu thu thập được, đầu tiên chúng ta có thể minh họa bằng đồ thị như trên Hình 1.1 1
  9. Hình I-1. Đồ thị quan hệ giữa điểm thi và tỷ lệ học sinh/giáo viên. (Số liệu của 420 trường chọn mẫu thuộc California) Nhìn vào đồ thị chúng ta có nhận xét: phải chăng các lớp với quy mô nhỏ hơn có kết quả thi cao hơn? Để chứng minh nhận định này, chúng ta có thể tiến hành các bước sau: 1. So sánh điểm thi trung bình ở các quận có tỷ lệ học sinh/giáo viên (ký hiệu là STR) thấp với các quận có STR cao (“ước lượng”) 2. Kiểm định giả thiết Ho: Điểm thi trung bình ở cả hai nhóm trên là như nhau, ngược lại là giả thuyết đối: điểm trung bình ở hai nhóm là khác nhau (”kiểm định giả thiiết”) 3. Ước lượng khoảng tin cậy của hiệu giữa điểm thi trung bình của các quận có STR cao và STR thấp (“khoảng tin cậy”) Theo các bước trên, kết quả phân tích dữ liệu ban đầu cho thấy: Quy mô lớp Điểm trung bình Độ lệch chuẩn (sY) Số trường(n) (Y ) Nhỏ 657.4 19.4 238 Lớn 650.0 17.9 182 Trong đó, chúng ta coi lớp có quy mô lớp “nhỏ” khi STR
  10. Trong đó SE( Ys – Yl ) là “sai số tiêu chuẩn” của Ys – Yl ; ns, nl tương ứng là số các lớp có quy mô nhỏ (hay số quan sát các lớp có quy mô nhỏ) và quy mô lớn; 1 ns ss2   (Yi  Ys )2 là độ lệch chuẩn của các lớp có quy mô nhỏ. Kết quả tính toán ns  1 i 1 cho ta kết quả Ys  Yl 657.4  650.0 7.4 t   = 4.05 ss2  sl2 2 19.4 2  17.9 1.83 ns nl 238 182 Như vậy |t| > 1.96 nên ta bác bỏ giả thiết H0  = 0 ở mức ý nghĩa 5% . Hay có thể kết luận có sự khác nhau về điểm thi giữa các lớp có quy mô nhỏ với các lớp có quy mô lớn. Một cách tương đương là ước lượng khoảng tin cậy cho . Khoảng tin cậy 95% đối với hiệu giữa các giá trị trung bình () được tính theo công thức: ( Ys – Yl )  1,96SE( Ys – Yl ) = 7.4  1.961.83 = (3.8 ; 11.0). Rõ ràng khoảng này không chứa giá trị 0. Trên đây là các bước để thực hiện kiểm chứng cho kết luận về sự khác biệt của điểm thi giữa các lớp có quy mô nhỏ và các lớp có quy mô lớn. Tuy nhiên, chúng ta có thể đặt câu hỏi:  Dựa trên cơ sở nào để có được tất cả những điều này?  Ước lượng: tại sao lại ước lượng  bằng Ys – Yl ?  Kiểm định: thực chất sai số tiêu chuẩn của Ys – Yl là gì? Tại sao lại bác bỏ  = 0 nếu |t| > 1,96?  Khoảng tin cậy (ước lượng khoảng): khoảng tin cậy thực chất là gì? 1.1.2 Cơ sở xác suất đối với suy luận thống kê Chúng ta lần lượt xem xét một số khái niệm cơ bản sau đây: Quần thể (Tổng thể) Đó là nhóm hoặc tập hợp các phần tử chúng ta quan tâm. Ví dụ tập hợp “tất cả có thể được” các trường học ở các quận là một quần thể. Chúng ta coi tổng thể là số lớn vô hạn; và nhiệm vụ là đưa ra suy luận về quần thể từ một mẫu lấy từ quần thể đó. Biến ngẫu nhiên Y 3
  11. Kết quả bằng số đặc trưng cho 1 kết cục ngẫu nhiên Ở đây, điểm thi trung bình trong quận có giá trị bằng con số (hoặc STR theo quận), khi mà chúng ta chọn một năm/quận để lấy mẫu Phân bố tổng thể của Y Xác suất của các giá trị khác nhau của Y xảy ra trong quần thể, ví dụ: Pr[Y = 650] (khi Y là biến rời rạc) Hoặc, các xác suất của các tập hợp những giá trị này ví dụ: Pr[Y  650] (khi Y là biến liên tục) Các “Mômen” của phân bố tổng thể Giá trị trung bình = giá trị kỳ vọng = E(Y) = Y = Giá trị trung bình dài hạn của Y theo các giá trị đã xuất hiện lặp đi lặp lại của của Y. Phương sai = E(Y – Y)2 =  Y2 = đo lường bình phương các giá trị phân tán của phân bố Độ lệch tiêu chuẩn = căn bậc 2 của phương sai = Y Phân bố có điều kiện Phân bố của Y với một giá trị cho trước của một biến ngẫu nhiên (X) khác, Ví dụ: phân bố của điểm thi với điều kiện STR
  12. Lựa chọn mỗi cá thể (quận, thực thể) một cách ngẫu nhiên từ quần thể. Tính ngẫu nhiên và số liệu Trước khi chọn mẫu, giá trị của Y là ngẫu nhiên bởi vì các cá thể/phần tử được lựa chọn là ngẫu nhiên Khi mà một cá thể/phần tử được chọn và giá trị của Y là quan sát được thì Y chỉ có thể là một con số duy nhất- và tất nhiên Y không phải là ngẫu nhiên Một bộ số liệu (Y1, Y2,…, Yn), trong đó Yi = giá trị của cá thể/phần tử thứ i của Y (quận, thực thể) thuộc mẫu Ý nghĩa của việc lấy mẫu ngẫu nhiên đơn giản Vì các cá thể/phần tử thứ nhất và thứ hai được chọn một cách ngẫu nhiên nên giá trị của Y1 không bao hàm thông tin về Y2. Do đó:  Y1, Y2 được phân bố độc lập  Y1, Y2 lấy từ cùng một phân bố, nghĩa là Y1, Y2 đồng phân bố Do vậy kết quả của việc chọn mẫu ngẫu nhiên đơn giản là Y1, Y2 là độc lập đồng phân bố (viết tắt i.i.d.) Nói một cách tổng quát hơn thì với phương pháp chọn mẫu ngẫu nhiên đơn giản thì {Yi}, i = 1,…, n, là i.i.d 1.2 CÁC ƯỚC LƯỢNG Các qui trình ước lượng có thể được chia thành 2 loại, ước lượng điểm và ước lượng khoảng. Giả sử rằng một đại lý xe ô tô muốn ước lượng lợi nhuận trung bình của mỗi thông vụ bán một chiếc xe mới. Sự ước lượng này có thể có kết quả là một con số duy nhất như 920$ hoặc cũng có thể dự kiến lợi nhuận từ khoảng 850$ - 1050$. Loại ước lượng thứ nhất được gọi là ước lượng điểm bởi vì con số duy nhất này đại diện cho số ước lượng mà có thể đi cùng với một điểm trên một đường thẳng. Loại thứ 2 gọi là ước lượng khoảng với việc xác định 2 điểm trên 1 đường thẳng. Định nghĩa Ước lượng: là một qui luật cho chúng ta biết về cách thức tính toán một sự ước lượng dựa trên thông tin trong một mẫu và thường được thể hiện như là một công thức. Ước lượng điểm: Ước lượng điểm của một tham số tổng thể là một qui luật mà cho chúng ta biết về cách thức tính toán một con số duy nhất dựa trên dữ liệu mẫu. Con số tạo ra được gọi là một ước lượng điểm. 5
  13. Ước lượng khoảng: Ước lượng khoảng của một tham số tổng thể là một qui luật mà cho chúng ta biết về cách thức tính toán hai con số dựa trên dữ liệu mẫu. Cặp số này được gọi là ước lượng khoảng hay khoảng tin cậy. Các yêu cầu cần có của một ước lượng: 1. Không bị lệch: Ước lượng của một tham số tổng thể không bị lệch nếu trung bình của phân phối mẫu bằng với giá trị đúng của tham số đó. Nếu không ước lượng đó được cho là bị lệch. 2. Phương sai của phân phối mẫu càng nhỏ cảng tốt: để đảm bảo cho các ước lượng gần với giá trị đúng của tham số với một xác suất cao nhất. 3. Sai số ước lượng: Khoảng cách giữa giá trị ước lượng và giá trị đúng của tham số được ước lượng. 4. Hệ số tin cậy: Xác suất mà khoảng tin cậy bao quanh tham số được ước lượng. 1.2.1 Ước lượng cho mẫu lớn a. Ước lượng điểm Giả sử chúng ta có một ước lượng không lệch với phân phối mẫu tuân theo phân phối chuẩn. Ước lượng điểm cho một tham số tổng thể được thống kê tính toán bằng cách sử dụng các đại lượng mẫu. Xác suất là 95%, sai số ước lượng sẽ không vượt quá 1,96 lần độ lệch chuẩn của số ước lượng này. Đồ thị I-1. Ước lượng điểm b. Ước lượng khoảng 6
  14. Ước lượng khoảng được xây dựng để cho khi lấy mẫu lặp lại nhiều lần thì một tỷ lệ lớn (hệ số tin cậy) các khoảng này sẽ bao quanh tham số tổng thể mà chúng ta đang quan tâm. Khoảng được tạo ra được gọi là khoảng tin cậy. Ví dụ khi ước tính một số trung bình tổng thể với một khoảng tin cậy, tức là chúng ta nói về - xác suất mà khoảng đó bao quanh µ, chứ không phải – xác suất mà µ rơi vào khoảng đó, bởi vì giá trị của µ được cố định nhưng khoảng chứa các điểm cuối ngẫu nhiên. Một khoảng tin cậy mẫu lớn với hệ số tin cậy (1-α)*100% dựa trên một ước lượng không bị lệch có phân phối chuẩn được tính như sau: (Số ước lượng điểm) ± zα/2*(Sai số chuẩn của ước lượng) Với zα/2 là giá trị x tương ứng với một diện tích α/2 ở đoạn trên của phân phối chuẩn hóa. Công thức này tạo ra 2 giá trị, giá trị giới hạn độ tin cậy dưới và giá trị giới hạn độ tin cậy trên. Đồ Thị I-2. Ước lượng khoảng Một số khoảng tin cậy cho ước lượng khoảng cho mẫu lớn Bảng I-1.Khoảng tin cậy cho ước lượng khoảng cho mẫu lớn Khoảng tin cậy α zα/2 0,9 0,1 1,645 0,95 0,05 1,96 0,99 0,01 2,58 c. Ước lượng cho mẫu lớn về số trung bình tổng thể µ 7
  15. Những vấn đề thực tiễn thường dẫn đến sự ước lượng về một số trung bình tổng thể µ. Nhiều số ước lượng là sẵn có cho việc ước lượng số trung bình tổng thể µ, bao gồm số trung vị mẫu, số trung bình của các đại lượng lớn nhất và nhỏ nhất và số trung bình mẫu ̅ . Mỗi số ước lượng sẽ có một phân phối mẫu và tùy thuộc vào tổng thể và vấn đề thực tiễn liên quan nhưng có các ưu và nhược điểm nhất định. Phân phối mẫu của số trung bình mẫu ̅ yêu cầu các đặc điểm sau: 1. Phân phối mẫu của ̅ sẽ xấp xỉ chuẩn mà không quan tâm đến phân phối xác suất của tổng thể được chọn mẫu khi n là lớn. 2. Nếu tổng thể được chọn mẫu là chuẩn thì phân phối mẫu của ̅ sẽ chính xác chuẩn 3. Số trung bình của phân phối mẫu của ̅ sẽ luôn bằng với µ vì thế ̅ là một ước lượng không bị lệch của µ. 4. Độ lệch chuẩn của phân phối mẫu của ̅ còn được gọi là độ lệch chuẩn của số trung bình được xác định là: ̅ = /√ Ước lượng điểm của trung bình tổng thể µ Số ước lượng điểm: ̅ Biên sai số: 1.96 ̅ = 1.96 /√ Một khoảng tin cậy (1-α)*100% cho mẫu lớn đối với một số trung bình tổng thể µ được xác định bằng: ̅ ± / √ trong đó / là giá trị z tương ứng với diện tích nằm ở đoạn trên của phân phối z chuẩn hóa. Với n là cỡ mẫu và là độ lệch chuẩn của tổng thể (nếu chưa biết có thể sử dụng một ước lượng xấp xỉ là độ lệch chuẩn của mẫu s nếu cỡ mẫu là lớn (n ≥ 30). 1.2.2 Ước lượng cho mẫu nhỏ về số trung bình tổng thể µ Khi cỡ mẫu nhỏ và chưa biết chúng ta có thể sử dụng phân phối xác suất Student (phân phối t). Phân phối t cũng giống như phân phối z cũng có dạng đối xứng qua t = 0. Tuy nhiên, đại lượng này biến thiên nhiều hơn so với z và thoải dần hơn về 2 phía trái – phải. Độ biến thiên của z trong việc chọn mẫu lặp lại chỉ do bởi ̅ , các đại lượng khác xuất hiện trong z(n, µ và σ) không ngẫu nhiên. Trái lại, độ biến thiên của t được đóng góp bởi 2 đại lượng ngẫu nhiên, ̅ và s mà có thể được chứng minh là độc lập với nhau. Vì thế khi ̅ là rất lớn thì s có thể rất nhỏ và ngược lại. Kết quả là t sẽ biến thiên nhiều hơn so với z khi chọn mẫu lặp lại. Cuối cùng, ta có thể phỏng đoán độ biến thiên của t 8
  16. giảm đi khi n tăng lên bởi vì s, sự ước lượng của σ sẽ được căn cứ trên ngày càng nhiều thông tin. Khi n là vô cùng lớn thì phân phối của t và z sẽ là đồng nhất. Vì thế phân phối của t phụ thuộc vào cỡ mẫu n. Ước lượng điểm: ̅ Sai số biên: 1.96 ∗ /√ Ươc lượng khoảng tin cậy (1-α)*100% cho mẫu nhỏ đối với µ được xác định bằng: ̅ ± / √ trong đó s là độ lệch chuẩn của mẫu và /√ độ lệch chuẩn của trung bình mẫu 1.2.3 Ước lượng sự khác biệt giữa 2 số trung bình Có 2 tổng thể 1 và 2 với các tham số thống kê lần lượt như sau: , , ,  ước lượng đại lượng (µ1 - µ2) Lấy mẫu ngẫu nhiên gồm n1 đại lượng từ tổng thể 1 và n2 đại lượng từ tổng thể 2. Hai mẫu này có các giá trị thống kê lần lượt như sau: à Các đặc trưng phân phối mẫu của ̅ − ̅ như sau: Nếu các tổng thể không có phân phối chuẩn thì phân phối mẫu của ̅ − ̅ là phân phối xấp xỉ chuẩn khi n1 và n2 là lớn. Trung bình và độ lệch chuẩn của ̅ − ̅ là = − ̅ ̅ = + Nếu các tổng thể có phân phối chuẩn thì phân phối mẫu của ̅ − ̅ cũng sẽ có phân phối chuẩn mà không quan tâm đến cỡ mẫu. a. Ước lượng điểm của (µ1 - µ2)  Giá trị ước lượng ̅ − ̅  Sai số biên: 1,96 ̅ ̅ = 1,96 + b. Ước lượng khoảng tin cậy (1-α)*100% cho (µ1 - µ2) được xác định như sau: ( ̅ − ̅ ) ± / + 9
  17. Trường hợp à chưa biết thì có thể được xấp xỉ bằng à với điều kiện n1 và n2 ≥ 30. Trường hợp cỡ mẫu nhỏ, hai tổng thể có phân phối chuẩn với các phương sai bằng nhau = = thì ước lượng khoảng tin cậy (1-α)*100% cho (µ1 - µ2) với cỡ mẫu nhỏ được xác định như sau: 1 1 ( ̅ − ̅ )± ∗ + ( − 1) + ( − 1) = ( − 1) + ( − 1) 1.2.4 Ước lượng tỷ lệ nhị thức Ước lượng điểm của p, được biểu thị bởi ký hiệu , là tổng số x những lần thành công chia cho tổng số n lần thử: ̂= trong đó x là số lượng những lần thành công trong n lần thử. Ước lượng sở hữu một phân phối xác suất mà có thể được ước lượng xấp xỉ bởi một phân phối chuẩn do Định lý giới hạn trung tâm. Đây là một số ước lượng không bị lệch cho tỷ lệ tổng thể p, với trung bình và độ lệch chuẩn được thể hiện như sau: ( ̂) = = Trường hợp n lớn phân phối mẫu của tỷ lệ mẫu sẽ có phân phối xấp xỉ chuẩn tắc. Ước lượng xấp xỉ này là phù hợp nếu ±3 từ 0 đến 1 a. Ước lượng điểm cho p  Giá trị ước lượng: ̂=  Sai số biên: 1,96 = 1,96  Sai số ước lượng biên: 1,96 = 1,96 Ước lượng khoảng tin cậy (1-α)*100% cho (µ1 - µ2) với cỡ mẫu n phải đủ lớn để phân phối mẫu là phân phối xấp xỉ chuẩn được xác định như sau: 10
  18. ̂ ̂ ± / b. Ước lượng sự khác biệt giữa 2 tỷ lệ nhị thức Có 2 tổng thể nhị thức 1 và 2 với các tham số thống kê lần lượt như sau: ,  ước lượng đại lượng (p1 - p2) Lấy mẫu ngẫu nhiên gồm n1 đại lượng từ tổng thể 1 và n2 đại lượng từ tổng thể 2. Hai mẫu này có các giá trị thống kê lần lượt như sau: ̂ à ̂ Các đặc trưng phân phối mẫu của ̂ à ̂ như sau: Phân phối mẫu của ̂ à ̂ là phân phối xấp xỉ chuẩn khi n1 và n2 là lớn. Trung bình và độ lệch chuẩn của ̂ à ̂ là: = − = + Khi sử dụng phân phối chuẩn để ước lượng xấp xỉ các xác suất của nhị thức thì khoảng ( ̂ − ̂ ) ± 2 ( ) phải được chứa trong ̂ à ̂ (khoảng này phải thay đổi từ -1 đến 1). Ước lượng điểm của −  Giá trị ước lượng: ̂ − ̂  Sai số biên: 1,96 = 1,96 + Ước lượng khoảng tin cậy (1-α)*100% cho − cỡ mẫu n phải đủ lớn để phân phối mẫu là phân phối xấp xỉ chuẩn được xác định như sau: ̂ ̂ ( ̂ − ̂ ) ± / + Phần bổ sung Luật số lớn Vì khi cơ mẫu n tăng lên, thì phân bố của Y ngày càng hội tụ đến giá trị Y: tính bất ổn của mẫu giảm khi n tăng (nhớ rằng var( Y ) =  Y2 /n). Một ước lượng là hội tụ nếu xác suất của nó nằm trong khoảng giá trị thực của quần thể sẽ tiến đến 1 khi cỡ mẫu tăng. 11
  19. Nếu (Y1,…,Yn) là độc lập và đồng phân bố (i.i.d.) và  Y2 < , thì Y là ước lượng hội tụ của Y, Pr[| Y – Y| < ]  1 khi n   p Nó được viết là Y  Y (“ Y hội tụ theo xác suất tới Y”) (Chứng minh:  Y2 khi n  , var( Y ) =  0, điều đó có nghĩa là Pr[| Y – Y| < ]  1.) n Định lý giới hạn trung tâm (CLT): nếu (Y1,…,Yn) là i.i.d. và 0 <  Y2 < , khi n lớn thì phân bố của Y được xấp xỉ tốt nhất bằng phân bố chuẩn  Y2  Y được xấp xỉ bằng phân bố N(Y, ) (“ phân bố chuẩn với trung binh Y và n phương sai  Y2 /n”)  n ( Y – Y)/Y được xấp xỉ bằng phân bố N(0,1) (phân bố chuẩn hóa)  Đó là, theo độ đo chuẩn (“chuẩn hóa”) Y  E (Y ) Y  Y Y = = được xấp xỉ bằng phân bố N(0,1) var(Y ) Y / n  Phép tính xấp xỉ này tốt hơn khi n tăng Tóm lại: với (Y1,…,Yn) là các biến ngẫu nhiên độc lập cùng phân bố với 0 <  Y2 <  thì  Phân bố mẫu chính xác của Y có trung bình Y (“ Y là ước lượng không chệch của Y”) và phương sai  Y2 /n  Ngoài giá trị trung bình và phương sai của Y , thì việc xác định chính xác phân bố mẫu của Y là rất phức tạp và nó phụ thuộc vào phân bố của Y p  Y  Y (luật số lớn) Y  E (Y )  được xấp xỉ bằng phân bố chuẩn N(0,1) (CLT) var(Y ) 12
  20. Vậy, tại sao lại sử dụng Y để ước lượng Y?  Ước lượng không chệch : E( Y ) = Y p  Ước lượng hội tụ: Y  Y  Y Là ước lượng “bình phương nhỏ nhất” của Y, Y là giá trị tính được từ: n min m  (Yi  m) 2 (tính toán xem phụ lục. 3.2) i 1  Y có phương sai nhỏ nhất so với các ước lượng tuyến tính không chệch khác: 1 n xét ước lượng ˆY   aiYi , mà ở đó {ai} cũng như ˆY là các ước lượng không n i 1 chệch: thì var( Y )  var( ˆY ). 1.3 KIỂM ĐỊNH GIẢ THUYẾT 1.3.1 Khái niệm Giả thuyết thống kê là một mệnh đề nhận định về tham số của tổng thể. Khi ta đồng nhất tổng thể với một biến ngẫu nhiên thì giả thuyết thống kê cũng có thể là nhận định về phân phối xác suất của biến ngẫu nhiên. Ký hiệu H0 là giả thuyết của tham số tổng thể, đi kèm với giả thuyết H0 là mệnh đề đối lập được gọi là đối thuyết, ký hiệu là H1. Bài toán kiểm định giả thuyết thống kê gồm một cặp giả thuyết H0 và đối thuyết H1. Dựa vào thông tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay chấp nhận giả thuyết H0, việc chấp nhận giả thuyết H0 tương đương với bác bỏ đối thuyết H1 và ngược lại. 1.3.2 Miền bác bỏ Một trong những cách giải quyết bài toán kiểm định giả thuyết là dùng một thống kê G, được gọi là tiêu chuẩn thống kê. Định nghĩa: Thống kê T = G(X1, X2 , ..., Xn ) được gọi là một tiêu chuẩn thống kê (test statistics) nếu giá trị của nó được dùng để xem xét bác bỏ hay chấp nhận giả thuyết H0. Ứng với mẫu cụ thể quan sát được, giá trị của tiêu chuẩn thống kê T được ký hiệu là tqs. Ta sẽ dựa vào giá trị này để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết đang xét bằng cách so sánh giá trị đó với miền tiêu chuẩn. 13
nguon tai.lieu . vn