Xem mẫu

  1. Chương III. PHÂN TÍCH HỒI QUY ĐA BIẾN (HỒI QUY BỘI) Số giờ 10 giờ lý thuyết + 18 giờ thực hành+ Thuyết trình+ kiểm tra Mục tiêu của chương: Sau khi học xong bài này, sinh viên cần đảm bảo được các yêu cầu sau:  Dựa vào vấn đề nghiên cứu biết cách xây dựng mô hình hồi quy nhiều biến.  Phân tích kết quả ước lượng mô hình từ phương pháp OLS (đánh giá tác động của từng biến độc lập đến giá trị trung bình của biến phụ thuộc) với số liệu một mẫu cụ thể.  Dự báo giá trị của biến phụ thuộc tại các mức giá trị cụ thể của biến độc lập.  Đánh giá sự phù hợp của hàm hồi quy trong mẫu qua hệ số xác định.  Linh hoạt phân tích mô hình với các tình huống thường gặp trong kinh tế – xã hội: các khuyết tật, các dạng mô hình. Bài này sẽ tiếp nối ý tưởng phân tích trong bài 2. Nội dung của bài 2 đề cập đến việc đánh giá tác động của một biến độc lập X lên giá trị trung bình của biến phụ thuộc Y khi các giả thiết từ 1 đến 3 thỏa mãn. Tuy nhiên, mô hình hồi quy đơn (còn gọi là hồi quy hai biến) thường vi phạm giả thiết 2, một giả thiết quan trọng, do trong thực tế rất ít khi sự thay đổi của biến phụ thuộc lại chỉ do một nguyên nhân (1 biến độc lập) gây nên. Khi đó kết quả ước lượng sẽ không có giá trị sử dụng. Do đó, cần phải xây dựng mô hình hồi quy bội với nhiều biến độc lập (hay còn gọi là hồi quy nhiều biến). Tính ưu việt của mô hình hồi quy bội ở chỗ nó cho phép đánh giá tác động riêng của từng biến độc lập lên biến phụ thuộc trong điều kiện các biến độc lập khác của mô hình là không đổi. Đây chính là một tiền đề quan trọng cho việc phân tích tác động giữa các đại lượng trong kinh tế – xã hội. Ngoài ra, việc đưa thêm các biến số thích hợp vào mô hình đồng nghĩa với việc có thêm nhiều nguyên nhân giải thích cho sự thay đổi của biến phụ thuộc, do đó góp phần cải thiện chất lượng dự báo của mô hình. Các nội dung trong bài sẽ giới thiệu về mô hình hồi quy k biến (với k ≥ 2), phương pháp OLS cho mô hình hồi quy bội, hệ số xác định bội và một vài dạng mô hình, các khuyết tật của mô hình thường gặp trong các tình huống cụ thể trong kinh tế – xã hội. 3.1. MÔ HÌNH HỒI QUY Một trong những bài toán quan trọng trong phân tích kinh té là bài toán đánh giá tác động của một biến số lên một biến số khác. 49
  2. Ví dụ 3.1: Muốn đánh giá tác động của lượng phân bón lên năng suất lúa trên tổng thể các ruộng lúa ở đồng bằng sông Cửu Long, ta thường suy luận một cách dễ hiểu như sau, khi tăng lượng phân bón thì năng suất lúa sẽ tăng lên, do đó, hoàn toàn có thể tìm được mối liên hệ phụ thuộc về hàm số giữa các biến này như sau: NS = f(PB) Trong đó: NS là năng suất và PB: số lượng phân bón trên 1 hecta. Hàm này có thể được bắt đầu bằng dạng: = + (3.1) Trong đó: , là hằng số Hàm số (3.1) thể hiện mối quan hệ giữa 2 biến NS và PB, tức là nếu biết giá trị của biến PB sẽ biết giá trị của biến NS một cách chắc chắn, không có sai số. Tuy nhiên, trong thực tế, điều này là không phù hợp, vì năng suất còn phụ thuộc vào nhiều yếu tố khác như lượng nước tưới, độ pH của đất, các yếu tố ngẫu nhiên như thời tiết, sâu bệnh, bão lụt… Do đó, để hợp lý hơn ta thường viết hàm (3.1) như sau: = + + (3.2) Trong đó: u thể hiện cho tất cả các yếu tố khác có ảnh hưởng đến năng suất, ngoài phân bón. Như chương 2 đã được trình bày, mô hình trên sẽ được trình bày dưới dạng mô hình hồi quy tuyến tính hai biến thể hiện mối quan hệ phụ thuộc giữa biến Y (phụ thuộc) và biến X (độc lập) có dạng như sau: = + + (3.3) Sai số ngẫu nhiên u là yếu tố đại diện cho các yếu tố có tác động đến biến Y ngoài biến X (biến độc lập hay còn gọi là biến giải thích, biến điều khiển). Trong mô hình (3.3) chúng ta không có các quan sát về sai số ngẫu nhiên này nên nó thường được gọi là sai số ngẫu nhiên không quan sát được. Do đó, để hàm hồi quy có ý nghĩa cần đưa ra giả thiết cho thành phần này. Tức là, giả thiết: tại mỗi giá trị của X thì kì vọng của u bằng 0: E(u/x)= 0. Nguyên nhân 1: Vì giả thiết trung bình sai số ngẫu nhiên bằng 0 cũng tương đương với trung bình của hàm hồi quy E(Y/Xi) = f(Xi) hay hàm hồi quy tổng thể được xác định là đi qua đúng các điểm trung bình có điều kiện. Nói đơn giản là các sai số ngẫu nhiên chỉ dao động ngẫu nhiên quanh các điểm do PRF xác định, những sự dao động ngẫu nhiên 50
  3. đó triệt tiêu nhau vì không mang tính hệ thống. Tức là sai số ngẫu nhiên không tác động đến xu thế biến động trung bình do biến độc lập X giải thích. Nguyên nhân 2: Theo ví dụ về phân bón ở trên, có nghĩa là tại mỗi mức phân bón bất kì, tác động tổng hợp các yếu tố như ngày công chăm sóc, lượng nước tưới lên năng suất lúa đều bằng nhau và bằng 0. Giả thiết về trung bình hay vì vọng về sai số ngẫu nhiên này bằng 0 là để đảm bảo ý nghĩa của hệ số : tác động của sự thay đổi của biến X một đơn vị lên giá trị trung bình của biến phụ thuộc. Nếu kì vọng trên bị thay đổi và sự thay đổi đó được đo bởi sai số ngẫu nhiên u (giả sử E(u/PB=10) = 0 và E(u/PB=11) = 6) thì lượng thay đổi của năng suất lúa khi phân bón thay đổi 1 đơn vị sẽ là + 6 đơn vị. Cũng vì những điều này nên trên thực tế, mô hình hồi quy 2 biến chỉ đánh giá được tác động của 1 biến độc lập X lên giá trị trung bình của biến phụ thuộc Y khi các điều kiện về mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên với kích thước n và phương sai sai số ngẫu nhiên là bằng nhau tại mọi giá trị Xi. Hay var (u/x) = var ( | ) = . Nguyên nhân 3: Do tương quan giữa biến X với các sai số ngẫu nhiên. Theo giả thiết thì tương quan này bằng 0, tương đương: cov[X, u] = 0, tức là nếu X và u tương quan với nhau thì giả thiết về kì vọng của sai số ngẫu nhiên bằng 0 sẽ không được thỏa mãn. (Công lao động = CLD) Với ví dụ về phân bón, ta thấy rõ rằng, ngoài phân bón, công lao động có ý nghĩa rất quan trọng tới hoạt động nâng cao năng suất cây trồng. Lượng công lao động càng lớn thì năng suất thu được càng cao. Hay giữa biến PB và biến công lao động thường có tương quan cao. Điều này nói chung gây ra sự tương quan giữa biến u với biến năng suất  cov(NS, u) khác 0. Chính điều này đã khiến người ta phải đưa thêm 1 biến Công lao động vào mô hình 3 biến như sau: = + + + (3.4) Khi chúng ta thêm 1 biến công lao động vào mô hình (3.4) sai số ngẫu nhiên u không còn chứa đựng tác động của yếu tố công lao đông nữa, do đó, nó không còn là nhân tố gây nên sự vi phạm giả thiết về kì vọng của sai số ngẫu nhiên bằng 0, tức là nếu có sự tương quan giữa biến độc lập với biến phụ thuộc thì kì vọng của sai số ngẫu nhiên sẽ khác 0. Lúc này ta gọi biến độc lập trong mô hình có tương quan với sai số ngẫu nhiên là biến độc lập nội sinh. Như vậy, nếu trong mô hình có biến độc lập nội sinh thì các 51
  4. ước lượng OLS sẽ là ước lượng chệch, mô hình này có vấn đề. Trên thực tế thì vấn đề biến độc lập nội sinh xảy ra khá phổ biến với mô hình hai biến trong phân tích kinh tế xã hội. Do biến phụ thuộc Y thường chịu tác động của nhiều yếu tố và các yếu tố này có thể tương quan với nhau, khi đó, nếu chỉ chọn 1 yếu tố làm biến độc lập thì biến này sẽ rất có khả năng tương quan với sai số ngẫu nhiên trong mô hình. Và một giải pháp cho vấn đề này đó chính là đưa thêm biến độc lập vào mô hình, mô hình đó có tên gọi là mô hình hồi quy bội hay mô hình hồi quy đa biến. * Một số ưu điểm của mô hình hồi quy bội - Chất lượng dự báo tốt hơn do đưa thêm các biến phù hợp, làm tăng khả năng giải thích của mô hình về sự thay đổi của biến phụ thuộc, gia tăng chất lượng dự báo của mô hình. - Cung cấp dự báo hữu ích hơn do có thể dự báo cho biến phụ thuộc tại các giá trị cụ thể của từ 2 biến độc lập trở lên tốt hơn so với 1 biến độc lập nội sinh. - Cho phép sử dụng dạng hàm phong phú hơn như log – log, bán loga, phi tuyến hay đa thức cho nhiều dạng biến như biến giả - Cho phép thực hiện các phân tích phong phú hơn do cho phép đánh giá tác động tổng hợp đồng thời của biến độc lập lên biến phụ thuộc. 3.1.1 Dạng và các giả thiết của mô hình (vii) Dạng của mô hình Ví dụ 3.2: Nhiều các nghiên cứu trên thế giới quan tâm tới mối quan hệ giữa thu nhập và trình độ học vấn. Chúng ta kỳ vọng rằng, ít ra về trung bình mà nói, học vấn càng cao, thì thu nhập càng cao. Vì vậy, chúng ta có thể lập phương trình hồi quy sau: ℎ ℎậ = + ọ ấ + (3.5) Tuy nhiên, mô hình này đã bỏ qua một yếu tố khá quan trọng là mọi người thường có mức thu nhập cao hơn khi họ làm việc lâu năm hơn, bất kể trình độ học vấn của họ thế nào. Vậy nên, mô hình tốt hơn cho mục đích nghiên cứu của chúng ta sẽ là: ℎ ℎậ = + ọ ấ + ổ + (3.6) 52
  5. Nhưng người ta cũng thường quan sát thấy, thu nhập có xu hướng tăng chậm dần khi người ta càng nhiều tuổi hơn so với thời trẻ. Để thể hiện điều đó, chúng ta mở rộng mô hình như sau: ℎ ℎậ = + ọ ấ + ổ + ổ + (3.7) Như vậy ta có mô hình hồi quy 3 biến: = + + + (3.8) PRF: E (Y / X 2i , X 3i )  1   2 X 2i   3 X 3i PRM: Yi  1   2 X 2i  3 X 3i  U i ;(i  1  N ) Trong đó: là hệ số tự do , ,… là các hệ số hồi quy riêng Y là biến phụ thuộc X 2i , X 3i là các biến độc lập - Hệ số 1  E (Y / X 2i  X 3i  0) là giá trị trung bình của Y khi X2i = X3i = 0. E (Y / X 2 , X 3 ) - Hệ số 2  cho biết khi X2 tăng một đơn vị thì trung bình của Y X 2 thay đổi như thế nào trong điều kiện X3 không thay đổi. E (Y / X 2 , X 3 ) - Hệ số 3  cho biết khi X3 tăng một đơn vị thì trung bình của Y X 3 thay đổi như thế nào trong điều kiện X2 không thay đổi. - Giả sử mọi giả thiết của phương pháp OLS đều được thoả mãn. Mô hình hồi quy tuyến tính k biến tổng thể có thể viết dưới dạng như sau: = + + + ⋯+ + (3.9) Trong đó: Y là biến phụ thuộc và các Xj (j = 1,2,3…k) là các biến độc lập. Lưu ý rằng dù có đưa bao nhiêu biến độc lập vào mô hình thì vẫn tồn tại những yếu tố có tác động đến biến phụ thuộc mà khó có thể quan sát hết hoặc không muốn đưa vào mô hình, do đó, tồn tại sai số ngẫu nhiên u, đại diện cho các yếu tố ngoài biến Xj (j=2…k), có tác động đến Y nhưng không đưa vào mô hình như là biến số. Mô hình hồi quy tổng thể là mô hình xây dựng trên toàn bộ các phần tử của tổng thể, toàn bộ các phần tử chứa đựng dấu hiệu nghiên cứu, chứa đứng mối quan hệ đang xem 53
  6. xét. Trên thực tế, tổng thể là những tập hợp rất lớn, không thể thu thập được toàn bộ hệ thống thông tin và cũng không đảm bảo rằng thông tin thu thập được là hoàn toàn chính xác, do đó, việc xây dựng mô hình hồi quy cho toàn bộ tổng thể sẽ mang tính định hướng. Do vậy, cần thiết xây dựng hàm hồi quy tổng thể Population Regression Function để mô tả mối quan hệ giữa trung bình của biến phụ thuộc và biến độc lập, xác định trên toàn bộ tổng thể. Hàm hồi quy tổng thể cho biết xu thế biến động về mật trung bình của biến phụ thuộc theo biến độc lập. Như vậy, ta có hàm hồi quy tổng thể k biến: ( | )= + + + ⋯+ - Hàm hồi quy tổng thể (PRF) và mô hình hồi quy tổng thể (PRM) có dạng: PRF: E (Y / X 2i , X 3i ,..., X ki )  1   2 X 2i   3 X 3i  ...   k X ki PRM: Yi  1   2 X 2i  3 X 3i  ...   k X ki  U i ;(i  1  N ) - Trong đó: Y là biến phụ thuộc X 2i , X 3i ,..., X ki là các biến độc lập 1 gọi là hệ số chặn  2 , 3 ,...,  k gọi là các hệ số góc riêng phần (các hệ số hồi quy) - Giá trị của k cho biết: Số biến và số tham số cần ước lượng của mô hình. - Hệ số 1  E (Y / X 2i  X 3i  ...  X ki  0) là giá trị trung bình của Y khi X mi  0;(m  2  k ) . E (Y / X 2 , X 3 ,..., X k ) - Hệ số m  ;(m  2  k ) cho biết khi Xm tăng một đơn vị X m thì trung bình của Y thay đổi như thế nào trong điều kiện các biến Xj; ( j  m ) không thay đổi. - Ký hiệu các véc tơ:  Y1   1 X 21 ... X k 1   1   U1  Y  1 X  ... X k 2     U  Y   2 X  22    2 U  2  ...   ... ... ... ...   ...   ...           Yn  n1  1 X 2n ... X kn  k n   k  k 1  U n n1 - Khi đó PRF và PRM có thể viết dưới dạng ma trận: 54
  7. PRF : E (Y )  X  và PRM : Y  X   U - Giả sử mọi giả thiết của phương pháp OLS đều được thoả mãn. Các giả thiết của mô hình Xét các giả thiết sau: Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên, kích thước n: {( , ), = 1,2,3, … } Khi đó, mô hình trên cho từng quan sát mẫu như sau: = + + + ⋯+ + Trong đó, là sai số ngẫu nhiên cho quan sát thứ I, bao hàm các yếu tố có ảnh hưởng đến ngoài . Giả thiết này đảm bảo rằng các cũng như các là độc lập với nhau, tức là lượng phân bón ở ruộng thứ là không liên quan gì đến lượng phân bón ở thửa ruộng thứ 2 trong mẫu, hay chi tiêu của hộ gia đình thứ 1 không liên quan gì đến chi tiêu của hộ gia đình thứ 2. Mẫu là ngẫu nhiên với số liệu chéo, với chuỗi thời gian thì không tương quan chuỗi.  Giả thiết 2: Trung bình sai số ngẫu nhiên bằng 0: ( | ) = 0 Giả thiết này cho biết tại mỗi giá trị X = bất kì thì trung bình ảnh hưởng của các yếu tố ngoài X lên Y là bằng 0. Hay theo ví dụ: tại mỗi mức phân bón bất kì, tác động tổng hợp của các yếu tố công lao động, số ngày chăm sóc, lượng nước tưới lên năng suất lúa đều bằng nhau và bằng 0. Giả thiết này nhằm đảm bảo ý nghĩa của hệ số tức là tác động của sự thay đổi biến X một đơn vị lên giá trị trung bình của biến phụ thuộc. * Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị đều bằng nhau Phương sai là mức độ dao động, hay độ phân tán, độ phủ của các quan sát. Nếu độ phủ này đồng đều có nghĩa là phân phối của sai số ngẫu nhiên u tại mọi X luôn cùng bằng một hằng số nào đó. Nếu phương sai sai số ngẫu nhiên mà khác nhau tại các giá trị khác nhau thì ước lượng này bị chệch, có nghĩa là không chính xác. ( )=  Giả thiết 4: Giữa các biến độc lập (j=2-k) không có mối quan hệ đa cộng tuyến hoàn hảo, nghĩa là không tồn tại các hằng số l , l , … l không đồng thời bằng 0 sao cho: l +l +l = 0. 55
  8. Nếu các biến có quan hệ đa cộng tuyến hoàn hảo thì sẽ có ít nhất 1 biến trong các biến này suy ra được từ các biến còn lại, nói cách khác, thông tin từ biến này đã được chứa đựng trong các thông tin của các biến còn lại. Giả thiết 4 đặt ra là để loại trừ vấn đề này. Hình III-1. Biến phụ thuộc Y và các biến Xj không chứa hiện tượng đa cộng tuyến Hình III-2. Các trường hợp đa cộng tuyến Giải thích về điều này như sau: Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị. Khởi đầu nó có nghĩa là sự tồn tại mối quan hệ tuyến tính “hoàn hảo” hoặc chính xác giữa một số hoặc tất cả các biến giải thích trong một mô hình hồi qui. Đối với hồi qui k biến liên quan đến các biến X1, X2, ..., Xk (với X1 = 1 đối với mọi quan sát kể cả số hạng tung độ gốc), một quan hệ tuyến tính chính xác được cho là tồn tại khi thỏa điều kiện sau: l +l + l + ⋯+ l =0 (3.10) trong đó l1, l2, ..., lk là các hằng số và không đồng thời bằng 0. 56
  9. Tuy nhiên, ngày nay, thuật ngữ đa cộng tuyến được dùng với nghĩa rộng hơn, bao gồm trường hợp đa cộng tuyến hoàn hảo như công thức trên cũng như trường hợp các biến X có tương quan với nhau nhưng không hoàn hảo như dưới đây: l +l + l + ⋯+ l + =0 (3.11) với i là số hạng sai số ngẫu nhiên. Tại sao mô hình hồi qui tuyến tính cổ điển giả định rằng không có vấn đề đa cộng tuyến giữa các biến X? Lý do là: Nếu đa cộng tuyến hoàn hảo theo (a), các hệ số hồi qui của các biến X là vô định và các sai số chuẩn là không xác định. Nếu đa cộng tuyến chưa hoàn hảo, như trong (b), các hệ số hồi qui, mặc dù là xác định nhưng lại có sai số chuẩn (liên quan đến bản thân các hệ số) lớn, có nghĩa là không thể ước lượng các hệ số này với độ chính xác cao. Hình III-3. Quan điểm của Ballentine về đa cộng tuyến Ví dụ 3.3: Giả sử để xem xét tác động của các hình thức đầu tư lên GDP sử dụng hàm hồi quy sau đây: = + + + + + (3.12) Trong đó: GI: đầu tư của khu vực nhà nước PI: đầu tư của khu vực tư nhân FDI: đầu tư trực tiếp nước ngoài I là tổng đầu tư Mô hình này vi phạm giả thiết 4 do giữa các biến độc lập trong mô hình trên có quan hệ đa cộng tuyến hoàn hảo: GI + PI + FDI – I = 0 (3.13) 57
  10. Ví dụ 3.4: Đánh giá từng loại phân bón có tác động đến năng suất lúa không, chúng ta sử dụng mô hình hồi quy sau: = + + + (3.14) Trong đó: HC: lượng phân bón hữu cơ VC: lượng phân bón vô cơ Nếu lượng phân bón hữu cơ và vô cơ là không có liên hệ gì với nhau thì mô hình trên không vi phạm giả thiết về không có đa cộng tuyến hoàn hảo. Tuy nhiên, nếu 10kg phân hữu cơ, người nông dân lại sử dụng 1kg phân vô cơ thì khi đó ta có quan hệ đa cộng tuyến hoàn hảo giữa 2 biến này. Giả thiết 5: Các sai số ngẫu nhiên không tương quan với nhau ( , ) = 0; (∀ ≠ )  Ý nghĩa của các hệ số hồi quy: Các hệ số hồi quy trong mô hình hồi quy bội còn được gọi là hệ số hồi quy bội. Hàm hồi quy tổng thể: ( | 2, … , ) = b1 + b2 2 + … + b Hệ số 1: bằng giá trị trung bình của biến phụ thuộc Y khi các biến độc lập trong mô hình nhận giá trị bằng 0. Tuy nhiên, trong thực tế, hệ số này ít được quan tâm. Các hệ số góc bj ( j = 2, 3, , k): thể hiện tác động riêng của biến Xj lên giá trị trung bình của biến phụ thuộc (còn được gọi là hệ số hồi quy riêng), là tác động của biến Xj lên giá trị trung bình của biến phụ thuộc khi các yếu tố Xs (s khác j) là không đổi. Cụ thể, khi Xj tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay đổi bj đơn vị. Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số góc:  Hệ số bj > 0: khi đó mối quan hệ giữa Y và Xj là thuận chiều, nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm).  Hệ số bj < 0: khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng).  Hệ số bj = 0: có thể cho rằng giữa Y và Xj không có tương quan với nhau, cụ thể là Y có thể không phụ thuộc vào Xj hay là Xj không thực sự ảnh hưởng tới Y. 58
  11. Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối. Sau đây, ta sẽ nghiên cứu một ví dụ để hiểu rõ về ý nghĩa của các hệ số trong mô hình hồi quy. Tiếp tục với ví dụ 3.4 khi phân tích tác động của lượng phân bón hữu cơ và lượng phân bón vô cơ lên năng suất lúa, ta có thể xây dựng mô hình như sau: = b1 + b2 + b3 + (3.15) Trong đó NS là năng suất lúa/ha là biến phụ thuộc Các biến độc lập: HC là lượng phân bón hữu cơ/ha, VC là lượng phân bón vô cơ/ha. Kết quả ước lượng mô hình với số liệu của 30 vùng chuyên canh nông nghiệp như sau: = 1,5  0,35  0,12 Giải thích về mối quan hệ giữa các biến như sau:  Khi không sử dụng phân bón cả hai loại hữu cơ và vô cơ (biến HC = VC = 0), năng suất lúa/ha trung bình đạt 1,5 đơn vị.  Nếu lượng phân bón hữu cơ tăng (giảm) 1 đơn vị và mức phân bón vô cơ không thay đổi thì năng suất lúa/ha trung bình sẽ tăng (giảm) 0,35 đơn vị. Nếu lượng phân bón vô cơ tăng (giảm) 1 đơn vị và mức phân bón hữu cơ không thay đổi thì năng suất lúa/ha trung bình sẽ tăng (giảm) 0,12 đơn vị. 3.1.2 Ước lượng của mô hình (viii) a. Mô tả phương pháp Xét Mô hình k biến: = + + + ⋯+ + Giả sử có một mẫu quan sát với giá trị thực tế là (Yi, X2i, …, Xki) với (i = 1, 2, …, n). Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số  (j = 1, 2, …, k), ký hiệu là (j = 1, 2, …, k). Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau: = + + ⋯+ Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành = + + ⋯+ Trong đó là giá trị ước lượng cho Yi và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính:   59
  12. Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị  (j = 1, 2, …, k) sao cho tổng bình phương các phần dư là bé nhất: = ( − − −⋯− ) = ( − ) = ( − − − ⋯− ) → Đặt ( , ,..., )=∑ ( − − − ⋯− ) khi đó , ,..., là nghiệm của hệ phương trình ( , ,..., ) ⎧ =0 ⎪ ( , ,..., ) =0  ⇔ ⎨. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⎪ ( , ,..., ) ⎩ =0 ⎧−2 ∑ ( − − −⋯− ) = 0 ⎪−2 ∑ ( − − − ⋯− ) = 0 ⎨. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⎪−2 ∑ ( − − − ⋯− ) = 0 ⎩  ⇔ ⎧ + ∑ + ⋯+ ∑  = ∑ ⎪ ∑ + ∑ + ⋯+ ∑  = ∑ ⎨ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................... ⎪ ∑ + ∑ +⋯+ ∑  = ∑ ⎩ Trong mô hình k biến thì các giá trị , ,…, sẽ là nghiệm của hệ k phương trình sau: = ∑ 2( − − −. . . ) × (−1) = 0 ∂ = 2( − − −. . . ) × (− )=0 ∂ ………………………………… = ∑ 2( − − −. . . ) × (− )=0 Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất. Việc giải hệ phương 60
  13. trình khá dễ dàng qua các phần mềm kinh tế lượng và thống kê nếu số biến không quá lớn. Các giá trị ước lượng bằng phương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể. Ở mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm các ước lượng hệ số  ( j 1, 2,..., k ) sẽ trở nên khó khăn hơn so với mô hình hồi quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của các phần mềm kinh tế lượng. Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy. Với các giả định này, dùng phương pháp bình phương tối thiểu ta nhận được ước lượng các hệ số như sau, ở mô hình 3 biến độc lập: = − − ∑ , ∑ , ∑ , ∑ , , = ∑ , ∑ , ∑ , , ∑ , ∑ , ∑ , ∑ , , = ∑ , ∑ , ∑ , ,  = +  Hàm hồi quy mẫu đi qua gốc tọa độ. Ở ma trận k biến, ước lượng OLS như sau: ⎡ ⎤ =⎢ ⎥ là ước lượng của và ⎢. . . ⎥ ⎣ ⎦ ⎡ ⎤ ⎢ ⎥ = ⎢. ⎥ =Y- X là ước lượng của . ⎢. ⎥ ⎣ ⎦ ∑ là tổng bình phương các phần dư (RSS). ′ =∑ =( − )′( − ) = ′ - ′ ′ Y 'X + ′ X 'X = ′ -2 ′ ′ + ′ X ' X Tìm sao cho ∑ = e’e  min  (Y - X )’ (Y - X )  min  X’X = X’Y Nếu tồn tại (X’X)-1 thì = (X’X)-1X’Y 61
  14. Khi đó = (X’X)-1X’Y là ước lượng tuyến tính không chệch tốt nhất của  ( ′ ) = -2 ′ + X ' X ⇒ ′ = X 'X           ⋯     ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎛ ⎞ ⎜      ⋯ ⎟.⎜ ⎟ ⎜ ⎟  ⋮ ⎜ ⋮ ⋮ ⋱ ⋮ ⎟ ⎜ ⎟ ⎝ ⎠     ⋯     ⎝ ⎠   1     1     ⋯  1   ⋯ = .   ⋮   ⋮ ⋯  ⋮  ⋮      ⋯ Để giải được hệ trên điều kiện cần là ma trận X’X không suy biến, hay các biến độc lập không có quan hệ cộng tuyến với nhau. Ma trận X không suy biến, nên ′ cũng không suy biến, do đó tồn tại ( ′ ) . Từ đó, ta có: =( ′ ) ′ . Ví dụ 3.5: Bảng số liệu về: - sản lượng/ha (là biến phụ thuộc); -phân hoá học, - thuốc trừ sâu/ha (các biến độc lập) về một loại cây trồng như sau: 6 10 12 14 16 18 22 24 26 32 4 4 5 7 9 12 14 20 21 24 40 44 46 48 52 58 60 68 74 80 Ước lượng mô hình hồi quy tuyến tính theo tham số và các biến số phụ thuộc vào và . Ta có 62
  15. 1 6 4 ⎡1 10 4 ⎤ ⎢1 12 5 ⎥ ⎢ ⎥ 1 1 1 1 1 1 1 1 1 1  ⎢1 14 7 ⎥ 10 180 120 1 16 9 ⎥ ′ =  6 10 12 14 16 18 22 24 26 32  ⎢ = 180 3816 2684  4 4 5 7 9 12 14 20 21 24  ⎢1 18 12⎥ 120 2684 1944 ⎢1 22 14⎥ ⎢1 24 20⎥ ⎢1 26 21⎥ ⎣1 32 24⎦ 1.363 -0.18 0.1602 570 ( ′ ) = −0.18 -0.033 ; ′ = 11216 0.032 0.16 -0.03 0.0366 7740 31.98067 = ( ′ ) ( ′ ) = 0.65005 1.10986 Vậy hàm hồi quy mẫu là: = 31.98067 + 0.65005 + 1.10986 . b. Các tham số của các ước lượng OLS (βj) = bj j = 1, ∑ ∑ ∑ Var( 1) = + ∑ ∑ 2 (∑ ) ∑ Var( 2) = ∑ ∑ 2 = ∑ (∑ ) ( ) ∑ Var( ) = ∑ ∑ 2 = ∑ (∑ ) ( ) Se( ) = ( ) trong đó ≈ = Cov( )= ( ) - Phương sai và hiệp phương sai được xác định bởi ma trận hiệp phương sai:  Var ( ˆ1 ) Cov( ˆ1 , ˆ2 ) ... Cov ( ˆ1 , ˆk )     Cov( ˆ2 , ˆ1 ) Var ( ˆ2 ) ... Cov( ˆ2 , ˆk )  Cov( ˆ )      2(X T X )  ... ... ... ...   Cov( ˆ , ˆ ) Cov( ˆ , ˆ ) ... Var ( ˆk )   k 1 k 2 63
  16. 2 eT e 2 - Do  chưa biết nên được thay bởi một ước lượng điểm của nó: ˆ  (n  k ) Ví dụ 3.6 Số liệu trong mẫu chọn ngẫu nhiên 100 hộ gia đình trên địa bàn thành phố Hà Nội (VHLSS 2012). Biến phụ thuộc là tổng chi tiêu trong năm của hộ (CT, đơn vị tính là triệu đồng/năm), hai biến độc lập đưa vào mô hình là tổng thu nhập trong năm của hộ (TN, triệu đồng/năm) và số người trong hộ (SN, đơn vị tính là người). TT CT TN SN STT CT TN SN STT CT TN SN 1 97 107 2 41 172 149 4 81 273 285 5 2 100 118 2 42 156 162 4 82 276 290 5 3 100 119 2 43 165 164 4 83 281 312 5 4 114 148 2 44 155 166 4 84 277 325 5 5 126 155 2 45 173 183 4 85 294 340 5 6 177 193 2 46 189 203 4 86 294 360 5 7 171 217 2 47 232 228 4 87 333 385 5 8 175 250 2 48 210 239 4 88 337 392 5 9 205 294 2 49 207 254 4 89 161 113 6 10 205 294 2 50 210 258 4 90 213 154 6 11 218 309 2 51 235 267 4 91 243 203 6 12 241 333 2 52 274 298 4 92 229 227 6 13 233 347 2 53 282 325 4 93 288 271 6 14 242 362 2 54 275 334 4 94 264 272 6 15 266 375 2 55 289 344 4 95 308 358 6 16 280 385 2 56 296 349 4 96 334 362 6 17 108 107 3 57 298 351 4 97 337 380 6 18 142 117 3 58 304 361 4 98 336 392 6 19 130 143 3 59 281 364 4 99 345 394 6 20 157 148 3 60 293 370 4 100 360 398 6 21 132 154 3 61 302 372 4 22 140 160 3 62 303 374 4 23 158 163 3 63 318 378 4 24 148 173 3 64 297 396 4 64
  17. 25 182 183 3 65 161 112 5 26 178 184 3 66 201 159 5 27 188 186 3 67 185 179 5 28 171 211 3 68 190 193 5 29 185 215 3 69 211 195 5 30 213 229 3 70 211 202 5 31 182 236 3 71 226 220 5 32 207 252 3 72 208 224 5 33 212 274 3 73 245 225 5 34 246 276 3 74 230 227 5 35 228 306 3 75 249 239 5 36 252 346 3 76 246 240 5 37 292 394 3 77 261 259 5 38 278 396 3 78 236 263 5 39 135 134 4 79 233 265 5 40 169 144 4 80 248 284 5 Kết quả thu được như sau: ( )= - 3,961 + 0,612TN + 15,432SN Ta giải thích kết quả ước lượng như sau: Hệ số chặn = – 3,961. Hệ số chặn trong mô hình này không có ý nghĩa thực tế vì nó mang giá trị âm. Hệ số góc = 0.612 thể hiện tác động riêng của thu nhập lên chi tiêu của hộ gia đình. Cụ thể giá trị này cho biết nếu thu nhập của hộ gia đình tăng (hoặc giảm) 1 triệu đồng/năm và số người trong hộ không thay đổi thì mức chi tiêu trung bình trong năm của hộ gia đình tăng 0,612 triệu đồng. Con số này chính là khuynh hướng tiêu dùng cận biên. Giá trị này phù hợp với lý thuyết kinh tế vì khuynh hướng tiêu dùng cận biên nằm trong khoảng từ 0 đến 1, nghĩa là khi thu nhập tăng thì chi tiêu cũng tăng nhưng mức tăng nhỏ hơn so với mức tăng của thu nhập. Hệ số góc =15.432 thể hiện tác động riêng của số người trong hộ lên chi tiêu của hộ. Khi số nhân khẩu trong hộ tăng thêm một người, trong khi thu nhập vẫn giữ nguyên ở mức cũ thì số tiền chi tiêu trung bình của hộ sẽ tăng thêm 15,432 triệu/năm. 65
  18. Cũng có thể cho rằng nếu thu nhập gia tăng 1 triệu đồng và hộ có thêm 1 người thì mức chi tiêu trung bình của hộ sẽ tăng khoảng 16,044 triệu (= 0,612 + 15,432). Có thể dự báo mức chi tiêu của hộ tại một mức thu nhập và số nhân khẩu cụ thể từ kết quả ước lượng mô hình. Cụ thể là nếu tổng thu nhập của hộ là 150 triệu/năm và hộ có 4 người thì mức chi tiêu trung bình là: = −3,961 + 0.612 ∗ 150 + 15.432 ∗ 4 = 149,567 Như vậy các gia đình sẽ chi tiêu gần hết thu nhập của họ. Nếu thu nhập là 200 triệu/năm và gia đình vẫn chỉ có 4 người thì hộ sẽ chi tiêu số tiền là 180,212 triệu, nghĩa là các gia đình bắt đầu có tiền tiết kiệm (trung bình là 19,788 triệu/năm). (ix) c. Sự phù hợp của hàm hồi quy Làm thế nào chúng ta đo lường mức độ phù hợp của hàm hồi quy tìm được cho dữ liệu mẫu. Thước đo độ phù hợp của mô hình đối với dữ liệu là R2. Để có cái nhìn trực quan về R2, chúng ta xem xét đồ thị sau Y SRF Y Y Yi - Yi Yi Yi - Yi - Y Y Xi X Hình III-4. Phân tích độ thích hợp của hồi quy − : biến thiên của biến phụ thuộc Y, đo lường độ lệch của giá trị Yi so với giá trị trung bình . − : biến thiên của Y được giải thích bởi hàm hồi quy = − : biến thiên của Y không giải thích được bởi hàm hồi quy hay sai số hồi quy. Trên mỗi Xi chúng ta kỳ vọng ei nhỏ nhất, hay phần lớn biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. Nhưng một hàm hồi quy tốt phải có tính chất mang 66
  19. tính tổng quát hơn. Trong hồi quy tuyến tính cổ điển, người ta chọn tính chất tổng bình phương biến thiên không giải thích được là nhỏ nhất. Ta có = + − = − + = + Với = − và = − Vậy∑ =∑ +∑ + 2∑ (*) Số hạng cuối cùng của (*) bằng 0. Vậy∑ =∑ +∑ Đặt =∑ , ESS = ∑ và =∑ Hệ số xác định bội TSS (Total Sum of Squares): tổng biến động tổng hợp của biến phụ thuộc hay độ dao động trong mẫu của biến phụ thuộc, thể hiện sự biến động của biến Y quanh giá trị trung bình mẫu của nó. = − ESS (Explained Sum of Squares): tổng biến động của biến phụ thuộc được giải thích bởi mô hình – các biến độc lập hay độ dao động của giá trị ước lượng, thể hiện sự biến động của các giá trị ước lượng Ŷ quanh giá trị trung bình mẫu của nó. = = ( − ) RSS (Residual Sum of Squares): tổng biến động của biến phụ thuộc được giải thích bởi các yếu tố nằm ngoài mô hình – yếu tố ngẫu nhiên. RSS còn gọi là tổng bình phương các sai số. = = ( − ) Như vậy, trong mô hình có hệ số chặn: TSS = ESS + RSS Sự biến đổi của biến Y là tổng của hai thành phần: của sự biến đổi của phần dư – thể hiện các yếu tố không đưa vào mô hình và sự biến đổi được thể hiện bởi mô hình, kí hiệu bởi ESS. Chia 2 vế của phương trình trên với TSS ta có: 67
  20. 1= + (3.16) Tỷ số thể hiện phần trăm sự biến đổi của biến Y trong mẫu được giải thích bởi mô hình, còn được gọi là hệ số xác định của hàm hồi quy, được kí hiệu R2 = =1− 0≤ ≤1 Do RSS, TSS, ESS đều không âm nên 0 ≤ ≤1 ∑ ∑ ∑ −1 = = = = ∑ ∑ ∑ −1 n y x i i Mặt khác ta có bˆ 2  i 1 n Vậy  x i2 i 1 ∑ =∑ ∑ = , Vậy đối với hồi quy hai biến R2 là bình phương của hệ số tương quan. Tính chất của R2 (1) 0≤ R2 ≤1. Với R2=0 thể hiện X và Y độc lập thống kê. R2 =1 thể hiện X và Y phụ thuộc tuyến tính hoàn hảo. (2) R2 không xét đến quan hệ nhân quả. là hệ số xác định (Coefficient of Determination): cho biết tỷ lệ (%) sự biến động của biến phụ thuộc được giải thích bởi sự biến động của các biến độc lập (hay sự biến động của biến phụ thuộc được giải thích bởi mô hình – tính trong mẫu). Trường hợp đặc biệt, khi hoàn toàn không có sai lệch giữa giá trị quan sát và giá trị ước lượng, ei=0 (i=1..n), khi đó, RSS = 0 và ESS = 100% hay R2= 1, biến X giải thích được 100% sự thay đổi của biến phụ thuộc. Và khi R2= 0, biến X hoàn toàn không giải thích được sự thay đổi của biến Y, khi đó, mô hình là không phù hợp, có nghĩa quan hệ giữa biến X và biến Y được thể hiện bởi mô hình hồi quy mẫu là hoàn toàn không phù hợp với số liệu mẫu. Vì vậy, có thể cho rằng, mô hình hồi quy tổng thể cũng không phù hợp. Với ví dụ về thu nhập và chi tiêu như trên ta có: 68
nguon tai.lieu . vn