Xem mẫu

TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Mục tiêu: Sau khi nghiên cứu chủ đề học viên có khả năng: ­ Vẽ phân tán đồ và sử dụng phân tán đồ để lí giải sự tương quan giữa hai biến số ­ Trình bày được công thức và tính được hệ số tương quan của hai biến số định lượng ­ Xây dựng được phương trình hồi quy tuyến tính của biến số phụ thuộc theo một biến số độc lập. ­ Trình bày công thức và lí giải ý nghĩa của sai số chuẩn hồi quy. ­ Trình bày công thức của sai số chuẩn của hệ số tương quan, hệ số góc, điểm chặn và giá trị tiên đóan thể và áp dụng trong kiểm định và ước lượng các số thống kê trên. Mục tiêu: Sau khi nghiên cứu bài này học viên có khả năng: ­ Nêu được 2 phương pháp mô tả sự quan hệ giữa hai biến số định lượng: đồ thị và hệ số tương quan ­ Trình bày và lí giải được mối quan hệ giữa hai biến số bằng phân tán đồ ­ Nêu được ý nghĩa của hệ số tương quan, tính hệ số tương quan giữa hai biến số (trong trường hợp số liệu đơn giản) với máy tính cầm tay ­ Xây dựng phương trình hồi quy giữa hai biến số sử dụng máy tính cầm tay ­ Kiểm định giả thuyết hệ số góc của phương trình hồi quy tuyến tính bằng không. 1. Giới thiệu Trong bài này chúng ta quan tâm đến liên hệ giữa hai biến số định lượng và tập trung chủ yếu đến phương pháp tương quan và hồi quy tuyến tính để xác định mối liên hệ tuyến tính (linear) giữa hai biến liên tục. Tương quan (correlation) đo lường sự chặt chẽ của mối liên hệ trong khi hồi quy tuyến tính (linear regression) cho biết phương trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán biến số này từ biến số khác. Bảng 9.1 Thể tích huyết tương và trọng lượng cơ thể của 8 người đàn ông khỏe mạnh Ðối trọng lượng cơ thể tượng (kg) 1 58,0 2 70,0 3 74,0 4 63,5 5 62,0 6 70,5 7 71,0 8 66,0 Thể tích huyết tương (lít) 2,75 2,86 3,37 2,76 2,62 3,49 3,05 3,12 3.5 3.3 3.1 2.9 2.7 2.5 55 60 65 70 75 troïng löôïng cô theå Hình 9.1 Phân tán đồ của thể tích huyết tương và trọng lượng cơ thể cùng với đường hồi quy tuyến tính – – – – (a) Không tương quan (b) mối liên hệ không tuyến tính – – – – (c) Tương quan dương không hoàn toàn (d) Tương quan dương hoàn toàn – – – – (e) Tương quan âm (f) Tương quan âm hoàn toàn không hoàn toàn Hình 9.2 phân tán đồ minh họa các giá trị khác nhau của hê số tương quan. Trong đây cũng có các đường hồi quy. 2. Tương quan Bảng 9.1 trình bày trọng lượng cơ thể và thể tích huyết tương của 8 người đàn ông khỏe mạnh. Để đánh giá sự liên quan giữa hai biến số định lượng trọng lượng cơ thể và thể tích huyết tương chúng ta có thể sử dụng phân tán đồ hay hệ số tương quan r: Phân tán đồ Phân tán đồ là đồ thị thể hiện các giá trị của các quan sát bằng kí hiệu trên hệ toạ độ gồm hai trục: trục hoành thể hiện cho biến số độc lập và trục tung thể hiện biến số phụ thuộc. Hình 9.1 trình bày phân tán đồ của thể tích huyết tương lớn có liên quan đến trọng lượng cơ thể cao. Hình dạng của phân tán đồ thể hiện mối liên hệ giữa hai biến số. Nếu phân tán đồ có dạng một đám mây nằm ngang thì không có sự liên hệ giữa hai biến số (hình 9.2 a). Nếu phân tán đồ có hình dạng ellipse đi từ dưới bên trái lên phía trên bên phải thì hai biến số có liên hệ thuận (hình 9.2 c và d). Nếu phân tán đồ có hình dạng ellipse đi từ phía trên bên trái xuống phía dưới bên phải thì hai biến số có liên hệ nghịch (hình 9.2 e và f). Trục ngắn của ellipse càng ngắn thì mối liên hệ càng mạnh và nếu ellipse bị biến thành một đường thẳng thì mối tương quan được xem như là hoàn toàn (hình 9.2 d và f). Nếu hình dạng của phân tán đồ không phải là dạng ellipse hay đường thẳng thì hai biến số cũng có mối liên hệ nhưng sự tương quan này được gọi là không tuyến tính (hình 9.2 b). Áp dụng lí luận trên chúng ta có thể xác định giữa thể tích huyết tương và trọng lượng cơ thể có tương quan tuyến tính, thuận và không hoàn toàn. Hệ số tương quan Nếu hai biến số định lượng có quan hệ tuyến tính thì chúng ta có thể đo lường mức độ tương quan một cách chính xác hơn bằng cách tính hệ số tương quan (correllation coefficient), r. Công thức tính r thể hiện bản chất của hệ số tương quan như sau: r (x x)(y y) (x x)2 (y y)2 Để tính hệ số tương quan dễ dàng hơn Chúng ta có thể sử dụng công thức tính hệ số tương quan như sau: r (xi x)(yi y) (xi x)2 (yi y)2 ( xy)/n x y n sx sy n 1 Trong đó x là biến số độc lập (trọng lượng), y là biến số phụ thuộc (thể tích huyết tương), x và y là các số trung bình tương ứng. Phân tán đồ minh họa những hệ số tương quan khác nhau đươc trình bày trong hình 9.2. Sử dụng công thức này để tính toán r, trước tiên chúng ta hãy tính trung bình và độ lệch chuẩn của biến số x và y: Trọng lượng cơ thể: x=66.875 s=5.4166 n=8 Thể tích huyết tương x=3.0025 s=0.31121 n=8 Tích của hai biến số x=201.91 s=34.849 n=8 Sau đó hãy tính toán hệ số tương quan. r ( xy)/n x y n sx sy n 1 1.086375 8 5.417 0.311 7 0.758 Lí giải ý nghĩa của hệ số tương quan: ­ Hệ số tương quan luôn luôn nằm trong đoạn [­1,1] ­ Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ. ­ Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=­1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e). ­ Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả) ­ Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9.2b) ­ Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ `nhân quả`. 3. Hồi quy tuyến tính Hồi quy tuyến tính cho phương trình đường thẳng mô tả nếu biến x tăng thì biến y tăng như thế nào. Không giống như tương quan, việc lựa chọn biến nào để làm biến y là quan trọng bởi vì hai phương pháp không cùng cho một kết quả, y thường được gọi là biến số phụ thuộc (dependent variable) và x là biến số độc lập hay giải thích (independent or explanatory variable). Trong thí dụ này, rõ ràng chúng ta cần quan tâm sự phụ thuộc thể tích huyết tương và trọng lượng cơ thể. Phương trình hồi quy là y = a + bx a: là điểm chặn (intercept) hay hằng số (constant) b: là độ dốc (slope) của đường thẳng hay hệ số (coefficient) của phương trình (Hình 9.3). Giá trị đối với a và b được tính sao cho cực tiểu hóa bình phương khoảng cách theo chiều đứng từ các điểm số liệu tới đường thẳng. Nó được gọi là phù hợp bình phương tối thiểu (least squares fit) (Hình 9.4). Ðộ dốc b đôi khi được gọi là hệ số hồi quy (regression coefficient). Nó có cùng dấu với hệ số tương quan. Khi không có sự tương quan, b bằng zero, tương ứng với một đường thẳng hồi quy nằm ngang đi qua điểm y. b (x x)(y y) (x x)2 r sy x ... - tailieumienphi.vn
nguon tai.lieu . vn