Xem mẫu

  1. Chương 5: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010
  2. Nội dung chính  Một số kiến thức dữ liệu thống kê  Công cụ phân tích dữ liệu thống kê trong Excel  Phân tích số liệu thống kê  Thống kê mô tả  Tổ chức đồ  Tính hệ số tương quan và phương trình hồi quy  So sánh 2 mẫu (Kiểm định giả thuyết)
  3. Một số kiến thức dữ liệu thống kê  Một đề cương nghiên cứu o Giả thuyết o Thiết kế một thí nghiệm hay cuộc điều tra o Quy trình chọn mẫu o Phương pháp và cách thức điều tra o Phân tích số liệu o Báo cáo kết quả  Tư tưởng chính của thống kê suy rộng là lấy mẫu từ một tổng thể và sau đó sử dụng kết quả phân tích các thông tin từ mẫu này để suy rộng ra cho tổng thể nghiên cứu.
  4. Số liệu  Có bộ số liệu tốt, có được mô hình phân tích thống kê chính xác sẽ giúp ta đưa ra những quyết định chính xác hơn, phù hợp hơn với thực tế
  5. Chọn mẫu  Ai là đối tượng nghiên cứu?  Mẫu tổng thể lý thuyết  Những ai có thể tiếp cận được?  Mẫu tổng thể có thể tiếp cận được  Làm thế nào để tiếp cận được?  Khung chọn mẫu  Ai tham gia vào nghiên cứu?  Mẫu được chọn
  6. Phân phối mẫu  Phân phối của một số vô hạn các mẫu có cùng quy mô như mẫu trong nghiên cứu của chúng ta được gọi là phân phối mẫu.
  7. Phân phối mẫu  Giá trị bình quân: giá trị trung tâm  Độ lệch chuẩn: mức độ dao động hay biến động  Tỷ lệ của một số quan sát/tổng thể về một đặc trưng nào đó
  8. Ví dụ  Dể có năng suất và sản lượng lúa của một địa bàn điều tra nào đó (huyện A chẳng hạn) người ta chỉ tiến hành thu thập số liệu về năng suất và sản lượng lúa thu được trên diện tích lúa thu hoạch của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế, sau đó dùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toàn huyện
  9. Ví dụ
  10. Cơ sở dữ liệu  Cơ sở dữ liệu (Database, trong thống kê) là phần thông tin thu thập được từ một cuộc điều tra bất kz nào đó và được sắp xếp có cấu trúc nhất định để có thể dễ dàng cho việc xử l{ số liệu đó thông qua các phần mềm thống kê, cũng như dễ dàng cho việc kiểm tra độ chuẩn xác của thông tin thu lượm được.
  11. Công cụ phân tích thống kê
  12. Phân tích số liệu thống kê  Mô tả thống kê  Phân phối mẫu  Đo lường sự biến động  Tương quan và các mối quan hệ
  13. Thống kê mô tả  Mô tả thống kê là cách thức miêu tả số liệu dưới dạng số trung bình, trung vị, độ lệch hay mode...  Trung bình (Mean):  Là bình quân số học của các quan sát: 𝑥 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑖=1 𝑥 𝑥= = 𝑛 𝑛  𝑥:tổng các giá trị của từng quan sát.  𝑛: số lượng các quan sát trong nghiên cứu.
  14. Thống kê mô tả  Trung vị (median): Là giá trị của quan sát có vị trí được sắp xếp ở giữa theo cách sắp xếp giá trị từ nhỏ đến lớn hoặc ngược lại. Một nửa số quan sát sẽ có giá trị nhỏ hơn giá trị ứng vị và một nửa có giá trị lớn hơn giá trị trung vị.  Cách tìm:  Sắp xếp lại các quan sát theo giá trị từ nhỏ nhất đến lớn nhất  Tìm quan sát có vị trí trung tâm.  Trường hợp số quan sát là chẵn ta sẽ lấy giá trị bình quân của 2 quan sát đứng giữa làm giá trị trung vị
  15. Thống kê mô tả  Mode: là giá trị của những quan sát được xuất hiện nhiều nhất.  Độ lệch chuẩn (Standard Deviation): Đo lường mức độ dao động của số liệu quanh giá trị bình quân 𝑛 − 𝑥 )2 𝑖=1(𝑥 𝑛−1  Phương sai mẫu(Sample Variance): Bình phương độ lệch chuẩn 𝑛 1 𝑆2 = (𝑥𝑖 − 𝑥) 2 𝑛−1 𝑖=1
  16. Thống kê mô tả  Một số khái niệm khác  Standard error: tỷ số độ lệch chuẩn mẫu /căn bậc hai của n.  Phương sai mẫu hay độ lệch chuẩn mẫu cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung.  Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn.  Skewness đánh giá đường phân phối lệch trái hay lệch phải. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc.  Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m)
  17. Thống kê mô tả  Hệ số tương quan r (Conelation coefflcient):dao động trong khoảng từ -1 đến +1 (𝑥 − 𝑥)(𝑦 − 𝑦) 𝑟= 2 (𝑥 − 𝑥 )2 . (𝑦 − 𝑦) o Nếu r 𝜖 [-0.25, +0.25] tương quan yếu hoặc không có tương quan với nhau. o Từ +0,26 đến +0,50 (hoặc từ -0,26 đến -0,50) mức tương quan trung bình. o Từ +0,5 đến +0,75 (hoặc từ -0,5 đến -0,75) tương quan khá. o Trên 0,75 (hoặc nhỏ hơn -0,75) tương quan chặt.
  18. Thống kê mô tả với EXCEL  Chọn Data > Data Analysis > Descriptive Statistics và khai báo các tham số  Input range: miền dữ liệu (cả nhãn)  Grouped by: Columns (theo cột)  Labels in first row: nếu có nhãn ở hàng đầu  Confidence level for mean: độ tin cậy 95%  Output range: miền xuất  Summary Statistics: hiện các thống kê cơ bản
  19. Ví dụ  Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông(cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất. Số liệu được bố trí như trong hình.
  20. Ví dụ  Kết quả thu được