Xem mẫu

  1. Chương 3 Thao tác dữ liệu Sau khi nhập dữ liệu vào R, ta có thể dễ dàng thao tác dữ liệu bằng gói dplyr, có thể được cài đặt bằng lệnh trong R: install.packages ("dplyr"). Sau khi tải gói dplyr, có thể sử dụng các hàm R sau: ˆ filter(): Chọn hàng (quan sát / mẫu) dựa trên giá trị của chúng. ˆ distinct(): Loại bỏ các hàng trùng lặp. ˆ arrange(): Sắp xếp lại các hàng. ˆ select(): Chọn cột (biến) theo tên của chúng. ˆ rename(): Đổi tên cột. ˆ mutate():Thêm / tạo biến mới. ˆ summarise(): Tính toán tổng hợp thống kê (ví dụ: tính trung bình hoặc tổng) Ví dụ: Age Weight Gender Age Weight Gender 10 24 male 80 50 male 20 39 female 15 30 female 35 46 male 47 52 male 67 60 female 66 55 female 54 45 female 29 67 female 41
  2. 42 CHƯƠNG 3. THAO TÁC DỮ LIỆU > library(dplyr) > age weight gender data1 select(data1, age) age 1 10 2 20 3 35 4 67 5 54 6 80 7 15 8 47 9 66 10 29 Để lọc ra những người có độ tuổi trên 30 ta sử dụng: #Loc ra nhung nguoi co do tuoi tren 30 > filter(data1, age≥30) age weight gender 1 35 46 male 2 67 60 female 3 54 45 female 4 80 50 male 5 47 52 male 6 66 55 female Để đổi tên biến từ age thành ages ta sử dụng: # Doi ten bien > rename(data1, ages = age) ta được kết quả sau: ages weight gender 1 10 24 male 2 20 39 female 3 35 46 male 4 67 60 female
  3. 43 5 54 45 female 6 80 50 male 7 15 30 female 8 47 52 male 9 66 55 female 10 29 67 female Để sắp xếp dữ liệu theo độ tuổi giảm dần ta sử dụng # Lenh sap xep data theo do tuoi giam dan > arrange(data1, desc(age)) age weight gender 1 80 50 male 2 67 60 female 3 66 55 female 4 54 45 female 5 47 52 male 6 35 46 male 7 29 67 female 8 20 39 female 9 15 30 female 10 10 24 male Để tạo thêm biến mới, ta sử dụng lệnh mutate # Tao them bien moi > mutate(data1, a = age / 5) age weight gender a 1 10 24 male 2.0 2 20 39 female 4.0 3 35 46 male 7.0 4 67 60 female 13.4 5 54 45 female 10.8 6 80 50 male 16.0 7 15 30 female 3.0 8 47 52 male 9.4 9 66 55 female 13.2 10 29 67 female 5.8
nguon tai.lieu . vn