Xem mẫu
- Chương 3
Thao tác dữ liệu
Sau khi nhập dữ liệu vào R, ta có thể dễ dàng thao tác dữ liệu bằng gói
dplyr, có thể được cài đặt bằng lệnh trong R: install.packages ("dplyr").
Sau khi tải gói dplyr, có thể sử dụng các hàm R sau:
filter(): Chọn hàng (quan sát / mẫu) dựa trên giá trị của chúng.
distinct(): Loại bỏ các hàng trùng lặp.
arrange(): Sắp xếp lại các hàng.
select(): Chọn cột (biến) theo tên của chúng.
rename(): Đổi tên cột.
mutate():Thêm / tạo biến mới.
summarise(): Tính toán tổng hợp thống kê (ví dụ: tính trung bình hoặc
tổng)
Ví dụ:
Age Weight Gender Age Weight Gender
10 24 male 80 50 male
20 39 female 15 30 female
35 46 male 47 52 male
67 60 female 66 55 female
54 45 female 29 67 female
41
- 42 CHƯƠNG 3. THAO TÁC DỮ LIỆU
> library(dplyr)
> age weight gender data1 select(data1, age)
age
1 10
2 20
3 35
4 67
5 54
6 80
7 15
8 47
9 66
10 29
Để lọc ra những người có độ tuổi trên 30 ta sử dụng:
#Loc ra nhung nguoi co do tuoi tren 30
> filter(data1, age≥30)
age weight gender
1 35 46 male
2 67 60 female
3 54 45 female
4 80 50 male
5 47 52 male
6 66 55 female
Để đổi tên biến từ age thành ages ta sử dụng:
# Doi ten bien
> rename(data1, ages = age)
ta được kết quả sau:
ages weight gender
1 10 24 male
2 20 39 female
3 35 46 male
4 67 60 female
- 43
5 54 45 female
6 80 50 male
7 15 30 female
8 47 52 male
9 66 55 female
10 29 67 female
Để sắp xếp dữ liệu theo độ tuổi giảm dần ta sử dụng
# Lenh sap xep data theo do tuoi giam dan
> arrange(data1, desc(age))
age weight gender
1 80 50 male
2 67 60 female
3 66 55 female
4 54 45 female
5 47 52 male
6 35 46 male
7 29 67 female
8 20 39 female
9 15 30 female
10 10 24 male
Để tạo thêm biến mới, ta sử dụng lệnh mutate
# Tao them bien moi
> mutate(data1, a = age / 5)
age weight gender a
1 10 24 male 2.0
2 20 39 female 4.0
3 35 46 male 7.0
4 67 60 female 13.4
5 54 45 female 10.8
6 80 50 male 16.0
7 15 30 female 3.0
8 47 52 male 9.4
9 66 55 female 13.2
10 29 67 female 5.8
nguon tai.lieu . vn