Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
TỐI ƯU BÀI TOÀN PHÂN LOẠI HÀNH ĐỘNG
DỰA VÀO ĐẶC TRƯNG MỚI
Phạm Trí Công
Trường Đại học Thủy lợi, email: phtcong@tlu.edu.vn
1. GIỚI THIỆU Bước 2: Các frame riêng lẻ được trích chọn
18 điểm quan trọng của cơ thể dựa vào thư
Phân loại hành động người là một trong
viện OpenPose. Đến bước 3, 18 điểm của cơ
những bài toán đã được nghiên cứu từ lâu.
Với đầu vào là một video, dựa vào các đặc thể được sử dụng để tạo ra các đặc trưng mới
trưng của các frame liên tiếp nhau, giải pháp tùy theo kịch bản. Cuối cùng, các đặc trưng
phải phân loại thành các hành động. Một mới và đặc trưng của 18 điểm được sử dụng
trong những vấn đề gặp phải đối với bài toán để huấn luyện module LSTM trong quá trình
này là có một số hành động hay bị phân loại training. Ở giai đoạn phân loại, mô hình
nhầm sang hành động khác do sự tương tự về LSTM đã được huấn luyện, sẽ sử dụng đầu
tư thế. Ví dụ hành động đứng yên hay bị vào là các đặc trưng, để phân loại hành động
nhầm với hành động đi bộ. Trong nghiên cứu thành một trong năm hành động.
này, tác giả đề xuất giải pháp phân loại hành
động dựa vào sự kết hợp giữa OpenPose và
LSTM. Tác giả đề xuất giải pháp tối ưu bằng
cách thêm các đặc trưng mới để nâng cao
hiệu quả của mô hình. Nghiên cứu sử dụng
bộ dữ liệu gồm 2022 video để huấn luyện và
đánh giá mô hình đề xuất. Kết quả là, giải
pháp tối ưu đề xuất giúp tăng 7.2% độ chính
xác mean recall.
Hình 1. Kiến trúc hệ thống phân loại
2. PHƯƠNG PHÁP NGHIÊN CỨU hành động người bằng video
Phân loại hành động bằng video đã được Trong nghiên cứu này, ở bước ba,
nhiều nhà nghiên cứu thực hiện với nhiều kỹ Transform, tác giả dựa vào phân tích đặc trưng
thuật khác nhau. Có nhiều giải pháp sử dụng giữa các tư thế để tạo ra các đặc trưng mới
kỹ thuật học sâu để phân loại [1], [2]. Có kỹ như: khoảng cách giữa các bàn tay, bàn chân,
thuật kết hợp giữa học sau và LSTM để phân đầu gối, đầu gối với cổ, vai, bàn chân với cổ và
loại [3], [4]. Có kỹ thuật sử dụng kết hợp vai. Để đánh giá hiệu quả quả giải pháp,
giữa OpenPose để trích xuất các điểm quan nghiên cứu thực hiện so sánh hiệu quả của giải
trọng của cơ thể, sau đó dùng LSTM để phân pháp đề xuất với base-line model trên bộ dữ
loại hành động [5], [6]. liệu thu thập từ các nguồn khác nhau.
Trong nghiên cứu này, tác giả đề xuất giải
pháp kết hợp giữa OpenPose và LSTM để phân 3. CHI TIẾT THỰC NGHIỆM
loại năm loại hành động thông dụng. Mô hình
hệ thống được mô tả ở Hình 1 gồm 4 bước. 3.1. Bộ dữ liệu
Bước 1: Video đầu vào được chuyển thành Bộ dữ liệu được sử dụng trong nghiên cứu
các frame riêng lẻ để xử lý. Sau đó, ở này được thu thập từ Youtube, Facebook, và
119
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
Tự quay. Việc thu thập và xử lý dữ liệu là đánh giá độ chính xác cuối cùng của phương
công đoạn mất rất nhiều thời gian và công pháp trên tập dữ liệu kiểm thử.
sức. Các video được chỉnh sửa bằng phần
4. KẾT QUẢ THỰC NGHIỆM
mềm để loại bỏ những phần không liên quan
trong video. Sau khi xử lý xong thì được bộ Trong nghiên cứu này, tác giả thực hiện
dữ liệu bao gồm 2022 video ngắn gồm 5 hai kịch bản để đánh giá hiệu quả của giải
hành động khác nhau (Eat, Sit, Sleep, Stand, pháp đề xuất: 1) Base-line model được thực
Walk). Trong đó, 80% dữ liệu được sử dụng hiện với đầu vào cho LSTM là 18 đặc trưng
cho huấn luyện mô hình (dữ liệu train), 10% là đầu ra của OpenPose; 2) Tối ưu model
dành cho tập validation và 10% cho tập kiểm bằng cách thêm các đặc trưng mới. Với hai
thử. Số lượng và phân bổ video cho các tập kịch bản này, tác giả đã huấn luyện LSTM
được thể hiện ở Bảng 1 bên dưới. với cùng 50 epoch, lựa chọn model có độ
chính xác tốt nhất trên tập dữ liệu validation,
Bảng 1. Dữ liệu của năm loại hành động sau đó đánh giá trên bộ dữ liệu test gồm 206
của mỗi tập Train, Val, Test video. Kết quả của hai kịch bản lần lượt được
thể hiện ở Hình 2 và Hình 3.
Eat Sit Sleep Stand Walk Total
Train 326 326 345 316 297 1610 3.3. Base-line model
Val 41 43 45 40 37 206 Trong phần này, tác giả đánh giá hiệu quả
Test 41 42 45 40 38 206 của base - line model. Mô hình này được
thực hiện với đầu vào cho LSTM là 18 đặc
Bộ dữ liệu bao gồm 2022 video, trong đó trưng, là đầu ra của OpenPose. Mười tám đặc
1610 video được sử dụng để huấn luyện, 206 trưng này được sử dụng trực tiếp làm đầu vào
video được sử dụng cho tập validation, còn lại của LSTM. Kết quả của giải pháp này được
206 video được sử dụng để đánh giá mô hình. thể hiện như Hình 2.
3.2. Thiết lập thông số thực nghiệm
Với phương pháp này, tác giả chuẩn bị dữ
liệu đầu vào cho model LSTM. Các video train
sẽ được xử lý qua model của Openpose để trích
xuất ra 18 điểm của cơ thể. Cứ 24 khung hình
liên tiếp sẽ được sử dụng để xác định hành
động của người trong video. Dữ liệu của 24
khung hình này sẽ được sử dụng là đầu vào
cho LSTM để học và phân loại hành động.
Thông số chi tiết được mô tả ở Bảng 2. Hình 2. Độ chính xác của bài toán phân loại
hành động sử dụng OpenPose kết hợp
Bảng 2. Thông số thực nghiệm
với LSTM
STT Thông số Giá trị
Độ chính xác khi tính trung bình đường
1 Số lần huấn luyện 50 chéo của ma trận (mean recall) ở Hình 2 là
2 Số frames/hành động 24 86.4%. Kết quả này tương đối cao, nhưng
nhìn vào hình 2 thì thấy hành động Eat có
Trong nghiên cứu này, mô hình LSTM recall lớn nhất là 100%, trong khi đó Stand
được huấn luyện 50 epoch. Sau khi hoàn có recall thấp nhất chỉ đạt 70%. Đặc biệt
thành train ở mỗi epoch, một model sẽ được hành động Stand bị đoán nhầm nhiều nhất
lưu lại. Sau toàn bộ quá trình training, 50 vào hai lớp là Walk và Sleep. Số kết quả
model được lưu lại với các chỉ số loss và Stand bị đoán nhầm thành Walk là khá nhiều
accuracy, chỉ số Accuracy tăng ở mức cao với 20%. Sau đó là Stand bị đoán nhầm thành
nhất là 84%. Model có Accuracy tốt nhất trên Sleep là 10%. Tương tự như vậy, hành động
bộ dữ liệu validation sẽ được lựa chọn để Sleep tuy có độ chính xác là 90%, đứng thứ 3
120
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
trong 5 hành động. Tuy nhiên, Sleep chỉ bị recall 7.2% (từ 86.4% lên 93.6%). Với kết
đoán sai thành Stand. quả này, giải pháp đã có thể triển khai trong
3.4. Tối ưu giải pháp bằng đặc trưng mới các dự án thực tế.
Nguyên nhân của sự nhầm lẫn giữa ba 5. KẾT LUẬN
hành động Stand, Walk, và Sleep là do một Trong nghiên cứu này, chúng tôi đã đề xuất
số video Openpose chưa nhận được hết các giải pháp sử dụng OpenPose và LSTM cho bài
điểm khớp trên cơ thể. Về mặt logic là do tư toán phân loại hành động người sử dụng video.
thế giống nhau giữa ba hành động này. Nghĩa Nghiên cứu đã đánh giá giải pháp với các đặc
là tư thế Sleep, Stand, Walk có sự tương trưng cơ bản và đề xuất giải pháp để nâng cao
đồng là chúng có cùng một dạng là tư thế hiệu quả của hệ thống bằng cách sử dụng các
người, tay, và chân. Trong đó hai hành động đặc trưng thêm mới. Giải pháp đề xuất không
Stand và Walk thì vị trí của 18 điểm cơ thể những nâng cao độ chính xác mean recall
gần như có thể như nhau. Hai hành động này 7.2% mà còn tăng độ chính xác của lớp stand,
khi quay 90% thì rất giống với tư thế của lớp có hiệu quả thấp nhất với base line model.
đang ngủ. Nhưng ta có thể thêm một số thuộc Kết quả này có ý nghĩa rất lớn là chúng ta có
tính khác để phân biệt giữa các hành động thể thêm các đặc trưng mới gần gũi với logic
này. Tác giả đưa ra giải pháp để giải quyết của con người để tăng hiệu quả của mô hình
vấn đề trên bằng việc kết hợp 18 điểm cơ thể học máy một cách nhanh chóng.
với các đặc trưng khác như nêu ở giải pháp Do thời gian có hạn nên nghiên cứu mới chỉ
hai. Phân tích hành động thấy khi đi thì đánh giá được với bộ dữ liệu thu thập được là
khoảng cách 2 chân thay đổi, còn hành động 2022 video với 5 hành động. Trong tương lai,
đứng thì không. Vì vậy ta cho thêm các thuộc tác giả sẽ thực hiện đánh giá trên nhiều dữ liệu
tính khoảng cách 2 bàn chân, khoảng cách 2 hơn và nhiều hành động hơn. Không những
đầu gối. Các hành động ngồi, ngủ hay bị vậy, ý tưởng này còn có thể sử dụng cho các
nhầm với đứng, ta cho thêm một số thuộc bài toán khác tương tự như bài toán này.
tính như khoảng cách giữa bàn tay và đầu
gối, khoảng cách bàn tay và vai. Một số 6. TÀI LIỆU THAM KHẢO
thuộc tính khác cũng được thêm vào như [1] Y. Lecun, Y. Bengio, and G. Hinton, “Deep
khoảng cách khủy tay và đầu gối, khoảng learning,” Nature, vol. 521, no. 7553, pp.
cách 2 khủy tay, khoảng 2 bàn tay. Kết quả 436–444, 2015, doi: 10.1038/nature14539.
sau khi huấn luyện lại mô hình với các thuộc [2] C.-F. Chen et al., “Deep Analysis of CNN-
tính thêm ở trên được biểu diễn ở Hình 3. based Spatio-temporal Representations for
Action Recognition,” Oct. 2020, [Online].
Available: http://arxiv.org/abs/2010.11757.
[3] N. Kojovic, S. Natraj, S. P. Mohanty, T.
Maillart, and M. Schaer, “Using 2D Video-
based Pose Estimation forAutomated
Prediction of Autism Spectrum Disordersin
Preschoolers,” medRxiv, 2021, doi:
10.1101/2021.04.01.21254463.
[4] C. I. Orozco, M. E. Buemi, and J. J. Berlles,
“CNN-LSTM Architecture for Action
Recognition in Videos,” 2019.
Hình 3. Độ chính xác của bài toán phân loại [5] C. Sawant, “Human activity recognition
with openpose and Long Short-Term
hành động sử dụng OpenPose kết hợp với Memory on real time images,” 2020.
LSTM sử dụng thêm các đặc trưng mới [6] F. M. Noori, B. Wallace, M. Z. Uddin, and J.
Độ chính xác trên hành động Stand vẫn Torresen, “A Robust Human Activity
Recognition Approach Using OpenPose,
thấp nhất nhưng đã tăng 10% từ 70% lên Motion Features, and Deep Recurrent Neural
80%. Hơn nữa, giải pháp này còn tăng mean Network,” 2019, pp. 299–310.
121
nguon tai.lieu . vn