Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 TỐI ƯU BÀI TOÀN PHÂN LOẠI HÀNH ĐỘNG DỰA VÀO ĐẶC TRƯNG MỚI Phạm Trí Công Trường Đại học Thủy lợi, email: phtcong@tlu.edu.vn 1. GIỚI THIỆU Bước 2: Các frame riêng lẻ được trích chọn 18 điểm quan trọng của cơ thể dựa vào thư Phân loại hành động người là một trong viện OpenPose. Đến bước 3, 18 điểm của cơ những bài toán đã được nghiên cứu từ lâu. Với đầu vào là một video, dựa vào các đặc thể được sử dụng để tạo ra các đặc trưng mới trưng của các frame liên tiếp nhau, giải pháp tùy theo kịch bản. Cuối cùng, các đặc trưng phải phân loại thành các hành động. Một mới và đặc trưng của 18 điểm được sử dụng trong những vấn đề gặp phải đối với bài toán để huấn luyện module LSTM trong quá trình này là có một số hành động hay bị phân loại training. Ở giai đoạn phân loại, mô hình nhầm sang hành động khác do sự tương tự về LSTM đã được huấn luyện, sẽ sử dụng đầu tư thế. Ví dụ hành động đứng yên hay bị vào là các đặc trưng, để phân loại hành động nhầm với hành động đi bộ. Trong nghiên cứu thành một trong năm hành động. này, tác giả đề xuất giải pháp phân loại hành động dựa vào sự kết hợp giữa OpenPose và LSTM. Tác giả đề xuất giải pháp tối ưu bằng cách thêm các đặc trưng mới để nâng cao hiệu quả của mô hình. Nghiên cứu sử dụng bộ dữ liệu gồm 2022 video để huấn luyện và đánh giá mô hình đề xuất. Kết quả là, giải pháp tối ưu đề xuất giúp tăng 7.2% độ chính xác mean recall. Hình 1. Kiến trúc hệ thống phân loại 2. PHƯƠNG PHÁP NGHIÊN CỨU hành động người bằng video Phân loại hành động bằng video đã được Trong nghiên cứu này, ở bước ba, nhiều nhà nghiên cứu thực hiện với nhiều kỹ Transform, tác giả dựa vào phân tích đặc trưng thuật khác nhau. Có nhiều giải pháp sử dụng giữa các tư thế để tạo ra các đặc trưng mới kỹ thuật học sâu để phân loại [1], [2]. Có kỹ như: khoảng cách giữa các bàn tay, bàn chân, thuật kết hợp giữa học sau và LSTM để phân đầu gối, đầu gối với cổ, vai, bàn chân với cổ và loại [3], [4]. Có kỹ thuật sử dụng kết hợp vai. Để đánh giá hiệu quả quả giải pháp, giữa OpenPose để trích xuất các điểm quan nghiên cứu thực hiện so sánh hiệu quả của giải trọng của cơ thể, sau đó dùng LSTM để phân pháp đề xuất với base-line model trên bộ dữ loại hành động [5], [6]. liệu thu thập từ các nguồn khác nhau. Trong nghiên cứu này, tác giả đề xuất giải pháp kết hợp giữa OpenPose và LSTM để phân 3. CHI TIẾT THỰC NGHIỆM loại năm loại hành động thông dụng. Mô hình hệ thống được mô tả ở Hình 1 gồm 4 bước. 3.1. Bộ dữ liệu Bước 1: Video đầu vào được chuyển thành Bộ dữ liệu được sử dụng trong nghiên cứu các frame riêng lẻ để xử lý. Sau đó, ở này được thu thập từ Youtube, Facebook, và 119
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 Tự quay. Việc thu thập và xử lý dữ liệu là đánh giá độ chính xác cuối cùng của phương công đoạn mất rất nhiều thời gian và công pháp trên tập dữ liệu kiểm thử. sức. Các video được chỉnh sửa bằng phần 4. KẾT QUẢ THỰC NGHIỆM mềm để loại bỏ những phần không liên quan trong video. Sau khi xử lý xong thì được bộ Trong nghiên cứu này, tác giả thực hiện dữ liệu bao gồm 2022 video ngắn gồm 5 hai kịch bản để đánh giá hiệu quả của giải hành động khác nhau (Eat, Sit, Sleep, Stand, pháp đề xuất: 1) Base-line model được thực Walk). Trong đó, 80% dữ liệu được sử dụng hiện với đầu vào cho LSTM là 18 đặc trưng cho huấn luyện mô hình (dữ liệu train), 10% là đầu ra của OpenPose; 2) Tối ưu model dành cho tập validation và 10% cho tập kiểm bằng cách thêm các đặc trưng mới. Với hai thử. Số lượng và phân bổ video cho các tập kịch bản này, tác giả đã huấn luyện LSTM được thể hiện ở Bảng 1 bên dưới. với cùng 50 epoch, lựa chọn model có độ chính xác tốt nhất trên tập dữ liệu validation, Bảng 1. Dữ liệu của năm loại hành động sau đó đánh giá trên bộ dữ liệu test gồm 206 của mỗi tập Train, Val, Test video. Kết quả của hai kịch bản lần lượt được thể hiện ở Hình 2 và Hình 3. Eat Sit Sleep Stand Walk Total Train 326 326 345 316 297 1610 3.3. Base-line model Val 41 43 45 40 37 206 Trong phần này, tác giả đánh giá hiệu quả Test 41 42 45 40 38 206 của base - line model. Mô hình này được thực hiện với đầu vào cho LSTM là 18 đặc Bộ dữ liệu bao gồm 2022 video, trong đó trưng, là đầu ra của OpenPose. Mười tám đặc 1610 video được sử dụng để huấn luyện, 206 trưng này được sử dụng trực tiếp làm đầu vào video được sử dụng cho tập validation, còn lại của LSTM. Kết quả của giải pháp này được 206 video được sử dụng để đánh giá mô hình. thể hiện như Hình 2. 3.2. Thiết lập thông số thực nghiệm Với phương pháp này, tác giả chuẩn bị dữ liệu đầu vào cho model LSTM. Các video train sẽ được xử lý qua model của Openpose để trích xuất ra 18 điểm của cơ thể. Cứ 24 khung hình liên tiếp sẽ được sử dụng để xác định hành động của người trong video. Dữ liệu của 24 khung hình này sẽ được sử dụng là đầu vào cho LSTM để học và phân loại hành động. Thông số chi tiết được mô tả ở Bảng 2. Hình 2. Độ chính xác của bài toán phân loại hành động sử dụng OpenPose kết hợp Bảng 2. Thông số thực nghiệm với LSTM STT Thông số Giá trị Độ chính xác khi tính trung bình đường 1 Số lần huấn luyện 50 chéo của ma trận (mean recall) ở Hình 2 là 2 Số frames/hành động 24 86.4%. Kết quả này tương đối cao, nhưng nhìn vào hình 2 thì thấy hành động Eat có Trong nghiên cứu này, mô hình LSTM recall lớn nhất là 100%, trong khi đó Stand được huấn luyện 50 epoch. Sau khi hoàn có recall thấp nhất chỉ đạt 70%. Đặc biệt thành train ở mỗi epoch, một model sẽ được hành động Stand bị đoán nhầm nhiều nhất lưu lại. Sau toàn bộ quá trình training, 50 vào hai lớp là Walk và Sleep. Số kết quả model được lưu lại với các chỉ số loss và Stand bị đoán nhầm thành Walk là khá nhiều accuracy, chỉ số Accuracy tăng ở mức cao với 20%. Sau đó là Stand bị đoán nhầm thành nhất là 84%. Model có Accuracy tốt nhất trên Sleep là 10%. Tương tự như vậy, hành động bộ dữ liệu validation sẽ được lựa chọn để Sleep tuy có độ chính xác là 90%, đứng thứ 3 120
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 trong 5 hành động. Tuy nhiên, Sleep chỉ bị recall 7.2% (từ 86.4% lên 93.6%). Với kết đoán sai thành Stand. quả này, giải pháp đã có thể triển khai trong 3.4. Tối ưu giải pháp bằng đặc trưng mới các dự án thực tế. Nguyên nhân của sự nhầm lẫn giữa ba 5. KẾT LUẬN hành động Stand, Walk, và Sleep là do một Trong nghiên cứu này, chúng tôi đã đề xuất số video Openpose chưa nhận được hết các giải pháp sử dụng OpenPose và LSTM cho bài điểm khớp trên cơ thể. Về mặt logic là do tư toán phân loại hành động người sử dụng video. thế giống nhau giữa ba hành động này. Nghĩa Nghiên cứu đã đánh giá giải pháp với các đặc là tư thế Sleep, Stand, Walk có sự tương trưng cơ bản và đề xuất giải pháp để nâng cao đồng là chúng có cùng một dạng là tư thế hiệu quả của hệ thống bằng cách sử dụng các người, tay, và chân. Trong đó hai hành động đặc trưng thêm mới. Giải pháp đề xuất không Stand và Walk thì vị trí của 18 điểm cơ thể những nâng cao độ chính xác mean recall gần như có thể như nhau. Hai hành động này 7.2% mà còn tăng độ chính xác của lớp stand, khi quay 90% thì rất giống với tư thế của lớp có hiệu quả thấp nhất với base line model. đang ngủ. Nhưng ta có thể thêm một số thuộc Kết quả này có ý nghĩa rất lớn là chúng ta có tính khác để phân biệt giữa các hành động thể thêm các đặc trưng mới gần gũi với logic này. Tác giả đưa ra giải pháp để giải quyết của con người để tăng hiệu quả của mô hình vấn đề trên bằng việc kết hợp 18 điểm cơ thể học máy một cách nhanh chóng. với các đặc trưng khác như nêu ở giải pháp Do thời gian có hạn nên nghiên cứu mới chỉ hai. Phân tích hành động thấy khi đi thì đánh giá được với bộ dữ liệu thu thập được là khoảng cách 2 chân thay đổi, còn hành động 2022 video với 5 hành động. Trong tương lai, đứng thì không. Vì vậy ta cho thêm các thuộc tác giả sẽ thực hiện đánh giá trên nhiều dữ liệu tính khoảng cách 2 bàn chân, khoảng cách 2 hơn và nhiều hành động hơn. Không những đầu gối. Các hành động ngồi, ngủ hay bị vậy, ý tưởng này còn có thể sử dụng cho các nhầm với đứng, ta cho thêm một số thuộc bài toán khác tương tự như bài toán này. tính như khoảng cách giữa bàn tay và đầu gối, khoảng cách bàn tay và vai. Một số 6. TÀI LIỆU THAM KHẢO thuộc tính khác cũng được thêm vào như [1] Y. Lecun, Y. Bengio, and G. Hinton, “Deep khoảng cách khủy tay và đầu gối, khoảng learning,” Nature, vol. 521, no. 7553, pp. cách 2 khủy tay, khoảng 2 bàn tay. Kết quả 436–444, 2015, doi: 10.1038/nature14539. sau khi huấn luyện lại mô hình với các thuộc [2] C.-F. Chen et al., “Deep Analysis of CNN- tính thêm ở trên được biểu diễn ở Hình 3. based Spatio-temporal Representations for Action Recognition,” Oct. 2020, [Online]. Available: http://arxiv.org/abs/2010.11757. [3] N. Kojovic, S. Natraj, S. P. Mohanty, T. Maillart, and M. Schaer, “Using 2D Video- based Pose Estimation forAutomated Prediction of Autism Spectrum Disordersin Preschoolers,” medRxiv, 2021, doi: 10.1101/2021.04.01.21254463. [4] C. I. Orozco, M. E. Buemi, and J. J. Berlles, “CNN-LSTM Architecture for Action Recognition in Videos,” 2019. Hình 3. Độ chính xác của bài toán phân loại [5] C. Sawant, “Human activity recognition with openpose and Long Short-Term hành động sử dụng OpenPose kết hợp với Memory on real time images,” 2020. LSTM sử dụng thêm các đặc trưng mới [6] F. M. Noori, B. Wallace, M. Z. Uddin, and J. Độ chính xác trên hành động Stand vẫn Torresen, “A Robust Human Activity Recognition Approach Using OpenPose, thấp nhất nhưng đã tăng 10% từ 70% lên Motion Features, and Deep Recurrent Neural 80%. Hơn nữa, giải pháp này còn tăng mean Network,” 2019, pp. 299–310. 121
nguon tai.lieu . vn