Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Mô Hình Học Sâu Nâng Cao Ứng Dụng Cho Xe Tự Hành Phát Hiện Đối Tượng và Nhận Dạng Hành Động Điều Khiển Của Cảnh Sát Giao Thông Hà Mạnh Hùng1 Phạm Thế Anh2, Nguyễn Văn Tới1, Nông Vũ Hiếu1 1 Khoa Điện Điện Tử, Đại học PHENIKAA, Yên nghĩa, Hà Đông, Hà Nội, 12116, Việt Nam 2 Prover Technology AB, Krukmakargatan, 2111851, Stockholm, Sweden Email: hung.hamanh@phenikaa-uni.edu.vn, the.anh.pham@prover.com, toi.nguyenvan@phenikaa-uni.edu.vn, 20010704@st.phenikaa-uni.edu.vn Tóm tắt—Trong bài báo này, chúng tôi đề xuất mô hình đi bộ qua đường v.v., thì cảnh sát giao thông có thể điều học sâu nâng cao (DNN) thông qua mạng lưới Attention khiển thông qua tín hiệu cử chỉ để giảm ùn tắc giao dựa trên phân tích khung xương đối tượng trong miền thông, hướng dẫn người đi bộ qua đường an toàn. Để không gian để làm tăng hiệu quả cho bài toán phát hiện hiểu tín hiệu điều khiển của cảnh sát giao thông thì cần chủ thể và nhận dạng hành động. DNN này bao gồm mạng phải hiểu rõ về cử chỉ, tư thế hoặc hành động của người nơ-ron tích chập (CNN), lớp liên kết không gian Attention điều khiển. Do đó, nhiều kỹ thuật liên quan đến xác định (SJA), mạng nơ-ron Attention 2 chiều hồi quy (A_BGRU), đối tượng và phân loại hành động đã được đề xuất. Ví hai mạng phân loại (FFN). Lớp SJA liên kết làm nổi bật dụ, nhận dạng biển báo giao thông có thể được thực hiện các đặc trưng khớp nối tư thế của đối tượng. A_BGRU tạo bằng các phương pháp tiếp cận dựa trên màu sắc, dựa ra trọng số Attention theo miền thời gian để làm nổi bật đặc trưng liên kết thời gian. Trong mô hình DNN của trên hình dạng, các thuật toán học máy, phát hiện ánh chúng tôi, một FFN lấy đầu ra của A_ BGRU để phân loại sáng và đo khoảng cách (LiDAR) [5], phát hiện cảnh sát hành động của chủ thể trong khi FFN khác xử lý đầu ra giao thông bởi mạng YOLOv3 [6], nhận dạng cử chỉ của lớp SJA cùng với majority votting để xác định đối hành động của cảnh sát giao thông được phân tích bằng tượng chủ thể. Trong quá trình thử nghiệm, các tham số học máy và các phương thức trích xuất đặc trưng thủ của CNN được khởi tạo từ đặc trưng kế thừa của mạng đã công kết hợp với mạng bộ nhớ ngắn-dài hạn (LSTM) đào tạo Google Inception V3 với tập dữ liệu ImageNet và [7][8]. Kinects. Kết quả cho thấy mô hình DNN đề xuất thực thi Với sự nở rộ của dữ liệu cùng sức mạnh tính toán trên bộ dữ liệu của cảnh sát giao thông đạt độ chính xác trung bình là 99,93% đối với phát hiện chủ thể và 94,06% trong những năm gần đây, học sâu đã trở thành lựa chọn đối với phân loại hành động. So với mô hình hiện tại thực hàng đầu để xây dựng mô hình nhận dạng. Trong khi các thi trên bộ dữ liệu cảnh sát giao thông đã đề cập, DNN của phương pháp học máy thông thường phân tích khả năng chúng tôi đạt hiệu suất tương đối vượt trội, có thể ứng nhận dạng hành động được thực hiện theo ba bước dụng để hỗ trợ nhận dạng cho các phương tiện tự lái. chính: trích xuất đặc trưng [9] [10], mô tả chủ thể, và diễn giải ngữ nghĩa từ chuỗi hình ảnh RGB [11]. Hầu Từ khóa- Mạng nơ-ron, mạng nơ-ron hồi quy, mạng hết các phương pháp được sử dụng phổ biến đều dựa CNN tích chập, Attention, Khung xương, nhận dạng chủ trên Mạng học sâu (DNN), bao gồm Mạng học sâu tích thể, nhận dạng hành động. chập (CNN), Mạng hồi quy (RNN), Mạng phân loại (FFN) [12]. Ngoài chuỗi đầu vào RGB, đặc trưng I. GIỚI THIỆU chuyển động của chủ thể, khung xương liên kết mô tả tư thế có thể là đầu vào của DNN để tạo ra các đặc tính đa Phân loại và nhận dạng đối tượng là thành phần quan dạng và dễ phân biệt nhận dạng đạt hiệu quả cao [11], trọng của hệ thống xe tự hành. Gần đây, công nghệ này [13]. Để mang lại chính xác trong việc mô hình hóa chủ đã có những bước tiến bộ lớn, các phương tiện tự lái của thể, quá trình nhận dạng có thể tập trung đến các yếu tố Tesla, BMW, Google v.v. sử dụng nhiều cảm biến để có ý nghĩa quan trọng, liên quan đến đặc trưng nhận nhận biết các tình huống trên đường nhằm mục đích lái dạng để cải thiện độ chính xác. Gần đây, với sự tiếp cận xe tự động hóa đến cấp độ 4 hoặc 5 [1] - [4]. Để xác định cơ chế Attention trong học sâu đã mang lại hiệu quả các đối tượng chuyển động đa dạng trên đường, các đáng kể cho nhiều mô hình, nó đã và đang tiếp tục là một phương tiện phải có kiến thức về hành vi và ý định của thành phần không thể thiếu trong các mô hình tiến tiến đối tượng nhằm đạt được an toàn trong khi vận hành. nhất. Cơ chế attention chỉ đơn giản là trung bình có trọng Hơn nữa, để ứng dụng đến cấp độ 5 trong thực tế, khi số của những đặc trưng mà chúng ta nghĩ nó cần thiết xảy ra sự cố tín hiệu giao thông, ùn tắc giao thông, người cho bài toán, điều đặc biệt là trọng số này do mô hình tự ISBN 978-604-80-5958-3 146
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) học được. Một số nghiên cứu đã khảo sát các cơ chế chủ thể và hành động, trong đó major votting [12] [15] Attention về mặt không gian trong DNN để làm nổi bật được sử dụng để nâng cao khả năng phân biệt chủ thể và các bộ phận quan trọng tại vị trí không gian và trình tự phân loại hành động. Trong nghiên cứu này, tập dữ liệu thời gian cho bài toán nhận dạng [14], [15] [12]. của các video clip từ [7] được sử dụng để đánh giá mô Trong thực tế, những hành động đơn phụ thuộc vào hình DNN đề xuất. Các kết quả thử nghiệm xác nhận chủ thể sẽ bị ảnh hưởng bởi những vùng chứa chủ thể rằng DNN của chúng tôi đạt được độ chính xác trung hành động và vị trí của nó trong khung hình. Hơn nữa bình là 99,93% và 94,06% đối với nhận dạng đối tượng tín hiệu để phát hiện hành động của chủ thể được xác và hành động, trong đó hiệu suất của chúng tôi vượt trội định trong khoảng thời gian cần thiết có liên quan đến hơn so với mô hình trước đó thực hiện trên cùng tập dữ chuỗi hành động tương ứng. Để giải quyết vấn đề này, liệu. Do đó, DNN được đề xuất ở đây có thể được ưu chúng tôi đã đề xuất sử dụng cơ chế Attention để tính tiên sử dụng trong hệ thống xe tự lái để nhận dạng chủ toán trọng số liên quan của nhiều vùng tác động đến vị thể và hành động. trí không gian của chủ thể thông qua việc kết hợp với Phần còn lại của bài báo được tổ chức như sau: trong các vị trí khớp khung xương chủ thể. Đồng thời để làm phần II, chúng tôi miêu tả mô hình đề xuất. Trong phần tăng độ chính sác, cơ chế Attention tiếp tục được áp III, chúng tôi đánh giá, thảo luận hiệu năng của hệ thống, dụng để trích xuất thông tin cần thiết liên kết tác động và cung cấp kết quả mô phỏng. Cuối cùng, chúng tôi kết theo miền không gian giúp mô hình rà soát lại toàn bộ luận bài báo trong phần IV. video để đưa ra dự đoán cuối cùng. Trong khuôn khổ bài báo này, chúng tôi đề xuất một II. MÔ HÌNH HỆ THỐNG ĐỀ XUẤT CHO XE mô hình DNN bao gồm mạng tích chập CNN, lớp không TỰ HÀNH gian liên kết Atttention (SJA), Bidirectinal GRU dựa trên Attention (A_BGRU) và hai mạng đầy đủ FFN để Như thể hiện trong Hình 1, DNN được đề xuất bao phát hiện đối tượng và nhận dạng hành động của cảnh gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai sát giao thông. CNN của chúng tôi dựa trên mạng hội tụ mạng truyền thẳng FFN được thiết kế cho xác định chủ đã huấn luyện của mô hình Google Inception V3 được thể và nhận dạng hành động. Trước hết, mỗi video clip đào tạo bởi tập dữ liệu lớn ImageNet và Kinects, nơi áp được chia thành nhiều đoạn video, mỗi đoạn được xếp dụng kỹ thuật học chuyển giao. Lớp SJA với cơ chế chồng lên nhau để tránh hiệu ứng chặn. Do kích thước Attention tích hợp đặc trưng tĩnh từ mạng CNN kết hợp cố định của lớp mạng học sâu đã huấn luyện inception với các điểm trích chọn của khớp trong khung xương tư V3, trong mô hình đề xuất DNN đã sử dụng các kỹ thuật thế từ đó đưa kết quả đầu ra cho A_BGRU nơi các khớp tiền xử lý về chia tỷ lệ kích thước, lấy mẫu tăng giảm, tư thế cung cấp thông tin về tư thế vật lý của chủ thể. Cơ để đáp ứng nhu cầu đầu vào. Chuỗi RGB từ mỗi đoạn chế hoạt động Attention thực hiện trong A_BGRU lấy video là đầu vào của mạng tích chập CNN để tạo ra các kết quả đầu ra từ lớp SJA và kết quả đầu ra của các đơn đặc trưng tĩnh chứa các đặc trưng về cấu trúc đối tượng. vị hidden trong A_BGRU để điều chỉnh A_BGRU theo Lớp SJA tạo ra các bộ mô tả không gian được hỗ trợ của trọng số Attention. A_BGRU bao gồm hai lớp đảo chiều các khớp tư thế trong khung xương chủ thể. A_BGRU song song bidirectional Gated Recurrent Unit (GRU). liên tục xử lý các đầu ra của lớp SJA để tạo ra các vectơ Cuối cùng, có hai mạng truyền thẳng FFN xử lý các đặc trưng quan trọng về không gian-thời gian liên quan vectơ đặc trưng từ lớp SJA và A_BGRU để nhận dạng đến đối tượng và hành độngc của đối tượng. Cuối cùng, Hình 1. Mô hình đề xuất DNN cho phân loại đối tượng và nhận dạng hành động. ISBN 978-604-80-5958-3 147
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) hai bộ mạng truyền thẳng FFN được sử dụng để phân loại và nhận dạng hành động. Ngoài ra, cảnh sát giao thông tại trích đoạn video được xác định bởi major votting trong kết quả phân loại từ tất cả các khung hình ảnh của toàn bộ video. A. Tiền xử lý Mỗi video clip RGB được chia đều thành nhiều phân đoạn trong khoảng thời gian 2 giây. Như vậy số khung hình trong một phân đoạn video là 15*2 (15 khung hình / giây trong tập dữ liệu [7]). Các phân đoạn video liền kề Hình 2. Sơ đồ khối của mô hình đề xuất SJA. được tổ chức chồng lên nhau 50%, trong đó kích thước của mỗi khung hình được chia thành 299 × 299 pixel. Quá trình hoạt động của lớp SJA được xây dựng như Dựa trên dữ liệu đầu vào RGB, các đặc trưng của khớp sau. 𝑀 𝑠 biểu thị đặc trưng đối tượng tĩnh với kích thước 2D tương ứng của khung xương đối tượng được trích là 𝑘 × 𝑘 × 𝐷. P biểu diễn đặc trưng trích xuất tư thế của xuất từ công cụ OpenPose trong đó mỗi bộ khớp tương chủ thể từ khung RGB, với kích thước 18 × 3. Thao tác ứng chủ thể có tọa độ và giá trị tin cậy tương ứng 18 đầu tiên là ghép tầng 𝑀 𝑠 và P để trở thành đầu vào cho điểm khớp [16]. lớp kết nối đầy đủ với hàm kích hoạt Tanh để thu được đầu ra 𝑘 × 𝑘 × 𝐷, 𝛼, như sau: B. Mô Hình Đề Xuất Mạng Học Sâu DNN 𝛼 = 𝐹𝑐 (𝑀 𝑠 ⨀ 𝑃 ) (1) 1) CNN Đặc Trưng Không Gian Trước khi huấn luyện, kỹ thuật học chuyển giao trong đó hàm 𝐹𝑐 (. ) biểu thị cho hàm tính toán của lớp được áp dụng để hỗ trợ huấn luyện hiệu quả bằng cách kết nối đầy đủ, ⊛ và ⨀ biểu thị cho phép toán nhân sử dụng kiến thức được đào tạo từ trước, sử dụng cùng từng phần tử (element-wise multiplication) and toán tử một cấu trúc liên kết mạng để thực hiện việc huấn luyện ghép (concatenation operation). Lớp kết nối đầy đủ thực dựa trên dữ liệu lớn. Theo đó, chúng tôi sử dụng mạng hiện các phép toán của vector đầu vào với các trọng số hội tụ của mô hình Google Inception V3 được đào tạo tương ứng và được thêm vào biases để trở thành dữ liệu bởi tập dữ liệu lớn ImageNet và Kinects, và tinh chỉnh lũy tích, đi qua hàm Tanh để thu được kết quả đầu ra. huấn luyện lại theo phương thức học chuyển giao đối Các hoạt động nói trên nhằm xây dựng mối tương quan với bộ dữ liệu tín hiệu cảnh sát [7] để tạo đặc trưng tĩnh. giữa đặc trưng đối tượng tĩnh và các vị trí khớp của Trong Hình 1, đặc trưngcủa đối tượng được trích xuất khung xương. Thứ hai, các tham số Attention, α, được từ lớp tổng hợp cuối cùng của CNN có các khối đối chuẩn hóa theo từng khung đặc trưng đơn với chiều kích tượng ở kích thước 𝑘 × 𝑘 × 𝐷, trong đó 𝑘 × 𝑘 và 𝐷 đại thước 𝑘 × 𝑘 như sau, diện cho kích thước của một khung đối tượng duy nhất và chiều không gian của đặc trưng trích xuất, tương 𝑒𝑥𝑝 (𝛼𝑗,𝑖 ) (2) ứng. Ở đây, 𝑘 và 𝐷 lần lượt bằng 8 và 2048. 𝛼̅𝑗,𝑖 = ∑𝑘×𝑘 𝑟=1 𝑒𝑥𝑝(𝛼𝑗,𝑟 ) 2) Lớp SJA trong đó 𝛼̅𝑗,𝑖 là trọng số Attention chuẩn hóa tại thành Để khai phá các thông tin có ý nghĩa đặc trưng giúp phần thứ i của khung đặc trưng thứ j và 𝜶 = {𝛼𝑗,𝑖 |𝑗 = 1, phát hiện hành động, chúng tôi tạo lớp SJA giữa mạng . . . , 𝑇1 ; 𝑖 = 1, . . . , 𝑘 2 }. Thao tác này làm tăng tác động của tích chập CNN và mạng A_BGRU bằng cách trích xuất Attention có giá trị dương theo cấp số nhân và chuẩn hóa trọng số tương ứng với các thành phần có thể phân biệt chúng để thu được những giá trị tương đối quan trọng ở giữa các hành động ở các vùng khác nhau. Lớp SJA, mỗi khung đối tượng. Cuối cùng, trọng số Attention như được mô tả trong Hình 2, kết hợp trích chọn đặc chuẩn hóa được nhân theo phần tử với các thành phần trưng tĩnh và thông tin tư thế chủ thể, tính toán dữ liệu tương ứng của từng đặc trưng đối tượng, kết hợp để mang lại trọng số Attention quan trọng và sau đó kết hợp trọng số này với đặc trưng đối tượng tĩnh 𝑘×𝑘 để tạo ra kết quả là véc tơ không gian Attention. Bằng ̅𝑗𝑠 𝑀 𝑠 = ∑ 𝛼̅𝑗,𝑖 𝑀𝑗,𝑖 (3) cách trích xuất đặc trưng của một số hành động phụ 𝑖=1 thuộc vào một phần của cơ thể chủ thể thay vì toàn bộ cơ thể. do đó vectơ không gian Attention với các trọng trong đó 𝑴 ̅𝑗𝑠 |𝑗 = 1, . . ., 𝑇1 } là vector đầu ra trong ̅ 𝒔 = {𝑀 số được mô tả phù hợp rất có lợi cho sự phân biệt hành không gian Attention của lớp SJA. Thao tác như vậy đã động. nhúng các Attention chuẩn hóa vào đặc trưng đối tượng tĩnh để làm nổi bật phần đặc trưng quan trọng có liên quan đến hành động và nhấn mạnh vùng nào tác động ISBN 978-604-80-5958-3 148
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) nhiều nhất đến đặc trưng phân loại hành động để đưa ra trên khung hình ảnh và phân đoạn video đầu vào, tương dự báo chính sác. ứng. Kích thước đầu vào của hai FFN thỏa mãn đầu ra của SJA và A_BGRU. Các nơron đầu ra của hai FFN là 3) Biểu diễn liên kết thời gian Attention bằng cấu trúc 2 (cảnh sát giao thông và người tham gia giao thông) và A_BGRU 9 (9 lớp tương đương với 9 tín hiệu điều khiển) để đáp Đầu ra từ lớp SJA đưa vào mạng A_BGRU được ứng các yêu cầu dự đoán và phân loại, tương ứng. nhúng cơ chế Attention để trích rút thông tin không gian-thời gian. Một đầu vào của A_BGRU là vectơ III. KẾT QUẢ VÀ ĐÁNH GIÁ HIỆU NĂNG HỆ không gian đặc trưng Attention cái nhấn mạnh vào đặc THỐNG trưng hành động. Ngoài ra, A_BGRU bao gồm cấu trúc Trong phần này, chúng tôi tiến hành thực nghiệm liên GRU hai chiều và đơn vị tính toán trọng số Attention quan đến mô hình đề xuất. Đầu tiên, chúng tôi giới thiệu để diễn giải các đặc trưng về miền thời gian. Các mẫu về cơ sở dữ liệu chuẩn được sử dụng để đánh giá hiệu đầu vào bao gồm vectơ không gian atttention và các quả của mô hình cài đặt. Tiếp theo chúng tôi trình bày trạng thái ẩn của GRU trong A_BGRU. Đầu ra từ đơn hai kết quả so sánh, (1) các trường hợp cụ thể với các vị tính toán trọng số attention tạo thành một tập hợp các mô hình khác nhau trong nhận dạng hành động, (2) so vectơ ngữ cảnh, C, là các đầu vào được nhúng trọng số sánh về hiệu suất phân loại với mô hình đã công bố [7]. attention cho các đơn vị GRU. Sơ đồ khối của Cuối cùng là phân tích kết quả phân biệt người đi bộ và A_BGRU đề xuất được hiển thị trong Hình 3. cảnh sát giao thông. A. Tập dữ liệu đánh giá Trong thử nghiệm này, cơ sở dữ liệu liên quan đến tín hiệu điều khiển của cảnh sát giao thông [7] được sử dụng với 21 video clip được đưa vào (như trong Hình 4). Các video clip này có độ phân giải khung hình là 1080 × 1080-pixel và tốc độ khung hình là 15Hz. Ngoài ra, có tám lệnh và một cử chỉ không lệnh mô phỏng từ cảnh sát giao thông, trong đó mỗi hành động được thực hiện từ cử chỉ không lệnh sang trạng thái lệnh, sau đó từ trạng thái lệnh sang cử chỉ không lệnh ở trong nhà và ngoài trời. Có hai loại trang phục phản quang và phổ Hình 3. Sơ đồ khối của mô hình đề xuất A_BGRU. thông được cảnh sát giao thông mặc, trong đó trang phục phản quang được sử dụng trong hầu hết các video Đầu tiên, vector không gian nhúng attention, 𝑀 ̅ 𝑠, clip và trang phục chung chỉ xuất hiện trong hai video được ghép với các trạng thái ẩn của GRU trong clip. Quá trình đánh giá hiệu suất phân loại bao gồm 11 A_BGRU để trở thành vector đầu vào cho lớp kết nối video cho huấn luyện và 10 video clip dùng để kiểm tra, đầy đủ với chức năng kích hoạt toán tử Tanh. Sau khi tuân theo sự sắp xếp của tập dữ liệu trong [7] để có thể tính toán qua hàm trung bình mũ softmax, các đầu ra từ so sánh một cách công bằng. lớp kết nối đầy đủ tạo ra trọng số attention. Ở đây, mối tương quan giữa vectơ không gian được nhúng trọng số attention và các trạng thái thời gian của A_BGRU được xây dựng để tìm ra những đặc trưng cần được nhấn mạnh vào hành động tại các bước thời gian cụ thể. Thứ hai, phép nhân ma trận của vectơ không gian nhúng attention, 𝑀̅ 𝑠 và các trọng số attention tương ứng được thực hiện để đạt được vectơ ngữ cảnh, C, giải quyết các đơn vị GRU hai chiều với sự nhấn mạnh vào các phần quan trọng của phân đoạn đầu vào. Ví dụ mỗi đoạn video đầu vào có 30 khung đặc trưng 𝑀 ̅ 𝑠 cho A_BGRU, cần 30 bước thời gian tương ứng để thực hiện tính toán. Ngoài ra, A_BGRU tạo ra hai dữ liệu đầu ra từ các đường dẫn tới và lùi, được nối tương ứng để tạo thành các vectơ đặc trưng 2n chiều cho lần phân loại tiếp theo tại n = 2048. 4) Cấu trúc phân loại FFNs cho phát hiện chủ thể và Hình 4. Một vài tín hiệu điều khiển bằng hành động của dữ liệu nhận dạng hành động cảnh sát giao thông [7] Hai mạng nơ-ron truyền thẳng ba lớp được sử dụng để xác định chủ thể và nhận dạng các hành động dựa ISBN 978-604-80-5958-3 149
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) B. Phân tích và so sánh kết quả thực nghiệm phân loại sai là các hành động không phải lệnh. Đó là Trong mục này, chúng tôi tiến hành đánh giá từng do một số phân đoạn video tạm thời bao gồm các hành thành phần của mô hình đề xuất DNN để hiểu được động lệnh không hoàn chỉnh, dẫn đến dự đoán sai. những đóng góp về hiệu suất của chúng. Ngoài ra, kết quả thử nghiệm của các thành phần trong mô hình đề Nghiên cứu được công bố [7] sử dụng mạng tích xuất DNN được thực hiện trên cùng một tập dữ liệu để chập trích xuất dữ liệu khung xương sau đó chuyển đổi so sánh và thảo luận. Mục đích hiểu rõ hiệu suất được qua đặc trưng độ dài và góc trong miền không gian, cuối cải thiện bởi các cơ chế attention trong mô hình đề xuất cùng là đào tạo dữ liệu trong miền thời gian với việc sử SJA và A_BGRU, chúng tôi đã tiến hành đánh giá thực dụng mạng LSTM. So với độ chính xác 91,18% từ công hiện ba loại DNN để ghi nhận hành động. DNN Loại 1, trình đã công bố [7], DNN được đề xuất cho thấy hiệu đặt tên là CNN, bao gồm một mạng tích chập và một suất tốt hơn 2,88% bởi việc sử dụng cơ chế Attention mạng nơron truyền thẳng ba lớp để phân loại trong đó trong mạng tích chập CNN và mạng hồi quy GRU đào các tham số ban đầu của mạng tích chập CNN này được tạo trên bộ dữ liệu RGB kết hợp đặc trưng khung xương. khởi tạo bởi các tham số của mạng Inception V3 hội tụ. DNN loại 2, được đặt tên là CNN + SJA, bao gồm DNN Để phân biệt giữa người đi bộ và cảnh sát điều loại 1 và bổ xung lớp SJA để nâng cao khả năng nhận khiển giao thông trên đường, những người mặc đồng dạng hành động bằng các khớp tư thế trong khung phục tương tự như áo phản quang được xác định là cảnh xương chủ thể. DNN loại 3 được đề xuất, CNN + SJA sát giao thông. Bảng II hiển thị ma trận nhầm lẫn của + A_BGRU, sử dụng DNN Loại 2 và A_BGRU. Ở đây, DNN và YOLOv4- tiny [17] được đề xuất để xác định A_BGRU bao gồm lớp GRU hai chiều với cơ chế các đối tượng trong đó tổng số hơn 70.000 hình ảnh từ attention, chỉ tạo ra một vectơ đầu ra nối các kết quả đầu đối tượng cơ bản trong ngữ cảnh (COCO), Lớp đối ra từ các GRU cuối cùng trong các đường tiến và lùi. tượng trực quan (VOC) và bộ dữ liệu cử chỉ tính hiệu Ngoài ra, lớp phân loại hành động trong ba loại DNN điều khiển của cảnh sát giao thông được sử dụng để này sử dụng cùng một mạng nơ-ron truyền thẳng để dự huấn luyện. Độ chính xác được cải thiện đáng kể bởi đoán. majority votting. Trong DNN được đề xuất, độ chính xác nhận biết của người đi bộ và cảnh sát lần lượt là BẢNG 1: HIỆU SUẤT PHÂN LOẠI CỦA BA MÔ HÌNH DNNS. 99,86% và 100,00% khi người đi bộ cũng thực hiện 8 Hiệu xuất hành động ra lệnh. Lỗi nhận dạng người đi bộ xuất phát Mô hình DNNs Đầu vào từ các hành động cụ thể mà cánh tay, tay chân hoặc bàn phân loại tay của đối tượng có thể che khuất quần áo phản quang CNN RGB 78.90% để đánh lừa đối tượng phân loại. Ở những tình huống CNN+SJA RGB + Pose joints 86.95% thông thường, người đi bộ chỉ đi qua những con đường với ít cử chỉ động tác hơn. Từ kết quả thí nghiệm ở Bảng CNN+SJA+A_BGRU RGB + Pose joints 94.06% II, DNN được đề xuất có khả năng hoạt động rất hứa (Mô hình đề xuất DNN) hẹn cho phân biệt nhận dạng người tham gia giao thông. Như được liệt kê trong Bảng I, hiệu suất phân loại của DNN Loại I chỉ sử dụng một mạng tích chập CNN là 78,90%. Khi lớp SJA được thêm vào, tỷ lệ chính xác được tăng lên 86,95%. Bởi vì DNN Loại 2 đã tiếp cận đặc trưng không gian Attention để liên kết các điểm khớp trong bộ khung xương chủ thể, nó nhấn mạnh các vùng có ý nghĩa để nhận dạng cử chỉ tín hiệu điều khiển và bỏ qua các vùng không liên quan. Cũng như sự nhấn mạnh về miền không gian, DNN được đề xuất sử dụng A_BGRU để làm nổi bật các manh mối thông tin ở miền thời gian có liên kết theo miền không gian để thu được các đặc trưng hành động với độ chính xác tốt nhất lên đến 94,06%. Qua đó chúng ta thấy rằng việc kết hợp sử dụng cơ chế Attention dựa trên mạng tích chập và mạng hồi quy đã đạt được kết quả rất khả quan. Ma trận nhầm lẫn của DNN được đề xuất liên quan đến 9 hành động được mô tả trong Hình 5, không Hình 5. Ma trận nhầm lẫn của mô hình DNN đề xuất cho nhận dạng phải lệnh, dừng lại, di chuyển thẳng, rẽ trái, chờ rẽ trái, hành động rẽ phải, chuyển làn, giảm tốc độ và dạt vào lề đường được đánh số từ 0 đến 8. Hầu hết 8 hành động lệnh bị ISBN 978-604-80-5958-3 150
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Bảng 2: Matrận hỗn loạn của mô hình DNN đề xuất và YoLov4-tiny TÀI LIỆU THAM KHẢO cho phát hiện đối tượng [1] Tesla, https://www.tesla.com/autopilot Cảnh sát giao Người tham null [2] BMW, https://www.bmw.com/en/automotive-life/autonomous- thông gia giao driving.html thông [3] Google's Waymo, https://waymo.com/ Đề xuất mô hình DNN bỏ qua majority voting (image- [4] H. Zhu, K. Yuen, L. Mihaylova, and H. Leung, “Overview of based) environment perception for intelligent vehicles,” IEEE Cảnh sát Transactions on Intelligent Transportation Systems, vol. 18, no. 100.00% 0.00% giao thông 10, pp. 2584-2601, Oct. 2017. Người [5] C. Liu, S. Li, F. Chang, and Y. Wang, “Machine vision based tham gia 1.58% 98.42% traffic sign detection methods: Review, analyses and giao thông perspectives,” IEEE Access, July 17, 2019 (Digital Object Mô hình đề xuất DNN (video-based) Identifier 10.1109/ACCESS.2019.2924947). Cảnh sát [6] Y. Zheng et al, “A method of detect traffic police in complex 100.00% 0.00% giao thông scenes,” in Proc. of the 14th International Conference on Người Computational Intelligence and Security, pp. 83-87, 2018. tham gia 0.14% 99.86% giao thông [7] J. He, C. Zhang, X. He, and R. Dong, “Visual recognition of traffic police gestures with convolutional pose machine and YOLOv4-tiny (image-based) handcrafted features,” Neurocomputing, no. 390, pp. 248–259, Cảnh sát 2020. 95.59% 4.20% 0.21% giao thông Người [8] Manh-Hung Ha and Osacl T C Chen "Action Recognition tham gia 0.00% 99.63% 0.37% Improved by Correlation and Attention of Subjects and Scene," in Proceedings of the IEEE Visual Communications and Image giao thông Processing (VCIP), 2021 (Accepted). YOLOv4-tiny với majority voting (video-based) Cảnh sát [9] O. T.-C. Chen, C.-H. Tsai, H. H. Manh, and W.-C. Lai, 98.01% 1.99% 0.00% "Activity recognition using a panoramic camera for homecare." giao thông Người in Proceedings of 14th IEEE International Conference on Advanced Video and Signal Based Surveillance, pp. 1-6, 2017. tham gia 0% 100.00% 0% giao thông [10] O. T.-C. Chen, H. H. Manh, and W.-C. Lai, “Activity recognition of multiple subjects for homecare,” in Proceedings IV. KẾT LUẬN of the 10th International Conference on Knowledge and Smart Technology, pp. 242–247, 2018. Trong khuôn khổ bài báo này, chúng tôi đã triển khai [11] P. Turaga, R. Chellappa, V. S. Subrahmanian, and O. Udrea, thành công mô hình mạng DNN sử dụng chuỗi đầu vào “Machinerecognition of human activities: A survey,” IEEE RGB đi kèm với các đặc trưng tư thế để phát hiện đối Transactions on Circuits and Systems for Video technology, vol. 18, no. 11, pp. 1473–1488, 2008. tượng và nhận dạng hành động. DNN được đề xuất bao [12] Manh-Hung Ha and Osacl T C Chen, “Deep neural networks gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai using capsule networks and skeleton-based attentions for action mạng truyền thẳng FFN. Cấu trúc liên kết mạng của recognition,” IEEE Access, vol. 9, pp. 6164–6178, January CNN dựa trên mô hình hội tụ của Google Inception V3 2021. để tạo ra các đặc trưng đối tượng tĩnh nơi sử dụng kỹ [13] S. Das, A. Chaudhary, F. Bremond, and M. Thonnat, “Where to focus on for human action recognition?” in IEEE Winter thuật học chuyển giao. Lớp SJA hỗ chợ trích xuất đặc Conference on Applications of Computer Vision, pp. 71–80, trưng cục bộ trong việc điều chỉnh trọng số attention một 2019. cách thích ứng trên các khớp tư thế của bộ khung xương [14] D. Li, T. Yao, L.-Y. Duan, T. Mei, and Y. Rui, “Unified trên miền không gian. A_BGRU xử lý các kết quả đầu spatiotemporal attention networks for action recognition in ra của các lớp SJA để thu được các vectơ đặc trưng videos,” IEEE Transactions on Multimedia, vol. 21, no. 2, pp. 416–428, 2019. không gian-thời gian nổi bật. Cuối cùng, hai mạng [15] O. T.-C. Chen, M.-H. Ha, and Y. L. Lee, "Computation- truyền thẳng FFN hoàn thành việc phân loại đối tượng affordable recognition system for activity identification using a và hành động, dựa trên khung hình ảnh và đoạn video, smart phone at home," in Proceedings of the IEEE International tương ứng. Kết quả phân loại từ tất cả các hình ảnh của Symposium on Circuits and Systems, pp. 1-5, 2020. một đoạn video được áp dụng majority votting để dự [16] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime multi- đoán kết quả cuối cùng. Theo kết quả thử nghiệm, DNN person 2d pose estimation using part affinity fields,” in Proceedings of the IEEE Conference on Computer Vision and đề xuất đạt được độ chính xác trung bình là 99,93% và Pattern Recognition, pp. 7291–7299, 2017. 94,06%, tương ứng để xác định chủ thể và hành động. [17] Jiang, Z., Zhao, L., Li, S., & Jia, Y. Real-time object detection Mô hình của chúng tôi đã khai thác và nhấn mạnh vào method based on improved YOLOv4-tiny. arXiv preprint những đặc trưng hữu ích có tính phân loại hành động. arXiv:2011.04244, 2020. Do đó, DNN được đề xuất ở đây hứa hẹn là một mô hình tối ưu để phát hiện chủ thể và hiểu đối tượng thực hiện nhiệm vụ gì khi áp dụng cho hệ thống xe tự hành. ISBN 978-604-80-5958-3 151
nguon tai.lieu . vn