- Trang Chủ
- Kỹ thuật lập trình
- Mô hình học sâu nâng cao ứng dụng cho xe tự hành phát hiện đối tượng và nhận dạng hành động điều khiển của cảnh sát giao thông
Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Mô Hình Học Sâu Nâng Cao Ứng Dụng Cho
Xe Tự Hành Phát Hiện Đối Tượng và Nhận
Dạng Hành Động Điều Khiển Của Cảnh Sát
Giao Thông
Hà Mạnh Hùng1 Phạm Thế Anh2, Nguyễn Văn Tới1, Nông Vũ Hiếu1
1
Khoa Điện Điện Tử, Đại học PHENIKAA, Yên nghĩa, Hà Đông, Hà Nội, 12116, Việt Nam
2
Prover Technology AB, Krukmakargatan, 2111851, Stockholm, Sweden
Email: hung.hamanh@phenikaa-uni.edu.vn, the.anh.pham@prover.com, toi.nguyenvan@phenikaa-uni.edu.vn,
20010704@st.phenikaa-uni.edu.vn
Tóm tắt—Trong bài báo này, chúng tôi đề xuất mô hình đi bộ qua đường v.v., thì cảnh sát giao thông có thể điều
học sâu nâng cao (DNN) thông qua mạng lưới Attention khiển thông qua tín hiệu cử chỉ để giảm ùn tắc giao
dựa trên phân tích khung xương đối tượng trong miền thông, hướng dẫn người đi bộ qua đường an toàn. Để
không gian để làm tăng hiệu quả cho bài toán phát hiện hiểu tín hiệu điều khiển của cảnh sát giao thông thì cần
chủ thể và nhận dạng hành động. DNN này bao gồm mạng phải hiểu rõ về cử chỉ, tư thế hoặc hành động của người
nơ-ron tích chập (CNN), lớp liên kết không gian Attention điều khiển. Do đó, nhiều kỹ thuật liên quan đến xác định
(SJA), mạng nơ-ron Attention 2 chiều hồi quy (A_BGRU), đối tượng và phân loại hành động đã được đề xuất. Ví
hai mạng phân loại (FFN). Lớp SJA liên kết làm nổi bật
dụ, nhận dạng biển báo giao thông có thể được thực hiện
các đặc trưng khớp nối tư thế của đối tượng. A_BGRU tạo
bằng các phương pháp tiếp cận dựa trên màu sắc, dựa
ra trọng số Attention theo miền thời gian để làm nổi bật
đặc trưng liên kết thời gian. Trong mô hình DNN của
trên hình dạng, các thuật toán học máy, phát hiện ánh
chúng tôi, một FFN lấy đầu ra của A_ BGRU để phân loại sáng và đo khoảng cách (LiDAR) [5], phát hiện cảnh sát
hành động của chủ thể trong khi FFN khác xử lý đầu ra giao thông bởi mạng YOLOv3 [6], nhận dạng cử chỉ
của lớp SJA cùng với majority votting để xác định đối hành động của cảnh sát giao thông được phân tích bằng
tượng chủ thể. Trong quá trình thử nghiệm, các tham số học máy và các phương thức trích xuất đặc trưng thủ
của CNN được khởi tạo từ đặc trưng kế thừa của mạng đã công kết hợp với mạng bộ nhớ ngắn-dài hạn (LSTM)
đào tạo Google Inception V3 với tập dữ liệu ImageNet và [7][8].
Kinects. Kết quả cho thấy mô hình DNN đề xuất thực thi
Với sự nở rộ của dữ liệu cùng sức mạnh tính toán
trên bộ dữ liệu của cảnh sát giao thông đạt độ chính xác
trung bình là 99,93% đối với phát hiện chủ thể và 94,06% trong những năm gần đây, học sâu đã trở thành lựa chọn
đối với phân loại hành động. So với mô hình hiện tại thực hàng đầu để xây dựng mô hình nhận dạng. Trong khi các
thi trên bộ dữ liệu cảnh sát giao thông đã đề cập, DNN của phương pháp học máy thông thường phân tích khả năng
chúng tôi đạt hiệu suất tương đối vượt trội, có thể ứng nhận dạng hành động được thực hiện theo ba bước
dụng để hỗ trợ nhận dạng cho các phương tiện tự lái. chính: trích xuất đặc trưng [9] [10], mô tả chủ thể, và
diễn giải ngữ nghĩa từ chuỗi hình ảnh RGB [11]. Hầu
Từ khóa- Mạng nơ-ron, mạng nơ-ron hồi quy, mạng hết các phương pháp được sử dụng phổ biến đều dựa
CNN tích chập, Attention, Khung xương, nhận dạng chủ trên Mạng học sâu (DNN), bao gồm Mạng học sâu tích
thể, nhận dạng hành động. chập (CNN), Mạng hồi quy (RNN), Mạng phân loại
(FFN) [12]. Ngoài chuỗi đầu vào RGB, đặc trưng
I. GIỚI THIỆU chuyển động của chủ thể, khung xương liên kết mô tả tư
thế có thể là đầu vào của DNN để tạo ra các đặc tính đa
Phân loại và nhận dạng đối tượng là thành phần quan dạng và dễ phân biệt nhận dạng đạt hiệu quả cao [11],
trọng của hệ thống xe tự hành. Gần đây, công nghệ này [13]. Để mang lại chính xác trong việc mô hình hóa chủ
đã có những bước tiến bộ lớn, các phương tiện tự lái của thể, quá trình nhận dạng có thể tập trung đến các yếu tố
Tesla, BMW, Google v.v. sử dụng nhiều cảm biến để có ý nghĩa quan trọng, liên quan đến đặc trưng nhận
nhận biết các tình huống trên đường nhằm mục đích lái dạng để cải thiện độ chính xác. Gần đây, với sự tiếp cận
xe tự động hóa đến cấp độ 4 hoặc 5 [1] - [4]. Để xác định cơ chế Attention trong học sâu đã mang lại hiệu quả
các đối tượng chuyển động đa dạng trên đường, các đáng kể cho nhiều mô hình, nó đã và đang tiếp tục là một
phương tiện phải có kiến thức về hành vi và ý định của thành phần không thể thiếu trong các mô hình tiến tiến
đối tượng nhằm đạt được an toàn trong khi vận hành. nhất. Cơ chế attention chỉ đơn giản là trung bình có trọng
Hơn nữa, để ứng dụng đến cấp độ 5 trong thực tế, khi số của những đặc trưng mà chúng ta nghĩ nó cần thiết
xảy ra sự cố tín hiệu giao thông, ùn tắc giao thông, người cho bài toán, điều đặc biệt là trọng số này do mô hình tự
ISBN 978-604-80-5958-3 146
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
học được. Một số nghiên cứu đã khảo sát các cơ chế chủ thể và hành động, trong đó major votting [12] [15]
Attention về mặt không gian trong DNN để làm nổi bật được sử dụng để nâng cao khả năng phân biệt chủ thể và
các bộ phận quan trọng tại vị trí không gian và trình tự phân loại hành động. Trong nghiên cứu này, tập dữ liệu
thời gian cho bài toán nhận dạng [14], [15] [12]. của các video clip từ [7] được sử dụng để đánh giá mô
Trong thực tế, những hành động đơn phụ thuộc vào hình DNN đề xuất. Các kết quả thử nghiệm xác nhận
chủ thể sẽ bị ảnh hưởng bởi những vùng chứa chủ thể rằng DNN của chúng tôi đạt được độ chính xác trung
hành động và vị trí của nó trong khung hình. Hơn nữa bình là 99,93% và 94,06% đối với nhận dạng đối tượng
tín hiệu để phát hiện hành động của chủ thể được xác và hành động, trong đó hiệu suất của chúng tôi vượt trội
định trong khoảng thời gian cần thiết có liên quan đến hơn so với mô hình trước đó thực hiện trên cùng tập dữ
chuỗi hành động tương ứng. Để giải quyết vấn đề này, liệu. Do đó, DNN được đề xuất ở đây có thể được ưu
chúng tôi đã đề xuất sử dụng cơ chế Attention để tính tiên sử dụng trong hệ thống xe tự lái để nhận dạng chủ
toán trọng số liên quan của nhiều vùng tác động đến vị thể và hành động.
trí không gian của chủ thể thông qua việc kết hợp với Phần còn lại của bài báo được tổ chức như sau: trong
các vị trí khớp khung xương chủ thể. Đồng thời để làm phần II, chúng tôi miêu tả mô hình đề xuất. Trong phần
tăng độ chính sác, cơ chế Attention tiếp tục được áp III, chúng tôi đánh giá, thảo luận hiệu năng của hệ thống,
dụng để trích xuất thông tin cần thiết liên kết tác động và cung cấp kết quả mô phỏng. Cuối cùng, chúng tôi kết
theo miền không gian giúp mô hình rà soát lại toàn bộ luận bài báo trong phần IV.
video để đưa ra dự đoán cuối cùng.
Trong khuôn khổ bài báo này, chúng tôi đề xuất một
II. MÔ HÌNH HỆ THỐNG ĐỀ XUẤT CHO XE
mô hình DNN bao gồm mạng tích chập CNN, lớp không
TỰ HÀNH
gian liên kết Atttention (SJA), Bidirectinal GRU dựa
trên Attention (A_BGRU) và hai mạng đầy đủ FFN để Như thể hiện trong Hình 1, DNN được đề xuất bao
phát hiện đối tượng và nhận dạng hành động của cảnh gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai
sát giao thông. CNN của chúng tôi dựa trên mạng hội tụ mạng truyền thẳng FFN được thiết kế cho xác định chủ
đã huấn luyện của mô hình Google Inception V3 được thể và nhận dạng hành động. Trước hết, mỗi video clip
đào tạo bởi tập dữ liệu lớn ImageNet và Kinects, nơi áp được chia thành nhiều đoạn video, mỗi đoạn được xếp
dụng kỹ thuật học chuyển giao. Lớp SJA với cơ chế chồng lên nhau để tránh hiệu ứng chặn. Do kích thước
Attention tích hợp đặc trưng tĩnh từ mạng CNN kết hợp cố định của lớp mạng học sâu đã huấn luyện inception
với các điểm trích chọn của khớp trong khung xương tư V3, trong mô hình đề xuất DNN đã sử dụng các kỹ thuật
thế từ đó đưa kết quả đầu ra cho A_BGRU nơi các khớp tiền xử lý về chia tỷ lệ kích thước, lấy mẫu tăng giảm,
tư thế cung cấp thông tin về tư thế vật lý của chủ thể. Cơ để đáp ứng nhu cầu đầu vào. Chuỗi RGB từ mỗi đoạn
chế hoạt động Attention thực hiện trong A_BGRU lấy video là đầu vào của mạng tích chập CNN để tạo ra các
kết quả đầu ra từ lớp SJA và kết quả đầu ra của các đơn đặc trưng tĩnh chứa các đặc trưng về cấu trúc đối tượng.
vị hidden trong A_BGRU để điều chỉnh A_BGRU theo Lớp SJA tạo ra các bộ mô tả không gian được hỗ trợ của
trọng số Attention. A_BGRU bao gồm hai lớp đảo chiều các khớp tư thế trong khung xương chủ thể. A_BGRU
song song bidirectional Gated Recurrent Unit (GRU). liên tục xử lý các đầu ra của lớp SJA để tạo ra các vectơ
Cuối cùng, có hai mạng truyền thẳng FFN xử lý các đặc trưng quan trọng về không gian-thời gian liên quan
vectơ đặc trưng từ lớp SJA và A_BGRU để nhận dạng đến đối tượng và hành độngc của đối tượng. Cuối cùng,
Hình 1. Mô hình đề xuất DNN cho phân loại đối tượng và nhận dạng hành động.
ISBN 978-604-80-5958-3 147
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
hai bộ mạng truyền thẳng FFN được sử dụng để phân
loại và nhận dạng hành động. Ngoài ra, cảnh sát giao
thông tại trích đoạn video được xác định bởi major
votting trong kết quả phân loại từ tất cả các khung hình
ảnh của toàn bộ video.
A. Tiền xử lý
Mỗi video clip RGB được chia đều thành nhiều phân
đoạn trong khoảng thời gian 2 giây. Như vậy số khung
hình trong một phân đoạn video là 15*2 (15 khung hình
/ giây trong tập dữ liệu [7]). Các phân đoạn video liền kề Hình 2. Sơ đồ khối của mô hình đề xuất SJA.
được tổ chức chồng lên nhau 50%, trong đó kích thước
của mỗi khung hình được chia thành 299 × 299 pixel. Quá trình hoạt động của lớp SJA được xây dựng như
Dựa trên dữ liệu đầu vào RGB, các đặc trưng của khớp sau. 𝑀 𝑠 biểu thị đặc trưng đối tượng tĩnh với kích thước
2D tương ứng của khung xương đối tượng được trích là 𝑘 × 𝑘 × 𝐷. P biểu diễn đặc trưng trích xuất tư thế của
xuất từ công cụ OpenPose trong đó mỗi bộ khớp tương chủ thể từ khung RGB, với kích thước 18 × 3. Thao tác
ứng chủ thể có tọa độ và giá trị tin cậy tương ứng 18 đầu tiên là ghép tầng 𝑀 𝑠 và P để trở thành đầu vào cho
điểm khớp [16]. lớp kết nối đầy đủ với hàm kích hoạt Tanh để thu được
đầu ra 𝑘 × 𝑘 × 𝐷, 𝛼, như sau:
B. Mô Hình Đề Xuất Mạng Học Sâu DNN
𝛼 = 𝐹𝑐 (𝑀 𝑠 ⨀ 𝑃 ) (1)
1) CNN Đặc Trưng Không Gian
Trước khi huấn luyện, kỹ thuật học chuyển giao trong đó hàm 𝐹𝑐 (. ) biểu thị cho hàm tính toán của lớp
được áp dụng để hỗ trợ huấn luyện hiệu quả bằng cách kết nối đầy đủ, ⊛ và ⨀ biểu thị cho phép toán nhân
sử dụng kiến thức được đào tạo từ trước, sử dụng cùng từng phần tử (element-wise multiplication) and toán tử
một cấu trúc liên kết mạng để thực hiện việc huấn luyện ghép (concatenation operation). Lớp kết nối đầy đủ thực
dựa trên dữ liệu lớn. Theo đó, chúng tôi sử dụng mạng hiện các phép toán của vector đầu vào với các trọng số
hội tụ của mô hình Google Inception V3 được đào tạo tương ứng và được thêm vào biases để trở thành dữ liệu
bởi tập dữ liệu lớn ImageNet và Kinects, và tinh chỉnh lũy tích, đi qua hàm Tanh để thu được kết quả đầu ra.
huấn luyện lại theo phương thức học chuyển giao đối Các hoạt động nói trên nhằm xây dựng mối tương quan
với bộ dữ liệu tín hiệu cảnh sát [7] để tạo đặc trưng tĩnh. giữa đặc trưng đối tượng tĩnh và các vị trí khớp của
Trong Hình 1, đặc trưngcủa đối tượng được trích xuất khung xương. Thứ hai, các tham số Attention, α, được
từ lớp tổng hợp cuối cùng của CNN có các khối đối chuẩn hóa theo từng khung đặc trưng đơn với chiều kích
tượng ở kích thước 𝑘 × 𝑘 × 𝐷, trong đó 𝑘 × 𝑘 và 𝐷 đại thước 𝑘 × 𝑘 như sau,
diện cho kích thước của một khung đối tượng duy nhất
và chiều không gian của đặc trưng trích xuất, tương 𝑒𝑥𝑝 (𝛼𝑗,𝑖 ) (2)
ứng. Ở đây, 𝑘 và 𝐷 lần lượt bằng 8 và 2048. 𝛼̅𝑗,𝑖 =
∑𝑘×𝑘
𝑟=1 𝑒𝑥𝑝(𝛼𝑗,𝑟 )
2) Lớp SJA
trong đó 𝛼̅𝑗,𝑖 là trọng số Attention chuẩn hóa tại thành
Để khai phá các thông tin có ý nghĩa đặc trưng giúp
phần thứ i của khung đặc trưng thứ j và 𝜶 = {𝛼𝑗,𝑖 |𝑗 = 1,
phát hiện hành động, chúng tôi tạo lớp SJA giữa mạng
. . . , 𝑇1 ; 𝑖 = 1, . . . , 𝑘 2 }. Thao tác này làm tăng tác động của
tích chập CNN và mạng A_BGRU bằng cách trích xuất
Attention có giá trị dương theo cấp số nhân và chuẩn hóa
trọng số tương ứng với các thành phần có thể phân biệt
chúng để thu được những giá trị tương đối quan trọng ở
giữa các hành động ở các vùng khác nhau. Lớp SJA, mỗi khung đối tượng. Cuối cùng, trọng số Attention
như được mô tả trong Hình 2, kết hợp trích chọn đặc chuẩn hóa được nhân theo phần tử với các thành phần
trưng tĩnh và thông tin tư thế chủ thể, tính toán dữ liệu tương ứng của từng đặc trưng đối tượng,
kết hợp để mang lại trọng số Attention quan trọng và
sau đó kết hợp trọng số này với đặc trưng đối tượng tĩnh 𝑘×𝑘
để tạo ra kết quả là véc tơ không gian Attention. Bằng ̅𝑗𝑠
𝑀 𝑠
= ∑ 𝛼̅𝑗,𝑖 𝑀𝑗,𝑖 (3)
cách trích xuất đặc trưng của một số hành động phụ 𝑖=1
thuộc vào một phần của cơ thể chủ thể thay vì toàn bộ
cơ thể. do đó vectơ không gian Attention với các trọng trong đó 𝑴 ̅𝑗𝑠 |𝑗 = 1, . . ., 𝑇1 } là vector đầu ra trong
̅ 𝒔 = {𝑀
số được mô tả phù hợp rất có lợi cho sự phân biệt hành không gian Attention của lớp SJA. Thao tác như vậy đã
động. nhúng các Attention chuẩn hóa vào đặc trưng đối tượng
tĩnh để làm nổi bật phần đặc trưng quan trọng có liên
quan đến hành động và nhấn mạnh vùng nào tác động
ISBN 978-604-80-5958-3 148
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
nhiều nhất đến đặc trưng phân loại hành động để đưa ra trên khung hình ảnh và phân đoạn video đầu vào, tương
dự báo chính sác. ứng. Kích thước đầu vào của hai FFN thỏa mãn đầu ra
của SJA và A_BGRU. Các nơron đầu ra của hai FFN là
3) Biểu diễn liên kết thời gian Attention bằng cấu trúc 2 (cảnh sát giao thông và người tham gia giao thông) và
A_BGRU 9 (9 lớp tương đương với 9 tín hiệu điều khiển) để đáp
Đầu ra từ lớp SJA đưa vào mạng A_BGRU được ứng các yêu cầu dự đoán và phân loại, tương ứng.
nhúng cơ chế Attention để trích rút thông tin không
gian-thời gian. Một đầu vào của A_BGRU là vectơ III. KẾT QUẢ VÀ ĐÁNH GIÁ HIỆU NĂNG HỆ
không gian đặc trưng Attention cái nhấn mạnh vào đặc THỐNG
trưng hành động. Ngoài ra, A_BGRU bao gồm cấu trúc Trong phần này, chúng tôi tiến hành thực nghiệm liên
GRU hai chiều và đơn vị tính toán trọng số Attention quan đến mô hình đề xuất. Đầu tiên, chúng tôi giới thiệu
để diễn giải các đặc trưng về miền thời gian. Các mẫu về cơ sở dữ liệu chuẩn được sử dụng để đánh giá hiệu
đầu vào bao gồm vectơ không gian atttention và các quả của mô hình cài đặt. Tiếp theo chúng tôi trình bày
trạng thái ẩn của GRU trong A_BGRU. Đầu ra từ đơn hai kết quả so sánh, (1) các trường hợp cụ thể với các
vị tính toán trọng số attention tạo thành một tập hợp các mô hình khác nhau trong nhận dạng hành động, (2) so
vectơ ngữ cảnh, C, là các đầu vào được nhúng trọng số sánh về hiệu suất phân loại với mô hình đã công bố [7].
attention cho các đơn vị GRU. Sơ đồ khối của Cuối cùng là phân tích kết quả phân biệt người đi bộ và
A_BGRU đề xuất được hiển thị trong Hình 3. cảnh sát giao thông.
A. Tập dữ liệu đánh giá
Trong thử nghiệm này, cơ sở dữ liệu liên quan đến
tín hiệu điều khiển của cảnh sát giao thông [7] được sử
dụng với 21 video clip được đưa vào (như trong Hình
4). Các video clip này có độ phân giải khung hình là
1080 × 1080-pixel và tốc độ khung hình là 15Hz. Ngoài
ra, có tám lệnh và một cử chỉ không lệnh mô phỏng từ
cảnh sát giao thông, trong đó mỗi hành động được thực
hiện từ cử chỉ không lệnh sang trạng thái lệnh, sau đó
từ trạng thái lệnh sang cử chỉ không lệnh ở trong nhà và
ngoài trời. Có hai loại trang phục phản quang và phổ
Hình 3. Sơ đồ khối của mô hình đề xuất A_BGRU. thông được cảnh sát giao thông mặc, trong đó trang
phục phản quang được sử dụng trong hầu hết các video
Đầu tiên, vector không gian nhúng attention, 𝑀 ̅ 𝑠, clip và trang phục chung chỉ xuất hiện trong hai video
được ghép với các trạng thái ẩn của GRU trong clip. Quá trình đánh giá hiệu suất phân loại bao gồm 11
A_BGRU để trở thành vector đầu vào cho lớp kết nối video cho huấn luyện và 10 video clip dùng để kiểm tra,
đầy đủ với chức năng kích hoạt toán tử Tanh. Sau khi tuân theo sự sắp xếp của tập dữ liệu trong [7] để có thể
tính toán qua hàm trung bình mũ softmax, các đầu ra từ so sánh một cách công bằng.
lớp kết nối đầy đủ tạo ra trọng số attention. Ở đây, mối
tương quan giữa vectơ không gian được nhúng trọng số
attention và các trạng thái thời gian của A_BGRU được
xây dựng để tìm ra những đặc trưng cần được nhấn mạnh
vào hành động tại các bước thời gian cụ thể. Thứ hai,
phép nhân ma trận của vectơ không gian nhúng
attention, 𝑀̅ 𝑠 và các trọng số attention tương ứng được
thực hiện để đạt được vectơ ngữ cảnh, C, giải quyết các
đơn vị GRU hai chiều với sự nhấn mạnh vào các phần
quan trọng của phân đoạn đầu vào. Ví dụ mỗi đoạn video
đầu vào có 30 khung đặc trưng 𝑀 ̅ 𝑠 cho A_BGRU, cần 30
bước thời gian tương ứng để thực hiện tính toán. Ngoài
ra, A_BGRU tạo ra hai dữ liệu đầu ra từ các đường dẫn
tới và lùi, được nối tương ứng để tạo thành các vectơ đặc
trưng 2n chiều cho lần phân loại tiếp theo tại n = 2048.
4) Cấu trúc phân loại FFNs cho phát hiện chủ thể và Hình 4. Một vài tín hiệu điều khiển bằng hành động của dữ liệu
nhận dạng hành động cảnh sát giao thông [7]
Hai mạng nơ-ron truyền thẳng ba lớp được sử dụng
để xác định chủ thể và nhận dạng các hành động dựa
ISBN 978-604-80-5958-3 149
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
B. Phân tích và so sánh kết quả thực nghiệm phân loại sai là các hành động không phải lệnh. Đó là
Trong mục này, chúng tôi tiến hành đánh giá từng do một số phân đoạn video tạm thời bao gồm các hành
thành phần của mô hình đề xuất DNN để hiểu được động lệnh không hoàn chỉnh, dẫn đến dự đoán sai.
những đóng góp về hiệu suất của chúng. Ngoài ra, kết
quả thử nghiệm của các thành phần trong mô hình đề Nghiên cứu được công bố [7] sử dụng mạng tích
xuất DNN được thực hiện trên cùng một tập dữ liệu để chập trích xuất dữ liệu khung xương sau đó chuyển đổi
so sánh và thảo luận. Mục đích hiểu rõ hiệu suất được qua đặc trưng độ dài và góc trong miền không gian, cuối
cải thiện bởi các cơ chế attention trong mô hình đề xuất cùng là đào tạo dữ liệu trong miền thời gian với việc sử
SJA và A_BGRU, chúng tôi đã tiến hành đánh giá thực dụng mạng LSTM. So với độ chính xác 91,18% từ công
hiện ba loại DNN để ghi nhận hành động. DNN Loại 1, trình đã công bố [7], DNN được đề xuất cho thấy hiệu
đặt tên là CNN, bao gồm một mạng tích chập và một suất tốt hơn 2,88% bởi việc sử dụng cơ chế Attention
mạng nơron truyền thẳng ba lớp để phân loại trong đó trong mạng tích chập CNN và mạng hồi quy GRU đào
các tham số ban đầu của mạng tích chập CNN này được tạo trên bộ dữ liệu RGB kết hợp đặc trưng khung xương.
khởi tạo bởi các tham số của mạng Inception V3 hội tụ.
DNN loại 2, được đặt tên là CNN + SJA, bao gồm DNN Để phân biệt giữa người đi bộ và cảnh sát điều
loại 1 và bổ xung lớp SJA để nâng cao khả năng nhận khiển giao thông trên đường, những người mặc đồng
dạng hành động bằng các khớp tư thế trong khung phục tương tự như áo phản quang được xác định là cảnh
xương chủ thể. DNN loại 3 được đề xuất, CNN + SJA sát giao thông. Bảng II hiển thị ma trận nhầm lẫn của
+ A_BGRU, sử dụng DNN Loại 2 và A_BGRU. Ở đây, DNN và YOLOv4- tiny [17] được đề xuất để xác định
A_BGRU bao gồm lớp GRU hai chiều với cơ chế các đối tượng trong đó tổng số hơn 70.000 hình ảnh từ
attention, chỉ tạo ra một vectơ đầu ra nối các kết quả đầu đối tượng cơ bản trong ngữ cảnh (COCO), Lớp đối
ra từ các GRU cuối cùng trong các đường tiến và lùi. tượng trực quan (VOC) và bộ dữ liệu cử chỉ tính hiệu
Ngoài ra, lớp phân loại hành động trong ba loại DNN điều khiển của cảnh sát giao thông được sử dụng để
này sử dụng cùng một mạng nơ-ron truyền thẳng để dự huấn luyện. Độ chính xác được cải thiện đáng kể bởi
đoán. majority votting. Trong DNN được đề xuất, độ chính
xác nhận biết của người đi bộ và cảnh sát lần lượt là
BẢNG 1: HIỆU SUẤT PHÂN LOẠI CỦA BA MÔ HÌNH DNNS. 99,86% và 100,00% khi người đi bộ cũng thực hiện 8
Hiệu xuất
hành động ra lệnh. Lỗi nhận dạng người đi bộ xuất phát
Mô hình DNNs Đầu vào từ các hành động cụ thể mà cánh tay, tay chân hoặc bàn
phân loại
tay của đối tượng có thể che khuất quần áo phản quang
CNN RGB 78.90%
để đánh lừa đối tượng phân loại. Ở những tình huống
CNN+SJA RGB + Pose joints 86.95% thông thường, người đi bộ chỉ đi qua những con đường
với ít cử chỉ động tác hơn. Từ kết quả thí nghiệm ở Bảng
CNN+SJA+A_BGRU
RGB + Pose joints 94.06% II, DNN được đề xuất có khả năng hoạt động rất hứa
(Mô hình đề xuất DNN) hẹn cho phân biệt nhận dạng người tham gia giao thông.
Như được liệt kê trong Bảng I, hiệu suất phân loại
của DNN Loại I chỉ sử dụng một mạng tích chập CNN
là 78,90%. Khi lớp SJA được thêm vào, tỷ lệ chính xác
được tăng lên 86,95%. Bởi vì DNN Loại 2 đã tiếp cận
đặc trưng không gian Attention để liên kết các điểm
khớp trong bộ khung xương chủ thể, nó nhấn mạnh các
vùng có ý nghĩa để nhận dạng cử chỉ tín hiệu điều khiển
và bỏ qua các vùng không liên quan. Cũng như sự nhấn
mạnh về miền không gian, DNN được đề xuất sử dụng
A_BGRU để làm nổi bật các manh mối thông tin ở miền
thời gian có liên kết theo miền không gian để thu được
các đặc trưng hành động với độ chính xác tốt nhất lên
đến 94,06%. Qua đó chúng ta thấy rằng việc kết hợp sử
dụng cơ chế Attention dựa trên mạng tích chập và mạng
hồi quy đã đạt được kết quả rất khả quan.
Ma trận nhầm lẫn của DNN được đề xuất liên
quan đến 9 hành động được mô tả trong Hình 5, không Hình 5. Ma trận nhầm lẫn của mô hình DNN đề xuất cho nhận dạng
phải lệnh, dừng lại, di chuyển thẳng, rẽ trái, chờ rẽ trái, hành động
rẽ phải, chuyển làn, giảm tốc độ và dạt vào lề đường
được đánh số từ 0 đến 8. Hầu hết 8 hành động lệnh bị
ISBN 978-604-80-5958-3 150
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Bảng 2: Matrận hỗn loạn của mô hình DNN đề xuất và YoLov4-tiny TÀI LIỆU THAM KHẢO
cho phát hiện đối tượng
[1] Tesla, https://www.tesla.com/autopilot
Cảnh sát giao Người tham null [2] BMW, https://www.bmw.com/en/automotive-life/autonomous-
thông gia giao driving.html
thông [3] Google's Waymo, https://waymo.com/
Đề xuất mô hình DNN bỏ qua majority voting (image- [4] H. Zhu, K. Yuen, L. Mihaylova, and H. Leung, “Overview of
based) environment perception for intelligent vehicles,” IEEE
Cảnh sát Transactions on Intelligent Transportation Systems, vol. 18, no.
100.00% 0.00%
giao thông 10, pp. 2584-2601, Oct. 2017.
Người [5] C. Liu, S. Li, F. Chang, and Y. Wang, “Machine vision based
tham gia 1.58% 98.42% traffic sign detection methods: Review, analyses and
giao thông perspectives,” IEEE Access, July 17, 2019 (Digital Object
Mô hình đề xuất DNN (video-based) Identifier 10.1109/ACCESS.2019.2924947).
Cảnh sát [6] Y. Zheng et al, “A method of detect traffic police in complex
100.00% 0.00%
giao thông scenes,” in Proc. of the 14th International Conference on
Người Computational Intelligence and Security, pp. 83-87, 2018.
tham gia 0.14% 99.86%
giao thông [7] J. He, C. Zhang, X. He, and R. Dong, “Visual recognition of
traffic police gestures with convolutional pose machine and
YOLOv4-tiny (image-based)
handcrafted features,” Neurocomputing, no. 390, pp. 248–259,
Cảnh sát 2020.
95.59% 4.20% 0.21%
giao thông
Người [8] Manh-Hung Ha and Osacl T C Chen "Action Recognition
tham gia 0.00% 99.63% 0.37% Improved by Correlation and Attention of Subjects and Scene,"
in Proceedings of the IEEE Visual Communications and Image
giao thông
Processing (VCIP), 2021 (Accepted).
YOLOv4-tiny với majority voting (video-based)
Cảnh sát [9] O. T.-C. Chen, C.-H. Tsai, H. H. Manh, and W.-C. Lai,
98.01% 1.99% 0.00% "Activity recognition using a panoramic camera for homecare."
giao thông
Người in Proceedings of 14th IEEE International Conference on
Advanced Video and Signal Based Surveillance, pp. 1-6, 2017.
tham gia 0% 100.00% 0%
giao thông [10] O. T.-C. Chen, H. H. Manh, and W.-C. Lai, “Activity
recognition of multiple subjects for homecare,” in Proceedings
IV. KẾT LUẬN of the 10th International Conference on Knowledge and Smart
Technology, pp. 242–247, 2018.
Trong khuôn khổ bài báo này, chúng tôi đã triển khai [11] P. Turaga, R. Chellappa, V. S. Subrahmanian, and O. Udrea,
thành công mô hình mạng DNN sử dụng chuỗi đầu vào “Machinerecognition of human activities: A survey,” IEEE
RGB đi kèm với các đặc trưng tư thế để phát hiện đối Transactions on Circuits and Systems for Video technology, vol.
18, no. 11, pp. 1473–1488, 2008.
tượng và nhận dạng hành động. DNN được đề xuất bao
[12] Manh-Hung Ha and Osacl T C Chen, “Deep neural networks
gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai using capsule networks and skeleton-based attentions for action
mạng truyền thẳng FFN. Cấu trúc liên kết mạng của recognition,” IEEE Access, vol. 9, pp. 6164–6178, January
CNN dựa trên mô hình hội tụ của Google Inception V3 2021.
để tạo ra các đặc trưng đối tượng tĩnh nơi sử dụng kỹ [13] S. Das, A. Chaudhary, F. Bremond, and M. Thonnat, “Where to
focus on for human action recognition?” in IEEE Winter
thuật học chuyển giao. Lớp SJA hỗ chợ trích xuất đặc Conference on Applications of Computer Vision, pp. 71–80,
trưng cục bộ trong việc điều chỉnh trọng số attention một 2019.
cách thích ứng trên các khớp tư thế của bộ khung xương [14] D. Li, T. Yao, L.-Y. Duan, T. Mei, and Y. Rui, “Unified
trên miền không gian. A_BGRU xử lý các kết quả đầu spatiotemporal attention networks for action recognition in
ra của các lớp SJA để thu được các vectơ đặc trưng videos,” IEEE Transactions on Multimedia, vol. 21, no. 2, pp.
416–428, 2019.
không gian-thời gian nổi bật. Cuối cùng, hai mạng
[15] O. T.-C. Chen, M.-H. Ha, and Y. L. Lee, "Computation-
truyền thẳng FFN hoàn thành việc phân loại đối tượng affordable recognition system for activity identification using a
và hành động, dựa trên khung hình ảnh và đoạn video, smart phone at home," in Proceedings of the IEEE International
tương ứng. Kết quả phân loại từ tất cả các hình ảnh của Symposium on Circuits and Systems, pp. 1-5, 2020.
một đoạn video được áp dụng majority votting để dự [16] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime multi-
đoán kết quả cuối cùng. Theo kết quả thử nghiệm, DNN person 2d pose estimation using part affinity fields,” in
Proceedings of the IEEE Conference on Computer Vision and
đề xuất đạt được độ chính xác trung bình là 99,93% và Pattern Recognition, pp. 7291–7299, 2017.
94,06%, tương ứng để xác định chủ thể và hành động. [17] Jiang, Z., Zhao, L., Li, S., & Jia, Y. Real-time object detection
Mô hình của chúng tôi đã khai thác và nhấn mạnh vào method based on improved YOLOv4-tiny. arXiv preprint
những đặc trưng hữu ích có tính phân loại hành động. arXiv:2011.04244, 2020.
Do đó, DNN được đề xuất ở đây hứa hẹn là một mô hình
tối ưu để phát hiện chủ thể và hiểu đối tượng thực hiện
nhiệm vụ gì khi áp dụng cho hệ thống xe tự hành.
ISBN 978-604-80-5958-3 151
nguon tai.lieu . vn