Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
PHÂN LOẠI HÀNH VI VƯỢT ĐÈN ĐỎ SỬ DỤNG CAMERA
GIAO THÔNG
Nguyễn Văn Nam1, Phan Nhật Minh2
1
Trường Đại học Thủy lợi, email: nvnam@tlu.edu.vn
2
Fontbonne University, St. Louis MO 63105, United States
1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU
Việc phát hiện hành vi vượt đèn đỏ Mô hình được đề xuất bao gồm hai phần
(Hình 1) từ lâu đã được thực hiện chủ yếu chính: bộ mã hóa Video (Video Encoder) và
bởi con người. Các phương pháp tự động sử bộ mã hóa chuyển động (Path Encoder).
dụng trạng thái của xe trong ngã tư hoặc sử Video Encoder. Bộ mã hóa Video sử dụng
dụng cảm biến mang lại kết quả không khả mô hình xử lý video X3D[2] để trích xuất các
quan do độ chính xác thấp hoặc chi phí thiết thông tin chung của video. Các mô hình được
lập cao[1][3]. Bài báo này giới thiệu thử nghiệm là X3D-XS và X3D-S được pre-
CrossNet, mô hình sử dụng dữ liệu đầu vào là train trên tập dữ liệu Kinetics-400.
video giao thông và các bao đóng của xe, đạt Path Encoder. Bộ mã hóa chuyển động sử
độ 99,23% precision và 96,27% F1 score dụng một danh sách các vectơ đại diện cho
trong việc phân loại hành vi vượt đèn đỏ. Kết tọa độ của các bao đóng làm đầu vào. Sau đó,
hợp mô hình này với mạng phát hiện xe có chúng được chạy qua 4 Transformer Encoder
thể tạo ra một hệ thống phát hiện hành vi
để trích xuất các đặc trưng chuyển động của
vượt đèn đỏ tốt với đầu vào dễ thu thập và
phương tiện.
chi phí thiết lập rẻ.
CrossNet. (Hình 2) Sau khi nhận được
embeddings từ hai bộ mã hóa, các đặc trưng
được ghép lại và đưa qua một mạng MLP và
đưa ra 2 nơ-ron đầu ra, phân loại phương tiện
đang xét có hành vi vượt đèn đỏ hay không.
Mô hình cơ sở. Mô hình cơ sở sử dụng
X3D-XS cho Video Encoder. Mô hình có số
khung hình đầu vàO t = 4 có kích thước
H W = 182 182px lấy mẫu từ video sử
dụng Uniform Temporal Subsampling, mỗi
khung hình có số kênh màU c = 3
Path Encoder mã hóa mỗi tọa độ hộp giới
Hình 1. Tác vụ phân loại hành vi vượt đèn hạn thành một vectơ đặc trưng với Ebbox = 128
đỏ. Mỗi xe được dán nhãn đúng hoặc sai. chiều, sau đó đưa vào Module Transformer
Ví dụ trên chọn 2 phương tiện có hộp giới để trích trọn đặc trưng. Module chứa 4 lớp
hạn được đánh dấu. Xe có bao đóng màu với 4 đầu chú ý trong mỗi lớp. Đầu ra được
xanh được dự đoán sai (không vượt đèn đỏ) làm phẳng và chuyển sang một lớp MLP với
và xe có bao đóng màu tím được dự đoán dropout = 0.2 để có được embedding đầu ra
có vượt đèn đỏ bởi mô hình có kích thước Epath = 256.
101
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
precision* recall
F1 2 *
precision recall
Trong đó:
TP: True Positive
FP: False Positive
FN: False Negative
Quá trình huấn luyện. Quá trình huấn
luyện sử dụng mini-batch B = 4. Mô hình
được huấn luyện 20 epochs với learning rate
10-6. Optimizer được sử dụng là Adam với
1 = 0.9, 2 = 0,999, = 10-8, không sử
dụng weight decay. Mô hình thực hiện
checkpointing sau mỗi epoch, checkpoint có
Validation loss thấp nhất sẽ được chọn để
đánh giá tập Test.
Hình 2. Mô hình CrossNet đề xuất
Sau đó, các đặc trưng được nối và chuyển 3. DỮ LIỆU ĐẦU VÀO
qua một lớp neuron ẩn gồm 512 neuron với Bộ dữ liệu bao gồm 107 video từ ba
dropout = 0.2 và sau đó đến lớp Output gồm 2 camera giám sát khác nhau. Mỗi video có độ
neuron. Lớp output sau đó đưa qua một lớp phân giải 2560 1980px , với thời lượng 15
softmax để đưa kết quả về phân phối xác suất. giây, danh sách ID phương tiện và vị trí các
e zi bao đóng trên các khung hình.
soft maxi ( z ) z
je j Lọc phương tiện. Bước đầu tiên trong quá
Weighted Cross-Entropy Loss. Hàm trình xử lý dữ liệu thô là trích xuất các
Cross-Entropy Loss cùng các trọng số cho các phương tiện đi về phía trước và lọc không xét
lớps được sử dụng để huấn luyện mô hình: các phương tiện đi từ các hướng khác. Mỗi
CrossEntropyLoss Wi yi log( ˆyi ) phương tiện được lọc và gán nhãn tự động
Trong đó yi là nhãn thực và ˆyi là nhãn dữ bằng các quy tắc đơn giản. Các nhãn và
đoán. yi = 1 nếu phương tiện vượt đèn đỏ, phương tiện sau đó được kiểm tra thủ công.
yi = 1 nếu phương tiện không vượt đèn đỏ. Bộ dữ liệu sau khi xử lý có 1331 phương
n tiện, trong đó nFalse = 631 phương tiện không
Wi i vượt đèn đỏ, nTrue = 700 phương tiện vượt
ni
đèn đỏ.
Wi là các trọng số cho các lớp, được tính
Tiền xử lý. Dữ liệu cho mỗi phương tiện
bằng cách lấy nghịch đảo của số lượng mẫu
trong mỗi class chia cho tổng số mẫu. Sử được lưu trong một tệp JSON riêng biệt
dụng Các trọng số cho các lớps làm giảm ảnh có chứa nhãn, danh sách bao đóng và đường
hưởng của tình trạng mất cân bằng giữa các dẫn video.
class với nhau. Các bao đóng phương tiện được chuẩn hóa
F1 Score. Mô hình sử dụng F1 Score để về khoảng (0,1) và sau đó đệm danh sách bao
đánh giá hiệu suất của mô hình. F1 Score kết đóng đưa về cùng độ dài 256.
hợp điểm Precision và Recall. Precision tóm Cuối cùng, các mẫu được chia thành tập
tắt tính chính xác của mô hình, trong khi điểm Train, Validation và Test với tỷ lệ 60/20/20%
Recall thể hiện tính hoàn chỉnh của dự đoán. sử dụng random seed cố định. Có tổng cộng
TP TP 798 mẫu cho tập Train, 266 mẫu cho tập
precision reCall
TP FP TP FN Validation và 267 mẫu cho tập Test.
102
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
Bảng 1. F1 Score với các mô hình kích thước khác nhau
(Loss: Giá trị mất mát, val: bộ dữ liệu thẩm định, Test: bộ dữ liệu kiểm tra
Val Val Test Test
Mô hình Val Loss Val F1 Test Loss Test F1
Precision Recall Precision Recall
Mô hình cơ sở 0,0959 0,9597 0,9597 0,9597 0,1246 0,9923 0,9348 0,9627
X3D-S + Path-S 0,1009 0,9597 0,9597 0,9597 0,1204 0,9568 0,9638 0,9603
X3D-XS + Path-M 0,1024 0,9536 0,9664 0,96 0,1224 0,95 0,9638 0,9568
X3D-S + Path-M 0,0999 0,9667 0,9732 0,9699 0,1221 0,9635 0,9565 0,96
kết thúc được gắn nhãn Đúng. Những mẫu
4. THÍ NGHIỆM VÀ KẾT QUẢ
này có thể đưa ra những hành vi không chính
Kích thước mô hình. Nhiều thí nghiệm đã xác trong quá trình huấn luyện và làm
được thực hiện với các kích thước của Video mô hình không dự đoán chính xác các dữ
Encoder và Path Encoder khác nhau. Path-M liệu mới.
chứa nhiều lớp Transformer Encoder hơn, Mô hình cũng không nhận diện được nhiều
gồm 6 lớp, mỗi lớp có 8 heads so với 4 heads trường hợp vượt đèn đỏ khi xe quay đầu ở
của mô hình cơ sở (Path-S). ngã tư Vũng Tàu. Điều này có thể là do thiếu
Việc tăng kích thước có cải thiện dữ liệu huấn luyện trong trường hợp này,
Validation F1 score, tuy nhiên điểm Test F1 khiến mô hình trong tình trạng overfit.
tốt nhất không có cải thiện so với mô hình cơ Nhánh mô hình Transformer đã được biết
sở, như ở trong bảng 1. cần nhiều dữ liệu để thực hiện huấn luyện
Tốc độ xử lý. Tốc độ xử lý của mô hình là hiệu quả. Việc tăng dữ liệu huấn luyện có thể
0,73s mỗi phương tiện sử dụng Tesla K80 cải thiện các kết quả của mô hình, cũng như
GPU, phần lớn thời gian chạy đến từ mô hình khắc phục các dự đoán sai ở mô hình hiện tại.
Video Encoder X3D. Việc không sử dụng mô
hình Video Encoder làm tăng tốc độ 5. Tài liệu tham khảo
Inference tuy nhiên làm giảm mạnh các kết [1] Budiardjo, B., Ramli, K.. 2013. “A
quả Validation F1 và Test F1. discrete tracking based-on region for red-
Kết quả. Mô hình có kết quả chung F1 light running detection”. International
score là 96,27%, với điểm Precision đạt Journal of Engineering Science and
99,27%, tuy nhiên điểm Recall chỉ đạt Technology, 5(4), 772, 2013.
93,48%. [2] Christoph Feichtenhofer. 2020. “X3D:
Có 2 trường hợp mô hình không nhận diện Expanding Architectures for Efficient
được hành vi vượt đèn đỏ trong tập Test: các Video Recognition.”
phương tiện đang di chuyển nhưng video kết https://arxiv.org/abs/2004.04730.
thúc, và các phương tiện rẽ trái/phải hoặc [3] Pengfei Li, Yan Li, Xiucheng Guo. 2014.
quay đầu từ ngã tư tại camera Vũng Tàu. "A Red-Light Running Prevention System
Based on Artificial Neural Network and
Nhiều mẫu dự đoán không chính xác đến Vehicle Trajectory Data", Computational
từ phần cuối của video. Trong các mẫu này, Intelligence and Neuroscience, vol. 2014,
chuyển động của xe không được ghi lại đầy Article ID 892132, 11 pages, 2014.
đủ. Nhiều chuyển động của phương tiện dữ https://doi.org/10.1155/2014/892132.
liệu huấn luyện cũng bị cắt do video kết thúc,
các phương tiện đi qua vạch dừng khi video
103
nguon tai.lieu . vn