Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHÂN LOẠI HÀNH VI VƯỢT ĐÈN ĐỎ SỬ DỤNG CAMERA GIAO THÔNG Nguyễn Văn Nam1, Phan Nhật Minh2 1 Trường Đại học Thủy lợi, email: nvnam@tlu.edu.vn 2 Fontbonne University, St. Louis MO 63105, United States 1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU Việc phát hiện hành vi vượt đèn đỏ Mô hình được đề xuất bao gồm hai phần (Hình 1) từ lâu đã được thực hiện chủ yếu chính: bộ mã hóa Video (Video Encoder) và bởi con người. Các phương pháp tự động sử bộ mã hóa chuyển động (Path Encoder). dụng trạng thái của xe trong ngã tư hoặc sử Video Encoder. Bộ mã hóa Video sử dụng dụng cảm biến mang lại kết quả không khả mô hình xử lý video X3D[2] để trích xuất các quan do độ chính xác thấp hoặc chi phí thiết thông tin chung của video. Các mô hình được lập cao[1][3]. Bài báo này giới thiệu thử nghiệm là X3D-XS và X3D-S được pre- CrossNet, mô hình sử dụng dữ liệu đầu vào là train trên tập dữ liệu Kinetics-400. video giao thông và các bao đóng của xe, đạt Path Encoder. Bộ mã hóa chuyển động sử độ 99,23% precision và 96,27% F1 score dụng một danh sách các vectơ đại diện cho trong việc phân loại hành vi vượt đèn đỏ. Kết tọa độ của các bao đóng làm đầu vào. Sau đó, hợp mô hình này với mạng phát hiện xe có chúng được chạy qua 4 Transformer Encoder thể tạo ra một hệ thống phát hiện hành vi để trích xuất các đặc trưng chuyển động của vượt đèn đỏ tốt với đầu vào dễ thu thập và phương tiện. chi phí thiết lập rẻ. CrossNet. (Hình 2) Sau khi nhận được embeddings từ hai bộ mã hóa, các đặc trưng được ghép lại và đưa qua một mạng MLP và đưa ra 2 nơ-ron đầu ra, phân loại phương tiện đang xét có hành vi vượt đèn đỏ hay không. Mô hình cơ sở. Mô hình cơ sở sử dụng X3D-XS cho Video Encoder. Mô hình có số khung hình đầu vàO t = 4 có kích thước H  W = 182  182px lấy mẫu từ video sử dụng Uniform Temporal Subsampling, mỗi khung hình có số kênh màU c = 3 Path Encoder mã hóa mỗi tọa độ hộp giới Hình 1. Tác vụ phân loại hành vi vượt đèn hạn thành một vectơ đặc trưng với Ebbox = 128 đỏ. Mỗi xe được dán nhãn đúng hoặc sai. chiều, sau đó đưa vào Module Transformer Ví dụ trên chọn 2 phương tiện có hộp giới để trích trọn đặc trưng. Module chứa 4 lớp hạn được đánh dấu. Xe có bao đóng màu với 4 đầu chú ý trong mỗi lớp. Đầu ra được xanh được dự đoán sai (không vượt đèn đỏ) làm phẳng và chuyển sang một lớp MLP với và xe có bao đóng màu tím được dự đoán dropout = 0.2 để có được embedding đầu ra có vượt đèn đỏ bởi mô hình có kích thước Epath = 256. 101
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 precision* recall F1  2 * precision  recall Trong đó: TP: True Positive FP: False Positive FN: False Negative Quá trình huấn luyện. Quá trình huấn luyện sử dụng mini-batch B = 4. Mô hình được huấn luyện 20 epochs với learning rate 10-6. Optimizer được sử dụng là Adam với 1 = 0.9, 2 = 0,999,  = 10-8, không sử dụng weight decay. Mô hình thực hiện checkpointing sau mỗi epoch, checkpoint có Validation loss thấp nhất sẽ được chọn để đánh giá tập Test. Hình 2. Mô hình CrossNet đề xuất Sau đó, các đặc trưng được nối và chuyển 3. DỮ LIỆU ĐẦU VÀO qua một lớp neuron ẩn gồm 512 neuron với Bộ dữ liệu bao gồm 107 video từ ba dropout = 0.2 và sau đó đến lớp Output gồm 2 camera giám sát khác nhau. Mỗi video có độ neuron. Lớp output sau đó đưa qua một lớp phân giải 2560  1980px , với thời lượng 15 softmax để đưa kết quả về phân phối xác suất. giây, danh sách ID phương tiện và vị trí các e zi bao đóng trên các khung hình. soft maxi ( z )  z  je j Lọc phương tiện. Bước đầu tiên trong quá Weighted Cross-Entropy Loss. Hàm trình xử lý dữ liệu thô là trích xuất các Cross-Entropy Loss cùng các trọng số cho các phương tiện đi về phía trước và lọc không xét lớps được sử dụng để huấn luyện mô hình: các phương tiện đi từ các hướng khác. Mỗi CrossEntropyLoss  Wi yi log( ˆyi ) phương tiện được lọc và gán nhãn tự động Trong đó yi là nhãn thực và ˆyi là nhãn dữ bằng các quy tắc đơn giản. Các nhãn và đoán. yi = 1 nếu phương tiện vượt đèn đỏ, phương tiện sau đó được kiểm tra thủ công. yi = 1 nếu phương tiện không vượt đèn đỏ. Bộ dữ liệu sau khi xử lý có 1331 phương n tiện, trong đó nFalse = 631 phương tiện không Wi  i vượt đèn đỏ, nTrue = 700 phương tiện vượt ni đèn đỏ. Wi là các trọng số cho các lớp, được tính Tiền xử lý. Dữ liệu cho mỗi phương tiện bằng cách lấy nghịch đảo của số lượng mẫu trong mỗi class chia cho tổng số mẫu. Sử được lưu trong một tệp JSON riêng biệt dụng Các trọng số cho các lớps làm giảm ảnh có chứa nhãn, danh sách bao đóng và đường hưởng của tình trạng mất cân bằng giữa các dẫn video. class với nhau. Các bao đóng phương tiện được chuẩn hóa F1 Score. Mô hình sử dụng F1 Score để về khoảng (0,1) và sau đó đệm danh sách bao đánh giá hiệu suất của mô hình. F1 Score kết đóng đưa về cùng độ dài 256. hợp điểm Precision và Recall. Precision tóm Cuối cùng, các mẫu được chia thành tập tắt tính chính xác của mô hình, trong khi điểm Train, Validation và Test với tỷ lệ 60/20/20% Recall thể hiện tính hoàn chỉnh của dự đoán. sử dụng random seed cố định. Có tổng cộng TP TP 798 mẫu cho tập Train, 266 mẫu cho tập precision  reCall  TP FP TP  FN Validation và 267 mẫu cho tập Test. 102
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 Bảng 1. F1 Score với các mô hình kích thước khác nhau (Loss: Giá trị mất mát, val: bộ dữ liệu thẩm định, Test: bộ dữ liệu kiểm tra Val Val Test Test Mô hình Val Loss Val F1 Test Loss Test F1 Precision Recall Precision Recall Mô hình cơ sở 0,0959 0,9597 0,9597 0,9597 0,1246 0,9923 0,9348 0,9627 X3D-S + Path-S 0,1009 0,9597 0,9597 0,9597 0,1204 0,9568 0,9638 0,9603 X3D-XS + Path-M 0,1024 0,9536 0,9664 0,96 0,1224 0,95 0,9638 0,9568 X3D-S + Path-M 0,0999 0,9667 0,9732 0,9699 0,1221 0,9635 0,9565 0,96 kết thúc được gắn nhãn Đúng. Những mẫu 4. THÍ NGHIỆM VÀ KẾT QUẢ này có thể đưa ra những hành vi không chính Kích thước mô hình. Nhiều thí nghiệm đã xác trong quá trình huấn luyện và làm được thực hiện với các kích thước của Video mô hình không dự đoán chính xác các dữ Encoder và Path Encoder khác nhau. Path-M liệu mới. chứa nhiều lớp Transformer Encoder hơn, Mô hình cũng không nhận diện được nhiều gồm 6 lớp, mỗi lớp có 8 heads so với 4 heads trường hợp vượt đèn đỏ khi xe quay đầu ở của mô hình cơ sở (Path-S). ngã tư Vũng Tàu. Điều này có thể là do thiếu Việc tăng kích thước có cải thiện dữ liệu huấn luyện trong trường hợp này, Validation F1 score, tuy nhiên điểm Test F1 khiến mô hình trong tình trạng overfit. tốt nhất không có cải thiện so với mô hình cơ Nhánh mô hình Transformer đã được biết sở, như ở trong bảng 1. cần nhiều dữ liệu để thực hiện huấn luyện Tốc độ xử lý. Tốc độ xử lý của mô hình là hiệu quả. Việc tăng dữ liệu huấn luyện có thể 0,73s mỗi phương tiện sử dụng Tesla K80 cải thiện các kết quả của mô hình, cũng như GPU, phần lớn thời gian chạy đến từ mô hình khắc phục các dự đoán sai ở mô hình hiện tại. Video Encoder X3D. Việc không sử dụng mô hình Video Encoder làm tăng tốc độ 5. Tài liệu tham khảo Inference tuy nhiên làm giảm mạnh các kết [1] Budiardjo, B., Ramli, K.. 2013. “A quả Validation F1 và Test F1. discrete tracking based-on region for red- Kết quả. Mô hình có kết quả chung F1 light running detection”. International score là 96,27%, với điểm Precision đạt Journal of Engineering Science and 99,27%, tuy nhiên điểm Recall chỉ đạt Technology, 5(4), 772, 2013. 93,48%. [2] Christoph Feichtenhofer. 2020. “X3D: Có 2 trường hợp mô hình không nhận diện Expanding Architectures for Efficient được hành vi vượt đèn đỏ trong tập Test: các Video Recognition.” phương tiện đang di chuyển nhưng video kết https://arxiv.org/abs/2004.04730. thúc, và các phương tiện rẽ trái/phải hoặc [3] Pengfei Li, Yan Li, Xiucheng Guo. 2014. quay đầu từ ngã tư tại camera Vũng Tàu. "A Red-Light Running Prevention System Based on Artificial Neural Network and Nhiều mẫu dự đoán không chính xác đến Vehicle Trajectory Data", Computational từ phần cuối của video. Trong các mẫu này, Intelligence and Neuroscience, vol. 2014, chuyển động của xe không được ghi lại đầy Article ID 892132, 11 pages, 2014. đủ. Nhiều chuyển động của phương tiện dữ https://doi.org/10.1155/2014/892132. liệu huấn luyện cũng bị cắt do video kết thúc, các phương tiện đi qua vạch dừng khi video 103
nguon tai.lieu . vn