Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 NHẬN DIỆN BIỂN SỐ XE MÁY, Ô TÔ SỬ DỤNG MẠNG NƠ RON NHÂN TẠO Nguyễn Văn Nam Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email: nvnam@tlu.edu.vn 1. GIỚI THIỆU CHUNG Rất nhiều mạng nơ ron tích chập (Convolutional Neural Network) được phát Nhận dạng biển số xe ô tô, xe máy tự động triển trên thế giới cho phép phân loại ảnh như là việc sử dụng các công nghệ xử lý ảnh để đọc VGG, Resnet, EfficientNet, cũng như cho biển số xe từ các hình ảnh thu được bởi các phép nhận dạng vật thể trong ảnh như camera giao thông. Với sự phát triển mạnh mẽ YOLOv3 (You Look Only Once) [2], các công nghệ xử lý ảnh nhất là công nghệ FasterRCNN (Faste-Regional CNN) [3] hay mạng nơ ron nhân tạo cho thị giác máy tính, độ SSD (Single Shot Multibox Detector) [1]. chính xác nhận diện đã được cải thiện đáng kể Trong bài báo này, chúng tôi thực hiện phát có thể đáp ứng được các nhu cầu thực tế. Bài hiện biển số và phát hiện ký tự bằng mô hình báo giới thiệu cách áp dụng mô hình nhận dạng SSD. Trên bộ dữ liệu PASCAL VOC, vật thể Single Shot MultiBox (SSD) để phát SSD500 có độ chính xác mAP 76,8% tốt hơn hiện biển số và phát hiện ký tự, đồng thời đề so với YOLOv3 (66,4%) và có tốc độ 22fps xuất một mô hình phân loại hình ảnh để nhận cao hơn so với Faster-RCNN (7fps). dạng ký tự. Hệ thống tổng thể cho kết quả nhận diện biển số với độ chính xác 86,5%. 2. PHƯƠNG PHÁP NGHIÊN CỨU Biển số xe cơ giới Việt Nam là bảng hợp kim nhôm sắt có dạng hình chữ nhật hoặc hình hơi vuông trên đó có in các ký tự số hoặc ký tự chữ. Biển số xe cơ giới có thể phân chia thành 2 loại là biển xe một dòng và biển xe hai dòng. Quy trình nhận diện biển số xe máy, Hình 2. Mô hình nhận dạng vật thể SSD ô tô được mô tả trong hình 1. Quy trình này Kiến trúc mạng nơ ron nhân tạo được sử gồm ba bước (1) phát hiện biển số, (2) phát dụng trong SSD (hình 2) bao gồm hai phần hiện ký tự và (3) nhận dạng ký tự. Hai bước chính là mạng nơ ron cơ sở (baseline) như là đầu tiên được thực hiện với SSD. Bước còn VGG, Resnet, EfficientNet và phần các tầng lại được thực hiện với mô hình tự đề xuất. tầng SSD hay gọi là các tầng phụ. Phần mạng nơ ron cơ sở tạo ra 6 ánh xạ đặc trưng với kích cỡ khác nhau. Phần các tầng SSD phụ thực hiện việc hồi quy hình hộp bao đóng và dự đoán xác suất xuất hiện của từng loại vật thể trong hộp bao đóng đó. Tương tự như YOLO, với một ánh xạ đặc Hình 1. Các bước nhận dạng trưng 3838512, thì ảnh đầu vào sẽ được biển số phương tiện coi như một lưới ô vuông 3838. Với mỗi ô 66
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 vuông, có một số hình chữ nhật neo (defaul là hai tầng mạng nơ ron kết nối đầy đủ có số boxes) được khởi tạo với tâm trùng với tâm ô lượng nơ ron tương ứng là 500 và 10 (tương vuông nhưng có hình dạng khác nhau. Quá ứng với 10 ký tự số). trình huấn luyện là quá trình tinh chỉnh hình dạng và kích cỡ các hình hộp đề xuất (prediction) để phù hợp với các hình tham chiếu (ground-truth) sao cho với mỗi loại vật thể, xác suất hình hộp chứa loại đối tượng là lớn nhất và sư sai lệnh về vị trí và kích cỡ giữa hình dự đoán và hình thật là nhỏ nhất. Vị trí và kích cỡ của hình hộp bao đóng được chuẩn hóa theo vị trí và kích cỡ của từng ô vuông. SSD sử dụng thuật toán NMS (non- Hình 3. Mô hình phân loại ký tự số maximal suppression) để loại đi các hình bao đóng có cùng vị trí nhưng độ chính xác thấp. Tương tự như vậy, mô hình phân loại ảnh ký Hàm mất mát trong SSD như sau: tự chữ có cấu trúc tương tự nhưng có 21 đầu ra L(x,c,l,g) = 1/N (Lconf (x,c) + α Lloc(x,l,g)) tương ứng với 21 ký tự trong biển số xe. Trong đó: xpij = {1; 0} chỉ báo có hay không sự ghép cặp giữa hộp bao đóng neo 3. KẾT QUẢ NGHIÊN CỨU thứ i và hình tham chiếu thứ j của loại vật thể Chuẩn bị dữ liệu p; N - số hình chữ nhật neo được ghép cặp; Lloc(x,l,g) - hàm mất mát vị trí được tính là Dữ liệu gán nhãn bao gồm 1000 ảnh biển số và 6200 ảnh ký tự biển số cho 21 ký tự hàm chuẩn 1 giữa các tham số chuẩn hóa của chữ và 10 ký tự số. Dữ liệu được thu nhận từ hộp dự đoán l và hộp tham chiếu g. Lconf (x,c) 1 camera giao thông thực hiện vào ban ngày. hàm mất mát độ tin cậy chính là hàm sai số cross-entropy trên các lớp đối tượng. Huấn luyện mô hình Mô hình phát hiện biển số và mô hình Mô hình SSD và mô hình phân loại ký tự phát hiện ký tự biển số biển số đều được cài đặt trên khung làm việc MXNET, cung cấp thư viện GluonCV rất hiệu SSD được sử dụng để phát hiện biển số, quả cho các mô hình thị giác máy tính. Cả hai phát hiện ký tự trong biển số. Mô hình phát mô hình đều được huấn luyện trên máy Tesla hiện biển số có 2 nhãn là biển 1 dòng (1-line) T4, sử dụng thuật toán tối ưu SGD (Stochastic và biển 2 dòng (2-lines). Mô hình phát hiện Gradient Descent) với batch size là 512, ký tự bao gồm 31 nhãn gồm 10 chữ số và 21 learning rate là 0,001, weight decay là 0,0005 ký tự latinh được sử dụng trong biển số xe. và momentum là 0,9, số lượng epoch là 200. Mô hình nhận dạng ký tự Kết quả thử nghiệm Mô hình nhận dạng ký tự số được thể hiện minh họa trong hình 3. Đây là một mô hình phân loại hình ảnh. Đầu vào mô hình là ảnh RGB kích cỡ 2828 chứa một ký tự số. Mô hình phân loại ký tự số bao gồm 2 tầng tích chập (conv) với bộ lọc 55, bước nhày là 1 và số kênh lần lượt là 20 và 50; hai tầng gộp cực đại (max pooling) kích cỡ 22 và bước nhảy là 2. Ánh xạ đặc trưng cuối cùng có kích cỡ 4450 được làm phẳng ra thành một vecto 1 chiều có kích cỡ 800. Cuối cùng 67
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 Độ chính xác nhận diện biển số xe ô tô dạng biển số không còn là hình chữ nhật tương ứng với hình bao đóng khi gán nhãn. Ô tô Positive Negative Do đó tỷ lệ nhận nhầm biển số sẽ cao hơn. True 29 0 Đây là các nhược điểm của cách tiếp cận này. False 5 4 4. KẾT LUẬN Precision = TP/ (TP + FP) = 85,3% Trong bài báo này, chúng tôi sử dụng mô Recall = TP/(TP + FN) = 87,9% hình học sâu SSD (Single Shot Multibox F1-Score = 2 * Precision * Recall/ Detector) để phát hiện biển số, phát hiện ký (Precision+Recall) = 86,5% tự của từng biển số. Sau đó chúng tôi thiết kế Độ chính xác nhận diện xe máy một mạng phân loại để nhận diện ký tự. Việc nhận diện biển số như trên được thử nghiệm Xe máy Positive Negative với 20 ảnh và cho ra độ chính xác F1-Score True 57 0 là 86,5%. Kết quả này cũng rất khả quan để False 20 13 ứng dụng vào thực tế. Tuy nhiên, cần phải có thêm rất nhiều dữ liệu để tăng cường độ Precision = TP/ (TP + FP) = 74% chính xác của mô hình. Recall = TP/(TP + FN) = 81% F1-Score = 77,5% 5. TÀI LIỆU THAM KHẢO Đánh giá chung [1] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y. & Berg, A. C. (2015). Phương pháp đề xuất có ưu điểm là tốc độ SSD: Single Shot MultiBox Detector (cite nhận dạng cao: trung bình khoảng 30ms/ảnh; arxiv:1512.02325Comment: ECCV 2016). độ chính xác nhận dạng chấp nhận được: tỷ [2] Redmon, J. & Farhadi, A. (2018). YOLOv3: lệ F1-Score cho biển số xe máy, oto ban ngày An Incremental Improvement (cite tương ứng là 77,5% và 86,5%. Tuy nhiên, độ arxiv:1804.02767Comment: Tech Report). dài chuỗi ký tự biển số trung bình là 9 chữ số. [3] Ren, S., He, K., Girshick, R. B. & Sun, J. Ngay cả khi độ chính xác nhận diện ký tự (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal (character accuracy) cao đến 99% thì độ Networks.. In C. Cortes, N. D. Lawrence, D. chính xác nhận diện cả chuỗi ký tự (sequence D. Lee, M. Sugiyama & R. Garnett (eds.), accuracy) cũng không thể đạt tới 91%. NIPS (p./pp. 91-99). Ngoài ra, ở các góc hình khác nhau, hình 68
nguon tai.lieu . vn