Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
NHẬN DIỆN BIỂN SỐ XE MÁY, Ô TÔ
SỬ DỤNG MẠNG NƠ RON NHÂN TẠO
Nguyễn Văn Nam
Khoa Công nghệ Thông tin, Trường đại học Thủy lợi, email: nvnam@tlu.edu.vn
1. GIỚI THIỆU CHUNG Rất nhiều mạng nơ ron tích chập
(Convolutional Neural Network) được phát
Nhận dạng biển số xe ô tô, xe máy tự động
triển trên thế giới cho phép phân loại ảnh như
là việc sử dụng các công nghệ xử lý ảnh để đọc VGG, Resnet, EfficientNet, cũng như cho
biển số xe từ các hình ảnh thu được bởi các phép nhận dạng vật thể trong ảnh như
camera giao thông. Với sự phát triển mạnh mẽ YOLOv3 (You Look Only Once) [2],
các công nghệ xử lý ảnh nhất là công nghệ FasterRCNN (Faste-Regional CNN) [3] hay
mạng nơ ron nhân tạo cho thị giác máy tính, độ SSD (Single Shot Multibox Detector) [1].
chính xác nhận diện đã được cải thiện đáng kể Trong bài báo này, chúng tôi thực hiện phát
có thể đáp ứng được các nhu cầu thực tế. Bài hiện biển số và phát hiện ký tự bằng mô hình
báo giới thiệu cách áp dụng mô hình nhận dạng SSD. Trên bộ dữ liệu PASCAL VOC,
vật thể Single Shot MultiBox (SSD) để phát SSD500 có độ chính xác mAP 76,8% tốt hơn
hiện biển số và phát hiện ký tự, đồng thời đề so với YOLOv3 (66,4%) và có tốc độ 22fps
xuất một mô hình phân loại hình ảnh để nhận cao hơn so với Faster-RCNN (7fps).
dạng ký tự. Hệ thống tổng thể cho kết quả nhận
diện biển số với độ chính xác 86,5%.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Biển số xe cơ giới Việt Nam là bảng hợp
kim nhôm sắt có dạng hình chữ nhật hoặc
hình hơi vuông trên đó có in các ký tự số hoặc
ký tự chữ. Biển số xe cơ giới có thể phân chia
thành 2 loại là biển xe một dòng và biển xe
hai dòng. Quy trình nhận diện biển số xe máy, Hình 2. Mô hình nhận dạng vật thể SSD
ô tô được mô tả trong hình 1. Quy trình này
Kiến trúc mạng nơ ron nhân tạo được sử
gồm ba bước (1) phát hiện biển số, (2) phát dụng trong SSD (hình 2) bao gồm hai phần
hiện ký tự và (3) nhận dạng ký tự. Hai bước chính là mạng nơ ron cơ sở (baseline) như là
đầu tiên được thực hiện với SSD. Bước còn VGG, Resnet, EfficientNet và phần các tầng
lại được thực hiện với mô hình tự đề xuất. tầng SSD hay gọi là các tầng phụ. Phần mạng
nơ ron cơ sở tạo ra 6 ánh xạ đặc trưng với
kích cỡ khác nhau. Phần các tầng SSD phụ
thực hiện việc hồi quy hình hộp bao đóng và
dự đoán xác suất xuất hiện của từng loại vật
thể trong hộp bao đóng đó.
Tương tự như YOLO, với một ánh xạ đặc
Hình 1. Các bước nhận dạng trưng 3838512, thì ảnh đầu vào sẽ được
biển số phương tiện coi như một lưới ô vuông 3838. Với mỗi ô
66
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
vuông, có một số hình chữ nhật neo (defaul là hai tầng mạng nơ ron kết nối đầy đủ có số
boxes) được khởi tạo với tâm trùng với tâm ô lượng nơ ron tương ứng là 500 và 10 (tương
vuông nhưng có hình dạng khác nhau. Quá ứng với 10 ký tự số).
trình huấn luyện là quá trình tinh chỉnh hình
dạng và kích cỡ các hình hộp đề xuất
(prediction) để phù hợp với các hình tham
chiếu (ground-truth) sao cho với mỗi loại vật
thể, xác suất hình hộp chứa loại đối tượng là
lớn nhất và sư sai lệnh về vị trí và kích cỡ
giữa hình dự đoán và hình thật là nhỏ nhất.
Vị trí và kích cỡ của hình hộp bao đóng
được chuẩn hóa theo vị trí và kích cỡ của từng
ô vuông. SSD sử dụng thuật toán NMS (non- Hình 3. Mô hình phân loại ký tự số
maximal suppression) để loại đi các hình bao
đóng có cùng vị trí nhưng độ chính xác thấp. Tương tự như vậy, mô hình phân loại ảnh ký
Hàm mất mát trong SSD như sau: tự chữ có cấu trúc tương tự nhưng có 21 đầu ra
L(x,c,l,g) = 1/N (Lconf (x,c) + α Lloc(x,l,g)) tương ứng với 21 ký tự trong biển số xe.
Trong đó: xpij = {1; 0} chỉ báo có hay
không sự ghép cặp giữa hộp bao đóng neo 3. KẾT QUẢ NGHIÊN CỨU
thứ i và hình tham chiếu thứ j của loại vật thể Chuẩn bị dữ liệu
p; N - số hình chữ nhật neo được ghép cặp;
Lloc(x,l,g) - hàm mất mát vị trí được tính là Dữ liệu gán nhãn bao gồm 1000 ảnh biển
số và 6200 ảnh ký tự biển số cho 21 ký tự
hàm chuẩn 1 giữa các tham số chuẩn hóa của
chữ và 10 ký tự số. Dữ liệu được thu nhận từ
hộp dự đoán l và hộp tham chiếu g. Lconf (x,c)
1 camera giao thông thực hiện vào ban ngày.
hàm mất mát độ tin cậy chính là hàm sai số
cross-entropy trên các lớp đối tượng. Huấn luyện mô hình
Mô hình phát hiện biển số và mô hình Mô hình SSD và mô hình phân loại ký tự
phát hiện ký tự biển số biển số đều được cài đặt trên khung làm việc
MXNET, cung cấp thư viện GluonCV rất hiệu
SSD được sử dụng để phát hiện biển số, quả cho các mô hình thị giác máy tính. Cả hai
phát hiện ký tự trong biển số. Mô hình phát mô hình đều được huấn luyện trên máy Tesla
hiện biển số có 2 nhãn là biển 1 dòng (1-line) T4, sử dụng thuật toán tối ưu SGD (Stochastic
và biển 2 dòng (2-lines). Mô hình phát hiện Gradient Descent) với batch size là 512,
ký tự bao gồm 31 nhãn gồm 10 chữ số và 21 learning rate là 0,001, weight decay là 0,0005
ký tự latinh được sử dụng trong biển số xe. và momentum là 0,9, số lượng epoch là 200.
Mô hình nhận dạng ký tự Kết quả thử nghiệm
Mô hình nhận dạng ký tự số được thể hiện
minh họa trong hình 3. Đây là một mô hình
phân loại hình ảnh. Đầu vào mô hình là ảnh
RGB kích cỡ 2828 chứa một ký tự số.
Mô hình phân loại ký tự số bao gồm 2 tầng
tích chập (conv) với bộ lọc 55, bước nhày là
1 và số kênh lần lượt là 20 và 50; hai tầng
gộp cực đại (max pooling) kích cỡ 22 và
bước nhảy là 2. Ánh xạ đặc trưng cuối cùng
có kích cỡ 4450 được làm phẳng ra thành
một vecto 1 chiều có kích cỡ 800. Cuối cùng
67
- Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8
Độ chính xác nhận diện biển số xe ô tô dạng biển số không còn là hình chữ nhật
tương ứng với hình bao đóng khi gán nhãn.
Ô tô Positive Negative Do đó tỷ lệ nhận nhầm biển số sẽ cao hơn.
True 29 0 Đây là các nhược điểm của cách tiếp cận này.
False 5 4
4. KẾT LUẬN
Precision = TP/ (TP + FP) = 85,3% Trong bài báo này, chúng tôi sử dụng mô
Recall = TP/(TP + FN) = 87,9% hình học sâu SSD (Single Shot Multibox
F1-Score = 2 * Precision * Recall/ Detector) để phát hiện biển số, phát hiện ký
(Precision+Recall) = 86,5% tự của từng biển số. Sau đó chúng tôi thiết kế
Độ chính xác nhận diện xe máy một mạng phân loại để nhận diện ký tự. Việc
nhận diện biển số như trên được thử nghiệm
Xe máy Positive Negative với 20 ảnh và cho ra độ chính xác F1-Score
True 57 0 là 86,5%. Kết quả này cũng rất khả quan để
False 20 13 ứng dụng vào thực tế. Tuy nhiên, cần phải có
thêm rất nhiều dữ liệu để tăng cường độ
Precision = TP/ (TP + FP) = 74% chính xác của mô hình.
Recall = TP/(TP + FN) = 81%
F1-Score = 77,5% 5. TÀI LIỆU THAM KHẢO
Đánh giá chung [1] Liu, W., Anguelov, D., Erhan, D., Szegedy,
C., Reed, S., Fu, C.-Y. & Berg, A. C. (2015).
Phương pháp đề xuất có ưu điểm là tốc độ SSD: Single Shot MultiBox Detector (cite
nhận dạng cao: trung bình khoảng 30ms/ảnh; arxiv:1512.02325Comment: ECCV 2016).
độ chính xác nhận dạng chấp nhận được: tỷ [2] Redmon, J. & Farhadi, A. (2018). YOLOv3:
lệ F1-Score cho biển số xe máy, oto ban ngày An Incremental Improvement (cite
tương ứng là 77,5% và 86,5%. Tuy nhiên, độ arxiv:1804.02767Comment: Tech Report).
dài chuỗi ký tự biển số trung bình là 9 chữ số. [3] Ren, S., He, K., Girshick, R. B. & Sun, J.
Ngay cả khi độ chính xác nhận diện ký tự (2015). Faster R-CNN: Towards Real-Time
Object Detection with Region Proposal
(character accuracy) cao đến 99% thì độ
Networks.. In C. Cortes, N. D. Lawrence, D.
chính xác nhận diện cả chuỗi ký tự (sequence D. Lee, M. Sugiyama & R. Garnett (eds.),
accuracy) cũng không thể đạt tới 91%. NIPS (p./pp. 91-99).
Ngoài ra, ở các góc hình khác nhau, hình
68
nguon tai.lieu . vn