Xem mẫu

  1. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Nghiên cứu và đánh giá hiệu năng Retinaface với một số phương pháp nhận diện hiện đại Nguyễn Bá Bắc, Phạm Tuấn Anh, Đinh Quang Huy, Hoàng Trọng Minh Khoa Viễn Thông I, Học Viện Công Nghệ Bưu Chính Viễn Thông Email:bacnb.b16dcvt023@stu.ptit.edu.vn, anhpt.b17vt021@stu.ptit.edu.vn, huydq.b17vt167@stu.ptit.edu.vn, hoangtrongminh@ptit.edu.vn Abstract— Trong một số năm gần đây, các giải pháp một hệ thống nhận dạng thông minh là chưa được nhận diện khuôn mặt đã đạt được thành tựu ứng dụng thực hiện bởi các nhóm tác giả khác. Vì vậy, nghiên to lớn trong các các lĩnh vực dân sự, quân sự, an ninh cứu này thực hiện một đối sánh cụ thể để xác định các đa dạng. Rất nhiều bộ công cụ và cách tiếp cận mới hỗ điểm mạnh và điểm yếu của retina với các giải pháp trợ tính toán thông minh AI đã được phát triển gần đây khác nhằm khuyến nghị các ứng dụng cụ thể khi ứng đã cải thiện mạnh mẽ về hiệu năng và mở ra các ứng dụng mới. Retinaface là một giải pháp nhận dạng được dụng hệ thống nhận diện khuôn mặt. phát triển gần đây, tận dụng lợi thế dò tìm khuôn mặt Bài báo được tổ chức như sau. Phần tiếp theo sẽ trên các điểm landmarks và quá trình học sẽ giải quyết trình bày các nghiên cứu liên quan và đặc trưng cơ nhận dạng đa góc cạnh của khuôn mặt. Tuy nhiên, bên bản của các hệ thống nhận diện khuôn mặt thông cạnh đó là các giải pháp nhận dạng tiên tiến khác cũng minh retinaface. Phần III sẽ lược tả nguyên tắc hoạt đem lại các điểm mạnh nhất định mà chưa được các tác động của retinaface và đối sánh các tham số hiệu năng giả trước đối sánh. Vì vậy, trong bài báo này, chúng tôi với các hệ thống khác. Và cuối cùng là các thảo luận thực hiện nghiên cứu đặc trưng cơ bản của retinaface hữu ích cùng với hướng nghiên cứu tương lai của với ứng dụng dò tìm trên video và đối sánh kết quả thực nhóm tác giả. nghiệm. Từ đó so sánh tham số hiệu năng với các giải pháp khác để rút ra các kết luận hữu ích. Keywords- Nhận diện khuôn mặt, do tìm khuôn mặt, II. NGHIÊN CỨU LIÊN QUAN retinaface, học máy, mạng neuron tích chập. Trong thời gian gần đây, một số giải pháp nhận dạng khuôn mặt đã được phát triển. Trong [3] đưa ra I. GIỚI THIỆU một giải pháp tìm điểm đặc trưng của khuôn mặt dựa Phát hiện khuôn mặt là một trong những khía trên một bộ lọc trong cửa sổ trượt. Các biến thể của cạnh cơ bản nhất của hệ thống nhận diện khuôn mặt. bộ lọc Haar sử dụng các khối logic để tạo ra sự phân Trên cơ sở các điểm đánh dấu trên khuôn mặt, các bộ biệt các đặc trưng. Số lượng các đặc trưng cần thiết công cụ tính toán thông minh sử dụng trí tuệ nhân tạo của Haar lên tới 6000 đã kéo theo thời gian xử lý tăng thực hiện các mô hình đào tạo khác nhau để phát hiện lên đáng kể. nhận dạng của người cụ thể. Các mô hình đào tạo Dlib [1] là một bộ công cụ chứa các thuật toán trước được sử dụng trong phát hiện khuôn mặt nổi học máy để phát hiện khuôn mặt gồm 04 bước: chuẩn tiếng hiện nay là gồm Dlib [1], MTCNN [2], hóa hình ảnh trước khi xử lý, tính toán gradient hai OpenCV_Haar [3], Facenet [4] và OpenCV_DNN chiều, lấy phiếu trọng số trong các cell và chuẩn hóa [5]. các block. Các ảnh gradient được trích xuất bằng Mặc dù những mô hình phát hiện khuôn mặt kể phương pháp tích chập và cường độ được tính từ hình trên thật sự đã có những bước tiến dài trong thời gian ảnh tới pixel. Các biểu đồ được hình thành để tạo ra qua, nhưng các yêu cầu nhận diện hiện nay cũng đặt các vector đặc trưng và được xử lý bởi kỹ thuật học ra các thách thức mới không chỉ liên quan tới độ phức máy vector hỗ trợ SVM (Support Vector Machine). tạp thuật toán mà còn liên quan tới điều kiện đầu vào Mặc dù giải pháp này cho khả năng phát hiện khuôn của khuôn mặt (ví dụ: đeo kính râm hoặc mặt nạ thở, mặt chính xác nhưng rất khó khăn khi chạy thời gian v..v). Một nghiên cứu gần đây có tên là retina [6] nổi thực do yêu cầu xử lý lớn. lên như một giải pháp hữu hiệu trong vai trò nhận Trong [2] trình bày kỹ thuật phát hiện khuôn mặt diện khuôn mặt với nhiều điều kiện đầu vào khác qua năm điểm đặc trưng chính. Giải pháp này sử dụng nhau. Vì vậy, nó có thể ứng dụng rộng rãi và hiệu quả mạng neuron tích chập 3 tầng gồm P-Net, R-Net và hơn trong một số ứng dụng bảo mật trong internet vạn O-net. Kết quả đầu ra của các tầng đều được xử lý vật hay phát hiện nhận dạng qua video giám sát. Tuy nén không tối đa để bỏ đi những kết quả không tin nhiên, theo khảo sát và kiến thức tốt nhất của chúng cậy và sau đó thực hiện hiệu chuẩn các đường bao tôi, một đánh giá hiệu năng cụ thể khi kết hợp trong giới hạn. ISBN: 978-604-80-5076-4 283
  2. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Trong [5] trình bày giải pháp dò tìm khuôn mặt về xử lí ảnh kích thước khác nhau của các hệ thống dựa trên bộ dò đa khối cho một ảnh Single Shot- mô phỏng 3D. Multibox Detector (SSD) [7]. Giải pháp này có tốc độ nhanh nhưng dễ bỏ qua các đối tượng có kích thước nhỏ do việc sử dụng dự đoán đa kích thước dựa tên tích chập. Trong [4] giới thiệu một mạng neuron nhân tạo có tác dụng biểu diễn các bức ảnh vào một không gian euclide n chiều (thường là 128). Vector 128 phần tử này được sử dụng để dự đoán thường được gọi là khuôn mặt ở dạng nhúng. Kỹ thuật áp dụng một mạng tích chập để trích xuất đặc trưng và giảm chiều dữ liệu xuống chỉ còn 128 chiều. Sử dụng hàm tối ưu là hàm triplet loss có khả năng học được đồng thời sự Hình 2. Mô phỏng quá trình tái tạo 3D [6]. giống nhau giữa hai bức ảnh cùng nhóm và phân biệt các bức ảnh không cùng nhóm. Do đó hiệu quả hơn Để dự đoán hình dạng khuôn mặt 3D bằng một rất nhiều so với các phương pháp trước đây. khuôn mặt hình tam giác được xác định trước với N Một số phương pháp trên đã được trình bày và đối đỉnh. Mỗi pixel mặt có thể được lập chỉ mục bằng tọa sánh trong [6], các điểm mạnh và điểm yếu của một độ trung tâm và chỉ số tam giác làm cho pixel tương số phương pháp đã được thực hiện trên cùng một bộ ứng một cách thông minh với mặt 3D. dữ liệu mẫu (DEAP database [8]). Tuy nhiên chưa có giải pháp nào được thực hiện với retina. Vì vậy, chúng tôi thực hiện đối sánh hiệu năng với các giải pháp trước đây. III. MÔ HÌNH RETINAFACE RetinaFace là một hệ thống nhận diện sử dụng kỹ thuật học tập đa tác vụ [7] để dự đoán đồng thời độ tin cậy, khuôn mặt, năm điểm mốc trên khuôn mặt, dự đoán mô hình khuôn mặt 3D và sự tương ứng của khuôn mặt đối với từng pixel [8]. Bằng cách sử dụng Hình 3. Mô hình khuôn mặt 3D [6]. các mạng trọng số nhỏ, RetinaFace có thể chạy thời gian thực trên một lõi CPU duy nhất cho hình ảnh có b. Xác định vị trí khuôn mặt bằng kỹ thuật single-shot độ phân giải VGA. đa lớp Mô hình bao gồm ba thành phần chính: • Mạng đa tầng trích xuất các đặc trưng [10]: Mô hình mạng lấy hình ảnh đầu vào và xuất ra năm khu vực đặc trưng với các tỷ lệ khác nhau. • Mô-đun phân tích bối cảnh: Để tăng cường năng lực mô hình hóa, mạng tích chập biến dạng (DCN) [11] được sử dụng trong mô-đun này trên các vùng đặc trưng. • Hàm tối ưu đa tác vụ của mô hình các tầng trích xuất đặc trưng bao gồm. Hàm tối ưu của lớp softmax đối với các việc phân loại khuôn mặt Hình 1. Lưu đồ nhận diện khuôn mặt bằng RetinaFace [6]. đầu vào. Hàm tối ưu của vùng bouding box của RetinaFace thực hiện ba tác vụ mô hình hóa khuôn khuôn mặt. Hàm tối ưu năm điểm landmarks của mặt đó là nhận diện khuôn mặt, căn chỉnh khuôn mặt khuôn mặt. Hàm tối ưu các điểm 3D mesh. 2D và tái tạo khuôn mặt 3D dựa trên một khung hình c. Tái tạo và tối ưu tọa độ của khuôn mặt 3D chụp duy nhất. Việc tối ưu các tọa độ được dự đoán trong không a. Phương thức tái tạo mô hình 3D gian ba chiều sao cho khớp với ảnh đầu vào được thực Để tạo một khuôn mặt 3D từ hình ảnh 2D, mô hình hiện bằng hàm tối ưu đa tác vụ. Tất cả các tọa độ được học có giám sát không thể triển khai do các mô hình chuẩn hóa như sau: 3D thực của khuôn mặt không dễ dàng để thu thập được. Cùng với sự phát triển của các mô hình tái tạo (𝑥𝑗· − 𝑥𝑐𝑒𝑛𝑡𝑒𝑟 𝛼 )/𝑆 𝛼 , (1) 3D nổi bật là Mesh Decoder, RetinaFace đưa ra mô · 𝛼 hình học tự giám sát mới và khắc phục các yếu điểm (𝑦𝑗 − 𝑥𝑐𝑒𝑛𝑡𝑒𝑟 )/𝑆 𝛼 , (2) ISBN: 978-604-80-5076-4 284
  3. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) (𝑧𝑗· − 𝑥𝑐𝑒𝑛𝑡𝑒𝑟 · − 𝑡𝑖𝑝 ) Bên cạnh các kết quả được nghiên cứu cùng với bộ . (3) dữ liệu WIDER FACE cho thấy rằng Retinaface cho 𝑆𝛼 Ở đây, x* và y* là tọa độ thực của các góc vùng kết quả cao về độ chính xác trung bình (AP) tốt hơn. khuôn mặt, năm landvideovideomark của khuôn mặt Cụ thể, độ chính xác trung bình của Retinaface cao và (x*, y*, z*) là tọa độ đỉnh thực 3 chiều trong không hơn WIDER FACE trong [4] lên đến 91.4% đối với gian hình ảnh. Tất cả các tọa độ đỉnh thực trong tập WIDER FACE hard, 95,6% đối với tập WIDER không gian 3D được dịch sao cho tọa độ z của đầu FACE medium, 96.3% đối với WIDER easy. Các kết mũi bằng không. x^a, y^a là tọa độ trung tâm của quả thực nghiệm đối sánh trên cho thấy retinaface có vùng giới hạn khuôn mặt và s^a là thang đo. Chiều ưu điểm vượt trội về thời gian tính toán so với hầu hết rộng và chiều cao của vùng giới hạn cũng được chuẩn các hệ thống khác. hóa dưới dạng nhật ký (w*/s^a) và log(h*/s^a), trong đó w* và h* căn cứ vào kích thước thực của số chiều V. KẾT LUẬN về vùng khuôn mặt. Tất cả các hàm tính loss được Trong nghiên cứu này, các đặc điểm cơ bản của đưa ra theo tiêu chuẩn L1. các kỹ thuật phát hiện khuôn mặt khác nhau đã được Để hồi quy các đỉnh 3D trên mặt phẳng hình ảnh trình bày. Nguyên lý cơ bản và khả năng nhận diện 2D, chúng đang sử dụng hai hàm tối ưu: khuôn mặt của retinaface đã được giới thiệu từ các 1 ℒ𝑣𝑒𝑟𝑡 = ∑𝑁 · 𝑖=1 ‖𝑉𝑖 (𝑥, 𝑦, 𝑧) − 𝑉𝑖 (𝑥, 𝑦, 𝑧)‖𝑖 , (4) góc độ nguyên lý và thực nghiệm. Một kết quả đối 𝑁 1 sánh trong cùng một mục tiêu nhận diện khuôn mặt ℒ𝑒𝑑𝑔𝑒 = ‖𝐸𝑖 ℒ𝑣𝑒𝑟𝑡 ‖. (5) 3𝑀 đã được thực nghiệm và cho các kết quả về độ chính Vì vậy, tổng tổn thất mất mát khi hồi quy điểm 3D trở xác của hệ thống nhận diện khuôn mặt cùng với độ thành: phức tạp thời gian xử lý. Kết quả cho thấy, với các ℒ𝑚𝑒𝑠ℎ = ℒ𝑣𝑒𝑟𝑡 +   ℒ𝑒𝑑𝑔𝑒 , (6) ứng dụng cần thời gian nhận diện nhỏ thì giải pháp Hàm tối ưu toàn bộ cho một điểm i trở thành: Dlib là giải pháp tốt nhất. Tuy nhiên, nếu cần độ ℒ = ℒ𝑐𝑙𝑠 (𝑃𝑖 , 𝑃𝑖· ) +   𝜆1 𝑃𝑖· ℒ𝑏𝑜𝑥 (𝑡𝑖 , 𝑡𝑖· ) + chính xác cao thì giải pháp Facenet hoặc MTCNN 𝜆2 𝑃𝑖· ℒ𝑝𝑡𝑠 (𝑙𝑖 , 𝑙𝑖· )𝜆3 𝑃𝑖· ℒ𝑚𝑒𝑠ℎ (𝑣𝑖 , 𝑣𝑖· ) (7) chiếm ưu thế. Tuy nhiên, về mặt tổng thể, giải pháp RetinaFace cung cấp một giải pháp hiệu quả từ cả hai IV. KẾT QUẢ VÀ THẢO LUẬN góc độ về độ chính xác và thời gian thực hiện thuật Nhóm tác giả đã thử nghiệm tất cả 5 thuật toán trên toán. Với các ưu điểm này, hệ thống sử dụng đây với cùng một video có độ phức tạp cao [13]. retinaface có thể ứng dụng rất tốt vào các hệ thống Bảng 1 dưới đây tổng kết tổng số khuôn mặt được IoT cần bảo mật cao. Trên cơ sở nghiên cứu này, phát hiện trong video với các thuật toán khác nhau. hướng nghiên cứu tiếp theo sẽ là nhúng thuật toán Bảng 1. So sánh khả năng nhận diện khuôn mặt của các trong một hệ thống smart home thực nghiệm. phương pháp khác nhau với số lượng khuôn mặt khác nhau: facenet Mtcn dlib ocv- ocv- retina TÀI LIỆU THAM KHẢO n dnn haar [1] Dehghani, D. Moloney, and X. Xu, “Face detection speed Số 1812 1800 1792 1770 1605 1985 improvement using bitmap-based Histogram of Oriented lượng gradien,” in 2017 International Conference on Systems, Signals and Image Processing (IWSSIP), 2017, pp. 1–5.. [2] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Để xác đinh thực nghiệm độ phức tạp của các thuật Girshick, R., Guadarrama, S., & Darrell, T. (2014). Caffe: toán. Nghiên cứu sử dụng một máy tính có chip Intel Convolutional architecture for fast feature embedding. In MM i7-6700K & GPU card GTX1080 để đối sánh thời 2014 - Proceedings of the 2014 ACM Conference on Multimedia (pp. 675–678). gian chạy các thuật toán xử lý. Kết quả chỉ ra trên [3] Zhang, K., Zhang, Z., Li, Z., & Qiao, Y. (2016). Joint Face hình 4. Detection and Alignment Using Multitask Cascaded Convolutional Networks. In IEEE Signal Processing Letters (Vol. 23, Issue 10, pp. 1499–1503). 400 350 [4] Schroff, F., Kalenichenko, D., & Philbin, J. (2015). FaceNet - thời gian (giây) 300 arxiv. In Cvpr (Vols. 07-12-June, pp. 815–823). 250 [5] Zhang, K., Zhang, Z., Li, Z., & Qiao, Y. (2016). Joint Face 200 Detection and Alignment Using Multitask Cascaded 150 Convolutional Networks. In IEEE Signal Processing Letters 100 (Vol. 23, Issue 10, pp. 1499–1503). 50 [6] Deng, J., Guo, J., Zhou, Y., Yu, J., K otsia, I., & Zafeiriou, 0 S. (2019). RetinaFace: Single-stage Dense Face Localisation in the Wild. [7] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). SSD: Single shot multibox thuật toán detector. Lecture Notes in Computer Science (Including Hình 4: Thời gian thực hiện thuật toán ISBN: 978-604-80-5076-4 285
  4. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Subseries Lecture Notes in Artificial Intelligence and Lecture [11] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Notes in Bioinformatics), 9905 LNCS, 21–37. Y. (2017). Deformable Convolutional Networks. Proceedings [8] Alhindi, T. J., Kalra, S., Ng, K. H., Afrin, A., & Tizhoosh, H. of the IEEE International Conference on Computer Vision, R. (2018). Comparing LBP, HOG and Deep Features for 2017-October, 764–77. Classification of Histopathology Images. Proceedings of the [12] Strahinja Stefanovic, “#017 Face detection algorithms International Joint Conference on Neural Networks, 2018- comparison ”, 2020. Địa chỉ: http://datahacker.rs/017-face- July. detection-algorithms-comparison/ [Truy cập: 05/11/2020]. [9] Zhou, Y., Deng, J., Kotsia, I., & Zafeiriou, S. (2019). Dense [13] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified 3D face decoding over 2500FPS: Joint texture & shape multi-scale deep convolutional neural network for fast object convolutional mesh decoders. Proceedings of the IEEE detection. In ECCV, 2016. 5. Computer Society Conference on Computer Vision and Pattern Recognition, 2019-June, 1097–1106. [10] Li, X., Lai, T., Wang, S., Chen, Q., Yang, C., & Chen, R. (2019). Weighted feature pyramid networks for object detection. Proceedings - 2019 IEEE Intl Conf on Parallel and Distributed Processing with Applications, Big Data and Cloud Computing, Sustainable Computing and Communications, Social Computing and Networking, ISPA/BDCloud/SustainCom/SocialCom 2019, 1500–1504. ISBN: 978-604-80-5076-4 286
nguon tai.lieu . vn