Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00228 ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh Trƣờng Đại học Công nghệ Đồng Nai dophucthinh@dntu.edu.vn, quachthibichnhuong@dntu.edu.vn, tranvanninh@dntu.edu.vn TÓM TẮT: Ước lượng số người trong đám đông là một trong những nhiệm vụ quan trọng trong hệ thống camera giám sát. Nó góp phần hỗ trợ cho các lĩnh vực như kinh doanh, giao thông, an ninh và gần đây nhất là lệnh cấm tụ tập khi đại dịch Covid-19 diễn ra. Trong bài báo này, chúng tôi sử dụng mạng nơron tích chập để sinh bản đồ mật độ và ước lượng số người dựa trên bản đồ mật độ này. Việc làm này vừa tránh được bài toán phát hiện đối tượng vừa thể hiện được mức độ phân bố của người trong đám đông. Thực nghiệm cho thấy, phương pháp của chúng tôi tốt hơn các phương pháp truyền thống khi kiểm thử trên các tập dữ liệu UCF_CC_50, ShanghaiTech. Từ khóa: Đếm số người, mạng học sâu, mạng tích chập, crowd counting, convolutional neural network. I. GIỚI THIỆU Hiện nay đang diễn ra cuộc cách mạng công nghệ lần thứ tƣ. Trong cuộc cách mạng này, con ngƣời muốn tự động hóa mọi thứ. Một trong số đó là hệ thống các camera giám sát. Song song với đó, với sự gia tăng dân số và quá trình đô thị hóa thì việc giám sát từng cá nhân đã chuyển dần sang giám sát cả đám đông. Đặc biệt, với tình hình dịch bệnh Covid-19 vừa diễn ra, ngƣời ta muốn hạn chế việc tụ tập đông ngƣời. Chính vì thế, việc tự động giám sát sự phân bố của đám đông là cần thiết. Khi số ngƣời trong đám đông vƣợt ngƣỡng, hệ thống giám sát sẽ thông báo để có thể kịp thời xử lý. Trong nửa thập kỷ gần đây, với sự ra đời của mạng học sâu, đặc biệt là mạng nơron tích chập (Convolutional Neural Network - CNN) đã chiếm ƣu thế áp đảo trong các bài toán về thị giác máy tính, việc đếm số ngƣời trong đám đông cũng không ngoại lệ. Cách tiếp cận đơn giản nhất để giải quyết vấn đề này là đếm số lƣợng ngƣời phát hiện đƣợc. Một số mô hình phát hiện đối tƣợng nhƣ YOLO [12], [13], [14], SSD [8] cho kết quả khá tốt trong môi trƣờng thƣa ngƣời. Tuy nhiên, khi gặp các ảnh có đông ngƣời nhƣ đám đông (Hình 1), các mô hình này hoàn toàn không thể phát hiện một cách chi tiết đƣợc. Để vƣợt qua đƣợc vấn đề này, rất nhiều phƣơng pháp khác đƣợc đề xuất [22], [15], [4], [16], [18]. Hầu hết các phƣơng pháp này dựa vào bản đồ mật độ (chúng tôi sẽ nói về bản đồ mật độ ở các phần sau), tuy nhiên mô hình để sinh bản đồ mật độ còn khá “nông”. Chính vì thế, chúng tôi đề xuất sử dụng một mô hình học sâu để sinh bản đồ mật độ và ƣớc lƣợng số ngƣời dựa trên bản đồ mật độ này. Hình 1. Ảnh đám đông và bản đồ mật độ của nó, 1061 là tổng số ngƣời Các phần còn lại của bài báo đƣợc tổ chức nhƣ sau. Trong phần kế tiếp, chúng tôi sẽ trình bày quá trình phát triển của việc ƣớc lƣợng số ngƣời trong đám đông. Chúng tôi sẽ mô tả về mô hình đề xuất cũng nhƣ các thuật toán sử dụng trong phần III. Phần IV sẽ là phần thực nghiệm và đánh giá và phần V sẽ là kết luận và hƣớng phát triển của mô hình. II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Thông thƣờng, việc ƣớc lƣợng hay đếm số ngƣời trong đám đông đƣợc chia thành 3 hƣớng tiếp cận chính: Dựa vào việc phát hiện đối tƣợng; dựa vào mô hình hồi quy và dựa vào bản đồ mật độ: A. Các phương pháp dựa vào việc phát hiện đối tượng Đây là các phƣơng pháp sơ khai nhất, sử dụng việc phát hiện đối tƣợng để đếm số ngƣời có trong ảnh. Một số công trình nhƣ [19], [3] sử dụng cửa sổ trƣợt để phát hiện đối tƣợng. Nhìn chung, nhƣợc điểm của các phƣơng pháp này là khi mật độ ngƣời trong ảnh càng đông, thì khả năng đếm càng thấp.
  2. 678 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP B. Các phương pháp dựa vào mô hình hồi quy Với những ảnh có mật độ ngƣời đông, các phƣơng pháp phát hiện đối tƣợng sẽ không còn phù hợp. Khái niệm “đếm” cũng đƣợc chuyển dần sang “ƣớc lƣợng” và chuyển hƣớng một cách tiếp cận khác là dựa vào mô hình hồi quy. Các phƣơng pháp dựa vào mô hình hồi quy thƣờng đƣợc chia thành hai công đoạn: Rút trích đặc trƣng và xây dựng một mô hình hồi quy để ƣớc tính số đếm. Các kỹ thuật hồi quy nhƣ linear [11], ridge [2], Gaussian [9] đƣợc sử dụng để ánh xạ các đặc trƣng với số đếm. Tác giả Wang và cộng sự [20] tiếp cận theo hƣớng sử dụng mạng Alexnet [6] để rút trích đặc trƣng từ ảnh đám đông, đầu ra của mạng là một nút chỉ số đếm. Để có thể huấn luyện đƣợc mô hình này, tác giả thêm vào các mẫu âm (ảnh không có ngƣời). Các phƣơng pháp thuộc dạng này có thể giải quyết đƣợc bài toán khó là tránh việc phát hiện từng đối tƣợng. Tuy nhiên, các phƣơng pháp này chỉ có một thông tin là số ngƣời có trong ảnh mà không thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh. Chính vì vậy, các nhà nghiên cứu đã đề xuất một hƣớng đi mới, đó là dựa trên bản đồ mật độ. C. Các phương pháp dựa vào bản đồ mật độ Để thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh, tác giả Lempitsky và cộng sự [7] đã đề xuất một phƣơng pháp sử dụng bản đồ mật độ để ƣớc lƣợng số ngƣời. Bản đồ mật độ (Hình 1) là một ảnh hai chiều thể hiện đƣợc mật độ ngƣời phân bố và số ngƣời có trong ảnh chính bằng tổng giá trị của nó. Tác giả Boominathan [1] sử dụng mô hình gồm hai “cột” CNN có độ sâu khác nhau. Đầu ra của hai mô hình CNN đƣợc kết hợp bằng tầng tích chập 1x1 tạo nên bản đồ mật độ. Một số tác giả khác nhƣ Onoro-Rubio và cộng sự [10], Zhang [22] cải tiến mô hình bằng cách sử dụng ba mô hình CNN song song để sinh bản đồ mật độ. Tác giả Sam [15] cải tiến các mô hình đa cột bằng cách thêm một bộ phân loại, giúp tìm ra ảnh đầu vào phù hợp với mạng CNN nào. Tác giả Đỗ và cộng sự [4] làm giảm độ sai số của mô hình bằng cách loại bỏ các khu vực không có ngƣời trƣớc khi đem vào mô hình. Điểm chung của các phƣơng pháp trên là sử dụng mạng tích chập đơn giản để sinh bản đồ mật độ. Chính vì vậy, chất lƣợng của bản đồ mật độ không cao. III. PHƢƠNG PHÁP ĐỀ XUẤT Chúng tôi đề xuất mô hình sử dụng mạng học sâu để xây dựng bản đồ mật độ. Cụ thể chúng tôi tận dụng sức mạnh của mô hình VGG-16 [17] để làm cơ sở (baseline) cho mô hình của mình. A. Mô hình sinh bản đồ mật độ Nhƣ đã đề cập trƣớc đó, các phƣơng pháp cũ chỉ sử dụng mạng CNN có kiến trúc đơn giản để sinh bản đồ mật độ. Điều này khiến chất lƣợng của bản đồ mật độ thấp. Với sự thành công của mô hình VGG-16 trong bài toán phân loại đối tƣợng thì khả năng rút trích đặc trƣng của mô hình này là không thể phủ nhận. Chính vì thể, chúng tôi sử dụng lại kiến trúc các tầng đầu của mạng VGG-16, loại bỏ các tầng kết nối đầy đủ vì chúng không phù hợp với bài toán đặt ra. Chúng tôi thay thế các tầng kết nối đầy đủ bằng các tầng tích chập, đầu ra của các tầng này đƣợc kết hợp lại nhờ một tầng tích chập 1x1. Mô hình sinh bản đồ mật độ đƣợc mô tả nhƣ Hình 2. Chúng tôi vẽ mô hình nằm ngang để đỡ chiếm khoảng trống. Trong đó, 3x3x64 dùng để chỉ tầng tích chập này gồm 64 bộ lọc kích thƣớc 3x3. Max Pooling là tầng pooling sử dụng thuật toán max-pool với kích thƣớc bộ lọc là 2x2. Để dễ hình dung, các tầng ReLU (Rectified Linear Units) không đƣợc vẽ trong hình. Bản đồ mật độ Ảnh đầu vào Max Pooling Max Pooling Max Pooling 3x3x512 3x3x128 3x3x128 3x3x256 3x3x256 3x3x256 3x3x512 3x3x512 3x3x512 3x3x512 3x3x512 3x3x256 3x3x128 3x3x64 3x3x64 3x3x64 1x1x1 Hình 2. Mô hình sinh bản đồ mật độ B. Bản đồ mật độ xác thực (ground truth) Để có thể huấn luyện mô hình theo các phƣơng pháp dựa vào bản đồ mật độ, các tập dữ liệu đám đông phải đƣợc đánh dấu tại mỗi điểm đầu ngƣời (Hình 3). Tƣơng tự với các phƣơng pháp dựa vào bản đồ mật độ, với mỗi ảnh đám đông, chúng tôi tạo bản đồ mật độ xác thực bằng cách đặt nhân Gaussian tại các điểm này. ∑ ( ) (1) ̅̅̅ (2) trong đó, là bản đồ mật độ xác thực, là nhân Gaussian với độ lệch chuẩn đƣợc tính bằng cách nhân trung bình khoảng cách từ điểm đang xét đến n điểm lân cận ̅ và tham số . Trong quá trình thực nghiệm, chúng tôi chọn n = 4 và = 0,1 cho kết quả tốt nhất. Thuật toán sinh bản đồ mật độ xác thực đƣợc mô tả trong Hình 4.
  3. Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh 679 Hình 3. Ảnh đã đƣợc đánh dấu và bản đồ mật độ xác thực của nó Thuật toán 1. Sinh bản đồ mật độ xác thực Đầu vào: Ảnh đám đông đã đƣợc đánh dấu tại mỗi đầu ngƣời Đầu ra: Bản đồ mật độ xác thực Bắt đầu: B[] zeros // Khởi tạo bản đồ mật độ rỗng foreach head in image // Với mỗi đầu ngƣời đƣợc đánh dấu Nếu điểm đánh dấu nằm trong ảnh Tính ̅ với n = 4 0.1 ̅ gauss Dùng bộ lọc Gaussian với độ lệch chuẩn B[] += gauss Return B[] Kết thúc: Hình 4. Thuật toán sinh bản đồ xác thực C. Huấn luyện mô hình Để tăng cƣờng số lƣợng dữ liệu cho quá trình huấn luyện, chúng tôi cắt ngẫu nhiên các ảnh đầu vào thành các ảnh có kích thƣớc bằng 1/4 kích thƣớc ban đầu. Chúng tôi cũng áp dụng các cách để tăng dữ liệu nhƣ xoay ảnh, lấy đối xứng ảnh, tăng giảm độ sáng. Mô hình đƣợc huấn luyện dựa vào loss function sau: ( ) ∑‖ ( ) ‖ (2) với N là số lƣợng ảnh, là bản đồ mật độ xác thực của ảnh thứ , ( ) là bản đồ mật độ sinh từ mô hình với bộ trọng số của ảnh thứ . Chúng tôi cũng mô tả thuật toán huấn luyện mô hình nhƣ Hình 5. Thuật toán 2. Huấn luyện mô hình Đầu vào: Ảnh đám đông input và bản đồ mật độ xác thực gt của nó Đầu ra: Mô hình đã đƣợc huấn luyện Bắt đầu: for epoch in range(epochs) model() // Khởi tạo mô hình gt_map gt et_map model(input) // Dùng SGD từ thƣ viện pytorch loss MSELoss(gt_map, et_map) optimizer.zero_grad() loss.backward() optimizer.step() end for Kết thúc: Hình 5. Thuật toán huấn luyện mô hình IV. THỰC NGHIỆM Chúng tôi đánh giá mô hình dựa trên hai tập dữ liệu ShanghaiTech và UCF_CC_50. Chúng tôi thực nghiệm trên laptop i7 7820HK@2.90GHz, 32GB RAM, GTX 1080 8GB, Windows 10 Pro 64bit và huấn luyện mô hình bằng thuật
  4. 680 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP toán Stochastic Gradient Descent - SGD với hệ số học là 1e-7, số lần lặp là 300. Ngôn ngữ sử dụng để lập trình là Python với bộ thƣ viện Pytorch. A. Độ đo đánh giá Với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông và để so sánh kết quả với các phƣơng pháp trƣớc đây, chúng tôi sử dụng sai số tuyệt đối trung bình (Mean Absolute Error - MAE) và sai số bình phƣơng trung bình (Mean Squared Error - RMSE): ∑| | (3) √ ∑( ) (4) với N là số lƣợng ảnh, là số đếm xác thực của ảnh thứ , là số đếm ƣớc lƣợng đƣợc từ mô hình của ảnh thứ . Nhƣ vậy, số đo của MAE và MSE càng bé thì độ chính xác của mô hình càng cao. B. Tập dữ liệu ShanghaiTech Đây là một trong những tập dữ liệu về đám đông lớn nhất trong những năm gần đây với 1.198 ảnh và 330.165 điểm đầu ngƣời đã đƣợc đánh dấu [21]. Dựa theo phân bố về mật độ, tập dữ liệu đƣợc chia ra làm hai phần: Phần A (ShanghaiTech Part A) và phần B (ShanghaiTech Part B). Phần A gồm những ảnh lấy ngẫu nhiên trên mạng còn phần B là ảnh đƣợc lấy từ camera trên một con đƣờng ở Thƣợng Hải - Trung Quốc. Mật độ ngƣời của phần A nhiều hơn so với phần B. Tập dữ liệu đã chia sẵn thành tập huấn luyện và tập kiểm thử, cụ thể, phần A gồm 300 ảnh huấn luyện và 182 ảnh kiểm thử. Phần B gồm 400 ảnh huấn luyện và 316 ảnh kiểm thử. Bảng 1. Kết quả khi đánh giá mô hình trên tập dữ liệu ShanghaiTech Phần A Phần B Phƣơng pháp MAE MSE MAE MSE Zhang [21] 181,8 277,7 32,0 49,8 MCNN [22] 110,2 173,2 26,4 41,3 Switch-CNN [15] 90,4 135,0 21,6 33,4 Do [4] 81,9 122,1 20,9 33,1 CP-CNN [18] 73,6 106,4 20,1 30,1 Phƣơng pháp đề xuất 70,5 120,7 12,5 20,4 Hình 6. Một số kết quả trên tập dữ liệu ShanghaiTech phần A Hình 7. Một số kết quả trên tập dữ liệu ShanghaiTech phần B Kết quả của mô hình khi kiểm thử trên tập dữ liệu ShanghaiTech đƣợc mô tả ở Bảng 1. Với tập dữ liệu có mật độ ngƣời thấp nhƣ Phần B thì mô hình cho kết quả khá tốt. Mô hình cũng hoạt động khá tốt ở những vùng không có ngƣời nhƣ cây, nền nhà, mây,…
  5. Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh 681 C. Tập dữ liệu UCF_CC_50 UCF_CC_50 là tập dữ liệu đầy thách thức đối với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông. Tập dữ liệu chỉ chứa 50 ảnh nhƣng mật độ ngƣời trong ảnh thay đổi rất nhiều, từ 94 lên tới 4.543 và chứa rất nhiều cảnh nhƣ buổi hòa nhạc, các cuộc biểu tình, sân vận động [5]. Để đánh giá trên tập dữ liệu này, chúng tôi sử dụng kiểm chứng chéo với k = 5 (5-fold cross-validation). Kết quả của mô hình đƣợc mô tả nhƣ Bảng 2. Với ảnh có mật độ ngƣời dày đặc, mô hình của chúng tôi tốt hơn so với một số phƣơng pháp truyền thống. Tuy nhiên, sai số khi ƣớc lƣợng trên các ảnh này vẫn còn khá lớn. Bảng 2. Kết quả khi đánh giá mô hình trên tập dữ liệu UCF_CC_50 UCF_CC_50 Phƣơng pháp MAE MSE Lempitsky [7] 493,4 487,1 Idrees [5] 419,5 487,1 Zhang [21] 467,0 498,5 MCNN [22] 377,6 509,1 Hydra2s [10] 333,73 425,26 Switch-CNN [15] 318,1 439,2 Do [4] 250,5 383,7 IG-CNN [16] 291,4 349,4 Phƣơng pháp đề xuất 290,3 390,4 Hình 8. Một số kết quả trên tập dữ liệu UCF_CC_50 V. KẾT LUẬN Trong bài báo này, chúng tôi đã trình bày quá trình phát triển của bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông. Chúng tôi cũng đề xuất một mô hình sử đụng mạng nơron tích chập để sinh bản đồ mật độ và ƣớc lƣợng số ngƣời dựa trên bản đồ mật độ này. Mặt khác, chúng tôi cũng tận dụng sức mạnh rút trích đặc trƣng của mô hình VGG- 16 cho mô hình của mình. Thực nghiệm cho thấy điều này làm tăng hiệu quả của mô hình khi so sánh với các phƣơng pháp truyền thống. Trong tƣơng lai, chúng tôi sẽ nghiên cứu mô hình ƣớc lƣợng số ngƣời trong không gian dựa vào góc nhìn đa chiều của các camera giám sát và áp dụng cho nhiều đối tƣợng khác nhƣ động vật, tế bào, xe cộ,… TÀI LIỆU THAM KHẢO [1] L. Boominathan, S. S. Kruthiventi, R. V. Babu. “Crowdnet: A deep convolutional network for dense crowd counting”. In Proceedings of the 2016 ACM on Multimedia Conference, ACM, pp. 640-644, 2016. [2] K. Chen, C. C. Loy, S. Gong, and T. Xiang. “Feature mining for localised crowd counting”. In BMVC, 2012. [3] Navneet Dalal and Bill Triggs. “Histograms of oriented gradients for human detection”. InComputer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Volume 1, pp. 886-893. IEEE, 2005. [4] Phuc Thinh Do and Ngoc Quoc Ly. “A New Framework For Crowded Scene Counting Based On Weighted Sum Of Regressors and Human Classifier”. In SoICT ’18: Ninth International Symposium on Information and Communication Technology, 2018. [5] Haroon Idrees, Imran Saleemi, Cody Seibert, and MubarakShah. “Multi-source multi-scale counting in extremely densecrowd images”. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pp. 2547-2554, 2013. [6] A. Krizhevsky, I. Sutskever, G. Hinton. “Imagenet classification with deep convolutional neural networks”. In Advances in neural information processing systems, pp. 1097-1105, 2012. [7] V. Lempitsky and A. Zisserman. “Learning to count objects in images”. In Advances in neural information processing systems, pp. 1324-1332, 2010. [8] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. “SSD: single shot multibox detector”. CoRR, abs/1512.02325, 2015.
  6. 682 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP [9] A. N. Marana, L. F. Costa, R. A. Lotufo, and S. A. Velastin. “On the efficacy of texture analysis for crowd monitoring”, in: Computer Graphics, Image Processing, and Vision, 1998. Proceedings. SIBGRAPI’98. International Symposium on, IEEE. pp. 354-361, 1998. [10] D. Onoro-Rubio and R.J. Lpez-Sastre. “Towards perspective-free object counting with deep learning”. In Proceedings of the ECCV. Springer, pp. 615-629, 2016. [11] Paragios, N., Ramesh, V., 2001. “A mrf-based approach for real-time subway monitoring”, in: Computer Vision and Pattern Recognition, 2001. [12] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. “You only look once: Unified, real-time object detection”. arXiv preprint arXiv:1506.02640, 2015. [13] J. Redmon and A. Farhadi. “Yolo9000: Better, faster, stronger. In Computer Vision and Pattern Recognition (CVPR)”, 2017 IEEE Conference on, pp. 6517-6525. IEEE, 2017. [14] J. Redmon and A. Farhadi. “YOLOv3: An incremental improvement”. arXiv:1804.02767, 2018. [15] D. B. Sam, S. Surya, R. V. Babu. “Switching convolutional neural network for crowd counting”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. [16] D. B. Sam, N. N. Sajjan, R. V. Babu, and M. Srinivasan. “Divide and grow: Capturing hugediversity in crowd images with incrementally growing cnn”. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3618-3626, 2018. [17] Karen Simonyan and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition”. arXivpreprint arXiv: 1409.1556, 2014. [18] Vishwanath A. Sindagi and Vishal M. Patel. “Generatinghigh-quality crowd density maps using contextual pyramidcnns”. In The IEEE International Conference on Computer Vision (ICCV), pp. 1861-1870, 2017. [19] Paul Viola and Michael J Jones. “Robust real-time face detection”. International journal of computer vision, 57(2): pp. 137-154, 2004. [20] C. Wang, H. Zhang, L. Yang, S. Liu, X. Cao. “Deep people counting in extremely dense crowds”. In Proceedings of the 23rd ACM international conference on Multimedia, ACM. pp. 1299-1302, 2015. [21] C. Zhang, H. Li, X. Wang, X. Yang. “Cross-scene crowd counting via deep con volutional neural networks”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 833-841, 2015. [22] Y. Zhang, D. Zhou, S. Chen, S. Gao, Y. Ma. “Single image crowd counting via multi-column convolutional neural network”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 589- 597, 2016. CROWD COUNTING USING CONVOLUTIONAL NEURAL NETWORKS Do Phuc Thinh, Quach Thi Bich Nhuong, Tran Van Ninh ABSTRACT: Crowd counting is one of the most important tasks in surveillance camera systems. It has supported areas such as business, transportation, security and, most recently, the ban on gathering during the Covid-19 pandemic. In this paper, we use convolutional neural networks to generate the density map and estimate the number of people based on this density map. This work both avoids the object detection problem and shows the distribution of people in the crowd. Experiments show that our method is better than traditional methods when testing on UCF_CC_50, ShanghaiTech datasets.
nguon tai.lieu . vn