Xem mẫu
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00228
ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG
NƠRON TÍCH CHẬP
Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh
Trƣờng Đại học Công nghệ Đồng Nai
dophucthinh@dntu.edu.vn, quachthibichnhuong@dntu.edu.vn, tranvanninh@dntu.edu.vn
TÓM TẮT: Ước lượng số người trong đám đông là một trong những nhiệm vụ quan trọng trong hệ thống camera giám sát.
Nó góp phần hỗ trợ cho các lĩnh vực như kinh doanh, giao thông, an ninh và gần đây nhất là lệnh cấm tụ tập khi đại dịch Covid-19
diễn ra. Trong bài báo này, chúng tôi sử dụng mạng nơron tích chập để sinh bản đồ mật độ và ước lượng số người dựa trên bản đồ
mật độ này. Việc làm này vừa tránh được bài toán phát hiện đối tượng vừa thể hiện được mức độ phân bố của người trong đám
đông. Thực nghiệm cho thấy, phương pháp của chúng tôi tốt hơn các phương pháp truyền thống khi kiểm thử trên các tập dữ liệu
UCF_CC_50, ShanghaiTech.
Từ khóa: Đếm số người, mạng học sâu, mạng tích chập, crowd counting, convolutional neural network.
I. GIỚI THIỆU
Hiện nay đang diễn ra cuộc cách mạng công nghệ lần thứ tƣ. Trong cuộc cách mạng này, con ngƣời muốn tự
động hóa mọi thứ. Một trong số đó là hệ thống các camera giám sát. Song song với đó, với sự gia tăng dân số và quá
trình đô thị hóa thì việc giám sát từng cá nhân đã chuyển dần sang giám sát cả đám đông. Đặc biệt, với tình hình dịch
bệnh Covid-19 vừa diễn ra, ngƣời ta muốn hạn chế việc tụ tập đông ngƣời. Chính vì thế, việc tự động giám sát sự phân
bố của đám đông là cần thiết. Khi số ngƣời trong đám đông vƣợt ngƣỡng, hệ thống giám sát sẽ thông báo để có thể kịp
thời xử lý. Trong nửa thập kỷ gần đây, với sự ra đời của mạng học sâu, đặc biệt là mạng nơron tích chập
(Convolutional Neural Network - CNN) đã chiếm ƣu thế áp đảo trong các bài toán về thị giác máy tính, việc đếm số
ngƣời trong đám đông cũng không ngoại lệ. Cách tiếp cận đơn giản nhất để giải quyết vấn đề này là đếm số lƣợng
ngƣời phát hiện đƣợc. Một số mô hình phát hiện đối tƣợng nhƣ YOLO [12], [13], [14], SSD [8] cho kết quả khá tốt
trong môi trƣờng thƣa ngƣời. Tuy nhiên, khi gặp các ảnh có đông ngƣời nhƣ đám đông (Hình 1), các mô hình này hoàn
toàn không thể phát hiện một cách chi tiết đƣợc. Để vƣợt qua đƣợc vấn đề này, rất nhiều phƣơng pháp khác đƣợc đề
xuất [22], [15], [4], [16], [18]. Hầu hết các phƣơng pháp này dựa vào bản đồ mật độ (chúng tôi sẽ nói về bản đồ mật độ
ở các phần sau), tuy nhiên mô hình để sinh bản đồ mật độ còn khá “nông”. Chính vì thế, chúng tôi đề xuất sử dụng một
mô hình học sâu để sinh bản đồ mật độ và ƣớc lƣợng số ngƣời dựa trên bản đồ mật độ này.
Hình 1. Ảnh đám đông và bản đồ mật độ của nó, 1061 là tổng số ngƣời
Các phần còn lại của bài báo đƣợc tổ chức nhƣ sau. Trong phần kế tiếp, chúng tôi sẽ trình bày quá trình phát triển
của việc ƣớc lƣợng số ngƣời trong đám đông. Chúng tôi sẽ mô tả về mô hình đề xuất cũng nhƣ các thuật toán sử dụng
trong phần III. Phần IV sẽ là phần thực nghiệm và đánh giá và phần V sẽ là kết luận và hƣớng phát triển của mô hình.
II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Thông thƣờng, việc ƣớc lƣợng hay đếm số ngƣời trong đám đông đƣợc chia thành 3 hƣớng tiếp cận chính: Dựa
vào việc phát hiện đối tƣợng; dựa vào mô hình hồi quy và dựa vào bản đồ mật độ:
A. Các phương pháp dựa vào việc phát hiện đối tượng
Đây là các phƣơng pháp sơ khai nhất, sử dụng việc phát hiện đối tƣợng để đếm số ngƣời có trong ảnh. Một số
công trình nhƣ [19], [3] sử dụng cửa sổ trƣợt để phát hiện đối tƣợng. Nhìn chung, nhƣợc điểm của các phƣơng pháp
này là khi mật độ ngƣời trong ảnh càng đông, thì khả năng đếm càng thấp.
- 678 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
B. Các phương pháp dựa vào mô hình hồi quy
Với những ảnh có mật độ ngƣời đông, các phƣơng pháp phát hiện đối tƣợng sẽ không còn phù hợp. Khái niệm
“đếm” cũng đƣợc chuyển dần sang “ƣớc lƣợng” và chuyển hƣớng một cách tiếp cận khác là dựa vào mô hình hồi quy.
Các phƣơng pháp dựa vào mô hình hồi quy thƣờng đƣợc chia thành hai công đoạn: Rút trích đặc trƣng và xây dựng
một mô hình hồi quy để ƣớc tính số đếm. Các kỹ thuật hồi quy nhƣ linear [11], ridge [2], Gaussian [9] đƣợc sử dụng để
ánh xạ các đặc trƣng với số đếm. Tác giả Wang và cộng sự [20] tiếp cận theo hƣớng sử dụng mạng Alexnet [6] để rút
trích đặc trƣng từ ảnh đám đông, đầu ra của mạng là một nút chỉ số đếm. Để có thể huấn luyện đƣợc mô hình này, tác
giả thêm vào các mẫu âm (ảnh không có ngƣời). Các phƣơng pháp thuộc dạng này có thể giải quyết đƣợc bài toán khó
là tránh việc phát hiện từng đối tƣợng. Tuy nhiên, các phƣơng pháp này chỉ có một thông tin là số ngƣời có trong ảnh
mà không thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh. Chính vì vậy, các nhà nghiên cứu đã đề xuất một hƣớng
đi mới, đó là dựa trên bản đồ mật độ.
C. Các phương pháp dựa vào bản đồ mật độ
Để thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh, tác giả Lempitsky và cộng sự [7] đã đề xuất một phƣơng
pháp sử dụng bản đồ mật độ để ƣớc lƣợng số ngƣời. Bản đồ mật độ (Hình 1) là một ảnh hai chiều thể hiện đƣợc mật độ
ngƣời phân bố và số ngƣời có trong ảnh chính bằng tổng giá trị của nó. Tác giả Boominathan [1] sử dụng mô hình gồm
hai “cột” CNN có độ sâu khác nhau. Đầu ra của hai mô hình CNN đƣợc kết hợp bằng tầng tích chập 1x1 tạo nên bản
đồ mật độ. Một số tác giả khác nhƣ Onoro-Rubio và cộng sự [10], Zhang [22] cải tiến mô hình bằng cách sử dụng ba
mô hình CNN song song để sinh bản đồ mật độ. Tác giả Sam [15] cải tiến các mô hình đa cột bằng cách thêm một bộ
phân loại, giúp tìm ra ảnh đầu vào phù hợp với mạng CNN nào. Tác giả Đỗ và cộng sự [4] làm giảm độ sai số của mô
hình bằng cách loại bỏ các khu vực không có ngƣời trƣớc khi đem vào mô hình. Điểm chung của các phƣơng pháp trên
là sử dụng mạng tích chập đơn giản để sinh bản đồ mật độ. Chính vì vậy, chất lƣợng của bản đồ mật độ không cao.
III. PHƢƠNG PHÁP ĐỀ XUẤT
Chúng tôi đề xuất mô hình sử dụng mạng học sâu để xây dựng bản đồ mật độ. Cụ thể chúng tôi tận dụng sức
mạnh của mô hình VGG-16 [17] để làm cơ sở (baseline) cho mô hình của mình.
A. Mô hình sinh bản đồ mật độ
Nhƣ đã đề cập trƣớc đó, các phƣơng pháp cũ chỉ sử dụng mạng CNN có kiến trúc đơn giản để sinh bản đồ mật
độ. Điều này khiến chất lƣợng của bản đồ mật độ thấp. Với sự thành công của mô hình VGG-16 trong bài toán phân
loại đối tƣợng thì khả năng rút trích đặc trƣng của mô hình này là không thể phủ nhận. Chính vì thể, chúng tôi sử dụng
lại kiến trúc các tầng đầu của mạng VGG-16, loại bỏ các tầng kết nối đầy đủ vì chúng không phù hợp với bài toán đặt
ra. Chúng tôi thay thế các tầng kết nối đầy đủ bằng các tầng tích chập, đầu ra của các tầng này đƣợc kết hợp lại nhờ
một tầng tích chập 1x1. Mô hình sinh bản đồ mật độ đƣợc mô tả nhƣ Hình 2. Chúng tôi vẽ mô hình nằm ngang để đỡ
chiếm khoảng trống. Trong đó, 3x3x64 dùng để chỉ tầng tích chập này gồm 64 bộ lọc kích thƣớc 3x3. Max Pooling là
tầng pooling sử dụng thuật toán max-pool với kích thƣớc bộ lọc là 2x2. Để dễ hình dung, các tầng ReLU (Rectified
Linear Units) không đƣợc vẽ trong hình.
Bản đồ mật độ
Ảnh đầu vào
Max Pooling
Max Pooling
Max Pooling
3x3x512
3x3x128
3x3x128
3x3x256
3x3x256
3x3x256
3x3x512
3x3x512
3x3x512
3x3x512
3x3x512
3x3x256
3x3x128
3x3x64
3x3x64
3x3x64
1x1x1
Hình 2. Mô hình sinh bản đồ mật độ
B. Bản đồ mật độ xác thực (ground truth)
Để có thể huấn luyện mô hình theo các phƣơng pháp dựa vào bản đồ mật độ, các tập dữ liệu đám đông phải
đƣợc đánh dấu tại mỗi điểm đầu ngƣời (Hình 3). Tƣơng tự với các phƣơng pháp dựa vào bản đồ mật độ, với mỗi ảnh
đám đông, chúng tôi tạo bản đồ mật độ xác thực bằng cách đặt nhân Gaussian tại các điểm này.
∑ ( ) (1)
̅̅̅ (2)
trong đó, là bản đồ mật độ xác thực, là nhân Gaussian với độ lệch chuẩn đƣợc tính bằng cách nhân trung bình
khoảng cách từ điểm đang xét đến n điểm lân cận ̅ và tham số . Trong quá trình thực nghiệm, chúng tôi chọn n = 4
và = 0,1 cho kết quả tốt nhất. Thuật toán sinh bản đồ mật độ xác thực đƣợc mô tả trong Hình 4.
- Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh 679
Hình 3. Ảnh đã đƣợc đánh dấu và bản đồ mật độ xác thực của nó
Thuật toán 1. Sinh bản đồ mật độ xác thực
Đầu vào: Ảnh đám đông đã đƣợc đánh dấu tại mỗi đầu ngƣời
Đầu ra: Bản đồ mật độ xác thực
Bắt đầu:
B[] zeros // Khởi tạo bản đồ mật độ rỗng
foreach head in image // Với mỗi đầu ngƣời đƣợc đánh dấu
Nếu điểm đánh dấu nằm trong ảnh
Tính ̅ với n = 4
0.1 ̅
gauss Dùng bộ lọc Gaussian với độ lệch chuẩn
B[] += gauss
Return B[]
Kết thúc:
Hình 4. Thuật toán sinh bản đồ xác thực
C. Huấn luyện mô hình
Để tăng cƣờng số lƣợng dữ liệu cho quá trình huấn luyện, chúng tôi cắt ngẫu nhiên các ảnh đầu vào thành các
ảnh có kích thƣớc bằng 1/4 kích thƣớc ban đầu. Chúng tôi cũng áp dụng các cách để tăng dữ liệu nhƣ xoay ảnh, lấy đối
xứng ảnh, tăng giảm độ sáng. Mô hình đƣợc huấn luyện dựa vào loss function sau:
( ) ∑‖ ( ) ‖ (2)
với N là số lƣợng ảnh, là bản đồ mật độ xác thực của ảnh thứ , ( ) là bản đồ mật độ sinh từ mô hình với bộ
trọng số của ảnh thứ . Chúng tôi cũng mô tả thuật toán huấn luyện mô hình nhƣ Hình 5.
Thuật toán 2. Huấn luyện mô hình
Đầu vào: Ảnh đám đông input và bản đồ mật độ xác thực gt của nó
Đầu ra: Mô hình đã đƣợc huấn luyện
Bắt đầu:
for epoch in range(epochs)
model() // Khởi tạo mô hình
gt_map gt
et_map model(input)
// Dùng SGD từ thƣ viện pytorch
loss MSELoss(gt_map, et_map)
optimizer.zero_grad()
loss.backward()
optimizer.step()
end for
Kết thúc:
Hình 5. Thuật toán huấn luyện mô hình
IV. THỰC NGHIỆM
Chúng tôi đánh giá mô hình dựa trên hai tập dữ liệu ShanghaiTech và UCF_CC_50. Chúng tôi thực nghiệm trên
laptop i7 7820HK@2.90GHz, 32GB RAM, GTX 1080 8GB, Windows 10 Pro 64bit và huấn luyện mô hình bằng thuật
- 680 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
toán Stochastic Gradient Descent - SGD với hệ số học là 1e-7, số lần lặp là 300. Ngôn ngữ sử dụng để lập trình là
Python với bộ thƣ viện Pytorch.
A. Độ đo đánh giá
Với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông và để so sánh kết quả với các phƣơng pháp trƣớc đây,
chúng tôi sử dụng sai số tuyệt đối trung bình (Mean Absolute Error - MAE) và sai số bình phƣơng trung bình (Mean
Squared Error - RMSE):
∑| | (3)
√ ∑( ) (4)
với N là số lƣợng ảnh, là số đếm xác thực của ảnh thứ , là số đếm ƣớc lƣợng đƣợc từ mô hình của ảnh thứ .
Nhƣ vậy, số đo của MAE và MSE càng bé thì độ chính xác của mô hình càng cao.
B. Tập dữ liệu ShanghaiTech
Đây là một trong những tập dữ liệu về đám đông lớn nhất trong những năm gần đây với 1.198 ảnh và 330.165
điểm đầu ngƣời đã đƣợc đánh dấu [21]. Dựa theo phân bố về mật độ, tập dữ liệu đƣợc chia ra làm hai phần: Phần A
(ShanghaiTech Part A) và phần B (ShanghaiTech Part B). Phần A gồm những ảnh lấy ngẫu nhiên trên mạng còn phần
B là ảnh đƣợc lấy từ camera trên một con đƣờng ở Thƣợng Hải - Trung Quốc. Mật độ ngƣời của phần A nhiều hơn so
với phần B. Tập dữ liệu đã chia sẵn thành tập huấn luyện và tập kiểm thử, cụ thể, phần A gồm 300 ảnh huấn luyện và
182 ảnh kiểm thử. Phần B gồm 400 ảnh huấn luyện và 316 ảnh kiểm thử.
Bảng 1. Kết quả khi đánh giá mô hình trên tập dữ liệu ShanghaiTech
Phần A Phần B
Phƣơng pháp
MAE MSE MAE MSE
Zhang [21] 181,8 277,7 32,0 49,8
MCNN [22] 110,2 173,2 26,4 41,3
Switch-CNN [15] 90,4 135,0 21,6 33,4
Do [4] 81,9 122,1 20,9 33,1
CP-CNN [18] 73,6 106,4 20,1 30,1
Phƣơng pháp đề xuất 70,5 120,7 12,5 20,4
Hình 6. Một số kết quả trên tập dữ liệu ShanghaiTech phần A
Hình 7. Một số kết quả trên tập dữ liệu ShanghaiTech phần B
Kết quả của mô hình khi kiểm thử trên tập dữ liệu ShanghaiTech đƣợc mô tả ở Bảng 1. Với tập dữ liệu có mật
độ ngƣời thấp nhƣ Phần B thì mô hình cho kết quả khá tốt. Mô hình cũng hoạt động khá tốt ở những vùng không có
ngƣời nhƣ cây, nền nhà, mây,…
- Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh 681
C. Tập dữ liệu UCF_CC_50
UCF_CC_50 là tập dữ liệu đầy thách thức đối với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông. Tập dữ
liệu chỉ chứa 50 ảnh nhƣng mật độ ngƣời trong ảnh thay đổi rất nhiều, từ 94 lên tới 4.543 và chứa rất nhiều cảnh nhƣ
buổi hòa nhạc, các cuộc biểu tình, sân vận động [5]. Để đánh giá trên tập dữ liệu này, chúng tôi sử dụng kiểm chứng
chéo với k = 5 (5-fold cross-validation). Kết quả của mô hình đƣợc mô tả nhƣ Bảng 2. Với ảnh có mật độ ngƣời dày
đặc, mô hình của chúng tôi tốt hơn so với một số phƣơng pháp truyền thống. Tuy nhiên, sai số khi ƣớc lƣợng trên các
ảnh này vẫn còn khá lớn.
Bảng 2. Kết quả khi đánh giá mô hình trên tập dữ liệu UCF_CC_50
UCF_CC_50
Phƣơng pháp
MAE MSE
Lempitsky [7] 493,4 487,1
Idrees [5] 419,5 487,1
Zhang [21] 467,0 498,5
MCNN [22] 377,6 509,1
Hydra2s [10] 333,73 425,26
Switch-CNN [15] 318,1 439,2
Do [4] 250,5 383,7
IG-CNN [16] 291,4 349,4
Phƣơng pháp đề xuất 290,3 390,4
Hình 8. Một số kết quả trên tập dữ liệu UCF_CC_50
V. KẾT LUẬN
Trong bài báo này, chúng tôi đã trình bày quá trình phát triển của bài toán đếm, ƣớc lƣợng số ngƣời trong đám
đông. Chúng tôi cũng đề xuất một mô hình sử đụng mạng nơron tích chập để sinh bản đồ mật độ và ƣớc lƣợng số
ngƣời dựa trên bản đồ mật độ này. Mặt khác, chúng tôi cũng tận dụng sức mạnh rút trích đặc trƣng của mô hình VGG-
16 cho mô hình của mình. Thực nghiệm cho thấy điều này làm tăng hiệu quả của mô hình khi so sánh với các phƣơng
pháp truyền thống. Trong tƣơng lai, chúng tôi sẽ nghiên cứu mô hình ƣớc lƣợng số ngƣời trong không gian dựa vào
góc nhìn đa chiều của các camera giám sát và áp dụng cho nhiều đối tƣợng khác nhƣ động vật, tế bào, xe cộ,…
TÀI LIỆU THAM KHẢO
[1] L. Boominathan, S. S. Kruthiventi, R. V. Babu. “Crowdnet: A deep convolutional network for dense crowd
counting”. In Proceedings of the 2016 ACM on Multimedia Conference, ACM, pp. 640-644, 2016.
[2] K. Chen, C. C. Loy, S. Gong, and T. Xiang. “Feature mining for localised crowd counting”. In BMVC, 2012.
[3] Navneet Dalal and Bill Triggs. “Histograms of oriented gradients for human detection”. InComputer Vision
and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Volume 1, pp. 886-893.
IEEE, 2005.
[4] Phuc Thinh Do and Ngoc Quoc Ly. “A New Framework For Crowded Scene Counting Based On Weighted Sum
Of Regressors and Human Classifier”. In SoICT ’18: Ninth International Symposium on Information and
Communication Technology, 2018.
[5] Haroon Idrees, Imran Saleemi, Cody Seibert, and MubarakShah. “Multi-source multi-scale counting in extremely
densecrowd images”. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pp.
2547-2554, 2013.
[6] A. Krizhevsky, I. Sutskever, G. Hinton. “Imagenet classification with deep convolutional neural networks”. In
Advances in neural information processing systems, pp. 1097-1105, 2012.
[7] V. Lempitsky and A. Zisserman. “Learning to count objects in images”. In Advances in neural information
processing systems, pp. 1324-1332, 2010.
[8] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. “SSD: single shot multibox detector”. CoRR,
abs/1512.02325, 2015.
- 682 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
[9] A. N. Marana, L. F. Costa, R. A. Lotufo, and S. A. Velastin. “On the efficacy of texture analysis for crowd
monitoring”, in: Computer Graphics, Image Processing, and Vision, 1998. Proceedings. SIBGRAPI’98.
International Symposium on, IEEE. pp. 354-361, 1998.
[10] D. Onoro-Rubio and R.J. Lpez-Sastre. “Towards perspective-free object counting with deep learning”. In
Proceedings of the ECCV. Springer, pp. 615-629, 2016.
[11] Paragios, N., Ramesh, V., 2001. “A mrf-based approach for real-time subway monitoring”, in: Computer Vision
and Pattern Recognition, 2001.
[12] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. “You only look once: Unified, real-time object detection”.
arXiv preprint arXiv:1506.02640, 2015.
[13] J. Redmon and A. Farhadi. “Yolo9000: Better, faster, stronger. In Computer Vision and Pattern Recognition
(CVPR)”, 2017 IEEE Conference on, pp. 6517-6525. IEEE, 2017.
[14] J. Redmon and A. Farhadi. “YOLOv3: An incremental improvement”. arXiv:1804.02767, 2018.
[15] D. B. Sam, S. Surya, R. V. Babu. “Switching convolutional neural network for crowd counting”. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[16] D. B. Sam, N. N. Sajjan, R. V. Babu, and M. Srinivasan. “Divide and grow: Capturing hugediversity in crowd
images with incrementally growing cnn”. In The IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), pp. 3618-3626, 2018.
[17] Karen Simonyan and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition”.
arXivpreprint arXiv: 1409.1556, 2014.
[18] Vishwanath A. Sindagi and Vishal M. Patel. “Generatinghigh-quality crowd density maps using contextual
pyramidcnns”. In The IEEE International Conference on Computer Vision (ICCV), pp. 1861-1870, 2017.
[19] Paul Viola and Michael J Jones. “Robust real-time face detection”. International journal of computer vision,
57(2): pp. 137-154, 2004.
[20] C. Wang, H. Zhang, L. Yang, S. Liu, X. Cao. “Deep people counting in extremely dense crowds”. In Proceedings
of the 23rd ACM international conference on Multimedia, ACM. pp. 1299-1302, 2015.
[21] C. Zhang, H. Li, X. Wang, X. Yang. “Cross-scene crowd counting via deep con volutional neural networks”. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 833-841, 2015.
[22] Y. Zhang, D. Zhou, S. Chen, S. Gao, Y. Ma. “Single image crowd counting via multi-column convolutional
neural network”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 589-
597, 2016.
CROWD COUNTING USING CONVOLUTIONAL NEURAL NETWORKS
Do Phuc Thinh, Quach Thi Bich Nhuong, Tran Van Ninh
ABSTRACT: Crowd counting is one of the most important tasks in surveillance camera systems. It has supported areas
such as business, transportation, security and, most recently, the ban on gathering during the Covid-19 pandemic. In this paper, we
use convolutional neural networks to generate the density map and estimate the number of people based on this density map. This
work both avoids the object detection problem and shows the distribution of people in the crowd. Experiments show that our method
is better than traditional methods when testing on UCF_CC_50, ShanghaiTech datasets.
nguon tai.lieu . vn