- Trang Chủ
- Cơ sở dữ liệu
- Ước lượng tự động số học sinh trên ảnh sử dụng kỹ thuật học sâu ứng dụng trong quản lý lớp học thông minh
Xem mẫu
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
◊Óc l˜Òng t¸ Îng sË hÂc sinh trên £nh s˚
dˆng kˇ thu™t hÂc sâu ˘ng dˆng trong qu£n l˛
lÓp hÂc thông minh
Hà Th‡ Oanh1, 2 , Tr˜Ïng Th‡ NgÂc Ph˜Òng3 , Nguyπn HÁng Quân4, 5 , Tr¶n Th‡ Thanh H£i 1, 4 ,
Lê Th‡ Lan 1, 4 , VÙ H£i 1, 4 , oàn Th‡ H˜Ïng Giang1, 6
1Viªn nghiên c˘u quËc t∏ MICA - Tr˜Ìng §i hÂc Bách Khoa Hà NÎi
2 Tr˜Ìng §i hÂc Thıy LÒi
3 Tr˜Ìng §i hÂc S˜ ph§m kˇ thu™t Thành phË HÁ Chí Minh
4 Viªn iªn t˚ Viπn thông, Tr˜Ìng §i hÂc Bách Khoa Hà NÎi
5 Khoa Công nghª thông tin, Tr˜Ìng §i hÂc Công nghiªp Viªt - Hung
6 Tr˜Ìng §i hÂc iªn L¸c
Tóm t≠t—Hiªn nay các công nghª nh™n d§ng và trí tuª l˛ lÓp hÂc mÎt cách dπ dàng hÏn Áng thÌi nâng cao
nhân t§o ang ˜Òc ˘ng dˆng rÎng rãi trong nhi∑u lænh chßt l˜Òng d§y và hÂc.
v¸c khác nhau cıa Ìi sËng trong ó có giáo dˆc. Các Bài toán i∫m danh t¸ Îng s˚ dˆng thông tin hình
camera ã ˜Òc l≠p ∞t nhi∑u lÓp hÂc ho∞c khuôn viên £nh trong lÓp hÂc có th∫ th¸c hiªn theo hai h˜Óng ti∏p
cıa tr˜Ìng nh¨m phát hiªn nh˙ng bßt th˜Ìng ho∞c nâng
cao chßt l˜Òng d§y và hÂc. Trong bài báo này, chúng tôi
c™n nh˜: phát hiªn ng˜Ìi và phát hiªn ¶u mÎt cách t¸
trình bày mÎt ph˜Ïng pháp ˜Óc l˜Òng t¸ Îng sË l˜Òng Îng trong khung hình. Sau ó, th¸c hiªn ∏m sË l˜Òng
hÂc sinh d¸a trên viªc phát hiªn vùng ¶u cıa hÂc sinh ng˜Ìi ho∞c ¶u phát hiªn ˜Òc. Tuy bài toán phát hiªn
trên £nh/video phˆc vˆ cho viªc ∏m t¸ Îng sË l˜Òng ã §t ˜Òc nh˙ng thành công nhßt ‡nh, viªc phát hiªn
sinh viên trong lÓp hÂc. Phát hiªn ¶u trên £nh thu th™p ng˜Ìi/ ¶u trong môi tr˜Ìng lÓp hÂc ph£i Ëi m∞t vÓi
t¯ lÓp hÂc là mÎt bài toán có nhi∑u thách th˘c do môi nhi∑u thách th˘c nh˜ môi tr˜Ìng ông, sinh viên ngÁi
tr˜Ìng ông, có s¸ che khußt lÓn. Trong bài báo chúng
che khußt l®n nhau, góc nhìn camera thay Íi, i∑u kiªn
tôi áp dˆng m§ng hÂc sâu tiên ti∏n cho bài toán phát hiªn
¶u và th¸c hiªn ánh giá trên mÎt cÏ s d˙ liªu dùng phông n∑n ph˘c t§p, i∑u kiªn chi∏u sáng thay Íi,...
chung và mÎt cÏ s d˙ liªu ˜Òc xây d¸ng trong i∑u kiªn MÎt trong nh˙ng vßn ∑ lÓn nhßt c¶n gi£i quy∏t là s¸ che
lÓp hÂc cıa Viªt Nam. K∏t qu£ cho thßy ph˜Ïng pháp khußt, nhi∑u Ëi t˜Òng c¶n phát hiªn trong mÎt khung
∑ xußt c£i ti∏n hÏn các ph˜Ïng pháp khác vÓi Î triªu hình, Î phân gi£i nh‰ cıa ng˜Ìi trong khung hình.
hÁi §t 0.91 và 0.98 trên cÏ s d˙ liªu SCUT-HEAD và Trong khi yêu c¶u cıa hª thËng c¶n ph£i có thÌi gian
sub-MICA-HEAD. áp ˘ng ı nhanh vÓi Î chính xác cao.
T¯ khóa—Phát hiªn Ëi t˜Òng, m§ng nÏ ron tích ch™p,
YOLOv4. ∫ gi£i quy∏t bài toán này, trong bài báo này chúng
tôi ti∏p c™n theo h˜Óng phát hiªn ¶u trong khung hình
vì ¶u là mÎt Ëi t˜Òng không b‡ bi∏n d§ng và dπ quan
I. GIŒI THIõU
sát hÏn trong ng˙ c£nh lÓp hÂc. Chúng tôi s˚ dˆng m§ng
Phát hiªn Ëi t˜Òng trên £nh/video là lænh v¸c nghiên neuron tích ch™p YOLO [1] cho bài toán phân lÓp nh‡
c˘u quan trÂng cıa th‡ giác máy tính. Cùng vÓi nhu phân ( ¶u/không ¶u). YOLO là mÎt mô hình phát hiªn
c¶u nâng cao chßt l˜Òng d§y và hÂc và s¸ phÍ bi∏n giá Ëi t˜Òng ã và ang ˜Òc s˚ dˆng rÎng rãi hiªn nay
thành ngày càng r¥ cıa các thi∏t b‡ thu th™p và l˜u tr˙ nhÌ kh£ n´ng ánh giá và phát hiªn hiªu qu£ cıa nó. Bài
thông tin, camera ngày càng ˜Òc cài ∞t rÎng rãi trong báo này s≥ th¸c hiªn ánh giá th¸c nghiªm vÓi YOLOv4
các lÓp hÂc ∞c biªt là các vùng thành th‡. Tuy nhiên, và so sánh vÓi các m§ng hÂc sâu khác trên cùng mÎt
thông tin hình £nh mÓi chø d¯ng quan sát thı công CSDL.
và th˜Ìng ˜Òc l˜u tr˙ trong mÎt kho£ng thÌi gian nhßt óng góp chính cıa bài báo nh˜ sau:
‡nh. Trong khi ó, viªc khai thác thông tin hình £nh • Xây d¸ng và gán nhãn t™p d˙ liªu hình £nh trong
mÎt cách hÒp l˛ s≥ có th∫ hÈ trÒ i∫m danh, phân tích lÓp hÂc phˆc vˆ cho viªc hußn luyªn và ánh giá
hành vi cıa sinh viên và giáo viên t¯ ó giúp cho qu£n các ph˜Ïng pháp hÂc máy. CSDL này ˜Òc ∞t tên
ISBN: 978-604-80-5076-4 142
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
là sub-MICA-HEAD. qua viªc ∏m sË l˜Òng ¶u phát hiªn vÓi Î tin
• Tri∫n khai, ánh giá mÎt ph˜Ïng pháp t¸ Îng c™y cao)
˜Óc l˜Òng sË hÂc sinh trên £nh s˚ dˆng m§ng hÂc
sâu YOLO và th¸c hiªn so sánh ánh giá vÓi các B. Ki∏n trúc cıa YOLO
ph˜Ïng pháp khác trên cÏ s d˙ liªu dùng chung H¶u h∏t các hª thËng d¸a trên m§ng hÂc sâu khác
SCUT-HEAD và t™p cÏ s d˙ liªu do chúng tôi t¸ ∑u s˚ dˆng các bÎ phân lo§i ho∞c bÎ ‡nh v‡ ∫ phát
xây d¸ng sub-MICA-HEAD trên. hiªn mÎt Ëi t˜Òng trong £nh. Nh˙ng mô hình này ˜Òc
áp dˆng cho mÎt hình £nh nhi∑u v‡ trí và t lª khác
II. CÁC NGHIÊN CŸU LIÊN QUAN nhau. So vÓi các ph˜Ïng pháp phát hiªn Ëi t˜Òng thông
Do ¶u cıa mÈi mÎt ng˜Ìi có hình d§ng khác nhau, th˜Ìng, YOLO t‰ ra có nhi∑u ˜u i∫m. Thay vì s˚ dˆng
nên bài toán phát hiªn v‡ trí cıa ¶u trong £nh v®n là hai b˜Óc ∫ phân lo§i và ‡nh v‡ Ëi t˜Òng thì YOLO
mÎt vßn ∑ ang ph£i Ëi m∞t vÓi nhi∑u thách th˘c. ã áp dˆng ˜Òc cho c£ bài toán phân lo§i và bài toán ‡nh
có rßt nhi∑u các ph˜Ïng pháp phát hiªn ¶u cıa ng˜Ìi v‡ Ëi t˜Òng.
trên £nh/video ˜Òc ∑ xußt s˚ dˆng kæ thu™t hÂc sâu. Viªc hußn luyªn m§ng YOLO nh¨m tËi ˜u hóa hàm
Công bË cıa tác gi£ Dezhi Peng và Áng nghiªp trong mˆc tiêu gÁm các thành ph¶n sau:
[2] s˚ dˆng m§ng tinh chønh tính n´ng (FRN) k∏t hÒp Ltotal = Lclassification + Llocalization + Lconfidence (1)
các và ki∏n trúc a m˘c cho bài toán phát hiªn ¶u.
Trong ó:
Trong nghiên c˘u cıa Hariharan [3] s˚ dˆng ph˜Ïng
• Lclassification là lÈi phân lo§i cıa viªc d¸ oán lo§i
pháp mã hóa các b£n Á bi∫u diπn Ëi t˜Òng vÓi các t
lª khác nhau, sau ó k∏t hÒp các bi∫u diπn này các nhãn cıa Ëi t˜Òng.
• Llocalization là lÈi d¸ oán v‡ trí bao gÁm tÂa Î tâm,
cßp Î và ghép thành mÎt véc tÏ bi∫u diπn ˜Òc gÂi là
siêu cÎt cho mÂi v‡ trí. Trong khi ó các tác gi£ trong chi∑u rÎng, cao cıa vùng bao quanh Ëi t˜Òng (x,
bài báo [4] s˚ dˆng các tính n´ng a quy mô ∫ ˜Óc y, w, h). Trong ó, (x, y) là tÂa Î tâm và w là
tính xác sußt lÓp và tÂa Î bao quanh Ëi t˜Òng. Nghiên chi∑u rÎng và h là chi∑u cao cıa vùng bao quanh
c˘u cıa HyperNet [5] và ParseNet [6] k∏t hÒp nhi∑u lÓp Ëi t˜Òng phát hiªn ˜Òc.
• Lconfidence là lÈi d¸ oán cıa vùng ch˘a Ëi t˜Òng
vÓi nhau ∫ ˜Óc l˜Òng ¶u ng˜Ìi trên £nh.
Trong bài báo này, chúng tôi ∑ xußt s˚ dˆng YOLO trên £nh so vÓi nhãn th¸c t∏ t§i vùng ó.
∫ phát hiªn ¶u ng˜Ìi bi nó §t ˜Òc s¸ cân b¨ng C. Ki∏n trúc cıa YOLOv4
trong kh£ n´ng tính toán nhanh và Î chính xác cao YOLO phiên b£n 4 (YOLOv4) là phiên b£n Ín ‡nh
trong mÎt sË bài toán phát hiªn Ëi t˜Òng nói chung. nhßt so vÓi các phiên b£n tr˜Óc ó. YOLOv4 ã có
YOLO vi∏t t≠t cıa You Only Look Once dùng ∫ nh™n nh˙ng c£i thiªn áng k∫, giúp t´ng Î chính xác so
d§ng Ëi t˜Òng ˜Òc thi∏t k∏ ∫ phát hiªn v™t th∫ trong vÓi YOLO phiên b£n 3 (YOLOv3) mà không gây £nh
thÌi gian th¸c. YOLO áp dˆng mÎt m§ng CNN duy nhßt h˜ng ∏n y∏u tË tËc Î. Trong nghiên c˘u cıa Alexey
cho toàn bÎ hình £nh, sau ó chia hình £nh thành các Bochkovskiy [1], các tác gi£ ã chia ph˜Ïng pháp c£i
vùng, d¸ oán các vùng bao quanh Ëi t˜Òng (bounding ti∏n mô hình ra thành hai lo§i chính:
boxes) và xác sußt cho t¯ng vùng.
• Bag of Freebies (BoF): Là nh˙ng ph˜Ïng pháp giúp
III. Hõ TH»NG òM NG◊ÕI BåNG CÁCH PHÁT mô hình t´ng Î chính xác mà không làm gi£m tËc
HIõN ÜU TRONG ÉNH Î ch§y.
• Bag of Special (BoS): Là nh˙ng ph˜Ïng pháp ho∞c
A. Mô hình chung cıa hª thËng các mô- un £nh h˜ng nhµ ∏n tËc Î ch§y, nh˜ng
Trong bài báo này, viªc ∏m ng˜Ìi s≥ ˜Òc th¸c hiªn c£i thiªn Î chính xác cho mô hình mÎt cách áng
qua hai pha: pha hußn luyªn và pha nh™n d§ng ˜Òc k∫.
minh hÂa trong Hình 1. 1) Backbone: CSPDarknet53: Trong phiên b£n tr˜Óc,
• Pha hußn luyªn: s˚ dˆng t™p d˙ liªu hußn luyªn YOLOv3 s˚ dˆng Darknet-53 làm backbone. Darknet-53
nh¨m tËi ˜u hàm mˆc tiêu cıa m§ng YOLOv4 cho là s¸ k∏t hÒp gi˙a backbone ˜Òc dùng trong YOLOv2,
bài toán phát hiªn hai lÓp ¶u và không ¶u. K∏t Darknet-19, và cßu trúc m§ng còn l§i (Residual Net-
qu£ cıa pha hußn luyªn s≥ ˜a ra bÎ tham sË cıa works). Trong phiên b£n này, YOLOv4 ã c£i ti∏n mô
mô hình s˚ dˆng pha nh™n d§ng (ki∫m th˚) hình Darknet-53 b¨ng cách thay các khËi ResNet thông
• Pha nh™n d§ng: th¸c hiªn phát hiªn ¶u t¯ £nh ¶u th˜Ìng b¨ng các khËi CSPResNet. Cßu trúc mÓi này
vào và ∏m sË l˜Òng ng˜Ìi có trong £nh (thông giúp t´ng kh£ n´ng hÂc cıa m§ng CNN, gi£m khËi
ISBN: 978-604-80-5076-4 143
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
Hình 1. Ph˜Ïng pháp ∑ xußt
.
l˜Òng tính toán và gi£m chi phí bÎ nhÓ. Cˆ th∫ hÏn, D. Quá trình hußn luyªn mô hình
CSPNet có th∫ ˘ng dˆng dπ dàng trên ResNet, ResNeXt, SÏ Á hußn luyªn mô hình phát hiªn ¶u ng˜Ìi
và DenseNet. Viªc ˘ng dˆng CSPNet trên các m§ng này d¸a trên YOLOv4 ˜Òc minh hÂa nh˜ trong Hình 2.
giúp gi£m khËi l˜Òng tính toán t¯ 10% ∏n 20%, trong YOLOv4 yêu c¶u mÎt sË tªp tin ∫ b≠t ¶u hußn luyªn,
khi v˜Òt trÎi hÏn v∑ Î chính xác trong bài toán phân ó là:
lo§i £nh.
• TÍng sË lÓp (classes).
2) Neck: SPP, PAN: • Tªp tin ‡nh d§ng ".txt" vÓi ˜Ìng d®n ∏n tßt c£
các £nh mà ng˜Ìi dùng muËn hußn luyªn.
• Tªp tin ‡nh d§ng ".txt" là tªp ch˘a tên cıa tßt c£
• Spatial Pyramid Pooling (SPP): Trong bài báo [1],
các tác gi£ ã thêm vào YOLOv4 mÎt khËi SPP các lÓp c¶n hußn luyªn.
nh¨m tËi ˜u c£ nh˙ng ∞c tr˜ng toàn cˆc (global • ˜Ìng d®n ∫ l˜u các tªp trÂng sË ˜Òc hußn luyªn.
• MÎt tªp cßu hình vÓi tßt c£ các lÓp cıa ki∏n trúc
feature) và các ∞c tr˜ng cˆc bÎ (local region
feature) vÓi nhi∑u kích th˜Óc, t´ng sË l˜Òng và kích YOLOv4.
• Các trÂng sË cıa mô hình ã ˜Òc hußn luyªn tr˜Óc
th˜Óc receptive field.
• Path Aggregation Network (PAN): Trong phiên ó.
b£n YOLOv3, các tác gi£ s˚ dˆng FPN (Feature Giá tr‡ cıa các bÎ lÂc (filters) ˜Òc ‡nh nghæa trong
Pyramid Network) ∫ tÍng hÒp các ∞c tr˜ng toàn tªp tin có ‡nh d§ng ".cfg ". Công th˘c tính bÎ lÂc cıa
cˆc (global feature) các t¶ng tích ch™p khác YOLOv4 ˜Òc bi∫u diπn nh˜ trong công th˘c (2) sau
nhau. i∑u này ˜Òc làm khác i trong phiên b£n ây:
YOLOv4 vÓi viªc s˚ dˆng mÎt phiên b£n nâng cßp
hÏn là PAN ∫ tÍng hÒp thông tin t¯ tßt c£ các t¶ng
f ilters = 5 ⇤ (2 + number_of _classes) (2)
t§i mÎt ¶u ra duy nhßt.
Do nh˙ng ˜u i∫m nh˜ s¸ cân b¨ng gi˙a tËc Î và Î E. Hàm lÈi
chính xác, dπ dàng thay Íi các tham sË cıa YOLOv4 Hàm lÈi cho bi∏t cách i∑u chønh trÂng sË ∫ gi£m
so vÓi các ph˜Ïng pháp LRF, RFBNet, YOLOv3, SSD chi phí tính toán. Trong YOLOv4 hàm lÈi CIoU ˜Òc
[1],... V™y nên trong bài báo này chúng tôi ã ∑ xußt ˜a vào nhánh Bag of Freebies (BoF). Hàm lÈi CIoU
gi£i pháp phát hiªn ¶u cıa ng˜Ìi trong £nh nh˜ minh giÓi thiªu hai khái niªm mÓi so vÓi hàm lÈi IoU. Khái
hÂa trong Hình 1. niªm ¶u tiên là khái niªm v∑ kho£ng cách i∫m trung
ISBN: 978-604-80-5076-4 144
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
IV. ÁNH GIÁ HIõU NãNG Hõ TH»NG
A. D˙ liªu th˚ nghiªm
1) CÏ s d˙ liªu SCUT-HEAD: Chúng tôi s˚ dˆng
t™p cÏ s d˙ liªu các hình £nh cıa ¶u ˜Òc công bË
cho cÎng Áng nghiên c˘u dùng chung có tên SCUT-
HEAD1 . T™p cÏ s d˙ liªu SCUT-HEAD bao gÁm hai
ph¶n là Part A và Part B. Trong ó, Part A gÁm 2000
£nh ˜Òc lßy m®u t¯ video giám sát t§i các phòng hÂc
trong tr˜Ìng §i hÂc vÓi 67321 vùng ˜Òc gán nhãn. Part
B bao gÁm 2405 hình £nh ˜Òc thu th™p t¯ Internet vÓi
43930 vùng ˜Òc gán nhãn. C£ Part A và Part B ∑u
˜Òc chia thành các ph¶n hußn luyªn và th˚ nghiªm.
1500 hình £nh cıa Part A dành cho hußn luyªn và 500
∫ th˚ nghiªm. 1905 hình £nh cıa Part B dành cho hußn
luyªn và 500 ∫ th˚ nghiªm. T™p d˙ liªu ˜Òc ‡nh d§ng
Hình 2. Quá trình hußn luyªn mô hình. chu©n theo Pascal VOC. Tuy nhiên trong khuôn khÍ bài
báo này chúng tôi s˚ dˆng Part B cho viªc hußn luyªn
1905 £nh vÓi 34484 vùng ch˘a ¶u và và 500 £nh th˚
tâm, là kho£ng cách gi˙a i∫m trung tâm cıa vùng bao nghiªm vÓi 9446 vùng ch˘a ¶u.
th¸c t∏ và i∫m trung tâm cıa vùng bao d¸ oán. Khái 2) CÏ s d˙ liªu t¸ xây d¸ng sub-MICA-HEAD: T™p
niªm th˘ hai là t lª khung hình, so sánh t lª khung d˙ liªu MICA-HEAD do chúng tôi thi∏t k∏ và thu th™p
hình cıa vùng bao th¸c và t lª khung hình cıa vùng trong các lÓp hÂc t§i Viªn nghiên c˘u QuËc t∏ MICA
bao d¸ oán. VÓi ba th˜Óc o là IoU, kho£ng cách gi˙a -Tr˜Ìng §i hÂc Bách Khoa Hà NÎi. Do hiªn nay t™p
i∫m trung tâm, t lª khung hình có th∫ tính ˜Òc hàm cÏ s d˙ liªu cıa chúng tôi v®n ang ti∏p tˆc ˜Òc thu
lÈi CIoU qua công th˘c (3) sau ây: th™p và gán nhãn. Vì v™y trong khuôn khÍ cıa bài báo
này, chúng tôi s˚ dˆng t™p con cıa bÎ cÏ s d˙ liªu
⇢2 (b, bgt ) MICA-HEAD và ∞t tên là sub-MICA-HEAD. ây là
LCIoU = 1 IoU + + ↵v (3)
c2 t™p cÏ s d˙ liªu ã ˜Òc chúng tôi ti∏n hành gán nhãn
và phân lo§i ∫ hußn luyªn cÙng nh˜ th˚ nghiªm hª
Trong ó: IoU ˜Òc tính theo công th˘c (4); b và bgt
thËng.
là các i∫m chính gi˙a cıa vùng bao d¸ oán và vùng
T™p d˙ liªu con sub-MICA-HEAD bao gÁm 288 £nh
bao th¸c t∏; ⇢ là kho£ng cách Euclidean; c là Î dài
vÓi 2188 vùng ch˘a ¶u lßy ng˙ c£nh là lÓp hÂc th¸c
˜Ìng chéo cıa vùng bao nh‰ nhßt gi˙a vùng bao d¸
t∏ và ˜Òc truy xußt t¯ các máy quay. T™p d˙ liªu chia
oán và vùng bao th¸c t∏; v o tính nhßt quán cıa t lª
thành 259 £nh d˙ liªu hußn luyªn vÓi 2029 vùng ch˘a
khung hình ˜Ïc tính theo công th˘c (5) và ↵ là tham
¶u và 29 £nh cho d˙ liªu th˚ nghiªm vÓi 159 vùng
sË cân b¨ng d˜Ïng ˜Òc tính theo công th˘c (6).
ch˘a ¶u. Chúng tôi ã th¸c hiªn thËng kê chi ti∏t v∑
|B \ B gt | viªc chia d˙ liªu thành t™p hußn luyªn và ki∫m th˚ cıa
IoU = (4) hai t™p d˙ liªu s˚ dˆng cho ph˜Ïng pháp ∑ xußt ˜Òc
|B [ B gt |
th∫ hiªn trong B£ng I. Chúng tôi s˚ dˆng d˙ liªu theo
Trong ó: B = (x, y, w, h) là vùng bao d¸ oán; B gt = tiêu chu©n cıa PASCAL VOC. Hình £nh cıa hai t™p d˙
(xgt , y gt , wgt , hgt ) là vùng bao th¸c t∏. liªu SCUT-HEAD và sub-MICA-HEAD ˜Òc minh hÂa
✓ ◆2 nh˜ Hình 3.
4 wgt w
v= arctan arctan (5) B. Î o ánh giá
⇡2 hgt h
Î chính xác thu ˜Òc trên t™p d˙ liªu th˚ nghiªm là
Trong ó: wgt , hgt là chi∑u rÎng và chi∑u cao cıa vùng th˜Óc o ánh giá hiªu qu£ phân lo§i trong bài báo cıa
bao th¸c t∏; w, h là chi∑u cao và chi∑u rÎng cıa vùng chúng tôi. Chúng tôi ánh giá quá trình hußn luyªn và
bao d¸ oán. th˚ nghiªm b¨ng Î chính xác (Precision), Î triªu hÁi
v 1 CÏ s d˙ liªu SCUT-HEAD có th∫ t£i xuËng t¯ ‡a chø nh˜ sau:
↵= (6)
(1 IoU ) + v https://github.com/HCIILAB/SCUT-HEAD-Dataset-Release.
ISBN: 978-604-80-5076-4 145
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
B£ng I B£ng II
TH»NG KÊ CÃ S– D⁄ LIõU KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€
C’A CÃ S– D⁄ LIõUSUB SUB -SCUT-HEAD
SCUT-HEAD sub-MICA-HEAD
Part A Part B Ph˜Ïng pháp Precision Recall
Hußn luyªn SL Énh 1500 1905 259 Faster R-CNN [7](VGG16) 0.87 0.81
YOLOv2 [8] 0.74 0.67
SL ¶u 50103 34484 2029
SSD [4] 0.80 0.66
Th˚ nghiªm SL Énh 500 500 29 R-FCN [9] 0.90 0.82
SL ¶u 17218 9446 159 R-FCN + FRN [2] 0.92 0.84
Multi-Scale [2] 0.92 0.87
Ph˜Ïng pháp cıa bài báo (YOLOv4) 0.92 0.91
2) K∏t qu£ trên bÎ d˙ liªu sub-MICA-HEAD: Sau
khi hußn luyªn hoàn tßt vÓi Part B cıa t™p d˙ liªu
SCUT-HEAD chúng tôi ti∏n hành hußn luyªn l§i vÓi
t™p d˙ liªu sub-MICA-HEAD cıa mình. S˚ dˆng nh˙ng
trÂng sË ã hÂc t¯ mô hình là k∏t qu£ hußn luyªn tr˜Óc
ó cho t™p d˙ liªu SCUT-HEAD. Sau quá trình hußn
luyªn và th˚ nghiªm chúng tôi ˜Òc nh˙ng k∏t qu£ nh˜
B£ng III. CÙng giËng nh˜ Ëi vÓi cÏ s d˙ liªu SCUT-
Hình 3. Minh hÂa £nh và gán nhãn vùng ¶u trên CSDL SCUT- HEAD, ph˜Ïng pháp ∑ xußt cho k∏t qu£ cao vÓi Î
HEAD(bên trái) và sub-MICA-HEAD(bên ph£i).
triªu hÁi 0.98. Cùng vÓi ó là Î chính xác ph˜Ïng
pháp cıa chúng tôi cho k∏t qu£ Î chính xác cao vÓi
0.92. Bên c§nh viªc tính toán theo các Î o nh˜ ã nêu
(Recall). Trong ó, Î chính xác ˜Òc ‡nh nghæa là tø lª
trên, chúng tôi bi∫u diπn k∏t qu£ quá trình th˚ nghiªm
sË ¶u ng˜Ìi phát hiªn úng trên tÍng sË th˚ nghiªm và
cıa mình b¨ng bi∫u Á ˜Ìng cong Presion-Recall ˜Òc
Î triªu hÁi là tø lª ¶u ng˜Ìi phát hiªn úng trên tÍng
minh hÂa trong Hình 4.
sË ¶u ng˜Ìi có trong t™p hình £nh. Ngoài Î chính xác
và Î triªu hÁi, mAP cÙng ˜Òc s˚ dˆng. mAP là Î B£ng III
chính xác trung bình (average precision) cıa N lÓp và KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€
C’A CÃ S– D⁄ LIõU SUB -MICA-HEAD
˜Òc ‡nh nghæa nh˜ bi∫u diπn trong công th˘c (7) sau
ây: T™p d˙ liªu Precision Recall mAP@0.5
N Train 0.93 0.97 0.96
1 X
mAP = APi (7) Test 0.92 0.98 0.97
N i=1
C. K∏t qu£ th¸c nghiªm
1) K∏t qu£ trên bÎ d˙ liªu SCUT-HEAD: Chúng tôi
ti∏n hành hußn luyªn mô hình vÓi các trÂng sË ã ˜Òc
hÂc t¯ mô hình YOLOv4.conv.137, s˚ dˆng các thông
sË nh˜ sau: kích th˜Óc m¥ hußn luyªn (batch size) b¨ng
64 vÓi 6000 l¶n l∞p. K∏t qu£ phát hiªn cıa mô hình
˜Òc so sánh vÓi các ph˜Ïng pháp khác trên cÏ s d˙
liªu SCUT-HEAD th∫ hiªn B£ng II. Ph˜Ïng pháp ∑
xußt §t Î chính xác là 0.92 b¨ng vÓi các ph˜Ïng pháp
tr˜Óc ó d¸a trên m§ng R-FCN + FRN và Multi-Scale.
Î triªu hÁi cıa ph˜Ïng pháp ∑ xußt 0.91, cao hÏn tßt
c£ các ph˜Ïng pháp tr˜Óc ó. i∑u này ch˘ng t‰ ph˜Ïng
pháp ∑ xußt cho phép phát hiªn t˜Ïng Ëi ¶y ı sË
ng˜Ìi trên £nh. Tuy nhiên vÓi Î triªu hÁi là 0.95 thì Hình 4. ˜Ìng cong Precision-Recall cıa t™p d˙ liªu th˚ nghiªm
Î chính xác gi£m còn 0.85, v™y nên ph˜Ïng pháp c¶n SCUT-HEAD và sub-MICA-HEAD.
ti∏p tˆc ˜Òc c£i ti∏n.
ISBN: 978-604-80-5076-4 146
- Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
3) Th£o lu™n: Sau quá trình th˚ nghiªm chúng tôi này chúng tôi ã ti∏n hành xây d¸ng và gán nhãn t™p
ã ki∫m ch˘ng l§i k∏t qu£ cıa mình. Chúng tôi ã phát d˙ liªu hình £nh trong lÓp hÂc phˆc vˆ cho viªc hußn
hiªn ra nh˙ng tr˜Ìng hÒp hª thËng phát hiªn thi∏u hay luyªn l§i mô hình ∫ phát hiªn Ëi t˜Òng ¶u ng˜Ìi
phát hiªn nh¶m Ëi t˜Òng ¶u. Cˆ th∫ Hình 6(bên trái), trong lÓp hÂc. Bên c§nh ó chúng tôi có nh˙ng ánh
hª thËng phát hiªn thi∏u vÓi tr˜Ìng hÒp ang n¨m trên giá v∑ k∏t qu£ trên Part B cıa t™p d˙ liªu SCUT-HEAD
m∞t bàn. Do s¸ che khußt là khá lÓn trong môi tr˜Ìng cùng vÓi t™p d˙ liªu ∑ xußt là sub-MICA-HEAD. K∏t
m™t Î hÂc sinh ngÁi san sát nhau nh˜ trong Hình 6(bên qu£ cho thßy r¨ng Î chính xác (Precision) t˜Ïng ˜Ïng
trái) và Hình 5(bên ph£i) ˜Òc chúng tôi minh hÂa b¨ng vÓi ph˜Ïng pháp Multi-Scale, tuy nhiên Î triªu hÁi
mÙi tên màu ‰ chø vào Ëi t˜Òng b‡ phát hiªn thi∏u (Recall) cao hÏn ph˜Ïng pháp Multi-Scale 0.04 vÓi t™p
trong khung hình. Cùng vÓi s¸ phát hiªn thi∏u, chúng d˙ liªu SCUT-HEAD. Trong thÌi gian tÓi, chúng tôi s≥
tôi cÙng minh hÂa tr˜Ìng hÒp phát hiªn nh¶m l®n nh˜ hoàn thiªn CSDL sub-MICA-HEAD, và ti∏p tˆc ánh
Hình 5(bên trái). Trong tr˜Ìng hÒp này Ëi t˜Òng b‡ giá cÙng nh˜ c£i ti∏n m§ng, ho∞c k∏t hÒp mô hình phát
phát hiªn nh¶m có ∞c tr˜ng khá giËng Ëi t˜Òng ¶u hiªn ¶u và ng˜Ìi nh¨m c£i thiªn hiªu n´ng nh™n d§ng.
ng˜Ìi. Tuy nhiên hª thËng cıa chúng tôi có th∫ phát
LÕI CÉM ÃN
hiªn Ëi t˜Òng là ¶u trong tr˜Ìng hÒp chø có mÎt ph¶n
¶u trong Hình 6(bên ph£i) và Ëi t˜Òng ¶u này không Nghiên c˘u này ˜Òc tài trÒ ∑ tài NCKH cßp BÎ, BÎ
˜Òc gán nhãn trong cÏ s d˙ liªu SCUT-HEAD. Giáo dˆc và ào t§o "Nghiên c˘u phát tri∫n hª thËng
t¸ Îng ánh giá ho§t Îng hÂc t™p trong lÓp hÂc d¸a
trên công nghª x˚ l˛ £nh và trí tuª nhân t§o" mã sË
CT2020.02.BKA.02.
TÀI LIõU THAM KHÉO
[1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal
speed and accuracy of object detection,” 2020.
[2] D. Peng, Z. Sun, Z. Chen, Z. Cai, L. Xie, and L. Jin, “Detecting
heads using feature refine net and cascaded multi-scale architec-
ture,” 2018 24th International Conference on Pattern Recognition
(ICPR), pp. 2528–2533, 2018.
[3] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik, “Hyper-
columns for object segmentation and fine-grained localization,”
in Proceedings of the IEEE conference on computer vision and
Hình 5. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn pattern recognition, 2015, pp. 447–456.
nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn [4] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu,
thi∏u. and A. C. Berg, “Ssd: Single shot multibox detector,” in European
conference on computer vision. Springer, 2016, pp. 21–37.
[5] T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards
accurate region proposal generation and joint object detection,”
in Proceedings of the IEEE conference on computer vision and
pattern recognition, 2016, pp. 845–853.
[6] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider
to see better,” arXiv preprint arXiv:1506.04579, 2015.
[7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn:
Towards real-time object detection with region proposal
networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39,
no. 6, p. 1137–1149, Jun. 2017. [Online]. Available:
https://doi.org/10.1109/TPAMI.2016.2577031
[8] J. Redmon and A. Farhadi, “Yolo9000: Better, faster, stronger,”
2017 IEEE Conference on Computer Vision and Pattern Recog-
nition (CVPR), pp. 6517–6525, 2017.
[9] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via
Hình 6. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn region-based fully convolutional networks,” in Advances in neural
nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn information processing systems, 2016, pp. 379–387.
thi∏u ho∞c phát hiªn thêm.
V. KòT LUäN
Trong bài báo này chúng tôi ã tìm hi∫u v∑ mô hình
ho§t Îng cıa YOLO và nh˙ng c£i ti∏n cıa YOLOv4
so vÓi nh˙ng phiên b£n tr˜Óc ó. Cˆ th∫ trong bài báo
ISBN: 978-604-80-5076-4 147
nguon tai.lieu . vn