Ước lượng tự động số học sinh trên ảnh sử dụng kỹ thuật học sâu ứng dụng trong quản lý lớp học thông minh

Hiện nay các công nghệ nhận dạng và trí tuệ nhân tạo đang được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau của đời sống trong đó có giáo dục. Bài viết trình bày phương pháp ước lượng tự động số học sinh dựa trên việc phát hiện vùng đầu của học sinh trên ảnh/ video phục vụ cho việc đếm tự động số lượng học sinh trong lớp học. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) ◊Óc l˜Òng t¸ Îng sË hÂc sinh trên £nh s˚ dˆng kˇ thu™t hÂc sâu ˘ng dˆng tron

Thể loại Tài liệu miễn phí Cơ sở dữ liệu

Số trang 6

Ngày tạo 4/3/2023 3:35:37 PM +00:00

Loại tệp PDF

Kích thước 1.34 M

Tên tệp

Tải Ước lượng tự động số học sinh trên ảnh sử dụng kỹ ... (.pdf)

Xem mẫu

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) ◊Óc l˜Òng t¸ Îng sË hÂc sinh trên £nh s˚ dˆng kˇ thu™t hÂc sâu ˘ng dˆng trong qu£n l˛ lÓp hÂc thông minh Hà Th‡ Oanh1, 2 , Tr˜Ïng Th‡ NgÂc Ph˜Òng3 , Nguyπn HÁng Quân4, 5 , Tr¶n Th‡ Thanh H£i 1, 4 , Lê Th‡ Lan 1, 4 , VÙ H£i 1, 4 , oàn Th‡ H˜Ïng Giang1, 6 1Viªn nghiên c˘u quËc t∏ MICA - Tr˜Ìng §i hÂc Bách Khoa Hà NÎi 2 Tr˜Ìng §i hÂc Thıy LÒi 3 Tr˜Ìng §i hÂc S˜ ph§m kˇ thu™t Thành phË HÁ Chí Minh 4 Viªn iªn t˚ Viπn thông, Tr˜Ìng §i hÂc Bách Khoa Hà NÎi 5 Khoa Công nghª thông tin, Tr˜Ìng §i hÂc Công nghiªp Viªt - Hung 6 Tr˜Ìng §i hÂc iªn L¸c Tóm t≠t—Hiªn nay các công nghª nh™n d§ng và trí tuª l˛ lÓp hÂc mÎt cách dπ dàng hÏn Áng thÌi nâng cao nhân t§o ang ˜Òc ˘ng dˆng rÎng rãi trong nhi∑u lænh chßt l˜Òng d§y và hÂc. v¸c khác nhau cıa Ìi sËng trong ó có giáo dˆc. Các Bài toán i∫m danh t¸ Îng s˚ dˆng thông tin hình camera ã ˜Òc l≠p ∞t  nhi∑u lÓp hÂc ho∞c khuôn viên £nh trong lÓp hÂc có th∫ th¸c hiªn theo hai h˜Óng ti∏p cıa tr˜Ìng nh¨m phát hiªn nh˙ng bßt th˜Ìng ho∞c nâng cao chßt l˜Òng d§y và hÂc. Trong bài báo này, chúng tôi c™n nh˜: phát hiªn ng˜Ìi và phát hiªn ¶u mÎt cách t¸ trình bày mÎt ph˜Ïng pháp ˜Óc l˜Òng t¸ Îng sË l˜Òng Îng trong khung hình. Sau ó, th¸c hiªn ∏m sË l˜Òng hÂc sinh d¸a trên viªc phát hiªn vùng ¶u cıa hÂc sinh ng˜Ìi ho∞c ¶u phát hiªn ˜Òc. Tuy bài toán phát hiªn trên £nh/video phˆc vˆ cho viªc ∏m t¸ Îng sË l˜Òng ã §t ˜Òc nh˙ng thành công nhßt ‡nh, viªc phát hiªn sinh viên trong lÓp hÂc. Phát hiªn ¶u trên £nh thu th™p ng˜Ìi/ ¶u trong môi tr˜Ìng lÓp hÂc ph£i Ëi m∞t vÓi t¯ lÓp hÂc là mÎt bài toán có nhi∑u thách th˘c do môi nhi∑u thách th˘c nh˜ môi tr˜Ìng ông, sinh viên ngÁi tr˜Ìng ông, có s¸ che khußt lÓn. Trong bài báo chúng che khußt l®n nhau, góc nhìn camera thay Íi, i∑u kiªn tôi áp dˆng m§ng hÂc sâu tiên ti∏n cho bài toán phát hiªn ¶u và th¸c hiªn ánh giá trên mÎt cÏ s d˙ liªu dùng phông n∑n ph˘c t§p, i∑u kiªn chi∏u sáng thay Íi,... chung và mÎt cÏ s d˙ liªu ˜Òc xây d¸ng trong i∑u kiªn MÎt trong nh˙ng vßn ∑ lÓn nhßt c¶n gi£i quy∏t là s¸ che lÓp hÂc cıa Viªt Nam. K∏t qu£ cho thßy ph˜Ïng pháp khußt, nhi∑u Ëi t˜Òng c¶n phát hiªn trong mÎt khung ∑ xußt c£i ti∏n hÏn các ph˜Ïng pháp khác vÓi Î triªu hình, Î phân gi£i nh‰ cıa ng˜Ìi trong khung hình. hÁi §t 0.91 và 0.98 trên cÏ s d˙ liªu SCUT-HEAD và Trong khi yêu c¶u cıa hª thËng c¶n ph£i có thÌi gian sub-MICA-HEAD. áp ˘ng ı nhanh vÓi Î chính xác cao. T¯ khóa—Phát hiªn Ëi t˜Òng, m§ng nÏ ron tích ch™p, YOLOv4. ∫ gi£i quy∏t bài toán này, trong bài báo này chúng tôi ti∏p c™n theo h˜Óng phát hiªn ¶u trong khung hình vì ¶u là mÎt Ëi t˜Òng không b‡ bi∏n d§ng và dπ quan I. GIŒI THIõU sát hÏn trong ng˙ c£nh lÓp hÂc. Chúng tôi s˚ dˆng m§ng Phát hiªn Ëi t˜Òng trên £nh/video là lænh v¸c nghiên neuron tích ch™p YOLO [1] cho bài toán phân lÓp nh‡ c˘u quan trÂng cıa th‡ giác máy tính. Cùng vÓi nhu phân ( ¶u/không ¶u). YOLO là mÎt mô hình phát hiªn c¶u nâng cao chßt l˜Òng d§y và hÂc và s¸ phÍ bi∏n giá Ëi t˜Òng ã và ang ˜Òc s˚ dˆng rÎng rãi hiªn nay thành ngày càng r¥ cıa các thi∏t b‡ thu th™p và l˜u tr˙ nhÌ kh£ n´ng ánh giá và phát hiªn hiªu qu£ cıa nó. Bài thông tin, camera ngày càng ˜Òc cài ∞t rÎng rãi trong báo này s≥ th¸c hiªn ánh giá th¸c nghiªm vÓi YOLOv4 các lÓp hÂc ∞c biªt là  các vùng thành th‡. Tuy nhiên, và so sánh vÓi các m§ng hÂc sâu khác trên cùng mÎt thông tin hình £nh mÓi chø d¯ng  quan sát thı công CSDL. và th˜Ìng ˜Òc l˜u tr˙ trong mÎt kho£ng thÌi gian nhßt óng góp chính cıa bài báo nh˜ sau: ‡nh. Trong khi ó, viªc khai thác thông tin hình £nh • Xây d¸ng và gán nhãn t™p d˙ liªu hình £nh trong mÎt cách hÒp l˛ s≥ có th∫ hÈ trÒ i∫m danh, phân tích lÓp hÂc phˆc vˆ cho viªc hußn luyªn và ánh giá hành vi cıa sinh viên và giáo viên t¯ ó giúp cho qu£n các ph˜Ïng pháp hÂc máy. CSDL này ˜Òc ∞t tên ISBN: 978-604-80-5076-4 142
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) là sub-MICA-HEAD. qua viªc ∏m sË l˜Òng ¶u phát hiªn vÓi Î tin • Tri∫n khai, ánh giá mÎt ph˜Ïng pháp t¸ Îng c™y cao) ˜Óc l˜Òng sË hÂc sinh trên £nh s˚ dˆng m§ng hÂc sâu YOLO và th¸c hiªn so sánh ánh giá vÓi các B. Ki∏n trúc cıa YOLO ph˜Ïng pháp khác trên cÏ s d˙ liªu dùng chung H¶u h∏t các hª thËng d¸a trên m§ng hÂc sâu khác SCUT-HEAD và t™p cÏ s d˙ liªu do chúng tôi t¸ ∑u s˚ dˆng các bÎ phân lo§i ho∞c bÎ ‡nh v‡ ∫ phát xây d¸ng sub-MICA-HEAD  trên. hiªn mÎt Ëi t˜Òng trong £nh. Nh˙ng mô hình này ˜Òc áp dˆng cho mÎt hình £nh  nhi∑u v‡ trí và t lª khác II. CÁC NGHIÊN CŸU LIÊN QUAN nhau. So vÓi các ph˜Ïng pháp phát hiªn Ëi t˜Òng thông Do ¶u cıa mÈi mÎt ng˜Ìi có hình d§ng khác nhau, th˜Ìng, YOLO t‰ ra có nhi∑u ˜u i∫m. Thay vì s˚ dˆng nên bài toán phát hiªn v‡ trí cıa ¶u trong £nh v®n là hai b˜Óc ∫ phân lo§i và ‡nh v‡ Ëi t˜Òng thì YOLO mÎt vßn ∑ ang ph£i Ëi m∞t vÓi nhi∑u thách th˘c. ã áp dˆng ˜Òc cho c£ bài toán phân lo§i và bài toán ‡nh có rßt nhi∑u các ph˜Ïng pháp phát hiªn ¶u cıa ng˜Ìi v‡ Ëi t˜Òng. trên £nh/video ˜Òc ∑ xußt s˚ dˆng kæ thu™t hÂc sâu. Viªc hußn luyªn m§ng YOLO nh¨m tËi ˜u hóa hàm Công bË cıa tác gi£ Dezhi Peng và Áng nghiªp trong mˆc tiêu gÁm các thành ph¶n sau: [2] s˚ dˆng m§ng tinh chønh tính n´ng (FRN) k∏t hÒp Ltotal = Lclassification + Llocalization + Lconfidence (1) các và ki∏n trúc a m˘c cho bài toán phát hiªn ¶u. Trong ó: Trong nghiên c˘u cıa Hariharan [3] s˚ dˆng ph˜Ïng • Lclassification là lÈi phân lo§i cıa viªc d¸ oán lo§i pháp mã hóa các b£n Á bi∫u diπn Ëi t˜Òng vÓi các t lª khác nhau, sau ó k∏t hÒp các bi∫u diπn này  các nhãn cıa Ëi t˜Òng. • Llocalization là lÈi d¸ oán v‡ trí bao gÁm tÂa Î tâm, cßp Î và ghép thành mÎt véc tÏ bi∫u diπn ˜Òc gÂi là siêu cÎt cho mÂi v‡ trí. Trong khi ó các tác gi£ trong chi∑u rÎng, cao cıa vùng bao quanh Ëi t˜Òng (x, bài báo [4] s˚ dˆng các tính n´ng a quy mô ∫ ˜Óc y, w, h). Trong ó, (x, y) là tÂa Î tâm và w là tính xác sußt lÓp và tÂa Î bao quanh Ëi t˜Òng. Nghiên chi∑u rÎng và h là chi∑u cao cıa vùng bao quanh c˘u cıa HyperNet [5] và ParseNet [6] k∏t hÒp nhi∑u lÓp Ëi t˜Òng phát hiªn ˜Òc. • Lconfidence là lÈi d¸ oán cıa vùng ch˘a Ëi t˜Òng vÓi nhau ∫ ˜Óc l˜Òng ¶u ng˜Ìi trên £nh. Trong bài báo này, chúng tôi ∑ xußt s˚ dˆng YOLO trên £nh so vÓi nhãn th¸c t∏ t§i vùng ó. ∫ phát hiªn ¶u ng˜Ìi bi nó §t ˜Òc s¸ cân b¨ng C. Ki∏n trúc cıa YOLOv4 trong kh£ n´ng tính toán nhanh và Î chính xác cao YOLO phiên b£n 4 (YOLOv4) là phiên b£n Ín ‡nh trong mÎt sË bài toán phát hiªn Ëi t˜Òng nói chung. nhßt so vÓi các phiên b£n tr˜Óc ó. YOLOv4 ã có YOLO vi∏t t≠t cıa You Only Look Once dùng ∫ nh™n nh˙ng c£i thiªn áng k∫, giúp t´ng Î chính xác so d§ng Ëi t˜Òng ˜Òc thi∏t k∏ ∫ phát hiªn v™t th∫ trong vÓi YOLO phiên b£n 3 (YOLOv3) mà không gây £nh thÌi gian th¸c. YOLO áp dˆng mÎt m§ng CNN duy nhßt h˜ng ∏n y∏u tË tËc Î. Trong nghiên c˘u cıa Alexey cho toàn bÎ hình £nh, sau ó chia hình £nh thành các Bochkovskiy [1], các tác gi£ ã chia ph˜Ïng pháp c£i vùng, d¸ oán các vùng bao quanh Ëi t˜Òng (bounding ti∏n mô hình ra thành hai lo§i chính: boxes) và xác sußt cho t¯ng vùng. • Bag of Freebies (BoF): Là nh˙ng ph˜Ïng pháp giúp III. Hõ TH»NG òM NG◊ÕI BåNG CÁCH PHÁT mô hình t´ng Î chính xác mà không làm gi£m tËc HIõN ÜU TRONG ÉNH Î ch§y. • Bag of Special (BoS): Là nh˙ng ph˜Ïng pháp ho∞c A. Mô hình chung cıa hª thËng các mô- un £nh h˜ng nhµ ∏n tËc Î ch§y, nh˜ng Trong bài báo này, viªc ∏m ng˜Ìi s≥ ˜Òc th¸c hiªn c£i thiªn Î chính xác cho mô hình mÎt cách áng qua hai pha: pha hußn luyªn và pha nh™n d§ng ˜Òc k∫. minh hÂa trong Hình 1. 1) Backbone: CSPDarknet53: Trong phiên b£n tr˜Óc, • Pha hußn luyªn: s˚ dˆng t™p d˙ liªu hußn luyªn YOLOv3 s˚ dˆng Darknet-53 làm backbone. Darknet-53 nh¨m tËi ˜u hàm mˆc tiêu cıa m§ng YOLOv4 cho là s¸ k∏t hÒp gi˙a backbone ˜Òc dùng trong YOLOv2, bài toán phát hiªn hai lÓp ¶u và không ¶u. K∏t Darknet-19, và cßu trúc m§ng còn l§i (Residual Net- qu£ cıa pha hußn luyªn s≥ ˜a ra bÎ tham sË cıa works). Trong phiên b£n này, YOLOv4 ã c£i ti∏n mô mô hình s˚ dˆng  pha nh™n d§ng (ki∫m th˚) hình Darknet-53 b¨ng cách thay các khËi ResNet thông • Pha nh™n d§ng: th¸c hiªn phát hiªn ¶u t¯ £nh ¶u th˜Ìng b¨ng các khËi CSPResNet. Cßu trúc mÓi này vào và ∏m sË l˜Òng ng˜Ìi có trong £nh (thông giúp t´ng kh£ n´ng hÂc cıa m§ng CNN, gi£m khËi ISBN: 978-604-80-5076-4 143
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Hình 1. Ph˜Ïng pháp ∑ xußt . l˜Òng tính toán và gi£m chi phí bÎ nhÓ. Cˆ th∫ hÏn, D. Quá trình hußn luyªn mô hình CSPNet có th∫ ˘ng dˆng dπ dàng trên ResNet, ResNeXt, SÏ Á hußn luyªn mô hình phát hiªn ¶u ng˜Ìi và DenseNet. Viªc ˘ng dˆng CSPNet trên các m§ng này d¸a trên YOLOv4 ˜Òc minh hÂa nh˜ trong Hình 2. giúp gi£m khËi l˜Òng tính toán t¯ 10% ∏n 20%, trong YOLOv4 yêu c¶u mÎt sË tªp tin ∫ b≠t ¶u hußn luyªn, khi v˜Òt trÎi hÏn v∑ Î chính xác trong bài toán phân ó là: lo§i £nh. • TÍng sË lÓp (classes). 2) Neck: SPP, PAN: • Tªp tin ‡nh d§ng ".txt" vÓi ˜Ìng d®n ∏n tßt c£ các £nh mà ng˜Ìi dùng muËn hußn luyªn. • Tªp tin ‡nh d§ng ".txt" là tªp ch˘a tên cıa tßt c£ • Spatial Pyramid Pooling (SPP): Trong bài báo [1], các tác gi£ ã thêm vào YOLOv4 mÎt khËi SPP các lÓp c¶n hußn luyªn. nh¨m tËi ˜u c£ nh˙ng ∞c tr˜ng toàn cˆc (global • ˜Ìng d®n ∫ l˜u các tªp trÂng sË ˜Òc hußn luyªn. • MÎt tªp cßu hình vÓi tßt c£ các lÓp cıa ki∏n trúc feature) và các ∞c tr˜ng cˆc bÎ (local region feature) vÓi nhi∑u kích th˜Óc, t´ng sË l˜Òng và kích YOLOv4. • Các trÂng sË cıa mô hình ã ˜Òc hußn luyªn tr˜Óc th˜Óc receptive field. • Path Aggregation Network (PAN): Trong phiên ó. b£n YOLOv3, các tác gi£ s˚ dˆng FPN (Feature Giá tr‡ cıa các bÎ lÂc (filters) ˜Òc ‡nh nghæa trong Pyramid Network) ∫ tÍng hÒp các ∞c tr˜ng toàn tªp tin có ‡nh d§ng ".cfg ". Công th˘c tính bÎ lÂc cıa cˆc (global feature)  các t¶ng tích ch™p khác YOLOv4 ˜Òc bi∫u diπn nh˜ trong công th˘c (2) sau nhau. i∑u này ˜Òc làm khác i trong phiên b£n ây: YOLOv4 vÓi viªc s˚ dˆng mÎt phiên b£n nâng cßp hÏn là PAN ∫ tÍng hÒp thông tin t¯ tßt c£ các t¶ng f ilters = 5 ⇤ (2 + number_of _classes) (2) t§i mÎt ¶u ra duy nhßt. Do nh˙ng ˜u i∫m nh˜ s¸ cân b¨ng gi˙a tËc Î và Î E. Hàm lÈi chính xác, dπ dàng thay Íi các tham sË cıa YOLOv4 Hàm lÈi cho bi∏t cách i∑u chønh trÂng sË ∫ gi£m so vÓi các ph˜Ïng pháp LRF, RFBNet, YOLOv3, SSD chi phí tính toán. Trong YOLOv4 hàm lÈi CIoU ˜Òc [1],... V™y nên trong bài báo này chúng tôi ã ∑ xußt ˜a vào nhánh Bag of Freebies (BoF). Hàm lÈi CIoU gi£i pháp phát hiªn ¶u cıa ng˜Ìi trong £nh nh˜ minh giÓi thiªu hai khái niªm mÓi so vÓi hàm lÈi IoU. Khái hÂa trong Hình 1. niªm ¶u tiên là khái niªm v∑ kho£ng cách i∫m trung ISBN: 978-604-80-5076-4 144
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) IV. ÁNH GIÁ HIõU NãNG Hõ TH»NG A. D˙ liªu th˚ nghiªm 1) CÏ s d˙ liªu SCUT-HEAD: Chúng tôi s˚ dˆng t™p cÏ s d˙ liªu các hình £nh cıa ¶u ˜Òc công bË cho cÎng Áng nghiên c˘u dùng chung có tên SCUT- HEAD1 . T™p cÏ s d˙ liªu SCUT-HEAD bao gÁm hai ph¶n là Part A và Part B. Trong ó, Part A gÁm 2000 £nh ˜Òc lßy m®u t¯ video giám sát t§i các phòng hÂc trong tr˜Ìng §i hÂc vÓi 67321 vùng ˜Òc gán nhãn. Part B bao gÁm 2405 hình £nh ˜Òc thu th™p t¯ Internet vÓi 43930 vùng ˜Òc gán nhãn. C£ Part A và Part B ∑u ˜Òc chia thành các ph¶n hußn luyªn và th˚ nghiªm. 1500 hình £nh cıa Part A dành cho hußn luyªn và 500 ∫ th˚ nghiªm. 1905 hình £nh cıa Part B dành cho hußn luyªn và 500 ∫ th˚ nghiªm. T™p d˙ liªu ˜Òc ‡nh d§ng Hình 2. Quá trình hußn luyªn mô hình. chu©n theo Pascal VOC. Tuy nhiên trong khuôn khÍ bài báo này chúng tôi s˚ dˆng Part B cho viªc hußn luyªn 1905 £nh vÓi 34484 vùng ch˘a ¶u và và 500 £nh th˚ tâm, là kho£ng cách gi˙a i∫m trung tâm cıa vùng bao nghiªm vÓi 9446 vùng ch˘a ¶u. th¸c t∏ và i∫m trung tâm cıa vùng bao d¸ oán. Khái 2) CÏ s d˙ liªu t¸ xây d¸ng sub-MICA-HEAD: T™p niªm th˘ hai là t lª khung hình, so sánh t lª khung d˙ liªu MICA-HEAD do chúng tôi thi∏t k∏ và thu th™p hình cıa vùng bao th¸c và t lª khung hình cıa vùng trong các lÓp hÂc t§i Viªn nghiên c˘u QuËc t∏ MICA bao d¸ oán. VÓi ba th˜Óc o là IoU, kho£ng cách gi˙a -Tr˜Ìng §i hÂc Bách Khoa Hà NÎi. Do hiªn nay t™p i∫m trung tâm, t lª khung hình có th∫ tính ˜Òc hàm cÏ s d˙ liªu cıa chúng tôi v®n ang ti∏p tˆc ˜Òc thu lÈi CIoU qua công th˘c (3) sau ây: th™p và gán nhãn. Vì v™y trong khuôn khÍ cıa bài báo này, chúng tôi s˚ dˆng t™p con cıa bÎ cÏ s d˙ liªu ⇢2 (b, bgt ) MICA-HEAD và ∞t tên là sub-MICA-HEAD. ây là LCIoU = 1 IoU + + ↵v (3) c2 t™p cÏ s d˙ liªu ã ˜Òc chúng tôi ti∏n hành gán nhãn và phân lo§i ∫ hußn luyªn cÙng nh˜ th˚ nghiªm hª Trong ó: IoU ˜Òc tính theo công th˘c (4); b và bgt thËng. là các i∫m chính gi˙a cıa vùng bao d¸ oán và vùng T™p d˙ liªu con sub-MICA-HEAD bao gÁm 288 £nh bao th¸c t∏; ⇢ là kho£ng cách Euclidean; c là Î dài vÓi 2188 vùng ch˘a ¶u lßy ng˙ c£nh là lÓp hÂc th¸c ˜Ìng chéo cıa vùng bao nh‰ nhßt gi˙a vùng bao d¸ t∏ và ˜Òc truy xußt t¯ các máy quay. T™p d˙ liªu chia oán và vùng bao th¸c t∏; v o tính nhßt quán cıa t lª thành 259 £nh d˙ liªu hußn luyªn vÓi 2029 vùng ch˘a khung hình ˜Ïc tính theo công th˘c (5) và ↵ là tham ¶u và 29 £nh cho d˙ liªu th˚ nghiªm vÓi 159 vùng sË cân b¨ng d˜Ïng ˜Òc tính theo công th˘c (6). ch˘a ¶u. Chúng tôi ã th¸c hiªn thËng kê chi ti∏t v∑ |B \ B gt | viªc chia d˙ liªu thành t™p hußn luyªn và ki∫m th˚ cıa IoU = (4) hai t™p d˙ liªu s˚ dˆng cho ph˜Ïng pháp ∑ xußt ˜Òc |B [ B gt | th∫ hiªn trong B£ng I. Chúng tôi s˚ dˆng d˙ liªu theo Trong ó: B = (x, y, w, h) là vùng bao d¸ oán; B gt = tiêu chu©n cıa PASCAL VOC. Hình £nh cıa hai t™p d˙ (xgt , y gt , wgt , hgt ) là vùng bao th¸c t∏. liªu SCUT-HEAD và sub-MICA-HEAD ˜Òc minh hÂa ✓ ◆2 nh˜  Hình 3. 4 wgt w v= arctan arctan (5) B. Î o ánh giá ⇡2 hgt h Î chính xác thu ˜Òc trên t™p d˙ liªu th˚ nghiªm là Trong ó: wgt , hgt là chi∑u rÎng và chi∑u cao cıa vùng th˜Óc o ánh giá hiªu qu£ phân lo§i trong bài báo cıa bao th¸c t∏; w, h là chi∑u cao và chi∑u rÎng cıa vùng chúng tôi. Chúng tôi ánh giá quá trình hußn luyªn và bao d¸ oán. th˚ nghiªm b¨ng Î chính xác (Precision), Î triªu hÁi v 1 CÏ s d˙ liªu SCUT-HEAD có th∫ t£i xuËng t¯ ‡a chø nh˜ sau: ↵= (6) (1 IoU ) + v https://github.com/HCIILAB/SCUT-HEAD-Dataset-Release. ISBN: 978-604-80-5076-4 145
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) B£ng I B£ng II TH»NG KÊ CÃ S– D⁄ LIõU KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€ C’A CÃ S– D⁄ LIõUSUB SUB -SCUT-HEAD SCUT-HEAD sub-MICA-HEAD Part A Part B Ph˜Ïng pháp Precision Recall Hußn luyªn SL Énh 1500 1905 259 Faster R-CNN [7](VGG16) 0.87 0.81 YOLOv2 [8] 0.74 0.67 SL ¶u 50103 34484 2029 SSD [4] 0.80 0.66 Th˚ nghiªm SL Énh 500 500 29 R-FCN [9] 0.90 0.82 SL ¶u 17218 9446 159 R-FCN + FRN [2] 0.92 0.84 Multi-Scale [2] 0.92 0.87 Ph˜Ïng pháp cıa bài báo (YOLOv4) 0.92 0.91 2) K∏t qu£ trên bÎ d˙ liªu sub-MICA-HEAD: Sau khi hußn luyªn hoàn tßt vÓi Part B cıa t™p d˙ liªu SCUT-HEAD chúng tôi ti∏n hành hußn luyªn l§i vÓi t™p d˙ liªu sub-MICA-HEAD cıa mình. S˚ dˆng nh˙ng trÂng sË ã hÂc t¯ mô hình là k∏t qu£ hußn luyªn tr˜Óc ó cho t™p d˙ liªu SCUT-HEAD. Sau quá trình hußn luyªn và th˚ nghiªm chúng tôi ˜Òc nh˙ng k∏t qu£ nh˜ B£ng III. CÙng giËng nh˜ Ëi vÓi cÏ s d˙ liªu SCUT- Hình 3. Minh hÂa £nh và gán nhãn vùng ¶u trên CSDL SCUT- HEAD, ph˜Ïng pháp ∑ xußt cho k∏t qu£ cao vÓi Î HEAD(bên trái) và sub-MICA-HEAD(bên ph£i). triªu hÁi 0.98. Cùng vÓi ó là Î chính xác ph˜Ïng pháp cıa chúng tôi cho k∏t qu£ Î chính xác cao vÓi 0.92. Bên c§nh viªc tính toán theo các Î o nh˜ ã nêu (Recall). Trong ó, Î chính xác ˜Òc ‡nh nghæa là tø lª  trên, chúng tôi bi∫u diπn k∏t qu£ quá trình th˚ nghiªm sË ¶u ng˜Ìi phát hiªn úng trên tÍng sË th˚ nghiªm và cıa mình b¨ng bi∫u Á ˜Ìng cong Presion-Recall ˜Òc Î triªu hÁi là tø lª ¶u ng˜Ìi phát hiªn úng trên tÍng minh hÂa trong Hình 4. sË ¶u ng˜Ìi có trong t™p hình £nh. Ngoài Î chính xác và Î triªu hÁi, mAP cÙng ˜Òc s˚ dˆng. mAP là Î B£ng III chính xác trung bình (average precision) cıa N lÓp và KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€ C’A CÃ S– D⁄ LIõU SUB -MICA-HEAD ˜Òc ‡nh nghæa nh˜ bi∫u diπn trong công th˘c (7) sau ây: T™p d˙ liªu Precision Recall mAP@0.5 N Train 0.93 0.97 0.96 1 X mAP = APi (7) Test 0.92 0.98 0.97 N i=1 C. K∏t qu£ th¸c nghiªm 1) K∏t qu£ trên bÎ d˙ liªu SCUT-HEAD: Chúng tôi ti∏n hành hußn luyªn mô hình vÓi các trÂng sË ã ˜Òc hÂc t¯ mô hình YOLOv4.conv.137, s˚ dˆng các thông sË nh˜ sau: kích th˜Óc m¥ hußn luyªn (batch size) b¨ng 64 vÓi 6000 l¶n l∞p. K∏t qu£ phát hiªn cıa mô hình ˜Òc so sánh vÓi các ph˜Ïng pháp khác trên cÏ s d˙ liªu SCUT-HEAD th∫ hiªn  B£ng II. Ph˜Ïng pháp ∑ xußt §t Î chính xác là 0.92 b¨ng vÓi các ph˜Ïng pháp tr˜Óc ó d¸a trên m§ng R-FCN + FRN và Multi-Scale. Î triªu hÁi cıa ph˜Ïng pháp ∑ xußt 0.91, cao hÏn tßt c£ các ph˜Ïng pháp tr˜Óc ó. i∑u này ch˘ng t‰ ph˜Ïng pháp ∑ xußt cho phép phát hiªn t˜Ïng Ëi ¶y ı sË ng˜Ìi trên £nh. Tuy nhiên vÓi Î triªu hÁi là 0.95 thì Hình 4. ˜Ìng cong Precision-Recall cıa t™p d˙ liªu th˚ nghiªm Î chính xác gi£m còn 0.85, v™y nên ph˜Ïng pháp c¶n SCUT-HEAD và sub-MICA-HEAD. ti∏p tˆc ˜Òc c£i ti∏n. ISBN: 978-604-80-5076-4 146
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) 3) Th£o lu™n: Sau quá trình th˚ nghiªm chúng tôi này chúng tôi ã ti∏n hành xây d¸ng và gán nhãn t™p ã ki∫m ch˘ng l§i k∏t qu£ cıa mình. Chúng tôi ã phát d˙ liªu hình £nh trong lÓp hÂc phˆc vˆ cho viªc hußn hiªn ra nh˙ng tr˜Ìng hÒp hª thËng phát hiªn thi∏u hay luyªn l§i mô hình ∫ phát hiªn Ëi t˜Òng ¶u ng˜Ìi phát hiªn nh¶m Ëi t˜Òng ¶u. Cˆ th∫ Hình 6(bên trái), trong lÓp hÂc. Bên c§nh ó chúng tôi có nh˙ng ánh hª thËng phát hiªn thi∏u vÓi tr˜Ìng hÒp ang n¨m trên giá v∑ k∏t qu£ trên Part B cıa t™p d˙ liªu SCUT-HEAD m∞t bàn. Do s¸ che khußt là khá lÓn trong môi tr˜Ìng cùng vÓi t™p d˙ liªu ∑ xußt là sub-MICA-HEAD. K∏t m™t Î hÂc sinh ngÁi san sát nhau nh˜ trong Hình 6(bên qu£ cho thßy r¨ng Î chính xác (Precision) t˜Ïng ˜Ïng trái) và Hình 5(bên ph£i) ˜Òc chúng tôi minh hÂa b¨ng vÓi ph˜Ïng pháp Multi-Scale, tuy nhiên Î triªu hÁi mÙi tên màu ‰ chø vào Ëi t˜Òng b‡ phát hiªn thi∏u (Recall) cao hÏn ph˜Ïng pháp Multi-Scale 0.04 vÓi t™p trong khung hình. Cùng vÓi s¸ phát hiªn thi∏u, chúng d˙ liªu SCUT-HEAD. Trong thÌi gian tÓi, chúng tôi s≥ tôi cÙng minh hÂa tr˜Ìng hÒp phát hiªn nh¶m l®n nh˜ hoàn thiªn CSDL sub-MICA-HEAD, và ti∏p tˆc ánh Hình 5(bên trái). Trong tr˜Ìng hÒp này Ëi t˜Òng b‡ giá cÙng nh˜ c£i ti∏n m§ng, ho∞c k∏t hÒp mô hình phát phát hiªn nh¶m có ∞c tr˜ng khá giËng Ëi t˜Òng ¶u hiªn ¶u và ng˜Ìi nh¨m c£i thiªn hiªu n´ng nh™n d§ng. ng˜Ìi. Tuy nhiên hª thËng cıa chúng tôi có th∫ phát LÕI CÉM ÃN hiªn Ëi t˜Òng là ¶u trong tr˜Ìng hÒp chø có mÎt ph¶n ¶u trong Hình 6(bên ph£i) và Ëi t˜Òng ¶u này không Nghiên c˘u này ˜Òc tài trÒ ∑ tài NCKH cßp BÎ, BÎ ˜Òc gán nhãn trong cÏ s d˙ liªu SCUT-HEAD. Giáo dˆc và ào t§o "Nghiên c˘u phát tri∫n hª thËng t¸ Îng ánh giá ho§t Îng hÂc t™p trong lÓp hÂc d¸a trên công nghª x˚ l˛ £nh và trí tuª nhân t§o" mã sË CT2020.02.BKA.02. TÀI LIõU THAM KHÉO [1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” 2020. [2] D. Peng, Z. Sun, Z. Chen, Z. Cai, L. Xie, and L. Jin, “Detecting heads using feature refine net and cascaded multi-scale architec- ture,” 2018 24th International Conference on Pattern Recognition (ICPR), pp. 2528–2533, 2018. [3] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik, “Hyper- columns for object segmentation and fine-grained localization,” in Proceedings of the IEEE conference on computer vision and Hình 5. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn pattern recognition, 2015, pp. 447–456. nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn [4] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, thi∏u. and A. C. Berg, “Ssd: Single shot multibox detector,” in European conference on computer vision. Springer, 2016, pp. 21–37. [5] T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853. [6] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider to see better,” arXiv preprint arXiv:1506.04579, 2015. [7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, p. 1137–1149, Jun. 2017. [Online]. Available: https://doi.org/10.1109/TPAMI.2016.2577031 [8] J. Redmon and A. Farhadi, “Yolo9000: Better, faster, stronger,” 2017 IEEE Conference on Computer Vision and Pattern Recog- nition (CVPR), pp. 6517–6525, 2017. [9] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via Hình 6. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn region-based fully convolutional networks,” in Advances in neural nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn information processing systems, 2016, pp. 379–387. thi∏u ho∞c phát hiªn thêm. V. KòT LUäN Trong bài báo này chúng tôi ã tìm hi∫u v∑ mô hình ho§t Îng cıa YOLO và nh˙ng c£i ti∏n cıa YOLOv4 so vÓi nh˙ng phiên b£n tr˜Óc ó. Cˆ th∫ trong bài báo ISBN: 978-604-80-5076-4 147

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường