Xem mẫu

  1. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) ◊Óc l˜Òng t¸ Îng sË hÂc sinh trên £nh s˚ dˆng kˇ thu™t hÂc sâu ˘ng dˆng trong qu£n l˛ lÓp hÂc thông minh Hà Th‡ Oanh1, 2 , Tr˜Ïng Th‡ NgÂc Ph˜Òng3 , Nguyπn HÁng Quân4, 5 , Tr¶n Th‡ Thanh H£i 1, 4 , Lê Th‡ Lan 1, 4 , VÙ H£i 1, 4 , oàn Th‡ H˜Ïng Giang1, 6 1Viªn nghiên c˘u quËc t∏ MICA - Tr˜Ìng §i hÂc Bách Khoa Hà NÎi 2 Tr˜Ìng §i hÂc Thıy LÒi 3 Tr˜Ìng §i hÂc S˜ ph§m kˇ thu™t Thành phË HÁ Chí Minh 4 Viªn iªn t˚ Viπn thông, Tr˜Ìng §i hÂc Bách Khoa Hà NÎi 5 Khoa Công nghª thông tin, Tr˜Ìng §i hÂc Công nghiªp Viªt - Hung 6 Tr˜Ìng §i hÂc iªn L¸c Tóm t≠t—Hiªn nay các công nghª nh™n d§ng và trí tuª l˛ lÓp hÂc mÎt cách dπ dàng hÏn Áng thÌi nâng cao nhân t§o ang ˜Òc ˘ng dˆng rÎng rãi trong nhi∑u lænh chßt l˜Òng d§y và hÂc. v¸c khác nhau cıa Ìi sËng trong ó có giáo dˆc. Các Bài toán i∫m danh t¸ Îng s˚ dˆng thông tin hình camera ã ˜Òc l≠p ∞t  nhi∑u lÓp hÂc ho∞c khuôn viên £nh trong lÓp hÂc có th∫ th¸c hiªn theo hai h˜Óng ti∏p cıa tr˜Ìng nh¨m phát hiªn nh˙ng bßt th˜Ìng ho∞c nâng cao chßt l˜Òng d§y và hÂc. Trong bài báo này, chúng tôi c™n nh˜: phát hiªn ng˜Ìi và phát hiªn ¶u mÎt cách t¸ trình bày mÎt ph˜Ïng pháp ˜Óc l˜Òng t¸ Îng sË l˜Òng Îng trong khung hình. Sau ó, th¸c hiªn ∏m sË l˜Òng hÂc sinh d¸a trên viªc phát hiªn vùng ¶u cıa hÂc sinh ng˜Ìi ho∞c ¶u phát hiªn ˜Òc. Tuy bài toán phát hiªn trên £nh/video phˆc vˆ cho viªc ∏m t¸ Îng sË l˜Òng ã §t ˜Òc nh˙ng thành công nhßt ‡nh, viªc phát hiªn sinh viên trong lÓp hÂc. Phát hiªn ¶u trên £nh thu th™p ng˜Ìi/ ¶u trong môi tr˜Ìng lÓp hÂc ph£i Ëi m∞t vÓi t¯ lÓp hÂc là mÎt bài toán có nhi∑u thách th˘c do môi nhi∑u thách th˘c nh˜ môi tr˜Ìng ông, sinh viên ngÁi tr˜Ìng ông, có s¸ che khußt lÓn. Trong bài báo chúng che khußt l®n nhau, góc nhìn camera thay Íi, i∑u kiªn tôi áp dˆng m§ng hÂc sâu tiên ti∏n cho bài toán phát hiªn ¶u và th¸c hiªn ánh giá trên mÎt cÏ s d˙ liªu dùng phông n∑n ph˘c t§p, i∑u kiªn chi∏u sáng thay Íi,... chung và mÎt cÏ s d˙ liªu ˜Òc xây d¸ng trong i∑u kiªn MÎt trong nh˙ng vßn ∑ lÓn nhßt c¶n gi£i quy∏t là s¸ che lÓp hÂc cıa Viªt Nam. K∏t qu£ cho thßy ph˜Ïng pháp khußt, nhi∑u Ëi t˜Òng c¶n phát hiªn trong mÎt khung ∑ xußt c£i ti∏n hÏn các ph˜Ïng pháp khác vÓi Î triªu hình, Î phân gi£i nh‰ cıa ng˜Ìi trong khung hình. hÁi §t 0.91 và 0.98 trên cÏ s d˙ liªu SCUT-HEAD và Trong khi yêu c¶u cıa hª thËng c¶n ph£i có thÌi gian sub-MICA-HEAD. áp ˘ng ı nhanh vÓi Î chính xác cao. T¯ khóa—Phát hiªn Ëi t˜Òng, m§ng nÏ ron tích ch™p, YOLOv4. ∫ gi£i quy∏t bài toán này, trong bài báo này chúng tôi ti∏p c™n theo h˜Óng phát hiªn ¶u trong khung hình vì ¶u là mÎt Ëi t˜Òng không b‡ bi∏n d§ng và dπ quan I. GIŒI THIõU sát hÏn trong ng˙ c£nh lÓp hÂc. Chúng tôi s˚ dˆng m§ng Phát hiªn Ëi t˜Òng trên £nh/video là lænh v¸c nghiên neuron tích ch™p YOLO [1] cho bài toán phân lÓp nh‡ c˘u quan trÂng cıa th‡ giác máy tính. Cùng vÓi nhu phân ( ¶u/không ¶u). YOLO là mÎt mô hình phát hiªn c¶u nâng cao chßt l˜Òng d§y và hÂc và s¸ phÍ bi∏n giá Ëi t˜Òng ã và ang ˜Òc s˚ dˆng rÎng rãi hiªn nay thành ngày càng r¥ cıa các thi∏t b‡ thu th™p và l˜u tr˙ nhÌ kh£ n´ng ánh giá và phát hiªn hiªu qu£ cıa nó. Bài thông tin, camera ngày càng ˜Òc cài ∞t rÎng rãi trong báo này s≥ th¸c hiªn ánh giá th¸c nghiªm vÓi YOLOv4 các lÓp hÂc ∞c biªt là  các vùng thành th‡. Tuy nhiên, và so sánh vÓi các m§ng hÂc sâu khác trên cùng mÎt thông tin hình £nh mÓi chø d¯ng  quan sát thı công CSDL. và th˜Ìng ˜Òc l˜u tr˙ trong mÎt kho£ng thÌi gian nhßt óng góp chính cıa bài báo nh˜ sau: ‡nh. Trong khi ó, viªc khai thác thông tin hình £nh • Xây d¸ng và gán nhãn t™p d˙ liªu hình £nh trong mÎt cách hÒp l˛ s≥ có th∫ hÈ trÒ i∫m danh, phân tích lÓp hÂc phˆc vˆ cho viªc hußn luyªn và ánh giá hành vi cıa sinh viên và giáo viên t¯ ó giúp cho qu£n các ph˜Ïng pháp hÂc máy. CSDL này ˜Òc ∞t tên ISBN: 978-604-80-5076-4 142
  2. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) là sub-MICA-HEAD. qua viªc ∏m sË l˜Òng ¶u phát hiªn vÓi Î tin • Tri∫n khai, ánh giá mÎt ph˜Ïng pháp t¸ Îng c™y cao) ˜Óc l˜Òng sË hÂc sinh trên £nh s˚ dˆng m§ng hÂc sâu YOLO và th¸c hiªn so sánh ánh giá vÓi các B. Ki∏n trúc cıa YOLO ph˜Ïng pháp khác trên cÏ s d˙ liªu dùng chung H¶u h∏t các hª thËng d¸a trên m§ng hÂc sâu khác SCUT-HEAD và t™p cÏ s d˙ liªu do chúng tôi t¸ ∑u s˚ dˆng các bÎ phân lo§i ho∞c bÎ ‡nh v‡ ∫ phát xây d¸ng sub-MICA-HEAD  trên. hiªn mÎt Ëi t˜Òng trong £nh. Nh˙ng mô hình này ˜Òc áp dˆng cho mÎt hình £nh  nhi∑u v‡ trí và t lª khác II. CÁC NGHIÊN CŸU LIÊN QUAN nhau. So vÓi các ph˜Ïng pháp phát hiªn Ëi t˜Òng thông Do ¶u cıa mÈi mÎt ng˜Ìi có hình d§ng khác nhau, th˜Ìng, YOLO t‰ ra có nhi∑u ˜u i∫m. Thay vì s˚ dˆng nên bài toán phát hiªn v‡ trí cıa ¶u trong £nh v®n là hai b˜Óc ∫ phân lo§i và ‡nh v‡ Ëi t˜Òng thì YOLO mÎt vßn ∑ ang ph£i Ëi m∞t vÓi nhi∑u thách th˘c. ã áp dˆng ˜Òc cho c£ bài toán phân lo§i và bài toán ‡nh có rßt nhi∑u các ph˜Ïng pháp phát hiªn ¶u cıa ng˜Ìi v‡ Ëi t˜Òng. trên £nh/video ˜Òc ∑ xußt s˚ dˆng kæ thu™t hÂc sâu. Viªc hußn luyªn m§ng YOLO nh¨m tËi ˜u hóa hàm Công bË cıa tác gi£ Dezhi Peng và Áng nghiªp trong mˆc tiêu gÁm các thành ph¶n sau: [2] s˚ dˆng m§ng tinh chønh tính n´ng (FRN) k∏t hÒp Ltotal = Lclassification + Llocalization + Lconfidence (1) các và ki∏n trúc a m˘c cho bài toán phát hiªn ¶u. Trong ó: Trong nghiên c˘u cıa Hariharan [3] s˚ dˆng ph˜Ïng • Lclassification là lÈi phân lo§i cıa viªc d¸ oán lo§i pháp mã hóa các b£n Á bi∫u diπn Ëi t˜Òng vÓi các t lª khác nhau, sau ó k∏t hÒp các bi∫u diπn này  các nhãn cıa Ëi t˜Òng. • Llocalization là lÈi d¸ oán v‡ trí bao gÁm tÂa Î tâm, cßp Î và ghép thành mÎt véc tÏ bi∫u diπn ˜Òc gÂi là siêu cÎt cho mÂi v‡ trí. Trong khi ó các tác gi£ trong chi∑u rÎng, cao cıa vùng bao quanh Ëi t˜Òng (x, bài báo [4] s˚ dˆng các tính n´ng a quy mô ∫ ˜Óc y, w, h). Trong ó, (x, y) là tÂa Î tâm và w là tính xác sußt lÓp và tÂa Î bao quanh Ëi t˜Òng. Nghiên chi∑u rÎng và h là chi∑u cao cıa vùng bao quanh c˘u cıa HyperNet [5] và ParseNet [6] k∏t hÒp nhi∑u lÓp Ëi t˜Òng phát hiªn ˜Òc. • Lconfidence là lÈi d¸ oán cıa vùng ch˘a Ëi t˜Òng vÓi nhau ∫ ˜Óc l˜Òng ¶u ng˜Ìi trên £nh. Trong bài báo này, chúng tôi ∑ xußt s˚ dˆng YOLO trên £nh so vÓi nhãn th¸c t∏ t§i vùng ó. ∫ phát hiªn ¶u ng˜Ìi bi nó §t ˜Òc s¸ cân b¨ng C. Ki∏n trúc cıa YOLOv4 trong kh£ n´ng tính toán nhanh và Î chính xác cao YOLO phiên b£n 4 (YOLOv4) là phiên b£n Ín ‡nh trong mÎt sË bài toán phát hiªn Ëi t˜Òng nói chung. nhßt so vÓi các phiên b£n tr˜Óc ó. YOLOv4 ã có YOLO vi∏t t≠t cıa You Only Look Once dùng ∫ nh™n nh˙ng c£i thiªn áng k∫, giúp t´ng Î chính xác so d§ng Ëi t˜Òng ˜Òc thi∏t k∏ ∫ phát hiªn v™t th∫ trong vÓi YOLO phiên b£n 3 (YOLOv3) mà không gây £nh thÌi gian th¸c. YOLO áp dˆng mÎt m§ng CNN duy nhßt h˜ng ∏n y∏u tË tËc Î. Trong nghiên c˘u cıa Alexey cho toàn bÎ hình £nh, sau ó chia hình £nh thành các Bochkovskiy [1], các tác gi£ ã chia ph˜Ïng pháp c£i vùng, d¸ oán các vùng bao quanh Ëi t˜Òng (bounding ti∏n mô hình ra thành hai lo§i chính: boxes) và xác sußt cho t¯ng vùng. • Bag of Freebies (BoF): Là nh˙ng ph˜Ïng pháp giúp III. Hõ TH»NG òM NG◊ÕI BåNG CÁCH PHÁT mô hình t´ng Î chính xác mà không làm gi£m tËc HIõN ÜU TRONG ÉNH Î ch§y. • Bag of Special (BoS): Là nh˙ng ph˜Ïng pháp ho∞c A. Mô hình chung cıa hª thËng các mô- un £nh h˜ng nhµ ∏n tËc Î ch§y, nh˜ng Trong bài báo này, viªc ∏m ng˜Ìi s≥ ˜Òc th¸c hiªn c£i thiªn Î chính xác cho mô hình mÎt cách áng qua hai pha: pha hußn luyªn và pha nh™n d§ng ˜Òc k∫. minh hÂa trong Hình 1. 1) Backbone: CSPDarknet53: Trong phiên b£n tr˜Óc, • Pha hußn luyªn: s˚ dˆng t™p d˙ liªu hußn luyªn YOLOv3 s˚ dˆng Darknet-53 làm backbone. Darknet-53 nh¨m tËi ˜u hàm mˆc tiêu cıa m§ng YOLOv4 cho là s¸ k∏t hÒp gi˙a backbone ˜Òc dùng trong YOLOv2, bài toán phát hiªn hai lÓp ¶u và không ¶u. K∏t Darknet-19, và cßu trúc m§ng còn l§i (Residual Net- qu£ cıa pha hußn luyªn s≥ ˜a ra bÎ tham sË cıa works). Trong phiên b£n này, YOLOv4 ã c£i ti∏n mô mô hình s˚ dˆng  pha nh™n d§ng (ki∫m th˚) hình Darknet-53 b¨ng cách thay các khËi ResNet thông • Pha nh™n d§ng: th¸c hiªn phát hiªn ¶u t¯ £nh ¶u th˜Ìng b¨ng các khËi CSPResNet. Cßu trúc mÓi này vào và ∏m sË l˜Òng ng˜Ìi có trong £nh (thông giúp t´ng kh£ n´ng hÂc cıa m§ng CNN, gi£m khËi ISBN: 978-604-80-5076-4 143
  3. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Hình 1. Ph˜Ïng pháp ∑ xußt . l˜Òng tính toán và gi£m chi phí bÎ nhÓ. Cˆ th∫ hÏn, D. Quá trình hußn luyªn mô hình CSPNet có th∫ ˘ng dˆng dπ dàng trên ResNet, ResNeXt, SÏ Á hußn luyªn mô hình phát hiªn ¶u ng˜Ìi và DenseNet. Viªc ˘ng dˆng CSPNet trên các m§ng này d¸a trên YOLOv4 ˜Òc minh hÂa nh˜ trong Hình 2. giúp gi£m khËi l˜Òng tính toán t¯ 10% ∏n 20%, trong YOLOv4 yêu c¶u mÎt sË tªp tin ∫ b≠t ¶u hußn luyªn, khi v˜Òt trÎi hÏn v∑ Î chính xác trong bài toán phân ó là: lo§i £nh. • TÍng sË lÓp (classes). 2) Neck: SPP, PAN: • Tªp tin ‡nh d§ng ".txt" vÓi ˜Ìng d®n ∏n tßt c£ các £nh mà ng˜Ìi dùng muËn hußn luyªn. • Tªp tin ‡nh d§ng ".txt" là tªp ch˘a tên cıa tßt c£ • Spatial Pyramid Pooling (SPP): Trong bài báo [1], các tác gi£ ã thêm vào YOLOv4 mÎt khËi SPP các lÓp c¶n hußn luyªn. nh¨m tËi ˜u c£ nh˙ng ∞c tr˜ng toàn cˆc (global • ˜Ìng d®n ∫ l˜u các tªp trÂng sË ˜Òc hußn luyªn. • MÎt tªp cßu hình vÓi tßt c£ các lÓp cıa ki∏n trúc feature) và các ∞c tr˜ng cˆc bÎ (local region feature) vÓi nhi∑u kích th˜Óc, t´ng sË l˜Òng và kích YOLOv4. • Các trÂng sË cıa mô hình ã ˜Òc hußn luyªn tr˜Óc th˜Óc receptive field. • Path Aggregation Network (PAN): Trong phiên ó. b£n YOLOv3, các tác gi£ s˚ dˆng FPN (Feature Giá tr‡ cıa các bÎ lÂc (filters) ˜Òc ‡nh nghæa trong Pyramid Network) ∫ tÍng hÒp các ∞c tr˜ng toàn tªp tin có ‡nh d§ng ".cfg ". Công th˘c tính bÎ lÂc cıa cˆc (global feature)  các t¶ng tích ch™p khác YOLOv4 ˜Òc bi∫u diπn nh˜ trong công th˘c (2) sau nhau. i∑u này ˜Òc làm khác i trong phiên b£n ây: YOLOv4 vÓi viªc s˚ dˆng mÎt phiên b£n nâng cßp hÏn là PAN ∫ tÍng hÒp thông tin t¯ tßt c£ các t¶ng f ilters = 5 ⇤ (2 + number_of _classes) (2) t§i mÎt ¶u ra duy nhßt. Do nh˙ng ˜u i∫m nh˜ s¸ cân b¨ng gi˙a tËc Î và Î E. Hàm lÈi chính xác, dπ dàng thay Íi các tham sË cıa YOLOv4 Hàm lÈi cho bi∏t cách i∑u chønh trÂng sË ∫ gi£m so vÓi các ph˜Ïng pháp LRF, RFBNet, YOLOv3, SSD chi phí tính toán. Trong YOLOv4 hàm lÈi CIoU ˜Òc [1],... V™y nên trong bài báo này chúng tôi ã ∑ xußt ˜a vào nhánh Bag of Freebies (BoF). Hàm lÈi CIoU gi£i pháp phát hiªn ¶u cıa ng˜Ìi trong £nh nh˜ minh giÓi thiªu hai khái niªm mÓi so vÓi hàm lÈi IoU. Khái hÂa trong Hình 1. niªm ¶u tiên là khái niªm v∑ kho£ng cách i∫m trung ISBN: 978-604-80-5076-4 144
  4. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) IV. ÁNH GIÁ HIõU NãNG Hõ TH»NG A. D˙ liªu th˚ nghiªm 1) CÏ s d˙ liªu SCUT-HEAD: Chúng tôi s˚ dˆng t™p cÏ s d˙ liªu các hình £nh cıa ¶u ˜Òc công bË cho cÎng Áng nghiên c˘u dùng chung có tên SCUT- HEAD1 . T™p cÏ s d˙ liªu SCUT-HEAD bao gÁm hai ph¶n là Part A và Part B. Trong ó, Part A gÁm 2000 £nh ˜Òc lßy m®u t¯ video giám sát t§i các phòng hÂc trong tr˜Ìng §i hÂc vÓi 67321 vùng ˜Òc gán nhãn. Part B bao gÁm 2405 hình £nh ˜Òc thu th™p t¯ Internet vÓi 43930 vùng ˜Òc gán nhãn. C£ Part A và Part B ∑u ˜Òc chia thành các ph¶n hußn luyªn và th˚ nghiªm. 1500 hình £nh cıa Part A dành cho hußn luyªn và 500 ∫ th˚ nghiªm. 1905 hình £nh cıa Part B dành cho hußn luyªn và 500 ∫ th˚ nghiªm. T™p d˙ liªu ˜Òc ‡nh d§ng Hình 2. Quá trình hußn luyªn mô hình. chu©n theo Pascal VOC. Tuy nhiên trong khuôn khÍ bài báo này chúng tôi s˚ dˆng Part B cho viªc hußn luyªn 1905 £nh vÓi 34484 vùng ch˘a ¶u và và 500 £nh th˚ tâm, là kho£ng cách gi˙a i∫m trung tâm cıa vùng bao nghiªm vÓi 9446 vùng ch˘a ¶u. th¸c t∏ và i∫m trung tâm cıa vùng bao d¸ oán. Khái 2) CÏ s d˙ liªu t¸ xây d¸ng sub-MICA-HEAD: T™p niªm th˘ hai là t lª khung hình, so sánh t lª khung d˙ liªu MICA-HEAD do chúng tôi thi∏t k∏ và thu th™p hình cıa vùng bao th¸c và t lª khung hình cıa vùng trong các lÓp hÂc t§i Viªn nghiên c˘u QuËc t∏ MICA bao d¸ oán. VÓi ba th˜Óc o là IoU, kho£ng cách gi˙a -Tr˜Ìng §i hÂc Bách Khoa Hà NÎi. Do hiªn nay t™p i∫m trung tâm, t lª khung hình có th∫ tính ˜Òc hàm cÏ s d˙ liªu cıa chúng tôi v®n ang ti∏p tˆc ˜Òc thu lÈi CIoU qua công th˘c (3) sau ây: th™p và gán nhãn. Vì v™y trong khuôn khÍ cıa bài báo này, chúng tôi s˚ dˆng t™p con cıa bÎ cÏ s d˙ liªu ⇢2 (b, bgt ) MICA-HEAD và ∞t tên là sub-MICA-HEAD. ây là LCIoU = 1 IoU + + ↵v (3) c2 t™p cÏ s d˙ liªu ã ˜Òc chúng tôi ti∏n hành gán nhãn và phân lo§i ∫ hußn luyªn cÙng nh˜ th˚ nghiªm hª Trong ó: IoU ˜Òc tính theo công th˘c (4); b và bgt thËng. là các i∫m chính gi˙a cıa vùng bao d¸ oán và vùng T™p d˙ liªu con sub-MICA-HEAD bao gÁm 288 £nh bao th¸c t∏; ⇢ là kho£ng cách Euclidean; c là Î dài vÓi 2188 vùng ch˘a ¶u lßy ng˙ c£nh là lÓp hÂc th¸c ˜Ìng chéo cıa vùng bao nh‰ nhßt gi˙a vùng bao d¸ t∏ và ˜Òc truy xußt t¯ các máy quay. T™p d˙ liªu chia oán và vùng bao th¸c t∏; v o tính nhßt quán cıa t lª thành 259 £nh d˙ liªu hußn luyªn vÓi 2029 vùng ch˘a khung hình ˜Ïc tính theo công th˘c (5) và ↵ là tham ¶u và 29 £nh cho d˙ liªu th˚ nghiªm vÓi 159 vùng sË cân b¨ng d˜Ïng ˜Òc tính theo công th˘c (6). ch˘a ¶u. Chúng tôi ã th¸c hiªn thËng kê chi ti∏t v∑ |B \ B gt | viªc chia d˙ liªu thành t™p hußn luyªn và ki∫m th˚ cıa IoU = (4) hai t™p d˙ liªu s˚ dˆng cho ph˜Ïng pháp ∑ xußt ˜Òc |B [ B gt | th∫ hiªn trong B£ng I. Chúng tôi s˚ dˆng d˙ liªu theo Trong ó: B = (x, y, w, h) là vùng bao d¸ oán; B gt = tiêu chu©n cıa PASCAL VOC. Hình £nh cıa hai t™p d˙ (xgt , y gt , wgt , hgt ) là vùng bao th¸c t∏. liªu SCUT-HEAD và sub-MICA-HEAD ˜Òc minh hÂa ✓ ◆2 nh˜  Hình 3. 4 wgt w v= arctan arctan (5) B. Î o ánh giá ⇡2 hgt h Î chính xác thu ˜Òc trên t™p d˙ liªu th˚ nghiªm là Trong ó: wgt , hgt là chi∑u rÎng và chi∑u cao cıa vùng th˜Óc o ánh giá hiªu qu£ phân lo§i trong bài báo cıa bao th¸c t∏; w, h là chi∑u cao và chi∑u rÎng cıa vùng chúng tôi. Chúng tôi ánh giá quá trình hußn luyªn và bao d¸ oán. th˚ nghiªm b¨ng Î chính xác (Precision), Î triªu hÁi v 1 CÏ s d˙ liªu SCUT-HEAD có th∫ t£i xuËng t¯ ‡a chø nh˜ sau: ↵= (6) (1 IoU ) + v https://github.com/HCIILAB/SCUT-HEAD-Dataset-Release. ISBN: 978-604-80-5076-4 145
  5. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) B£ng I B£ng II TH»NG KÊ Cà S– D⁄ LIõU KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€ C’A Cà S– D⁄ LIõUSUB SUB -SCUT-HEAD SCUT-HEAD sub-MICA-HEAD Part A Part B Ph˜Ïng pháp Precision Recall Hußn luyªn SL Énh 1500 1905 259 Faster R-CNN [7](VGG16) 0.87 0.81 YOLOv2 [8] 0.74 0.67 SL ¶u 50103 34484 2029 SSD [4] 0.80 0.66 Th˚ nghiªm SL Énh 500 500 29 R-FCN [9] 0.90 0.82 SL ¶u 17218 9446 159 R-FCN + FRN [2] 0.92 0.84 Multi-Scale [2] 0.92 0.87 Ph˜Ïng pháp cıa bài báo (YOLOv4) 0.92 0.91 2) K∏t qu£ trên bÎ d˙ liªu sub-MICA-HEAD: Sau khi hußn luyªn hoàn tßt vÓi Part B cıa t™p d˙ liªu SCUT-HEAD chúng tôi ti∏n hành hußn luyªn l§i vÓi t™p d˙ liªu sub-MICA-HEAD cıa mình. S˚ dˆng nh˙ng trÂng sË ã hÂc t¯ mô hình là k∏t qu£ hußn luyªn tr˜Óc ó cho t™p d˙ liªu SCUT-HEAD. Sau quá trình hußn luyªn và th˚ nghiªm chúng tôi ˜Òc nh˙ng k∏t qu£ nh˜ B£ng III. CÙng giËng nh˜ Ëi vÓi cÏ s d˙ liªu SCUT- Hình 3. Minh hÂa £nh và gán nhãn vùng ¶u trên CSDL SCUT- HEAD, ph˜Ïng pháp ∑ xußt cho k∏t qu£ cao vÓi Î HEAD(bên trái) và sub-MICA-HEAD(bên ph£i). triªu hÁi 0.98. Cùng vÓi ó là Î chính xác ph˜Ïng pháp cıa chúng tôi cho k∏t qu£ Î chính xác cao vÓi 0.92. Bên c§nh viªc tính toán theo các Î o nh˜ ã nêu (Recall). Trong ó, Î chính xác ˜Òc ‡nh nghæa là tø lª  trên, chúng tôi bi∫u diπn k∏t qu£ quá trình th˚ nghiªm sË ¶u ng˜Ìi phát hiªn úng trên tÍng sË th˚ nghiªm và cıa mình b¨ng bi∫u Á ˜Ìng cong Presion-Recall ˜Òc Î triªu hÁi là tø lª ¶u ng˜Ìi phát hiªn úng trên tÍng minh hÂa trong Hình 4. sË ¶u ng˜Ìi có trong t™p hình £nh. Ngoài Î chính xác và Î triªu hÁi, mAP cÙng ˜Òc s˚ dˆng. mAP là Î B£ng III chính xác trung bình (average precision) cıa N lÓp và KòT QUÉ PHÁT HIõN TRÊN TäP HUáN LUYõN VÀ TäP KIöM TH€ C’A Cà S– D⁄ LIõU SUB -MICA-HEAD ˜Òc ‡nh nghæa nh˜ bi∫u diπn trong công th˘c (7) sau ây: T™p d˙ liªu Precision Recall mAP@0.5 N Train 0.93 0.97 0.96 1 X mAP = APi (7) Test 0.92 0.98 0.97 N i=1 C. K∏t qu£ th¸c nghiªm 1) K∏t qu£ trên bÎ d˙ liªu SCUT-HEAD: Chúng tôi ti∏n hành hußn luyªn mô hình vÓi các trÂng sË ã ˜Òc hÂc t¯ mô hình YOLOv4.conv.137, s˚ dˆng các thông sË nh˜ sau: kích th˜Óc m¥ hußn luyªn (batch size) b¨ng 64 vÓi 6000 l¶n l∞p. K∏t qu£ phát hiªn cıa mô hình ˜Òc so sánh vÓi các ph˜Ïng pháp khác trên cÏ s d˙ liªu SCUT-HEAD th∫ hiªn  B£ng II. Ph˜Ïng pháp ∑ xußt §t Î chính xác là 0.92 b¨ng vÓi các ph˜Ïng pháp tr˜Óc ó d¸a trên m§ng R-FCN + FRN và Multi-Scale. Î triªu hÁi cıa ph˜Ïng pháp ∑ xußt 0.91, cao hÏn tßt c£ các ph˜Ïng pháp tr˜Óc ó. i∑u này ch˘ng t‰ ph˜Ïng pháp ∑ xußt cho phép phát hiªn t˜Ïng Ëi ¶y ı sË ng˜Ìi trên £nh. Tuy nhiên vÓi Î triªu hÁi là 0.95 thì Hình 4. ˜Ìng cong Precision-Recall cıa t™p d˙ liªu th˚ nghiªm Î chính xác gi£m còn 0.85, v™y nên ph˜Ïng pháp c¶n SCUT-HEAD và sub-MICA-HEAD. ti∏p tˆc ˜Òc c£i ti∏n. ISBN: 978-604-80-5076-4 146
  6. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) 3) Th£o lu™n: Sau quá trình th˚ nghiªm chúng tôi này chúng tôi ã ti∏n hành xây d¸ng và gán nhãn t™p ã ki∫m ch˘ng l§i k∏t qu£ cıa mình. Chúng tôi ã phát d˙ liªu hình £nh trong lÓp hÂc phˆc vˆ cho viªc hußn hiªn ra nh˙ng tr˜Ìng hÒp hª thËng phát hiªn thi∏u hay luyªn l§i mô hình ∫ phát hiªn Ëi t˜Òng ¶u ng˜Ìi phát hiªn nh¶m Ëi t˜Òng ¶u. Cˆ th∫ Hình 6(bên trái), trong lÓp hÂc. Bên c§nh ó chúng tôi có nh˙ng ánh hª thËng phát hiªn thi∏u vÓi tr˜Ìng hÒp ang n¨m trên giá v∑ k∏t qu£ trên Part B cıa t™p d˙ liªu SCUT-HEAD m∞t bàn. Do s¸ che khußt là khá lÓn trong môi tr˜Ìng cùng vÓi t™p d˙ liªu ∑ xußt là sub-MICA-HEAD. K∏t m™t Î hÂc sinh ngÁi san sát nhau nh˜ trong Hình 6(bên qu£ cho thßy r¨ng Î chính xác (Precision) t˜Ïng ˜Ïng trái) và Hình 5(bên ph£i) ˜Òc chúng tôi minh hÂa b¨ng vÓi ph˜Ïng pháp Multi-Scale, tuy nhiên Î triªu hÁi mÙi tên màu ‰ chø vào Ëi t˜Òng b‡ phát hiªn thi∏u (Recall) cao hÏn ph˜Ïng pháp Multi-Scale 0.04 vÓi t™p trong khung hình. Cùng vÓi s¸ phát hiªn thi∏u, chúng d˙ liªu SCUT-HEAD. Trong thÌi gian tÓi, chúng tôi s≥ tôi cÙng minh hÂa tr˜Ìng hÒp phát hiªn nh¶m l®n nh˜ hoàn thiªn CSDL sub-MICA-HEAD, và ti∏p tˆc ánh Hình 5(bên trái). Trong tr˜Ìng hÒp này Ëi t˜Òng b‡ giá cÙng nh˜ c£i ti∏n m§ng, ho∞c k∏t hÒp mô hình phát phát hiªn nh¶m có ∞c tr˜ng khá giËng Ëi t˜Òng ¶u hiªn ¶u và ng˜Ìi nh¨m c£i thiªn hiªu n´ng nh™n d§ng. ng˜Ìi. Tuy nhiên hª thËng cıa chúng tôi có th∫ phát LÕI CÉM ÃN hiªn Ëi t˜Òng là ¶u trong tr˜Ìng hÒp chø có mÎt ph¶n ¶u trong Hình 6(bên ph£i) và Ëi t˜Òng ¶u này không Nghiên c˘u này ˜Òc tài trÒ ∑ tài NCKH cßp BÎ, BÎ ˜Òc gán nhãn trong cÏ s d˙ liªu SCUT-HEAD. Giáo dˆc và ào t§o "Nghiên c˘u phát tri∫n hª thËng t¸ Îng ánh giá ho§t Îng hÂc t™p trong lÓp hÂc d¸a trên công nghª x˚ l˛ £nh và trí tuª nhân t§o" mã sË CT2020.02.BKA.02. TÀI LIõU THAM KHÉO [1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” 2020. [2] D. Peng, Z. Sun, Z. Chen, Z. Cai, L. Xie, and L. Jin, “Detecting heads using feature refine net and cascaded multi-scale architec- ture,” 2018 24th International Conference on Pattern Recognition (ICPR), pp. 2528–2533, 2018. [3] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik, “Hyper- columns for object segmentation and fine-grained localization,” in Proceedings of the IEEE conference on computer vision and Hình 5. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn pattern recognition, 2015, pp. 447–456. nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn [4] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, thi∏u. and A. C. Berg, “Ssd: Single shot multibox detector,” in European conference on computer vision. Springer, 2016, pp. 21–37. [5] T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853. [6] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider to see better,” arXiv preprint arXiv:1506.04579, 2015. [7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, p. 1137–1149, Jun. 2017. [Online]. Available: https://doi.org/10.1109/TPAMI.2016.2577031 [8] J. Redmon and A. Farhadi, “Yolo9000: Better, faster, stronger,” 2017 IEEE Conference on Computer Vision and Pattern Recog- nition (CVPR), pp. 6517–6525, 2017. [9] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via Hình 6. Phát hiªn sai Ëi t˜Òng ¶u ng˜Ìi.Vùng màu xanh th∫ hiªn region-based fully convolutional networks,” in Advances in neural nh˙ng phát hiªn úng, mÙi tên màu ‰ chø tÓi Ëi t˜Òng b‡ phát hiªn information processing systems, 2016, pp. 379–387. thi∏u ho∞c phát hiªn thêm. V. KòT LUäN Trong bài báo này chúng tôi ã tìm hi∫u v∑ mô hình ho§t Îng cıa YOLO và nh˙ng c£i ti∏n cıa YOLOv4 so vÓi nh˙ng phiên b£n tr˜Óc ó. Cˆ th∫ trong bài báo ISBN: 978-604-80-5076-4 147
nguon tai.lieu . vn