Phát hiện đối tượng trong ảnh bị hạn chế tầm nhìn bởi sương mù

Một trong những thách thức của bài toán phát hiện đối tượng là sự ảnh hưởng của môi trường đến chất lượng hình ảnh đầu vào. Trong nghiên cứu này tác giả tập trung vào bài toán phát hiện đối tượng trong thời tiết sương mù. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Phát hiªn Ëi t˜Òng trong £nh b‡ h§n ch∏ t¶m nhìn bi s˜Ïng mù Phan Vænh Long⇤ , Võ Duy Nguyên⇤ Nguyπn Tßn Tr¶n Minh Khang⇤ ⇤§i hÂc Công nghª Thông tin, HQG-HCM Email: 16520695@gm.uit.edu

Thể loại Tài liệu miễn phí Kỹ thuật lập trình

Số trang 6

Ngày tạo 4/3/2023 3:32:49 PM +00:00

Loại tệp PDF

Kích thước 2.00 M

Tên tệp

Tải Phát hiện đối tượng trong ảnh bị hạn chế tầm nhìn ... (.pdf)

Xem mẫu

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Phát hiªn Ëi t˜Òng trong £nh b‡ h§n ch∏ t¶m nhìn bi s˜Ïng mù Phan Vænh Long⇤ , Võ Duy Nguyên⇤ Nguyπn Tßn Tr¶n Minh Khang⇤ ⇤§i hÂc Công nghª Thông tin, HQG-HCM Email: 16520695@gm.uit.edu.vn, {nguyenvd, khangnttm}@uit.edu.vn Tóm t≠t—MÎt trong nh˙ng thách th˘c cıa bài toán phát nh™n diªn v™t th∫ t¯ £nh chˆp trong môi tr˜Ìng không hiªn Ëi t˜Òng là s¸ £nh h˜ng cıa môi tr˜Ìng ∏n chßt khí ch˘a các v™t chßt nêu trên. l˜Òng hình £nh ¶u vào. Trong nghiên c˘u này, chúng tôi Hình 1 là mÎt sË ví dˆ v∑ hình £nh chˆp trong môi t™p trung vào bài toán phát hiªn Ëi t˜Òng trong thÌi ti∏t s˜Ïng mù. H¶u h∏t các hª thËng phát hiªn Ëi t˜Òng trong tr˜Ìng h§n ch∏ v∑ t¶m nhìn. £nh ˜Òc hußn luyªn trong i∑u kiªn thÌi ti∏t tËt, s¸ xußt hiªn cıa s˜Ïng mù tr thành mÎt thách th˘c lÓn. Do ó, chúng tôi gi£ s˚ s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh và th¸c hiªn nghiên c˘u hai mô hình Feature Selective Anchor-Free (FSAF) và Generalized Focal Loss (GFL) trên t™p RTTS cıa bÎ d˙ liªu Realistic Single Image Dehazing gÁm 4,322 hình vÓi 41,203 Ëi t˜Òng. Chúng tôi chia l§i bÎ d˙ liªu nh˜ng v®n gi˙ tø lª xußt hiªn cıa các lÓp Ëi t˜Òng, Áng thÌi v®n gi˙ tính ng®u nhiên cıa d˙ liªu, k∏t hÒp vÓi hÂc chuy∫n giao vÓi gi£ thi∏t s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh. Sau khi áp dˆng ph˜Ïng pháp, mô hình GFL cho k∏t qu£ tËt hÏn FSAF trên tßt c£ các lÓp Ëi t˜Òng vÓi Î o AP[0.50:0.95] l¶n l˜Òt là 0.463, 0.442, 0.615, 0.454, 0.594, 0.513 t˜Ïng ˘ng vÓi các lÓp bicycle, bus, car, motorcycle, person. Các mô hình sau khi ˜Òc hußn luyªn l§i cho k∏t qu£ v˜Òt trÎi so vÓi các mô hình ti∑n hußn luyªn t˜Ïng ˘ng. K∏t qu£ này là Îng l¸c cho các nghiên c˘u ti∏p theo. Hình 1: MÎt sË hình £nh chˆp trong môi tr˜Ìng h§n ch∏ T¯ khóa—deep learning, object detection, poor visibility, v∑ t¶m nhìn. hazy image, Feature Selective Anchor-Free, Generalized Focal Loss, transfer learning Ph¶n lÓn các mô hình phát hiªn Ëi t˜Òng d¸a trên m§ng nÏ ron hÂc sâu ˜Òc chia thành hai nhóm chính I. GIŒI THIõU là thu™t toán phát hiªn Ëi t˜Òng mÎt pha (one-stage Trong vài th™p k g¶n ây, phát hiªn Ëi t˜Òng ã object detector) và thu™t toán phát hiªn Ëi t˜Òng hai tr thành mÎt trong nh˙ng bài toán quan trÂng cıa th‡ pha (two-stage object detector). giác máy tính nói riêng cÙng nh˜ khoa hÂc máy tính nói Trong nghiên c˘u này, chúng tôi ã th¸c nghiªm hai chung. Cùng vÓi s¸ phát tri∫n cıa ph¶n c˘ng máy tính ph˜Ïng pháp cıa các ph˜Ïng pháp nh™n diªn v™t th∫ và s¸ gia t´ng liên tˆc cıa d˙ liªu, các ph˜Ïng pháp d¸a trên hÂc sâu thuÎc phân lo§i các thu™t toán phát d¸a trên hÂc sâu ã §t nh˙ng k∏t qu£ cao cho bài toán hiªn Ëi t˜Òng mÎt pha: Feature Selective Anchor-Free phát hiªn Ëi t˜Òng cÙng nh˜ các bài toán khác. (ASAF) [1] và Generalized Focal Loss [2] trên bÎ d˙ Do s¸ tÁn t§i cıa các v™t chßt nh‰ trong không khí liªu Realistic Single Image Dehazing (RTTS) [3]. Chúng (khói, bˆi, s˜Ïng mù, ...), hình £nh ˜Òc chˆp trong tôi ∑ xußt ph˜Ïng pháp chia d˙ liªu £m b£o tính ng®u nh˙ng môi tr˜Ìng này có th∫ b‡ £nh h˜ng v∑ chßt l˜Òng nhiên cıa d˙ liªu Áng thÌi v®n gi˙ tø lª sË l˜Òng các nÎi dung l˜u tr˙. Nh˙ng môi tr˜Ìng này th˜Ìng ˜Òc lÓp Ëi t˜Òng  t¯ng t™p d˙ liªu. Sau ó ánh giá k∏t gÂi là môi tr˜Ìng h§n ch∏ v∑ t¶m nhìn. Các hª thËng qu£ mô hình hußn luyªn tr˜Óc và mô hình t¸ hußn luyªn xây d¸ng d¸a trên £nh chˆp trong môi tr˜Ìng không khi xem s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh, khí s§ch thông th˜Ìng cho k∏t qu£ thßp khi s˚ dˆng ∫ t¯ ó phân tích k∏t qu£ §t ˜Òc và ˜a ra ph˜Ïng án ISBN: 978-604-80-5076-4 44
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) c£i thiªn cho bài toán. mô t£ phân bË bounding-box trong nh˙ng n´m g¶n ây. Tuy nhiên các ph˜Ïng pháp này quá c˘ng nh≠c II. CÁC NGHIÊN CŸU LIÊN QUAN và Ïn gi£n cho viªc bi∫u diπn s¸ phân bË th¸c t∏ Trong ph¶n này, chúng tôi trình bày mÎt sË ph˜Ïng cıa d˙ liªu. Do ó DFL giÓi thiªu hàm DFL giúp pháp phát hiªn Ëi t˜Òng mÎt pha tiên ti∏n (state-of-the- viªc th∫ hiªn s¸ phân bË cıa bounding-box tËt hÏn art) ˜Òc s˚ dˆng th¸c nghiªm trong bài báo. và ch˘a nhi∑u thông tin hÏn theo công th˘c (2) vÓi A. Feature Selective Anchor-Free Si là giá tr‡ phân phËi ˘ng vÓi giá tr‡ yi . Feature Selective Anchor-Free giÓi thiªu v∑ mô un DFL (Si , Si+1 ) Feature Selective Anchor-Free (FSAF), là mÎt khËi = ((yi+1 y) log (Si ) (2) (block) cho các thu™t toán phát hiªn Ëi t˜Òng. Các thu™t + (y yi ) log (Si+1 )) toán phát hiªn Ëi t˜Òng có s˚ dˆng ki∏n trúc kim t¸ tháp ∞c tr˜ng (feature pyramid) ∑u có th∫ s˚ dˆng T¯ hàm QFL (1) và DFL (2), hàm tÍng quát GFL ˜Òc FSAF nh˜ mÎt mô un ∫ g≠n vào mô hình cıa mình. tính theo công th˘c (3). Rßt nhi∑u thu™t toán phát hiªn Ëi t˜Òng tiên ti∏n ˜Òc thi∏t k∏ d¸a trên ki∏n trúc kim t¸ tháp ∞c tr˜ng. GFL (pyl , pyr ) = |y (yl pyl + yr pyr )| (3) Các bounding-box ¶u vào ˜Òc chia vào các anchor ((yr y) log (pyl ) + (y yl ) log (pyr )) box t˜Ïng ˘ng b¨ng cách s˚ dˆng Î o IoU. Nh˙ng mô hình phát hiªn Ëi t˜Òng này có các nh˜Òc i∫m: Hình 3 cho thßy k∏t qu£ khi s˚ dˆng hàm mßt mát heuristic-guided feature selection và overlap-based GFL cho k∏t qu£ phát hiªn Ëi t˜Òng và thÌi gian tính anchor sampling. Mô un FSAF kh≠c phˆc nh˙ng h§n toán tËt so vÓi mÎt sË ph˜Ïng tiên ti∏n trên bÎ d˙ liªu ch∏ này b¨ng cách cho phép mÈi ph¶n t¯ ¶u vào l¸a COCO test-dev, trong ó có mô hình FSAF. chÂn cßp Î cıa pyramid feature tËt nhßt cho nó. ﬁ III. KòT QUÉ TH‹C NGHIõM t˜ng cıa mô un FSAF ˜Òc th∫ hiªn  Hình 2. A. Î o B£ng I th∫ hiªn k∏t qu£ so sánh trên mÎt sË ph˜Ïng Intersection over Union pháp tiên ti∏n hiªn nay. Trên các backbone ResNet-101 V‡ trí cıa mÎt v™t th∫ trong £nh th˜Ìng ˜Òc th∫ hiªn và ResNeXt-101, FSAF §t ˜Òc k∏t qu£ cao hÏn so vÓi b¨ng mÎt hình ch˙ nh™t bao quanh v™t th∫ ó trong £nh. các ph˜Ïng pháp ˜Òc so sánh. Hình ch˙ nh™t này ˜Òc gÂi là ground-truth Ëi vÓi nhãn B. Generalized Focal Loss cıa v™t th∫ trong bÎ d˙ liªu và predicted bounding-box Ëi vÓi k∏t qu£ d¸ oán v™t th∫ trong £nh. Các mô hình ˜Òc thi∏t k∏ theo cßu trúc one-stage Intersection over Union (IoU) là mÎt Î o phÍ bi∏n detector thông th˜Ìng s≥ g∞p ph£i hai vßn ∑ ˜Òc th˜Ìng ˜Òc s˚ dˆng cho viªc o l˜Ìng Î chính xác Generalized Focal Loss (GFL) gi£i quy∏t b¨ng hai mô cıa các ph˜Ïng pháp phát hiªn Ëi t˜Òng trong £nh. Î un: o này tính toán m˘c Î trùng khÓp cıa bounding-box • Quality Focal Loss (QFL). Giai o§n hußn luyªn ˜Òc d¸ oán cıa v™t th∫ so vÓi ground-truth cıa v™t gÁm hai ph¶n chính là classification (phân lÓp) và th∫ ó trong £nh. localization (cˆc bÎ hóa). Viªc hußn luyªn hai thành ph¶n này Îc l™p nhau nh˜ng ˜Òc k∏t hÒp ∫ s˚ Average Precision dˆng chung cho viªc d¸ oán t§o ra s¸ không nhßt Average Precision (AP) là vùng diªn tích ph¶n t§o quán. i∑u này gây £nh h˜ng ∏n k∏t qu£ d¸ oán thành t¯ ˜Ìng cong precision-recall vÓi hai trˆc cıa cıa mô hình. ∫ gi£i quy∏t vßn ∑ này, GFL k∏t bi∫u Á trong bi∫u Á precision-recall. Tr˜Óc khi tính hÒp viªc ánh giá localization và classification s˚ toán giá tr‡ AP trong bài toán phát hiªn Ëi t˜Òng, thông dˆng nhãn soft one-hot, ˜Òc k˛ hiªu là y 2 [0, 1]. th˜Ìng ˜Ìng zigzac precision-recall s≥ ˜Òc làm m˜Òt. VÓi k∏t qu£ ¶u ra cıa hàm sigmoid ˜Òc k˛ hiªu T§i mÈi giá tr‡ cıa recall, giá tr‡ precision t˜Ïng ˘ng s≥ là , GFL ∑ xußt hàm QFL theo công th˘c (1). ˜Òc thay th∏ b¨ng giá tr‡ precision lÓn nhßt n¨m phía QFL( ) = |y | ((1 y) bên ph£i cıa giá tr‡ precision ó. (1) X log(1 ) + y log( )) AP = (rn+1 rn ) pinerp (rn+1 ) (4) • Distribution Focal Loss (DFL). Phân phËi Dirac pinterp (rn+1 ) = max p(e r) delta và Gaussian th˜Ìng ˜Òc s˚ dˆng cho viªc r˜ rn+1 ISBN: 978-604-80-5076-4 45
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Hình 2: Mô un FSAF ˜Òc g≠n vào anchor-based object detector [1]. Method Backbone AP AP50 AP75 APS APM APL YOLOv2 [4] DarkNet-19 21.6 44.0 19.2 5.0 22.4 35.5 SSD513 [5] 8*ResNet-101 31.2 50.4 33.3 10.2 34.5 49.8 DSSD513 [6] 33.2 53.3 35.2 13.0 35.4 51.1 RefineDet512 (single-scale) [7] 36.4 57.5 39.5 16.6 39.9 51.4 RefineDet (multi-scale) [7] 41.8 62.9 45.7 25.6 45.1 54.1 RetinaNet800 [8] 39.1 59.1 42.3 21.8 42.7 50.2 GHM800 [9] 39.9 60.8 42.5 20.3 43.6 54.1 FSAF (single-scale) 40.9 61.5 44.0 24.0 44.2 51.3 FSAF (multi-scale) 42.8 63.1 46.5 27.8 45.5 53.2 CornerNet511 (single-scale) [10] 2*Hourglass-104 40.5 56.5 43.1 19.4 42.7 53.9 CornerNet (multi-scale) [10] 42.1 57.8 45.3 20.8 44.8 56.7 GHM800 [9] 3*ResNeXt-101 41.6 62.8 44.2 22.3 45.1 55.3 FSAF (single-scale) 42.9 63.8 46.3 26.6 46.2 52.7 FSAF (multi-scale) 44.6 65.2 48.6 29.7 47.1 54.6 B£ng I: MÎt sË ph˜Ïng pháp phát hiªn Ëi t˜Òng trên bÎ d˙ liªu COCO test-dev [1]. c£ các ng˜Ông cıa Î o IoU. B. BÎ d˙ liªu BÎ d˙ liªu ˜Òc s˚ dˆng trong nghiên c˘u này là bÎ d˙ liªu Realistic Single Image Dehazing (RESIDE). BÎ d˙ liªu RESIDE bao gÁm 433,579 £nh. Tuy nhiên chø có 4,322 £nh thuÎc t™p Real-world Task-driven Testing Set (RTTS) là phù hÒp vÓi bài toán nh™n diªn v™t th∫ trong i∑u kiªn t¶m nhìn h§n ch∏. T™p d˙ liªu RTTS ch˘a 4322 £nh ˜Òc chˆp trong i∑u kiªn thÌi ti∏t s˜Ïng mù, và ˜Òc g≠n nhãn cho 5 lÓp Ëi t˜Òng vÓi phân bË nh˜ hình 4. T™p d˙ liªu RTTS có sË l˜Òng ph¶n t˚ cıa t¯ng lÓp phân bË không Áng ∑u, ∞c biªt Hình 3: K∏t qu£ th¸c nghiªm GFL so sánh vÓi các  hai lÓp bicycle là 689 ph¶n t˚ và car là 25,317 ph¶n t˚. ph˜Ïng pháp tiên ti∏n [2]. C. Phân chia d˙ liªu Mean Average Precision Viªc phân chia d˙ liªu là vô cùng quan trÂng, £nh The mean Average Precision (mAP) ˜Òc tính b¨ng h˜ng ∏n k∏t qu£ cıa mô hình sau khi hußn luyªn. cách lßy trung bình giá tr‡ AP cıa tßt c£ các lÓp và tßt Ph˜Ïng pháp th˜Ìng dùng là chia bÎ d˙ liªu thành 3 ISBN: 978-604-80-5076-4 46
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) D. Hußn huyªn và ánh giá mô hình Hình 4: S¸ phân bË các lÓp trong t™p d˙ liªu RTTS. Hình 6: Bi∫u Á hàm mßt mát trong mÎt l¶n hußn luyªn ph¶n train, val, test theo tø lª sË l˜Òng hình £nh nhßt mô hình FSAF vÓi 12 epoch. ‡nh vÓi viªc phân bË các hình cÙng nh˜ các lÓp Ëi t˜Òng là ng®u nhiên. VÓi nh˙ng t™p d˙ liªu có kích Trong ph¶n th¸c nghiªm, chúng tôi hußn luyªn và ánh giá hai ph˜Ïng pháp phát hiªn Ëi t˜Òng tiên ti∏n là Feature Selective Anchor-Free và Generalized Focal Loss trên máy tính s˚ dˆng hª i∑u hành Ubuntu 16.04.5 LTS 64 bit vÓi cßu hình RAM 6 x DDR3 8GB, GPU RTX 2080Ti, CPU Intel(R) Xeon(R) CPU E5-2620 v2 12 Cores. VÓi t¯ng ph˜Ïng pháp, chúng tôi th¸c hiªn ánh giá trên mô hình ã ˜Òc pretrained (ti∑n hußn luyªn) cÙng nh˜ hußn luyªn thêm d˙ liªu trong t™p RTTS vÓi 12 epoch trên t™p train cıa d˙ liªu ã ˜Òc chia sau ó ti∏n hành ánh giá. ∫ £m b£o tính công b¨ng khi so sánh, c£ hai ph˜Ïng pháp ∑u ˜Òc ti∑n hußn luyªn trên bÎ d˙ liªu COCO vÓi backbone là m§ng RetinaNet-50. Hình 5: S¸ phân bË các Ëi t˜Òng trong t™p train, val E. K∏t qu£ và phân tích và test K∏t qu£ trên mô hình ti∑n hußn luyªn: B£ng II và th˜Óc lÓn, viªc phân chia d˙ liªu ng®u nhiên giúp mô III cho k∏t qu£ khá thßp so vÓi k∏t qu£ cıa mô hình hình ˜Òc hÂc và ánh giá mÎt cách khách quan hÏn. ˜Òc th˚ nghiªm trên bÎ d˙ liªu COCO (không b‡ h§n Tuy nhiên vÓi nh˙ng bÎ d˙ liªu có kích th˜Óc nh‰ và tø ch∏ t¶m nhìn). T¯ ó có th∫ thßy ˜Òc các y∏u tË h§n lª phân bË các lÓp Ëi t˜Òng chênh lªch lÓn nh˜ RTTS, ch∏ t¶m nhìn nói chung và s˜Ïng mù nói riêng làm £nh viªc phân chia d˙ liªu ng®u nhiên có tø lª cao khi∏n cho h˜ng nhi∑u ∏n k∏t qu£ cıa các mô hình phát hiªn Ëi viªc mßt cân b¨ng d˙ liªu càng tr nên nghiêm trÂng. t˜Òng. Mô hình ti∑n hußn luyªn cıa FSAF và GFL ∑u Do ó chúng tôi th¸c hiªn chia d˙ liªu sao cho tø lª Ëi cho k∏t qu£ tËt nhßt trên lÓp Ëi t˜Òng person vÓi giá t˜Òng t˜Ïng ˘ng vÓi t¯ng lÓp Ëi t˜Òng trong ba t™p tr‡ Î o AP[0.50:0.95] là 0.469 và 0.490. train, val và test ngang nhau nh˜ng v®n £m b£o tính ng®u nhiên cıa d˙ liªu. FSAF ti∑n hußn luyªn LÓp AP[0.50:0.95] AP[0.50] AP[0.75] ∫ th¸c hiªn ph˜Ïng pháp này, vÓi mÈi £nh trong bÎ bicycle 0.180 0.338 0.135 d˙ liªu, sË l˜Òng Ëi t˜Òng t˜Ïng ˘ng vÓi t¯ng lÓp s≥ bus 0.184 0.309 0.197 ˜Òc tính và l˜u d˜Ói d§ng vector 5 chi∑u (˘ng vÓi 5 car 0.376 0.674 0.375 lÓp Ëi t˜Òng l¶n l˜Òt là bicycle, bus, car, motorcycle, motorcycle 0.194 0.483 0.096 person). D˙ liªu thu ˜Òc s≥ là ¶u vào cıa hàm person 0.469 0.774 0.481 StratifiedKFold [11], t¯ ó thu ˜Òc danh sách các £nh Tßt c£ 0.280 0.526 0.257 ˜Òc chia theo ba bÎ train, val và test th‰a mãn i∑u kiªn tø lª sË l˜Òng Ëi t˜Òng  mÈi t™p d˙ liªu không B£ng II: K∏t qu£ mô hình FSAF ti∑n hußn luyªn trên có s¸ chênh lªch lÓn. COCO dataset. ISBN: 978-604-80-5076-4 47
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) qu£ này có th∫ thßy ˜Òc s¸ £nh h˜ng cıa s˜Ïng mù ∏n k∏t qu£ phát hiªn v™t th∫ trong £nh, cÙng nh˜ s¸ c£i GFL ti∑n hußn luyªn thiªn cıa viªc hußn luyªn coi s˜Ïng mù nh˜ mÎt ph¶n LÓp AP[0.50:0.95] AP[0.50] AP[0.75] bicycle 0.238 0.442 0.209 nÎi dung cıa £nh. bus 0.200 0.307 0.219 Mô hình FSAF và GFL sau khi hußn luyªn l§i cho k∏t car 0.406 0.698 0.423 qu£ tËt nhßt trên lÓp car vÓi giá tr‡ Î o AP[0.50:0.95] motorcycle 0.202 0.470 0.127 là 0.601 và 0.615. So vÓi mô hình ti∑n hußn luyªn, k∏t person 0.490 0.761 0.519 qu£ AP[0.50:0.95] trung bình trên tßt c£ các lÓp Ëi Tßt c£ 0.307 0.535 0.300 t˜Òng t´ng t¯ 0.280 lên 0.489 và 0.307 lên 0.513 t˜Ïng ˘ng vÓi FSAF và GFL. Mô hình GFL Áng thÌi cho k∏t B£ng III: K∏t qu£ mô hình GFL ti∑n hußn luyªn trên qu£ tËt nhßt khi s˚ dˆng mô hình ti∑n hußn luyªn cÙng COCO dataset. nh˜ khi ˜Òc hußn luyªn l§i. K∏t qu£ trên mô hình hußn luyªn xem s˜Ïng mù là mÎt ph¶n ∞c tr˜ng Ëi t˜Òng: B£ng IV cho thßy k∏t qu£ th¸c nghiªm trên hai ph˜Ïng pháp FSAF và GFL sau khi hußn luyªn l§i trên t™p train và ánh giá b¨ng t™p val. Th˚ nghiªm mô hình ã ˜Òc hußn luyªn l§i trên t™p val Ph˜Ïng pháp AP[0.50:0.95] AP[0.50] AP[0.75] FSAF 0.504 0.764 0.555 GFL 0.519 0.768 0.573 B£ng IV: K∏t qu£ validate cıa các mô hình ã ˜Òc hußn luyªn l§i. Th˚ nghiªm FSAF ˜Òc hußn luyªn l§i trên t™p test LÓp AP[0.50:0.95] AP[0.50] AP[0.75] bicycle 0.430 0.663 0.472 bus 0.414 0.646 0.450 car 0.601 0.883 0.678 motorcycle 0.429 0.738 0.466 person 0.572 0.864 0.631 Tßt c£ 0.489 0.759 0.539 Hình 7: MÎt sË tr˜Ìng hÒp phát hiªn ch˜a tËt t¯ mô B£ng V: K∏t qu£ th˚ nghiªm mô hình FSAF ã ˜Òc hình. Màu xanh là k∏t qu£ d¸ oán cıa mô hình, màu hußn luyªn l§i trên t™p test. ‰ là v™t th∫ mô hình ch˜a d¸ oán ˜Òc. Hình 7 cho thßy mÎt sË tr˜Ìng hÒp phát hiªn ch˜a Th˚ nghiªm GFL ˜Òc hußn luyªn l§i trên t™p test tËt cıa mô hình. Nguyên nhân là do m™t Î s˜Ïng mù, LÓp AP[0.50:0.95] AP[0.50] AP[0.75] khói bˆi quá dày ∞c làm các Ëi t˜Òng trong £nh g¶n bicycle 0.463 0.673 0.564 nh˜ không th∫ nhìn thßy, gây khó kh´n cho mô hình ∫ bus 0.442 0.656 0.497 có th∫ phát hiªn. car 0.615 0.879 0.695 motorcycle 0.454 0.729 0.516 IV. KòT LUäN person 0.594 0.859 0.658 Trong bài báo này, nhóm nghiên c˘u phân tích hai Tßt c£ 0.513 0.759 0.586 ph˜Ïng pháp one-stage object detector là FSAF và GFL. B£ng VI: K∏t qu£ th˚ nghiªm mô hình GFL ã ˜Òc Chúng tôi ã th¸c hiªn ánh giá hai ph˜Ïng pháp ˜Òc hußn luyªn l§i trên t™p test. ti∑n hußn luyªn b¨ng bÎ d˙ liªu COCO trên t™p RTTS, k∏t qu£ cho thßy thßp hÏn so vÓi k∏t qu£ ã công bË B£ng V và VI là 2 b£ng k∏t qu£ ánh giá cuËi cùng khi ánh giá trên bÎ d˙ liªu COCO eval, có th∫ thßy trên t™p test cıa hai ph˜Ïng pháp FSAF và GFL. T¯ k∏t r¨ng bÎ d˙ liªu RTTS gÁm £nh ch˘a s˜Ïng mù gây £nh ISBN: 978-604-80-5076-4 48
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) h˜ng ∏n nÎi dung l˜u tr˙ trong £nh, gây khó kh´n cho [4] J. Redmon and A. Farhadi, “Yolo9000: better, faster, stronger,” viªc phát hiªn Ëi t˜Òng. Áng thÌi sau khi hußn luyªn in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 7263–7271. l§i các mô hình trên t™p d˙ liªu ã ˜Òc chia, k∏t qu£ [5] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. ã ˜Òc c£i thiªn rõ rªt. VÓi gi£ thi∏t s˜Ïng mù là mÎt Fu, and A. C. Berg, “Ssd: Single shot multibox detector,” in ph¶n nÎi dung £nh ∫ hußn luyªn ã làm t´ng c˜Ìng European conference on computer vision. Springer, 2016, pp. 21–37. áng k∫ Î chính xác cıa mô hình. Các k∏t qu£ trong [6] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, nghiên c˘u là ti∑n ∑ và Îng l¸c cho các nghiên c˘u “Dssd: Deconvolutional single shot detector,” arXiv preprint ti∏p theo. arXiv:1701.06659, 2017. [7] S. Zhang, L. Wen, X. Bian, Z. Lei, and S. Z. Li, “Single-shot re- LÕI CÉM ÃN finement neural network for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, Nghiên c˘u này ˜Òc th¸c hiªn t§i Phòng thí nghiªm 2018, pp. 4203–4212. Truy∑n thông a ph˜Ïng tiªn cıa Tr˜Ìng §i hÂc Công [8] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal nghª Thông tin, HQG-HCM. loss for dense object detection,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2980– TÀI LIõU THAM KHÉO 2988. [9] B. Li, Y. Liu, and X. Wang, “Gradient harmonized single-stage [1] C. Zhu, Y. He, and M. Savvides, “Feature selective anchor-free detector,” in Proceedings of the AAAI Conference on Artificial module for single-shot object detection,” in Proceedings of the Intelligence, vol. 33, 2019, pp. 8577–8584. IEEE Conference on Computer Vision and Pattern Recognition, [10] H. Law and J. Deng, “Cornernet: Detecting objects as paired 2019, pp. 840–849. keypoints,” in Proceedings of the European Conference on [2] X. Li, W. Wang, L. Wu, S. Chen, X. Hu, J. Li, J. Tang, Computer Vision (ECCV), 2018, pp. 734–750. and J. Yang, “Generalized focal loss: Learning qualified and [11] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, distributed bounding boxes for dense object detection,” arXiv O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, preprint arXiv:2006.04388, 2020. J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, [3] B. Li, W. Ren, D. Fu, D. Tao, D. Feng, W. Zeng, and and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Z. Wang, “Benchmarking single-image dehazing and beyond,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, IEEE Transactions on Image Processing, vol. 28, no. 1, pp. 492– 2011. 505, 2019. ISBN: 978-604-80-5076-4 49

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường