Xem mẫu

  1. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Phát hiªn Ëi t˜Òng trong £nh b‡ h§n ch∏ t¶m nhìn bi s˜Ïng mù Phan Vænh Long⇤ , Võ Duy Nguyên⇤ Nguyπn Tßn Tr¶n Minh Khang⇤ ⇤§i hÂc Công nghª Thông tin, HQG-HCM Email: 16520695@gm.uit.edu.vn, {nguyenvd, khangnttm}@uit.edu.vn Tóm t≠t—MÎt trong nh˙ng thách th˘c cıa bài toán phát nh™n diªn v™t th∫ t¯ £nh chˆp trong môi tr˜Ìng không hiªn Ëi t˜Òng là s¸ £nh h˜ng cıa môi tr˜Ìng ∏n chßt khí ch˘a các v™t chßt nêu trên. l˜Òng hình £nh ¶u vào. Trong nghiên c˘u này, chúng tôi Hình 1 là mÎt sË ví dˆ v∑ hình £nh chˆp trong môi t™p trung vào bài toán phát hiªn Ëi t˜Òng trong thÌi ti∏t s˜Ïng mù. H¶u h∏t các hª thËng phát hiªn Ëi t˜Òng trong tr˜Ìng h§n ch∏ v∑ t¶m nhìn. £nh ˜Òc hußn luyªn trong i∑u kiªn thÌi ti∏t tËt, s¸ xußt hiªn cıa s˜Ïng mù tr thành mÎt thách th˘c lÓn. Do ó, chúng tôi gi£ s˚ s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh và th¸c hiªn nghiên c˘u hai mô hình Feature Selective Anchor-Free (FSAF) và Generalized Focal Loss (GFL) trên t™p RTTS cıa bÎ d˙ liªu Realistic Single Image Dehazing gÁm 4,322 hình vÓi 41,203 Ëi t˜Òng. Chúng tôi chia l§i bÎ d˙ liªu nh˜ng v®n gi˙ tø lª xußt hiªn cıa các lÓp Ëi t˜Òng, Áng thÌi v®n gi˙ tính ng®u nhiên cıa d˙ liªu, k∏t hÒp vÓi hÂc chuy∫n giao vÓi gi£ thi∏t s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh. Sau khi áp dˆng ph˜Ïng pháp, mô hình GFL cho k∏t qu£ tËt hÏn FSAF trên tßt c£ các lÓp Ëi t˜Òng vÓi Î o AP[0.50:0.95] l¶n l˜Òt là 0.463, 0.442, 0.615, 0.454, 0.594, 0.513 t˜Ïng ˘ng vÓi các lÓp bicycle, bus, car, motorcycle, person. Các mô hình sau khi ˜Òc hußn luyªn l§i cho k∏t qu£ v˜Òt trÎi so vÓi các mô hình ti∑n hußn luyªn t˜Ïng ˘ng. K∏t qu£ này là Îng l¸c cho các nghiên c˘u ti∏p theo. Hình 1: MÎt sË hình £nh chˆp trong môi tr˜Ìng h§n ch∏ T¯ khóa—deep learning, object detection, poor visibility, v∑ t¶m nhìn. hazy image, Feature Selective Anchor-Free, Generalized Focal Loss, transfer learning Ph¶n lÓn các mô hình phát hiªn Ëi t˜Òng d¸a trên m§ng nÏ ron hÂc sâu ˜Òc chia thành hai nhóm chính I. GIŒI THIõU là thu™t toán phát hiªn Ëi t˜Òng mÎt pha (one-stage Trong vài th™p k g¶n ây, phát hiªn Ëi t˜Òng ã object detector) và thu™t toán phát hiªn Ëi t˜Òng hai tr thành mÎt trong nh˙ng bài toán quan trÂng cıa th‡ pha (two-stage object detector). giác máy tính nói riêng cÙng nh˜ khoa hÂc máy tính nói Trong nghiên c˘u này, chúng tôi ã th¸c nghiªm hai chung. Cùng vÓi s¸ phát tri∫n cıa ph¶n c˘ng máy tính ph˜Ïng pháp cıa các ph˜Ïng pháp nh™n diªn v™t th∫ và s¸ gia t´ng liên tˆc cıa d˙ liªu, các ph˜Ïng pháp d¸a trên hÂc sâu thuÎc phân lo§i các thu™t toán phát d¸a trên hÂc sâu ã §t nh˙ng k∏t qu£ cao cho bài toán hiªn Ëi t˜Òng mÎt pha: Feature Selective Anchor-Free phát hiªn Ëi t˜Òng cÙng nh˜ các bài toán khác. (ASAF) [1] và Generalized Focal Loss [2] trên bÎ d˙ Do s¸ tÁn t§i cıa các v™t chßt nh‰ trong không khí liªu Realistic Single Image Dehazing (RTTS) [3]. Chúng (khói, bˆi, s˜Ïng mù, ...), hình £nh ˜Òc chˆp trong tôi ∑ xußt ph˜Ïng pháp chia d˙ liªu £m b£o tính ng®u nh˙ng môi tr˜Ìng này có th∫ b‡ £nh h˜ng v∑ chßt l˜Òng nhiên cıa d˙ liªu Áng thÌi v®n gi˙ tø lª sË l˜Òng các nÎi dung l˜u tr˙. Nh˙ng môi tr˜Ìng này th˜Ìng ˜Òc lÓp Ëi t˜Òng  t¯ng t™p d˙ liªu. Sau ó ánh giá k∏t gÂi là môi tr˜Ìng h§n ch∏ v∑ t¶m nhìn. Các hª thËng qu£ mô hình hußn luyªn tr˜Óc và mô hình t¸ hußn luyªn xây d¸ng d¸a trên £nh chˆp trong môi tr˜Ìng không khi xem s˜Ïng mù là mÎt ph¶n cıa Ëi t˜Òng trong £nh, khí s§ch thông th˜Ìng cho k∏t qu£ thßp khi s˚ dˆng ∫ t¯ ó phân tích k∏t qu£ §t ˜Òc và ˜a ra ph˜Ïng án ISBN: 978-604-80-5076-4 44
  2. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) c£i thiªn cho bài toán. mô t£ phân bË bounding-box trong nh˙ng n´m g¶n ây. Tuy nhiên các ph˜Ïng pháp này quá c˘ng nh≠c II. CÁC NGHIÊN CŸU LIÊN QUAN và Ïn gi£n cho viªc bi∫u diπn s¸ phân bË th¸c t∏ Trong ph¶n này, chúng tôi trình bày mÎt sË ph˜Ïng cıa d˙ liªu. Do ó DFL giÓi thiªu hàm DFL giúp pháp phát hiªn Ëi t˜Òng mÎt pha tiên ti∏n (state-of-the- viªc th∫ hiªn s¸ phân bË cıa bounding-box tËt hÏn art) ˜Òc s˚ dˆng th¸c nghiªm trong bài báo. và ch˘a nhi∑u thông tin hÏn theo công th˘c (2) vÓi A. Feature Selective Anchor-Free Si là giá tr‡ phân phËi ˘ng vÓi giá tr‡ yi . Feature Selective Anchor-Free giÓi thiªu v∑ mô un DFL (Si , Si+1 ) Feature Selective Anchor-Free (FSAF), là mÎt khËi = ((yi+1 y) log (Si ) (2) (block) cho các thu™t toán phát hiªn Ëi t˜Òng. Các thu™t + (y yi ) log (Si+1 )) toán phát hiªn Ëi t˜Òng có s˚ dˆng ki∏n trúc kim t¸ tháp ∞c tr˜ng (feature pyramid) ∑u có th∫ s˚ dˆng T¯ hàm QFL (1) và DFL (2), hàm tÍng quát GFL ˜Òc FSAF nh˜ mÎt mô un ∫ g≠n vào mô hình cıa mình. tính theo công th˘c (3). Rßt nhi∑u thu™t toán phát hiªn Ëi t˜Òng tiên ti∏n ˜Òc thi∏t k∏ d¸a trên ki∏n trúc kim t¸ tháp ∞c tr˜ng. GFL (pyl , pyr ) = |y (yl pyl + yr pyr )| (3) Các bounding-box ¶u vào ˜Òc chia vào các anchor ((yr y) log (pyl ) + (y yl ) log (pyr )) box t˜Ïng ˘ng b¨ng cách s˚ dˆng Î o IoU. Nh˙ng mô hình phát hiªn Ëi t˜Òng này có các nh˜Òc i∫m: Hình 3 cho thßy k∏t qu£ khi s˚ dˆng hàm mßt mát heuristic-guided feature selection và overlap-based GFL cho k∏t qu£ phát hiªn Ëi t˜Òng và thÌi gian tính anchor sampling. Mô un FSAF kh≠c phˆc nh˙ng h§n toán tËt so vÓi mÎt sË ph˜Ïng tiên ti∏n trên bÎ d˙ liªu ch∏ này b¨ng cách cho phép mÈi ph¶n t¯ ¶u vào l¸a COCO test-dev, trong ó có mô hình FSAF. chÂn cßp Î cıa pyramid feature tËt nhßt cho nó. fi III. KòT QUÉ TH‹C NGHIõM t˜ng cıa mô un FSAF ˜Òc th∫ hiªn  Hình 2. A. Î o B£ng I th∫ hiªn k∏t qu£ so sánh trên mÎt sË ph˜Ïng Intersection over Union pháp tiên ti∏n hiªn nay. Trên các backbone ResNet-101 V‡ trí cıa mÎt v™t th∫ trong £nh th˜Ìng ˜Òc th∫ hiªn và ResNeXt-101, FSAF §t ˜Òc k∏t qu£ cao hÏn so vÓi b¨ng mÎt hình ch˙ nh™t bao quanh v™t th∫ ó trong £nh. các ph˜Ïng pháp ˜Òc so sánh. Hình ch˙ nh™t này ˜Òc gÂi là ground-truth Ëi vÓi nhãn B. Generalized Focal Loss cıa v™t th∫ trong bÎ d˙ liªu và predicted bounding-box Ëi vÓi k∏t qu£ d¸ oán v™t th∫ trong £nh. Các mô hình ˜Òc thi∏t k∏ theo cßu trúc one-stage Intersection over Union (IoU) là mÎt Î o phÍ bi∏n detector thông th˜Ìng s≥ g∞p ph£i hai vßn ∑ ˜Òc th˜Ìng ˜Òc s˚ dˆng cho viªc o l˜Ìng Î chính xác Generalized Focal Loss (GFL) gi£i quy∏t b¨ng hai mô cıa các ph˜Ïng pháp phát hiªn Ëi t˜Òng trong £nh. Î un: o này tính toán m˘c Î trùng khÓp cıa bounding-box • Quality Focal Loss (QFL). Giai o§n hußn luyªn ˜Òc d¸ oán cıa v™t th∫ so vÓi ground-truth cıa v™t gÁm hai ph¶n chính là classification (phân lÓp) và th∫ ó trong £nh. localization (cˆc bÎ hóa). Viªc hußn luyªn hai thành ph¶n này Îc l™p nhau nh˜ng ˜Òc k∏t hÒp ∫ s˚ Average Precision dˆng chung cho viªc d¸ oán t§o ra s¸ không nhßt Average Precision (AP) là vùng diªn tích ph¶n t§o quán. i∑u này gây £nh h˜ng ∏n k∏t qu£ d¸ oán thành t¯ ˜Ìng cong precision-recall vÓi hai trˆc cıa cıa mô hình. ∫ gi£i quy∏t vßn ∑ này, GFL k∏t bi∫u Á trong bi∫u Á precision-recall. Tr˜Óc khi tính hÒp viªc ánh giá localization và classification s˚ toán giá tr‡ AP trong bài toán phát hiªn Ëi t˜Òng, thông dˆng nhãn soft one-hot, ˜Òc k˛ hiªu là y 2 [0, 1]. th˜Ìng ˜Ìng zigzac precision-recall s≥ ˜Òc làm m˜Òt. VÓi k∏t qu£ ¶u ra cıa hàm sigmoid ˜Òc k˛ hiªu T§i mÈi giá tr‡ cıa recall, giá tr‡ precision t˜Ïng ˘ng s≥ là , GFL ∑ xußt hàm QFL theo công th˘c (1). ˜Òc thay th∏ b¨ng giá tr‡ precision lÓn nhßt n¨m phía QFL( ) = |y | ((1 y) bên ph£i cıa giá tr‡ precision ó. (1) X log(1 ) + y log( )) AP = (rn+1 rn ) pinerp (rn+1 ) (4) • Distribution Focal Loss (DFL). Phân phËi Dirac pinterp (rn+1 ) = max p(e r) delta và Gaussian th˜Ìng ˜Òc s˚ dˆng cho viªc r˜ rn+1 ISBN: 978-604-80-5076-4 45
  3. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) Hình 2: Mô un FSAF ˜Òc g≠n vào anchor-based object detector [1]. Method Backbone AP AP50 AP75 APS APM APL YOLOv2 [4] DarkNet-19 21.6 44.0 19.2 5.0 22.4 35.5 SSD513 [5] 8*ResNet-101 31.2 50.4 33.3 10.2 34.5 49.8 DSSD513 [6] 33.2 53.3 35.2 13.0 35.4 51.1 RefineDet512 (single-scale) [7] 36.4 57.5 39.5 16.6 39.9 51.4 RefineDet (multi-scale) [7] 41.8 62.9 45.7 25.6 45.1 54.1 RetinaNet800 [8] 39.1 59.1 42.3 21.8 42.7 50.2 GHM800 [9] 39.9 60.8 42.5 20.3 43.6 54.1 FSAF (single-scale) 40.9 61.5 44.0 24.0 44.2 51.3 FSAF (multi-scale) 42.8 63.1 46.5 27.8 45.5 53.2 CornerNet511 (single-scale) [10] 2*Hourglass-104 40.5 56.5 43.1 19.4 42.7 53.9 CornerNet (multi-scale) [10] 42.1 57.8 45.3 20.8 44.8 56.7 GHM800 [9] 3*ResNeXt-101 41.6 62.8 44.2 22.3 45.1 55.3 FSAF (single-scale) 42.9 63.8 46.3 26.6 46.2 52.7 FSAF (multi-scale) 44.6 65.2 48.6 29.7 47.1 54.6 B£ng I: MÎt sË ph˜Ïng pháp phát hiªn Ëi t˜Òng trên bÎ d˙ liªu COCO test-dev [1]. c£ các ng˜Ông cıa Î o IoU. B. BÎ d˙ liªu BÎ d˙ liªu ˜Òc s˚ dˆng trong nghiên c˘u này là bÎ d˙ liªu Realistic Single Image Dehazing (RESIDE). BÎ d˙ liªu RESIDE bao gÁm 433,579 £nh. Tuy nhiên chø có 4,322 £nh thuÎc t™p Real-world Task-driven Testing Set (RTTS) là phù hÒp vÓi bài toán nh™n diªn v™t th∫ trong i∑u kiªn t¶m nhìn h§n ch∏. T™p d˙ liªu RTTS ch˘a 4322 £nh ˜Òc chˆp trong i∑u kiªn thÌi ti∏t s˜Ïng mù, và ˜Òc g≠n nhãn cho 5 lÓp Ëi t˜Òng vÓi phân bË nh˜ hình 4. T™p d˙ liªu RTTS có sË l˜Òng ph¶n t˚ cıa t¯ng lÓp phân bË không Áng ∑u, ∞c biªt Hình 3: K∏t qu£ th¸c nghiªm GFL so sánh vÓi các  hai lÓp bicycle là 689 ph¶n t˚ và car là 25,317 ph¶n t˚. ph˜Ïng pháp tiên ti∏n [2]. C. Phân chia d˙ liªu Mean Average Precision Viªc phân chia d˙ liªu là vô cùng quan trÂng, £nh The mean Average Precision (mAP) ˜Òc tính b¨ng h˜ng ∏n k∏t qu£ cıa mô hình sau khi hußn luyªn. cách lßy trung bình giá tr‡ AP cıa tßt c£ các lÓp và tßt Ph˜Ïng pháp th˜Ìng dùng là chia bÎ d˙ liªu thành 3 ISBN: 978-604-80-5076-4 46
  4. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) D. Hußn huyªn và ánh giá mô hình Hình 4: S¸ phân bË các lÓp trong t™p d˙ liªu RTTS. Hình 6: Bi∫u Á hàm mßt mát trong mÎt l¶n hußn luyªn ph¶n train, val, test theo tø lª sË l˜Òng hình £nh nhßt mô hình FSAF vÓi 12 epoch. ‡nh vÓi viªc phân bË các hình cÙng nh˜ các lÓp Ëi t˜Òng là ng®u nhiên. VÓi nh˙ng t™p d˙ liªu có kích Trong ph¶n th¸c nghiªm, chúng tôi hußn luyªn và ánh giá hai ph˜Ïng pháp phát hiªn Ëi t˜Òng tiên ti∏n là Feature Selective Anchor-Free và Generalized Focal Loss trên máy tính s˚ dˆng hª i∑u hành Ubuntu 16.04.5 LTS 64 bit vÓi cßu hình RAM 6 x DDR3 8GB, GPU RTX 2080Ti, CPU Intel(R) Xeon(R) CPU E5-2620 v2 12 Cores. VÓi t¯ng ph˜Ïng pháp, chúng tôi th¸c hiªn ánh giá trên mô hình ã ˜Òc pretrained (ti∑n hußn luyªn) cÙng nh˜ hußn luyªn thêm d˙ liªu trong t™p RTTS vÓi 12 epoch trên t™p train cıa d˙ liªu ã ˜Òc chia sau ó ti∏n hành ánh giá. ∫ £m b£o tính công b¨ng khi so sánh, c£ hai ph˜Ïng pháp ∑u ˜Òc ti∑n hußn luyªn trên bÎ d˙ liªu COCO vÓi backbone là m§ng RetinaNet-50. Hình 5: S¸ phân bË các Ëi t˜Òng trong t™p train, val E. K∏t qu£ và phân tích và test K∏t qu£ trên mô hình ti∑n hußn luyªn: B£ng II và th˜Óc lÓn, viªc phân chia d˙ liªu ng®u nhiên giúp mô III cho k∏t qu£ khá thßp so vÓi k∏t qu£ cıa mô hình hình ˜Òc hÂc và ánh giá mÎt cách khách quan hÏn. ˜Òc th˚ nghiªm trên bÎ d˙ liªu COCO (không b‡ h§n Tuy nhiên vÓi nh˙ng bÎ d˙ liªu có kích th˜Óc nh‰ và tø ch∏ t¶m nhìn). T¯ ó có th∫ thßy ˜Òc các y∏u tË h§n lª phân bË các lÓp Ëi t˜Òng chênh lªch lÓn nh˜ RTTS, ch∏ t¶m nhìn nói chung và s˜Ïng mù nói riêng làm £nh viªc phân chia d˙ liªu ng®u nhiên có tø lª cao khi∏n cho h˜ng nhi∑u ∏n k∏t qu£ cıa các mô hình phát hiªn Ëi viªc mßt cân b¨ng d˙ liªu càng tr nên nghiêm trÂng. t˜Òng. Mô hình ti∑n hußn luyªn cıa FSAF và GFL ∑u Do ó chúng tôi th¸c hiªn chia d˙ liªu sao cho tø lª Ëi cho k∏t qu£ tËt nhßt trên lÓp Ëi t˜Òng person vÓi giá t˜Òng t˜Ïng ˘ng vÓi t¯ng lÓp Ëi t˜Òng trong ba t™p tr‡ Î o AP[0.50:0.95] là 0.469 và 0.490. train, val và test ngang nhau nh˜ng v®n £m b£o tính ng®u nhiên cıa d˙ liªu. FSAF ti∑n hußn luyªn LÓp AP[0.50:0.95] AP[0.50] AP[0.75] ∫ th¸c hiªn ph˜Ïng pháp này, vÓi mÈi £nh trong bÎ bicycle 0.180 0.338 0.135 d˙ liªu, sË l˜Òng Ëi t˜Òng t˜Ïng ˘ng vÓi t¯ng lÓp s≥ bus 0.184 0.309 0.197 ˜Òc tính và l˜u d˜Ói d§ng vector 5 chi∑u (˘ng vÓi 5 car 0.376 0.674 0.375 lÓp Ëi t˜Òng l¶n l˜Òt là bicycle, bus, car, motorcycle, motorcycle 0.194 0.483 0.096 person). D˙ liªu thu ˜Òc s≥ là ¶u vào cıa hàm person 0.469 0.774 0.481 StratifiedKFold [11], t¯ ó thu ˜Òc danh sách các £nh Tßt c£ 0.280 0.526 0.257 ˜Òc chia theo ba bÎ train, val và test th‰a mãn i∑u kiªn tø lª sË l˜Òng Ëi t˜Òng  mÈi t™p d˙ liªu không B£ng II: K∏t qu£ mô hình FSAF ti∑n hußn luyªn trên có s¸ chênh lªch lÓn. COCO dataset. ISBN: 978-604-80-5076-4 47
  5. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) qu£ này có th∫ thßy ˜Òc s¸ £nh h˜ng cıa s˜Ïng mù ∏n k∏t qu£ phát hiªn v™t th∫ trong £nh, cÙng nh˜ s¸ c£i GFL ti∑n hußn luyªn thiªn cıa viªc hußn luyªn coi s˜Ïng mù nh˜ mÎt ph¶n LÓp AP[0.50:0.95] AP[0.50] AP[0.75] bicycle 0.238 0.442 0.209 nÎi dung cıa £nh. bus 0.200 0.307 0.219 Mô hình FSAF và GFL sau khi hußn luyªn l§i cho k∏t car 0.406 0.698 0.423 qu£ tËt nhßt trên lÓp car vÓi giá tr‡ Î o AP[0.50:0.95] motorcycle 0.202 0.470 0.127 là 0.601 và 0.615. So vÓi mô hình ti∑n hußn luyªn, k∏t person 0.490 0.761 0.519 qu£ AP[0.50:0.95] trung bình trên tßt c£ các lÓp Ëi Tßt c£ 0.307 0.535 0.300 t˜Òng t´ng t¯ 0.280 lên 0.489 và 0.307 lên 0.513 t˜Ïng ˘ng vÓi FSAF và GFL. Mô hình GFL Áng thÌi cho k∏t B£ng III: K∏t qu£ mô hình GFL ti∑n hußn luyªn trên qu£ tËt nhßt khi s˚ dˆng mô hình ti∑n hußn luyªn cÙng COCO dataset. nh˜ khi ˜Òc hußn luyªn l§i. K∏t qu£ trên mô hình hußn luyªn xem s˜Ïng mù là mÎt ph¶n ∞c tr˜ng Ëi t˜Òng: B£ng IV cho thßy k∏t qu£ th¸c nghiªm trên hai ph˜Ïng pháp FSAF và GFL sau khi hußn luyªn l§i trên t™p train và ánh giá b¨ng t™p val. Th˚ nghiªm mô hình ã ˜Òc hußn luyªn l§i trên t™p val Ph˜Ïng pháp AP[0.50:0.95] AP[0.50] AP[0.75] FSAF 0.504 0.764 0.555 GFL 0.519 0.768 0.573 B£ng IV: K∏t qu£ validate cıa các mô hình ã ˜Òc hußn luyªn l§i. Th˚ nghiªm FSAF ˜Òc hußn luyªn l§i trên t™p test LÓp AP[0.50:0.95] AP[0.50] AP[0.75] bicycle 0.430 0.663 0.472 bus 0.414 0.646 0.450 car 0.601 0.883 0.678 motorcycle 0.429 0.738 0.466 person 0.572 0.864 0.631 Tßt c£ 0.489 0.759 0.539 Hình 7: MÎt sË tr˜Ìng hÒp phát hiªn ch˜a tËt t¯ mô B£ng V: K∏t qu£ th˚ nghiªm mô hình FSAF ã ˜Òc hình. Màu xanh là k∏t qu£ d¸ oán cıa mô hình, màu hußn luyªn l§i trên t™p test. ‰ là v™t th∫ mô hình ch˜a d¸ oán ˜Òc. Hình 7 cho thßy mÎt sË tr˜Ìng hÒp phát hiªn ch˜a Th˚ nghiªm GFL ˜Òc hußn luyªn l§i trên t™p test tËt cıa mô hình. Nguyên nhân là do m™t Î s˜Ïng mù, LÓp AP[0.50:0.95] AP[0.50] AP[0.75] khói bˆi quá dày ∞c làm các Ëi t˜Òng trong £nh g¶n bicycle 0.463 0.673 0.564 nh˜ không th∫ nhìn thßy, gây khó kh´n cho mô hình ∫ bus 0.442 0.656 0.497 có th∫ phát hiªn. car 0.615 0.879 0.695 motorcycle 0.454 0.729 0.516 IV. KòT LUäN person 0.594 0.859 0.658 Trong bài báo này, nhóm nghiên c˘u phân tích hai Tßt c£ 0.513 0.759 0.586 ph˜Ïng pháp one-stage object detector là FSAF và GFL. B£ng VI: K∏t qu£ th˚ nghiªm mô hình GFL ã ˜Òc Chúng tôi ã th¸c hiªn ánh giá hai ph˜Ïng pháp ˜Òc hußn luyªn l§i trên t™p test. ti∑n hußn luyªn b¨ng bÎ d˙ liªu COCO trên t™p RTTS, k∏t qu£ cho thßy thßp hÏn so vÓi k∏t qu£ ã công bË B£ng V và VI là 2 b£ng k∏t qu£ ánh giá cuËi cùng khi ánh giá trên bÎ d˙ liªu COCO eval, có th∫ thßy trên t™p test cıa hai ph˜Ïng pháp FSAF và GFL. T¯ k∏t r¨ng bÎ d˙ liªu RTTS gÁm £nh ch˘a s˜Ïng mù gây £nh ISBN: 978-604-80-5076-4 48
  6. Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020) h˜ng ∏n nÎi dung l˜u tr˙ trong £nh, gây khó kh´n cho [4] J. Redmon and A. Farhadi, “Yolo9000: better, faster, stronger,” viªc phát hiªn Ëi t˜Òng. Áng thÌi sau khi hußn luyªn in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 7263–7271. l§i các mô hình trên t™p d˙ liªu ã ˜Òc chia, k∏t qu£ [5] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. ã ˜Òc c£i thiªn rõ rªt. VÓi gi£ thi∏t s˜Ïng mù là mÎt Fu, and A. C. Berg, “Ssd: Single shot multibox detector,” in ph¶n nÎi dung £nh ∫ hußn luyªn ã làm t´ng c˜Ìng European conference on computer vision. Springer, 2016, pp. 21–37. áng k∫ Î chính xác cıa mô hình. Các k∏t qu£ trong [6] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, nghiên c˘u là ti∑n ∑ và Îng l¸c cho các nghiên c˘u “Dssd: Deconvolutional single shot detector,” arXiv preprint ti∏p theo. arXiv:1701.06659, 2017. [7] S. Zhang, L. Wen, X. Bian, Z. Lei, and S. Z. Li, “Single-shot re- LÕI CÉM ÃN finement neural network for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, Nghiên c˘u này ˜Òc th¸c hiªn t§i Phòng thí nghiªm 2018, pp. 4203–4212. Truy∑n thông a ph˜Ïng tiªn cıa Tr˜Ìng §i hÂc Công [8] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal nghª Thông tin, HQG-HCM. loss for dense object detection,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2980– TÀI LIõU THAM KHÉO 2988. [9] B. Li, Y. Liu, and X. Wang, “Gradient harmonized single-stage [1] C. Zhu, Y. He, and M. Savvides, “Feature selective anchor-free detector,” in Proceedings of the AAAI Conference on Artificial module for single-shot object detection,” in Proceedings of the Intelligence, vol. 33, 2019, pp. 8577–8584. IEEE Conference on Computer Vision and Pattern Recognition, [10] H. Law and J. Deng, “Cornernet: Detecting objects as paired 2019, pp. 840–849. keypoints,” in Proceedings of the European Conference on [2] X. Li, W. Wang, L. Wu, S. Chen, X. Hu, J. Li, J. Tang, Computer Vision (ECCV), 2018, pp. 734–750. and J. Yang, “Generalized focal loss: Learning qualified and [11] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, distributed bounding boxes for dense object detection,” arXiv O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, preprint arXiv:2006.04388, 2020. J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, [3] B. Li, W. Ren, D. Fu, D. Tao, D. Feng, W. Zeng, and and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Z. Wang, “Benchmarking single-image dehazing and beyond,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, IEEE Transactions on Image Processing, vol. 28, no. 1, pp. 492– 2011. 505, 2019. ISBN: 978-604-80-5076-4 49
nguon tai.lieu . vn