Xem mẫu

  1. Hội Thảo Quốc Hội Thảo GiaGia Quốc 2015 vềvề 2015 Điện ĐiệnTử, Tử,Truyền TruyềnThông Thôngvà vàCông NghệThông Công Nghệ ThôngTin Tin(ECIT (ECIT2015) 2015) Phát hiện và bám đuổi cá bằng phương pháp GMM kết hợp Frame-Differencing Nguyễn Đình Minh Nhật, Huỳnh Nhƣ Kiên, Võ Ngọc Phạm Văn Tuấn Nhân Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại Học Đà Nẵng Học Đà Nẵng Đà Nẵng, Việt Nam Đà Nẵng, Việt Nam Email: pvtuan@dut.udn.vn Email: ndmnhat71@gmail.com, vongocnhan4292@gmail.com, nhukienhuynh6392@gmail.com Tóm tắt— Phát hiện và bám đuổi cá (FDT) là một bước quan là bám đuổi Mean shift (MS) [6, 7] và lọc Particle (PF) [8, 9]. trọng trong nghiên cứu hải dương học, đặc biệt là trong việc dự Hai phƣơng pháp này đã chứng minh thích hợp cho việc bám đoán những thay đổi chất lượng nguồn nước và những biến động đuổi các vật thể có hình dạng thay đổi. về số lượng cá trong quần thể. Trong bài báo này, thuật toán với sự kết hợp giữa Mô hình hỗn hợp Gauss và Frame Differencing Trong một vài trƣờng hợp nhất định, một vài trong số bốn (CGMMFD) được đề xuất. Phương pháp này được mong đợi cho phƣơng pháp này cho ra các hiệu suất phát hiện và bám đuổi cá kết quả khả quan đối với các tình huống bám đuổi khác nhau. cao. Tuy nhiên, không một phƣơng pháp nào có thể phù hợp Cũng trong bài báo này, các tiêu chí đánh giá được xây dựng cụ cho tất cả mọi trƣờng hợp đặt ra. Do đó, trong bài báo này, thể để đánh giá sự hiệu quả của mỗi phương pháp cho từng phƣơng pháp mới CGMMFD đƣợc đề xuất. Phƣơng pháp mới trường hợp cụ thể. Các kết quả thực nghiệm đã chỉ ra rằng này kết hợp GMM, lọc Kalman và Frame-Differencing. Frame- phương pháp này cho ra sự chính xác trong bám đuổi lớn hơn Differencing đƣợc sử dụng bởi vì kĩ thuật này có thể phát hiện khí so với bốn phương pháp khác đó là Trừ nền, Mô hình hỗn vị trí con cá cho những khung hình mà GMM không thể. Đặc hợp Gauss, Bám đuổi Mean shift và Lọc particle. Trong khí các biệt là trong khoảng từ 10 đến 15 khung hình đầu tiên khi mô phương pháp có những khó khăn để bám đuổi cá trong một vài hình nền chƣa đƣợc hoàn thành bởi GMM. Đối với vấn đề trường hợp nhất định thì phương pháp được đề xuất này có thể bóng xuất hiện, GMM sẽ tạo ra nhiều hơn một khối mà có thể hoạt động tốt cho các tình huống khác nhau. là cá. Trong trƣờng hợp này, khối gần nhất với tọa độ trọng tâm trƣớc đó của con cá sẽ đƣợc chọn nhƣ là khối thật sự của Từ khóa—Phát hiện và bám đuổi cá, CGMMFD, Mean Shift, Lọc particle. con cá. Nhƣ vậy, tất cả các vấn đề có thể xảy ra trong hệ thống FDT đã đƣợc khắc phục bởi phƣơng pháp CGMMFD. I. GIỚI THIỆU Phần còn lại của bài báo đƣợc trình bày nhƣ sau. Trong Trong những năm gần đây, bám đuổi vật thể đang nhận đƣợc phần II, phƣơng pháp CGMMFD đƣợc giới thiệu. Phần III cho nhiều sự quan tâm. Đối với ứng dụng Phát hiện và bám đuổi thấy các kết quả thực nghiệm và sự phân tích đánh giá 5 cá, Lọc Alpha-Beta and Lọc Kalman [1] là các kĩ thuật phổ phƣơng pháp dựa trên những kết quả đó. 5 phƣơng pháp đó là biến đƣợc sử dụng cho bám đuổi vật thể. Phƣơng pháp bám MB, GMM, MS, PF và phƣơng pháp đƣợc đề xuất CGMMFD đuổi khối đƣợc sử dụng để bám đuổi cá. Do đó, phƣơng pháp trong các ngữ cảnh bám đuổi khác nhau. này đƣợc sử dụng trong các ứng dụng thống kê số lƣợng cá [2]. Đối với việc phát hiện cá tự động [3], các phƣơng pháp dựa II. SỰ KẾT HỢP GIỮA GMM VÀ FRAME-DIFFERENCING vào các thuật toán phân loại thuộc tính Haar-like xếp lớp đƣợc Kết quả thực nghiệm cho thấy rằng hai phƣơng pháp là tạo ra bằng cách sử dụng các ảnh dƣới nƣớc từ thiết bị điều GMM và Ƣớc lƣợng nền trung bình (MB) không thích hợp cho khiển từ xa dƣới các điều kiện khảo sát đại dƣơng. trƣờng hợp cá đứng yên. Trong khi đó, Bám đuổi Mean shift và Trong hệ thống FDT này, các vấn đề gây khó khăn nhất là sự Lọc particle tạo ra hiệu quả bám đuổi không cao khi xuất hiện xuất hiện bóng của cá, là khi cá không di chuyển hay là khi cá bóng của con cá trong video. Do đó, bốn phƣơng pháp này di chuyển với các vận tốc khác nhau. Để giải quyết các vấn đề không hiệu quả khi áp dụng vào ứng dụng FDT. Từ đó, trong trên, trong bài báo này, bốn phƣơng pháp bám đuổi mà đƣợc sử nghiên cứu này, sự kết hợp GMM và Frame-Differencing với dụng rộng rãi trong nhiều ứng dựng bám đuổi thời gian thực Lọc Kalman đƣợc kiểm nghiệm. Phƣơng pháp này cho ra các đƣợc kiểm thử. Phƣơng pháp đầu tiên là sự kết hợp giữa Trừ kết quả đầy khả quan trong tất cả các trƣờng hợp có thể. Các nền và bộ lọc Kalman. Trong đó, ảnh nền đƣợc tạo ra bằng chi tiết giải thuật sẽ đƣợc trình bày trong các phần tiếp theo. phƣơng pháp ƣớc lƣợng nền trung bình (MB). Trong phƣơng A. Thuật toán Frame-Differencing pháp thứ hai, Mô hình hỗn hợp Gauss (GMM) [3] đƣợc sử Phát hiện vật thể chuyển động từ một chuỗi các khung hình dụng để phát hiện cá, sau đó, bộ lọc Kalman [4, 5] sẽ bám đuổi đƣợc thực hiện rộng rãi bằng thuật toán Frame-Differencing. cá. Độ chính xác của cả hai phƣơng pháp này phụ thuộc nhiều Nguyên lý của phƣơng pháp này là phát hiện các vận thể vào chất lƣợng nền đƣợc tạo ra. Phƣơng pháp thứ ba và thứ tƣ ISBN: 978-604-67-0635-9 443 443
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) chuyển động từ sự khác nhau giữa khung hình hiện tại và ( ) ( ) khung hình quy ƣớc. Phƣơng pháp này thiết lập một giá trị ( ) ( ) { (7) ( ) ( ) ngƣỡng sau khi trừ hai khung hình và xem các điểm ảnh nhƣ là phần của mục tiêu chuyển động miễn là sự khác nhau tại những Hình 2 minh họa nguyên tắc của thuật toán Frame- điểm ảnh này lớn hơn giá trị ngƣỡng. Trong bài báo này, Differencing. Hình 2a, 2b, 2c lần lƣợt là các khung hình thứ k- Frame-Differencing có thể phát hiện cá vì máy quay đƣợc đặt 10, k, k+10 với bƣớc nhảy là 10. Các kết quả trừ hai khung cố định. Phƣơng pháp này gồm có hai bƣớc là phát hiện chuyển hình đƣợc thể hiện trong hình 2d và 2e. Và, kết quả của thuật động và phát hiện cá. three-frame difference đƣợc thể hiện trong hình 2f. 1) Phát hiện chuyển động Kết quả của thuật toán này rất hứa hẹn. Tuy nhiên, kết quả phụ thuộc nhiều vào bƣớc nhảy L. Nếu bƣớc nhảy nhỏ (ví dụ Trong bƣớc phát hiện chuyển động, sự khác nhau giữa L=5) thì kết quả của phép giao hai ảnh nhị phân Ik-L(x,y) và khung hình thứ k Fk(x,y) và khung hình thứ k+1 Fk+1(x,y) đƣợc Ik+L(x,y) không phải là con cá mà là một khối nhỏ cái có thể tính để cho ra ảnh Dk(x,y): đƣợc hiểu là nhiễu. Mặt khác, nếu bƣớc nhảy L quá lớn thì rất ( ) | ( ) ( )| (1) có khả năng con cá ở khung hình thứ k-L hoặc k+L trùng vị trí với nó ở khung hình thứ k. Điều này dẫn tới không phát hiện Sau đó, giá trị ngƣỡng T đƣợc thiết lập cho ảnh Dk(x,y) để đƣợc con cá nhƣ đƣợc trình bày trong hình 3 (L=30). tạo ảnh nhị phân Ik(x,y): ( ) ( ) ( ) { (2) ( ) a) b) c) Hình 1. Sự minh họa cho Frame-Differencing Khi giá trị các điểm ảnh trong ảnh ( ) lớn hơn giá trị d) e) f) ngƣỡng T thì các điểm ảnh đó đƣợc xem là vật thể. Ngƣợc lại Hình 2. Minh họa Phát hiện cá bằng Frame-Differencing đƣợc xem là nền. Sau đó, khối có diện tích lớn hơn ngƣỡng S (S=50 trong bài báo này) đƣợc xem nhƣ là vật thể di chuyển. Tuy nhiên, quá trình này cũng có thể tạo ra các lỗi trong phát hiện chuyển động khi con cá đứng yên và đồng thời xuất hiện nhiễu trong khung hình nhƣ ánh sáng thay đổi, hồ lắc lƣ dẫn đến nƣớc dao động…Do đó, chỉ khu vực có diện tích lớn hơn diện tích hình chữ nhật bao quanh khối thu đƣợc từ khung hình trƣớc 2.25 lần đƣợc xem xét. Vì vậy, sự khởi tạo vị trí ban đầu a) b) c) của cá là cần thiết. Mặc dù có độ phức tạp thấp và hiệu quả phát hiện cao nhƣng phƣơng pháp này vẫn cho thấy một số hạn chế. Các giá trị ngƣỡng T và S thƣờng đƣợc chọn thủ công tùy theo mỗi trƣờng hợp thực nghiệm. Nếu giá trị T quá lớn thì có thể không d e f phát hiện đƣợc chuyển động. Ngƣợc lại, sẽ phát hiện ra nhiều Hình 3. Không phát hiện cá khi L lớn chuyển động trong khi thực tế chỉ có một (trƣờng hợp nhiễu B. Trường hợp bóng xuất hiện và khởi tạo vị trí ban đầu xuất hiện). Nhƣ đƣợc đề cập ở trên, bốn phƣơng pháp bám đuổi là MB, 2) Phát hiện cá GMM, MS và PF cho hiệu quả bám đuổi không cao khi xuất Trong bƣớc phát hiện cá, thuật toán Three-Frame hiện bóng (khi cá bơi gần mặt nƣớc hay gần thành hồ bằng Difference [10] đƣợc áp dụng. Bƣớc thứ nhất của thật toán là gƣơng). Sự xuất hiện của bóng dẫn tới sự phát hiện cá sai. Do trừ ba khung hình khác nhau theo lần lƣợt, với bƣớc nhảy vậy, một kĩ thuật so sánh đơn giản đƣợc đề xuất để khắc phục khung hình là L, sau đó ta lấy hiệu của hai kết quả tìm đƣợc ở vấn đề này. Cụ thể, trong bƣớc BlobAnalysis, số lƣợng khối tối trên để phát hiện đƣợc cá. Cụ thể, khung hình thứ k trừ khung đa đƣợc ấn định là 5. Sau đó, tại khung hình đang xét, khối nào hình thứ k-L cho ra ảnh nhị phân Ik-L(x,y). Tƣơng tự, khung gần nhất với vị trí cá ở khung hình trƣớc đó đƣợc chọn. Trong hình k+L trừ khung hình k cho ra ảnh nhị phân Ik+L(x,y). Tiếp hầu hết trƣờng hợp, các khối của bóng ở vị trí xa hơn đóm của theo, ảnh Ik-L(x,y) giao với ảnh Ik+L(x,y) tạo ra ảnh kết quả của cá. Vì vậy, các lỗi do sự xuất hiện của bóng gây ra đƣợc loại thuật toán. Quy trình của thuật toán đƣợc tóm tắt theo các bỏ. Nguyên lý đơn giản này đƣợc minh họa trong hình 4a: phƣơng trình dƣới đây: ( ) | ( ) ( )| (3) ( ) | ( ) ( )| (4) ( ) ( ) ( ) { (5) ( ) a b ( ) Hình 4. Bounding box and Centroid of Current Frame ( ) ( ) { (6) ( ) 444 444
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Nhƣ đƣợc minh họa trong hình 4b, khoảng cách d1 (khoảng trọng là Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc cách từ tọa độ trọng tâm trƣớc đó tới khối của cá) ngắn hơn giới thiệu: cách tính, lý do sử dụng và hai số liệu đƣợc sử dụng khoảng cách d2 (khoảng cách từ tọa độ trọng tâm trƣớc đó tới để đánh giá sự thực hiện của các thuật toán nhƣ thế nào. Tiếp khối của bóng). Bằng cách áp dụng phƣơng pháp này, vấn đề theo, trong phần III.B là sự đánh giá năm thuật toán bám đuổi bóng xuất hiện đƣợc giải quyết một cách hiệu quả. và những kết luận đƣợc rút ra. Loài cá đƣợc sử dụng trong bài báo này là cá ngựa vằn. Các đoạn phim về cá ngựa vằn đƣợc Một vấn đề của GMM cần đƣợc giải quyết là tại những quay lại dƣới định dạng avi trong khoảng thời gian 10 giây. khung hình đầu tiên của video, sự ƣớc tính hình nền chƣa đƣợc Tốc độ quay là 15 khung hình trên giây. Kích thƣớc khung hoàn thành. Điều này làm cho vị trí của cá không đƣợc phát hình là 640x480. Nƣớc đƣợc sử dụng là nƣớc sinh hoạt đƣợc hiện đúng. Vấn đề càng nghiêm trọng hơn khi cá không di thêm vào chất ô nhiễm với các nồng độ khác nhau. chuyển trong những khung hình đầu tiên này. Thuật toán Frame-Differencing, nhƣ đƣợc trình bày trƣớc, không hiệu quả A. Phương pháp đánh giá bởi vì không có vị trí của cá trong khung hình trƣớc đó. Do đó, Trong đề tài này, nhóm nghiên cứu đánh giá chất lƣợng của thật cần thiết để khởi tạo vị trí ban đầu cho cá tại khung hình thuật toán Phát hiện và Bám đuổi cá bằng cách so sánh kết quả đầu tiên. Trong phƣơng pháp đƣợc đề xuất này, bƣớc khởi tạo bám đuổi từ các thuật toán với bộ dữ liệu Ground Truth tƣơng đƣợc thực hiện bằng cách vẽ một đƣờng bao quanh cá ứng. Do vậy, bộ dữ liệu này phải đƣợc xây dựng trƣớc cho tất (Bounding Box). Sau đó, trọng tâm của cá đạt đƣợc bằng cách cả các video. Sau đó, hai đại lƣợng phổ biến trong thống kê là tính trọng tâm của hình chữ nhật đó. Bƣớc khởi tạo đƣợc minh Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc chọn để họa trong hình dƣới đây: đánh giá các kết quả. 1) Cơ sở dữ liệu Ground Truth Để có thể đánh giá đƣợc các phƣơng pháp Phát hiện và Bám đuổi cá, chúng ta có thể so sánh quỹ đạo của kết quả bám đuổi với dữ liệu Ground Truth đã đƣợc xây dựng từ trƣớc. Do đó, việc xây dựng bộ dữ liệu này là một phần thiết yếu trong đề tài nhằm đánh giá đƣợc chất lƣợng các thuật toán. Ở đây, các video đƣợc chọn dựa trên sự xuất hiện của bộ kết hợp các tình huống điển hình trong đề tài. Thông qua việc đánh giá chất lƣợng bám đuổi cá theo các tình huống trên, chúng ta có thể kiểm nghiệm tính hiệu quả của mọi thuật toán khi phải giải quyết các tình huống khác nhau, từ dạng thông thƣờng đến Hình 5. Bƣớc khởi tạo những dạng tình huống lạ. Cụ thể, mỗi video sẽ là sự kết hợp C. Chi tiết thuật toán giữa các tình huống có thể xảy ra nhƣ màu sắc của cá (Fish Sơ đồ thuật toán đƣợc trình bày phía dƣới cho thấy sự bổ Color), Nồng độ (Concentration), Tốc độ bơi của cá (Velocity), sung cho nhau của GMM và Frame-Differencing. Sự thực thi Số lƣợng bóng xuất hiện (Illusion), và Thứ tự mẫu video của phƣơng pháp này sẽ đƣợc trình bày trong phần III. (Sample) tức là mỗi sự kết hợp này đƣợc quay 3 lần nhằm đảm bảo tính khách quan. Bảng I dƣới đây minh họa cho việc chọn các video theo tình huống vừa trình bày ở trên BẢNG I: VIDEO TÌNH HUỐNG Fish Color Concentration Velocity Illusions Order B (Black) C (Clean) F (Fast) 1 (Top) 1 O (Orange) P (Pollution) I (Immobile) 2 (Top-Right) 2 S (Slow) 3( Right) 3 4 (None) Ví dụ, một tình huống video mà xuất hiện cá màu đen (B), di chuyển chậm (S) trong môi trƣờng nƣớc sạch (C), không xuất hiện bóng của cá (4), và là mẫu video thứ nhất (1), sẽ đƣợc ký hiệu là BCS41. Các video tình huống khác đƣợc ký hiệu tƣơng tự. Theo Bảng 1, có thể có tổng cộng 2x2x3x4x3 = 144 video, chẳng hạn OPF11, OCI43, BPS33… Bộ dữ liệu thực nghiệm cho từng video đƣợc làm bằng tay, do đó, công việc này khó lòng thực hiện đƣợc với các video dài. Nhóm nghiên cứu đã quyết định chỉ sử dụng các video có thời lƣợng 10 giây trong nghiên cứu này. Sau khi đã xây dựng đƣợc bộ dữ liệu này, chúng ta có thể so sánh các kết quả bám đuổi cho từng Hình 6. Sơ đồ thuật toán CGMMFD thuật toán để có thể đánh giá một cách hiệu quả các thuật toán III. KẾT QUẢ THỰC NGHIỆM VÀ PHÂN TÍCH này. Có đƣợc điều này là vì bộ dữ liệu thực nghiệm có tính chính xác cao, theo từng khung hình một. Phần này tập trung miêu tả các tiêu chí đƣợc sử dụng cho phần đánh giá. Cụ thể, phần III.A miêu tả việc xây dựng 2) Tiêu chí đánh giá Ground Truth. Ground Truth sẽ bao gồm đầy đủ các trƣờng a) Mean Square Error hợp, tình huống khác nhau. Sau đó, hai số liệu thống kê quan 445 445
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Chỉ số MSE đƣợc tính bằng công thức dƣới đây: Normal MSE 60.9 2113.2 106.1 182.4 155.1 Var 17.8 1182.4 32.9 51.9 53.9 ∑( ) (8) Fast MSE 369.5 1464.7 5524.0 6735.9 283.8 Var 217.4 828.4 2399.5 2739.8 113.0 với là tọa độ của trọng tâm cá phát hiện và bám đuổi Immobi MSE 38351.0 116607.1 198.9 256.2 120.2 đƣợc ở khung hình thứ i, là tọa độ trọng tâm chuẩn đƣợc lấy le Var 3180.4 3358.8 58.3 15.6 28.4 từ bộ dữ liệu Ground Truth ở cùng khung hình, và m là tổng số Illusion MSE 9805.7 25872.8 3635.9 3888.3 260.9 khung hình trong video. Var 817.2 2852.1 1654.6 1162.1 94.1 Từ bảng trên, ta thấy rằng thuật toán nhóm nghiên cứu đề Trong thống kê, chỉ số MSE cho biết trung bình của bình xuất (CGMMFD) cho giá trị thấp hơn trong 5 thuật toán cho phƣơng lỗi sai, tức là độ khác biệt giữa kết quả với giá trị mong hầu hết các nhóm video. Vì vậy, thuật toán này có thể giải muốn đạt đƣợc. Trong trƣờng hợp này, chỉ số MSE cho thấy độ quyết tốt các tình huống có thể xảy ra trong nghiên cứu này. lệch (hoặc khoảng cách) từ tọa độ trọng tâm tính ra từ các thuật Trong khi CGMMFD cho kết quả MSE và Var thấp một cách toán với tọa độ chuẩn. Nói chung, chỉ số MSE nhỏ đồng nghĩa ổn định, các thuật toán khác có thể tốt cho một vài tình huống với việc ít xảy ra lỗi bám đuổi, tức là thuật toán cho kết quả tốt. nhƣng lại không tốt cho các tình huống khác. Tuy nhiên, chỉ số này chỉ đánh giá trung bình các lỗi sai, Phần tiếp theo của bài báo sẽ trình bày về kết quả và phân dẫn đến việc các sai số lớn ở một vài khung hình ảnh hƣởng tích chi tiết cho từng nhóm tình huống. Một điểm đáng lƣu ý là nghiêm trọng tới chỉ số cuối cùng. Chẳng hạn, trong khi hầu trong những biểu đồ dƣới đây, các chỉ số đƣợc hiển thị ở dạng hết các khung hình đạt kết quả bám đuổi tốt, với độ lệch vài log của các kết quả MSE và Var. Bởi vì các giá trị này thay đổi đơn vị, sự xuất hiện một sai số lớn trên 1000 đơn vị ở bất kỳ từ vài đơn vị cho tới hàng trăm nghìn đơn vị, gây khó khăn cho khung hình nào sẽ tạo thành chỉ số MSE ở khoảng 1000 thay vì việc hiển thị trên biểu đồ. chỉ vài đơn vị. Điều này xảy ra là vì tổng số khung hình chƣa 1) Nhóm video Bình thường thật sự lớn, chỉ vào khoảng 150 khung hình cho 10 giây. Dó Trong các video này, cá bơi với vận tốc chậm, và không đó, chỉ số MSE không thể xác định thuật toán bám đuổi này thay đổi vận tốc đột ngột. Bóng của cá cũng không xuất hiện cho chất lƣợng tốt hơn thuật toán khác, nếu chỉ sử dụng MSE. trong các video này. Kết quả chi tiết đƣợc hiển thị ở Hình 7 và Để giải quyết vấn đề này, nhóm nghiên cứu sử dụng thêm một Hình 8 dƣới đây. chỉ số khác, đó là Phƣơng sai, để có thể đánh giá một cách tối ƣu hơn. b) Phương sai Phƣơng sai đƣợc tính bằng công thức: ∑( ̅) (9) với d là độ lệch (khoảng cách) giữa trọng tâm cá phát hiện đƣợc với trọng tâm chuẩn từ bộ dữ liệu thực nghiệm, ̅ là giá trị trung bình của d; m tổng số khung hình trong video. Phƣơng sai (Var) cho thấy độ phân tán của lỗi sai. Một giá trị nhỏ của chỉ số này cho thấy lỗi sai tập trung rất gần nhau, và gần giá trị trung bình của chúng. Ngƣợc lại, chỉ số phƣơng sai cao chỉ ra các lỗi sai rất phân tán. Tóm lại, một thuật toán Phát Hình 7. MSE của nhóm video Bình thƣờng hiện và Bám đuổi đạt hiệu quả tốt nghĩa là nó phải cho thấy cả hai chỉ số MSE và Var có giá trị thấp. B. Kết quả đánh giá Trong phần này, nhóm nghiên cứu sẽ trình bày các phân tích và so sánh từ các kết quả của các thuật toán khác nhau cho từng video tình huống một cách tổng quan. Các video đƣợc nhóm thành 4 nhóm theo các tiêu chí đặc trƣng nhằm tiện cho việc phân tích nhƣ sau: Bình thƣờng (Normal) là các video tình huống mà cá bơi chậm, không có bóng, Nhanh (Fast) các video mà cá bơi với tốc độ nhanh, Bất động (Immobile) là các tình huống mà cá không di chuyển, Bóng (Illusion) các video có sự xuất hiện bóng của cá. Trong sự đánh giá tổng quan này, các chỉ số MSE và Var đƣợc lấy từ kết quả trung bình cho các video trong nhóm. Bảng II minh họa cho các giá trị trung bình Hình 8. Phƣơng sai của nhóm video Bình thƣờng của MSE và Var đối với 5 thuật toán khác nhau là Ƣớc lƣợng nền trung bình (MB), GMM, Mean Shift (MS), Lọc Particle Trong nhóm video này, MB là thuật toán cho kết quả MSE (PF) và thuật toán đƣợc đề xuất (CGMMFD) tƣơng ứng với và Var tốt nhất. Trong khi đó, 4 thuật toán còn lại không cho từng nhóm video. thấy một ƣu thế đáng kể nào. Kết quả này phản ánh đúng tính BẢNG II: HIỆU SUẤT HỆ THỐNG chất của các thuật toán ở trên. Với sự di chuyển với tốc độ MB GMM MS PF CGM không thay đổi đột ngột và không có bóng, kết quả tạo nền MFD trung bình sẽ cho kết quả tốt, hệ quả là việc phát hiện và bám 446 446
  5. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) đuổi cá cho độ chính xác cao, MSE thấp nhất. Lỗi sai chỉ xảy ra khi cá đôt ngột bơi ngƣợc hƣớng đang di chuyển, tạo thành lỗi bám đuổi đối trong thời gian ngắn đối với bộ lọc Kalman. Trong Hình 8, Phƣơng sai của mỗi thuật toán ứng với từng video đặc trƣng đƣợc chọn và hiển thị. Kết quả Var trong nhóm này cũng cho thấy chất lƣợng tốt của thuật toán MB, với chỉ số thấp. Ngƣợc lại, thuật toán GMM lại cho kết quả tệ nhất trong cả 5 thuật toán đối với cả chỉ số MSE và Var. Trong khi đó kết quả MSE và Var của CGMMFD cho thấy sự ổn định khi hầu hết chỉ số ở các video nằm trong khoảng dƣới 2 (tức 100 đơn vị). Tóm lại, thuật toán MB có thể xem là thuật toán phù hợp nhất cho các video nhóm Bình thƣờng, còn thuật toán Hình 10. Phƣơng sai của các video Bất động CGMMFD cũng cho thấy chất lƣợng bám đuổi ổn định và tƣơng đối tốt. Hình 10 cho thấy giá trị Var từ các thuật toán có giá trị 2) Nhóm video Bất động tƣơng đối thấp, đặc biệt hơn, ở vài video tình huống, chúng có Khi cá nằm yên do tác động của độc chất trong môi trƣờng thể thấy đƣợc giá trị bé hơn 10 đơn vị (giá trị âm trên thang nƣớc. Các thuật toán Phát hiện và Bám đuổi cá gặp phải đồng log). Điều này xảy ra chính là do cá hầu nhƣ không di chuyển, thời những thuận lợi và bất lợi. Nhóm video này cũng bao gồm dẫn đến kết quả bám đuổi hầu nhƣ không cho lỗi sai đối với các trƣờng hợp mà cá di chuyển rất ít. Kết quả chi tiết đƣợc những thuật toán nhƣ MS, PF và CGMMFD. Nhƣng ở video trình bày ở Hình 9 và 10. mã OPI21, chỉ số Var lại cao đột biến, lý do là vì ở video này, cá có sự di chuyển đột ngột trong khoảng thời gian nhỏ sau một thời gian dài bất động, chính điều này gây ra sai lêch ở kết quả bƣớc Phát hiện cá, làm cho thuật toán GMM có kết quả Var cao bất thƣờng. Tóm lại, trƣờng hợp Bất động của cá có thể đƣợc giải quyết tốt bằng cách dùng thuật toán Mean Shift, lọc Particle và CGMMFD, nhƣng không thể là GMM hoặc MB. 3) Nhóm video Nhanh Trong các video này, cá di chuyển với vận tốc nhanh hơn bình thƣờng, đồng thời, lúc di chuyển ra các cạnh của hồ, cá cũng gây ra các bóng ảnh ảo trên các khu vực này. Tốc độ này của cá gây ảnh hƣởng hầu nhƣ giống nhau đối với các thuật Hình 9. MSE của các video Bất động toán. Hình 11 cho thấy, không có nhiều sự sai biệt ở kết quả MSE từ các thuật toán tƣơng ứng với các video tình huống. Kết quả MSE của thuật toán GMM và MB rất cao Thuật toán Mean Background cho kết quả khả quan trong các (trên10000 đơn vị) cho thấy 2 thuật toán này không thể giải video này nhƣ đã đề cập từ trƣớc: khi cá di chuyển nhanh, nền quyết đƣợc tình huống xảy ra trong nhóm các video này. Điều tạo ra cũng đạt chất lƣợng cao hơn, từ đó kết quả Phát hiện cá này là do khi cá không di chuyển, hoặc di chuyển rất ít, thì cũng tốt hơn. Bên cạnh đó, cá di chuyển nhanh cũng tạo ra điều thuật toán GMM sẽ xem cá là nền và không thể trích xuất đƣợc kiện thích hợp cho phƣơng pháp Frame Differencing. Vì thế, khối cá, dẫn đến sai số cực lớn và liên tục. Tƣơng tự, thuật toán thuật toán CGMMFD cũng hiệu quả trong trƣờng hợp này. Trái MB cũng không thể tạo ảnh nền chính xác, bởi vì trong thuật lại kết quả MSE của Mean Shift và lọc Particle lại không tốt toán này, ảnh nền đƣợc tạo ra phụ thuộc vào độ dài của video bằng. Lý do là vì trong các video này, tốc độ của cá di chuyển và sự di chuyển của cá. Kết quả là không thể phát hiện đƣợc cá nhanh, histogram thay đổi nhiều hơn, làm cho hai thuật toán khi trừ nền, dẫn đến sai số khi bám đuổi. Trong khi đó, kết quả này bám trƣợt trọng tâm của cá. Nhƣng nhìn chung thì hai bám đuổi từ thuật toán Mean Shift, lọc Particle, và CGMMFD thuật toán này vẫn có thể hữu dụng vì chúng cho giá trị MSE lại đạt chất lƣợng khả quan hơn. Với Mean Shift và lọc khá thấp, chỉ vào khoảng 100 trong hầu hết các video trong Particle, hai thuật toán này có thể bám đuổi đƣợc chính xác hơn nhóm này. bởi vì histogram [8],[9] trong các trƣờng hợp này thay đổi rất Nhƣ vậy, tốc độ cao của cá ảnh hƣởng tƣơng đối ít tới kết ít. Bên cạnh đó, thuật toán đƣợc đề xuất CGMMFD cũng cho quả của các thuật toán kể trên. Do đó, trong nhóm video này, kết quả MSE và Var thấp một cách tƣơng đối ổn định nhờ có không có thuật toán nào thật sự tối ƣu hơn thuật toán nào. bƣớc khởi tạo cùng với phát hiện bất động. 447 447
  6. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Tuy nhiêm, ở trƣờng hợp xuất hiện bóng cá này, thuật toán đƣợc đề xuất CGMMFD vẫn cho kết quả MSE và Var có thể chấp nhận đƣợc, với giá trị tƣơng đối thấp. Nói chung, trƣờng hợp nhóm video có sự xuất hiên của bóng cá thì chỉ số MSE và Var có xu hƣớng tăng với tất cả năm thuật toán. Tuy nhiên, thuật toán CGMMFD có lợi thế hơn nhờ độ đơn giản của thuật toán, và tính ổn định kết quả MSE và Var ở tất cả cá video. Hình 11. MSE của các video nhanh Hình 14. Phƣơng cho các video có bóng IV. KẾT LUẬN Trong nghiên cứu này, chúng to đã nâng cao chất lƣợng của việc Phát hiện và Bám đuổi cá bằng cách khai thác thuật toán GMM và bộ lọc Kalman, cùng với Frame-Differencing. Sau Hình 12. Phƣơng của các video nhanh khi xây dựng thuật toán trên, chúng tôi cũng đã tiến hành kiểm 4) Nhóm video có Bóng thử chất lƣợng bằng hai chỉ số là MSE và Var đƣợc tạo ra từ Một điều hiển nhiên là sự xuất hiện của bóng (ảnh ảo của thuật toán đề xuất CGMMFD cùng với bốn thuật toán khác. cá) trong các video này ở trên mặt nƣớc (trƣờng hợp 1), góc Kết quả cho thấy, thuật toán chúng tôi đề xuất cho kết quả khả bên phải bể cá (trƣờng hợp 2) hay ảnh ở cả hai vị trí nhƣ trên quan trong việc Phát hiện và Bám đuổi cá nhờ cho ra giá trị (trƣờng hợp 3), đều làm tăng chỉ số MSE và Var một cách đáng MSE và Var thấp. Có đƣợc điều này là vì thuật toán này bao kể. Các loại bóng này ảnh hƣởng nghiêm trọng nhất đến thuật gồm hai thuật toán khác nhau nhƣng có thể bổ sung cho nhau toán Mean Shift và lọc Particle, bởi vì các bóng này làm sai một cách hợp lý là GMM và FD. Tuy nhiên, phƣơng pháp này lệch kết quả histogram ở hai thuật toán này, từ đó gây ra sự vẫn chƣa thể giải quyết việc Phát hiện và Bám đuổi cá ở môi bám đuổi sai đối tƣợng, tức là thay vì bám theo cá thật thì hai trƣờng thời gian thực vì nó cần ảnh của các khung hình kế tiếp. thuật toán này dễ dàng bị bám lệch sang bóng cá. Do đó, trong những nghiên cứu tiếp theo, nhóm sẽ tập trung tìm ra những cách kết hợp khác hiệu quả hơn, nhằm nâng cao chất lƣợng của việc Phát hiện và Bám đuổi cá một cách ổn định và hiệu suất cao hơn. LỜI CẢM ƠN Nghiên cứu này đƣợc hỗ trợ chính thức bởi Bộ Khoa học và Công nghệ, nằm trong dự án nghiên cứu cấp bộ năm 2014- 2015. Nhóm nghiên cứu cũng xin chân thành cảm ơn nhóm nghiên cứu TRT3DCS của trƣờng ĐH Bách Khoa Đà Nẵng trong quá trình nghiên cứu này. THAM KHẢO [1] Vinaykumar, M.,Jatoth, R.K. " Performance evaluation of Alpha-Beta and Kalman filter for object tracking." (2014). [2] Fier, R., Albu, A.B., Hoeberechts, M., " Automatic fish counting system Hình 13. MSE cho các video có bóng for noisy deep-sea videos", 14-19 Sept. 2014, pp. 1-6. [3] Stauffer, C., Grimson, W. (1999) “Adaptive Background Mixture Bên cạnh đó, trong trƣờng hợp 3 của bóng cá, MSE và Var Models for Real-Time Tracking”. IEEE Computer Society Conf. on của thuật toán MB cũng rất cao, bởi vì xuất hiện đến 3 bóng Computer Vision and Pattern Recognition, 246-252. của cá, tạo ra sự xác định sai lệch về đối tƣợng để bám đuổi [4] Ramsey Faragher. (September, 2012) “Understanding the Basis of the tƣơng tự nhƣ trƣờng hợp của thuật toán Mean Shift và lọc Kalman Filter Via a Simple and Intuitive Derivation”. Particle [5] C. Ridder, O. Munkelt, and H. Kirchner, “Adaptive background estimation and foreground detection using Kalman filtering”, In Proc. ICAM, 1995. 448 448
  7. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) [6] Ning J., Zhang L., Zhang D., and Wu C.;. (2010). “Robust Mean Shift Tracking with Corrected Background-Weighted Histogram”. [7] Comaniciu D., Ramesh V., and Meer P.: “Real-Time Tracking of Non- Rigid Objects Using Mean Shift”. Proc. IEEE Conf. Computer Vision and Pattern Recognition, Hilton Head, SC, USA, June, 2000, pp. 142- 149. [8] K. Nummiaro, E. Koller-Meier, L. V. Gool. “A Color-based Particle Filter.” In First International Workshop on Generative- Model- Based Vision, 2002. [9] M. Fotouhi, A. R. Gholami, and S. Kasaei. (2011) “Particle Filter-Based Object Tracking Using Adaptive Histogram.” [10] Singla Nishu.: Motion Detection Based on Frame Difference Method. International Journal of Information & Computation Technology. Volume 4, Number 15 (2014), pp. 1559-1565. 449
nguon tai.lieu . vn