Xem mẫu
- Hội Thảo Quốc
Hội Thảo GiaGia
Quốc 2015 vềvề
2015 Điện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thôngvà
vàCông NghệThông
Công Nghệ ThôngTin
Tin(ECIT
(ECIT2015)
2015)
Phát hiện và bám đuổi cá bằng phương pháp GMM
kết hợp Frame-Differencing
Nguyễn Đình Minh Nhật, Huỳnh Nhƣ Kiên, Võ Ngọc Phạm Văn Tuấn
Nhân Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại
Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại Học Đà Nẵng
Học Đà Nẵng Đà Nẵng, Việt Nam
Đà Nẵng, Việt Nam Email: pvtuan@dut.udn.vn
Email: ndmnhat71@gmail.com,
vongocnhan4292@gmail.com,
nhukienhuynh6392@gmail.com
Tóm tắt— Phát hiện và bám đuổi cá (FDT) là một bước quan là bám đuổi Mean shift (MS) [6, 7] và lọc Particle (PF) [8, 9].
trọng trong nghiên cứu hải dương học, đặc biệt là trong việc dự Hai phƣơng pháp này đã chứng minh thích hợp cho việc bám
đoán những thay đổi chất lượng nguồn nước và những biến động đuổi các vật thể có hình dạng thay đổi.
về số lượng cá trong quần thể. Trong bài báo này, thuật toán với
sự kết hợp giữa Mô hình hỗn hợp Gauss và Frame Differencing Trong một vài trƣờng hợp nhất định, một vài trong số bốn
(CGMMFD) được đề xuất. Phương pháp này được mong đợi cho phƣơng pháp này cho ra các hiệu suất phát hiện và bám đuổi cá
kết quả khả quan đối với các tình huống bám đuổi khác nhau. cao. Tuy nhiên, không một phƣơng pháp nào có thể phù hợp
Cũng trong bài báo này, các tiêu chí đánh giá được xây dựng cụ cho tất cả mọi trƣờng hợp đặt ra. Do đó, trong bài báo này,
thể để đánh giá sự hiệu quả của mỗi phương pháp cho từng phƣơng pháp mới CGMMFD đƣợc đề xuất. Phƣơng pháp mới
trường hợp cụ thể. Các kết quả thực nghiệm đã chỉ ra rằng này kết hợp GMM, lọc Kalman và Frame-Differencing. Frame-
phương pháp này cho ra sự chính xác trong bám đuổi lớn hơn Differencing đƣợc sử dụng bởi vì kĩ thuật này có thể phát hiện
khí so với bốn phương pháp khác đó là Trừ nền, Mô hình hỗn vị trí con cá cho những khung hình mà GMM không thể. Đặc
hợp Gauss, Bám đuổi Mean shift và Lọc particle. Trong khí các biệt là trong khoảng từ 10 đến 15 khung hình đầu tiên khi mô
phương pháp có những khó khăn để bám đuổi cá trong một vài hình nền chƣa đƣợc hoàn thành bởi GMM. Đối với vấn đề
trường hợp nhất định thì phương pháp được đề xuất này có thể bóng xuất hiện, GMM sẽ tạo ra nhiều hơn một khối mà có thể
hoạt động tốt cho các tình huống khác nhau. là cá. Trong trƣờng hợp này, khối gần nhất với tọa độ trọng
tâm trƣớc đó của con cá sẽ đƣợc chọn nhƣ là khối thật sự của
Từ khóa—Phát hiện và bám đuổi cá, CGMMFD, Mean Shift,
Lọc particle.
con cá. Nhƣ vậy, tất cả các vấn đề có thể xảy ra trong hệ thống
FDT đã đƣợc khắc phục bởi phƣơng pháp CGMMFD.
I. GIỚI THIỆU Phần còn lại của bài báo đƣợc trình bày nhƣ sau. Trong
Trong những năm gần đây, bám đuổi vật thể đang nhận đƣợc phần II, phƣơng pháp CGMMFD đƣợc giới thiệu. Phần III cho
nhiều sự quan tâm. Đối với ứng dụng Phát hiện và bám đuổi thấy các kết quả thực nghiệm và sự phân tích đánh giá 5
cá, Lọc Alpha-Beta and Lọc Kalman [1] là các kĩ thuật phổ phƣơng pháp dựa trên những kết quả đó. 5 phƣơng pháp đó là
biến đƣợc sử dụng cho bám đuổi vật thể. Phƣơng pháp bám MB, GMM, MS, PF và phƣơng pháp đƣợc đề xuất CGMMFD
đuổi khối đƣợc sử dụng để bám đuổi cá. Do đó, phƣơng pháp trong các ngữ cảnh bám đuổi khác nhau.
này đƣợc sử dụng trong các ứng dụng thống kê số lƣợng cá [2].
Đối với việc phát hiện cá tự động [3], các phƣơng pháp dựa II. SỰ KẾT HỢP GIỮA GMM VÀ FRAME-DIFFERENCING
vào các thuật toán phân loại thuộc tính Haar-like xếp lớp đƣợc Kết quả thực nghiệm cho thấy rằng hai phƣơng pháp là
tạo ra bằng cách sử dụng các ảnh dƣới nƣớc từ thiết bị điều GMM và Ƣớc lƣợng nền trung bình (MB) không thích hợp cho
khiển từ xa dƣới các điều kiện khảo sát đại dƣơng. trƣờng hợp cá đứng yên. Trong khi đó, Bám đuổi Mean shift và
Trong hệ thống FDT này, các vấn đề gây khó khăn nhất là sự Lọc particle tạo ra hiệu quả bám đuổi không cao khi xuất hiện
xuất hiện bóng của cá, là khi cá không di chuyển hay là khi cá bóng của con cá trong video. Do đó, bốn phƣơng pháp này
di chuyển với các vận tốc khác nhau. Để giải quyết các vấn đề không hiệu quả khi áp dụng vào ứng dụng FDT. Từ đó, trong
trên, trong bài báo này, bốn phƣơng pháp bám đuổi mà đƣợc sử nghiên cứu này, sự kết hợp GMM và Frame-Differencing với
dụng rộng rãi trong nhiều ứng dựng bám đuổi thời gian thực Lọc Kalman đƣợc kiểm nghiệm. Phƣơng pháp này cho ra các
đƣợc kiểm thử. Phƣơng pháp đầu tiên là sự kết hợp giữa Trừ kết quả đầy khả quan trong tất cả các trƣờng hợp có thể. Các
nền và bộ lọc Kalman. Trong đó, ảnh nền đƣợc tạo ra bằng chi tiết giải thuật sẽ đƣợc trình bày trong các phần tiếp theo.
phƣơng pháp ƣớc lƣợng nền trung bình (MB). Trong phƣơng A. Thuật toán Frame-Differencing
pháp thứ hai, Mô hình hỗn hợp Gauss (GMM) [3] đƣợc sử
Phát hiện vật thể chuyển động từ một chuỗi các khung hình
dụng để phát hiện cá, sau đó, bộ lọc Kalman [4, 5] sẽ bám đuổi
đƣợc thực hiện rộng rãi bằng thuật toán Frame-Differencing.
cá. Độ chính xác của cả hai phƣơng pháp này phụ thuộc nhiều
Nguyên lý của phƣơng pháp này là phát hiện các vận thể
vào chất lƣợng nền đƣợc tạo ra. Phƣơng pháp thứ ba và thứ tƣ
ISBN: 978-604-67-0635-9 443
443
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
chuyển động từ sự khác nhau giữa khung hình hiện tại và ( ) ( )
khung hình quy ƣớc. Phƣơng pháp này thiết lập một giá trị ( ) ( ) { (7)
( ) ( )
ngƣỡng sau khi trừ hai khung hình và xem các điểm ảnh nhƣ là
phần của mục tiêu chuyển động miễn là sự khác nhau tại những Hình 2 minh họa nguyên tắc của thuật toán Frame-
điểm ảnh này lớn hơn giá trị ngƣỡng. Trong bài báo này, Differencing. Hình 2a, 2b, 2c lần lƣợt là các khung hình thứ k-
Frame-Differencing có thể phát hiện cá vì máy quay đƣợc đặt 10, k, k+10 với bƣớc nhảy là 10. Các kết quả trừ hai khung
cố định. Phƣơng pháp này gồm có hai bƣớc là phát hiện chuyển hình đƣợc thể hiện trong hình 2d và 2e. Và, kết quả của thuật
động và phát hiện cá. three-frame difference đƣợc thể hiện trong hình 2f.
1) Phát hiện chuyển động Kết quả của thuật toán này rất hứa hẹn. Tuy nhiên, kết quả
phụ thuộc nhiều vào bƣớc nhảy L. Nếu bƣớc nhảy nhỏ (ví dụ
Trong bƣớc phát hiện chuyển động, sự khác nhau giữa
L=5) thì kết quả của phép giao hai ảnh nhị phân Ik-L(x,y) và
khung hình thứ k Fk(x,y) và khung hình thứ k+1 Fk+1(x,y) đƣợc
Ik+L(x,y) không phải là con cá mà là một khối nhỏ cái có thể
tính để cho ra ảnh Dk(x,y):
đƣợc hiểu là nhiễu. Mặt khác, nếu bƣớc nhảy L quá lớn thì rất
( ) | ( ) ( )| (1) có khả năng con cá ở khung hình thứ k-L hoặc k+L trùng vị trí
với nó ở khung hình thứ k. Điều này dẫn tới không phát hiện
Sau đó, giá trị ngƣỡng T đƣợc thiết lập cho ảnh Dk(x,y) để đƣợc con cá nhƣ đƣợc trình bày trong hình 3 (L=30).
tạo ảnh nhị phân Ik(x,y):
( )
( ) ( ) { (2)
( )
a) b) c)
Hình 1. Sự minh họa cho Frame-Differencing
Khi giá trị các điểm ảnh trong ảnh ( ) lớn hơn giá trị d) e) f)
ngƣỡng T thì các điểm ảnh đó đƣợc xem là vật thể. Ngƣợc lại Hình 2. Minh họa Phát hiện cá bằng Frame-Differencing
đƣợc xem là nền. Sau đó, khối có diện tích lớn hơn ngƣỡng S
(S=50 trong bài báo này) đƣợc xem nhƣ là vật thể di chuyển.
Tuy nhiên, quá trình này cũng có thể tạo ra các lỗi trong phát
hiện chuyển động khi con cá đứng yên và đồng thời xuất hiện
nhiễu trong khung hình nhƣ ánh sáng thay đổi, hồ lắc lƣ dẫn
đến nƣớc dao động…Do đó, chỉ khu vực có diện tích lớn hơn
diện tích hình chữ nhật bao quanh khối thu đƣợc từ khung hình
trƣớc 2.25 lần đƣợc xem xét. Vì vậy, sự khởi tạo vị trí ban đầu a) b) c)
của cá là cần thiết.
Mặc dù có độ phức tạp thấp và hiệu quả phát hiện cao
nhƣng phƣơng pháp này vẫn cho thấy một số hạn chế. Các giá
trị ngƣỡng T và S thƣờng đƣợc chọn thủ công tùy theo mỗi
trƣờng hợp thực nghiệm. Nếu giá trị T quá lớn thì có thể không d e f
phát hiện đƣợc chuyển động. Ngƣợc lại, sẽ phát hiện ra nhiều Hình 3. Không phát hiện cá khi L lớn
chuyển động trong khi thực tế chỉ có một (trƣờng hợp nhiễu B. Trường hợp bóng xuất hiện và khởi tạo vị trí ban đầu
xuất hiện).
Nhƣ đƣợc đề cập ở trên, bốn phƣơng pháp bám đuổi là MB,
2) Phát hiện cá GMM, MS và PF cho hiệu quả bám đuổi không cao khi xuất
Trong bƣớc phát hiện cá, thuật toán Three-Frame hiện bóng (khi cá bơi gần mặt nƣớc hay gần thành hồ bằng
Difference [10] đƣợc áp dụng. Bƣớc thứ nhất của thật toán là gƣơng). Sự xuất hiện của bóng dẫn tới sự phát hiện cá sai. Do
trừ ba khung hình khác nhau theo lần lƣợt, với bƣớc nhảy vậy, một kĩ thuật so sánh đơn giản đƣợc đề xuất để khắc phục
khung hình là L, sau đó ta lấy hiệu của hai kết quả tìm đƣợc ở vấn đề này. Cụ thể, trong bƣớc BlobAnalysis, số lƣợng khối tối
trên để phát hiện đƣợc cá. Cụ thể, khung hình thứ k trừ khung đa đƣợc ấn định là 5. Sau đó, tại khung hình đang xét, khối nào
hình thứ k-L cho ra ảnh nhị phân Ik-L(x,y). Tƣơng tự, khung gần nhất với vị trí cá ở khung hình trƣớc đó đƣợc chọn. Trong
hình k+L trừ khung hình k cho ra ảnh nhị phân Ik+L(x,y). Tiếp hầu hết trƣờng hợp, các khối của bóng ở vị trí xa hơn đóm của
theo, ảnh Ik-L(x,y) giao với ảnh Ik+L(x,y) tạo ra ảnh kết quả của cá. Vì vậy, các lỗi do sự xuất hiện của bóng gây ra đƣợc loại
thuật toán. Quy trình của thuật toán đƣợc tóm tắt theo các bỏ. Nguyên lý đơn giản này đƣợc minh họa trong hình 4a:
phƣơng trình dƣới đây:
( ) | ( ) ( )| (3)
( ) | ( ) ( )| (4)
( )
( ) ( ) { (5)
( )
a b
( ) Hình 4. Bounding box and Centroid of Current Frame
( ) ( ) { (6)
( )
444
444
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Nhƣ đƣợc minh họa trong hình 4b, khoảng cách d1 (khoảng trọng là Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc
cách từ tọa độ trọng tâm trƣớc đó tới khối của cá) ngắn hơn giới thiệu: cách tính, lý do sử dụng và hai số liệu đƣợc sử dụng
khoảng cách d2 (khoảng cách từ tọa độ trọng tâm trƣớc đó tới để đánh giá sự thực hiện của các thuật toán nhƣ thế nào. Tiếp
khối của bóng). Bằng cách áp dụng phƣơng pháp này, vấn đề theo, trong phần III.B là sự đánh giá năm thuật toán bám đuổi
bóng xuất hiện đƣợc giải quyết một cách hiệu quả. và những kết luận đƣợc rút ra. Loài cá đƣợc sử dụng trong bài
báo này là cá ngựa vằn. Các đoạn phim về cá ngựa vằn đƣợc
Một vấn đề của GMM cần đƣợc giải quyết là tại những quay lại dƣới định dạng avi trong khoảng thời gian 10 giây.
khung hình đầu tiên của video, sự ƣớc tính hình nền chƣa đƣợc Tốc độ quay là 15 khung hình trên giây. Kích thƣớc khung
hoàn thành. Điều này làm cho vị trí của cá không đƣợc phát hình là 640x480. Nƣớc đƣợc sử dụng là nƣớc sinh hoạt đƣợc
hiện đúng. Vấn đề càng nghiêm trọng hơn khi cá không di thêm vào chất ô nhiễm với các nồng độ khác nhau.
chuyển trong những khung hình đầu tiên này. Thuật toán
Frame-Differencing, nhƣ đƣợc trình bày trƣớc, không hiệu quả A. Phương pháp đánh giá
bởi vì không có vị trí của cá trong khung hình trƣớc đó. Do đó, Trong đề tài này, nhóm nghiên cứu đánh giá chất lƣợng của
thật cần thiết để khởi tạo vị trí ban đầu cho cá tại khung hình thuật toán Phát hiện và Bám đuổi cá bằng cách so sánh kết quả
đầu tiên. Trong phƣơng pháp đƣợc đề xuất này, bƣớc khởi tạo bám đuổi từ các thuật toán với bộ dữ liệu Ground Truth tƣơng
đƣợc thực hiện bằng cách vẽ một đƣờng bao quanh cá ứng. Do vậy, bộ dữ liệu này phải đƣợc xây dựng trƣớc cho tất
(Bounding Box). Sau đó, trọng tâm của cá đạt đƣợc bằng cách cả các video. Sau đó, hai đại lƣợng phổ biến trong thống kê là
tính trọng tâm của hình chữ nhật đó. Bƣớc khởi tạo đƣợc minh Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc chọn để
họa trong hình dƣới đây: đánh giá các kết quả.
1) Cơ sở dữ liệu Ground Truth
Để có thể đánh giá đƣợc các phƣơng pháp Phát hiện và
Bám đuổi cá, chúng ta có thể so sánh quỹ đạo của kết quả bám
đuổi với dữ liệu Ground Truth đã đƣợc xây dựng từ trƣớc. Do
đó, việc xây dựng bộ dữ liệu này là một phần thiết yếu trong đề
tài nhằm đánh giá đƣợc chất lƣợng các thuật toán. Ở đây, các
video đƣợc chọn dựa trên sự xuất hiện của bộ kết hợp các tình
huống điển hình trong đề tài. Thông qua việc đánh giá chất
lƣợng bám đuổi cá theo các tình huống trên, chúng ta có thể
kiểm nghiệm tính hiệu quả của mọi thuật toán khi phải giải
quyết các tình huống khác nhau, từ dạng thông thƣờng đến
Hình 5. Bƣớc khởi tạo
những dạng tình huống lạ. Cụ thể, mỗi video sẽ là sự kết hợp
C. Chi tiết thuật toán giữa các tình huống có thể xảy ra nhƣ màu sắc của cá (Fish
Sơ đồ thuật toán đƣợc trình bày phía dƣới cho thấy sự bổ Color), Nồng độ (Concentration), Tốc độ bơi của cá (Velocity),
sung cho nhau của GMM và Frame-Differencing. Sự thực thi Số lƣợng bóng xuất hiện (Illusion), và Thứ tự mẫu video
của phƣơng pháp này sẽ đƣợc trình bày trong phần III. (Sample) tức là mỗi sự kết hợp này đƣợc quay 3 lần nhằm đảm
bảo tính khách quan. Bảng I dƣới đây minh họa cho việc chọn
các video theo tình huống vừa trình bày ở trên
BẢNG I: VIDEO TÌNH HUỐNG
Fish Color Concentration Velocity Illusions Order
B (Black) C (Clean) F (Fast) 1 (Top) 1
O (Orange) P (Pollution) I (Immobile) 2 (Top-Right) 2
S (Slow) 3( Right) 3
4 (None)
Ví dụ, một tình huống video mà xuất hiện cá màu đen (B),
di chuyển chậm (S) trong môi trƣờng nƣớc sạch (C), không
xuất hiện bóng của cá (4), và là mẫu video thứ nhất (1), sẽ
đƣợc ký hiệu là BCS41. Các video tình huống khác đƣợc ký
hiệu tƣơng tự. Theo Bảng 1, có thể có tổng cộng 2x2x3x4x3 =
144 video, chẳng hạn OPF11, OCI43, BPS33… Bộ dữ liệu
thực nghiệm cho từng video đƣợc làm bằng tay, do đó, công
việc này khó lòng thực hiện đƣợc với các video dài. Nhóm
nghiên cứu đã quyết định chỉ sử dụng các video có thời lƣợng
10 giây trong nghiên cứu này. Sau khi đã xây dựng đƣợc bộ dữ
liệu này, chúng ta có thể so sánh các kết quả bám đuổi cho từng
Hình 6. Sơ đồ thuật toán CGMMFD thuật toán để có thể đánh giá một cách hiệu quả các thuật toán
III. KẾT QUẢ THỰC NGHIỆM VÀ PHÂN TÍCH này. Có đƣợc điều này là vì bộ dữ liệu thực nghiệm có tính
chính xác cao, theo từng khung hình một.
Phần này tập trung miêu tả các tiêu chí đƣợc sử dụng cho
phần đánh giá. Cụ thể, phần III.A miêu tả việc xây dựng 2) Tiêu chí đánh giá
Ground Truth. Ground Truth sẽ bao gồm đầy đủ các trƣờng a) Mean Square Error
hợp, tình huống khác nhau. Sau đó, hai số liệu thống kê quan
445
445
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Chỉ số MSE đƣợc tính bằng công thức dƣới đây: Normal MSE 60.9 2113.2 106.1 182.4 155.1
Var 17.8 1182.4 32.9 51.9 53.9
∑( )
(8) Fast MSE 369.5 1464.7 5524.0 6735.9 283.8
Var 217.4 828.4 2399.5 2739.8 113.0
với là tọa độ của trọng tâm cá phát hiện và bám đuổi Immobi MSE 38351.0 116607.1 198.9 256.2 120.2
đƣợc ở khung hình thứ i, là tọa độ trọng tâm chuẩn đƣợc lấy le Var 3180.4 3358.8 58.3 15.6 28.4
từ bộ dữ liệu Ground Truth ở cùng khung hình, và m là tổng số Illusion MSE 9805.7 25872.8 3635.9 3888.3 260.9
khung hình trong video. Var 817.2 2852.1 1654.6 1162.1 94.1
Từ bảng trên, ta thấy rằng thuật toán nhóm nghiên cứu đề
Trong thống kê, chỉ số MSE cho biết trung bình của bình xuất (CGMMFD) cho giá trị thấp hơn trong 5 thuật toán cho
phƣơng lỗi sai, tức là độ khác biệt giữa kết quả với giá trị mong hầu hết các nhóm video. Vì vậy, thuật toán này có thể giải
muốn đạt đƣợc. Trong trƣờng hợp này, chỉ số MSE cho thấy độ quyết tốt các tình huống có thể xảy ra trong nghiên cứu này.
lệch (hoặc khoảng cách) từ tọa độ trọng tâm tính ra từ các thuật Trong khi CGMMFD cho kết quả MSE và Var thấp một cách
toán với tọa độ chuẩn. Nói chung, chỉ số MSE nhỏ đồng nghĩa ổn định, các thuật toán khác có thể tốt cho một vài tình huống
với việc ít xảy ra lỗi bám đuổi, tức là thuật toán cho kết quả tốt. nhƣng lại không tốt cho các tình huống khác.
Tuy nhiên, chỉ số này chỉ đánh giá trung bình các lỗi sai, Phần tiếp theo của bài báo sẽ trình bày về kết quả và phân
dẫn đến việc các sai số lớn ở một vài khung hình ảnh hƣởng tích chi tiết cho từng nhóm tình huống. Một điểm đáng lƣu ý là
nghiêm trọng tới chỉ số cuối cùng. Chẳng hạn, trong khi hầu trong những biểu đồ dƣới đây, các chỉ số đƣợc hiển thị ở dạng
hết các khung hình đạt kết quả bám đuổi tốt, với độ lệch vài log của các kết quả MSE và Var. Bởi vì các giá trị này thay đổi
đơn vị, sự xuất hiện một sai số lớn trên 1000 đơn vị ở bất kỳ từ vài đơn vị cho tới hàng trăm nghìn đơn vị, gây khó khăn cho
khung hình nào sẽ tạo thành chỉ số MSE ở khoảng 1000 thay vì việc hiển thị trên biểu đồ.
chỉ vài đơn vị. Điều này xảy ra là vì tổng số khung hình chƣa 1) Nhóm video Bình thường
thật sự lớn, chỉ vào khoảng 150 khung hình cho 10 giây. Dó Trong các video này, cá bơi với vận tốc chậm, và không
đó, chỉ số MSE không thể xác định thuật toán bám đuổi này thay đổi vận tốc đột ngột. Bóng của cá cũng không xuất hiện
cho chất lƣợng tốt hơn thuật toán khác, nếu chỉ sử dụng MSE. trong các video này. Kết quả chi tiết đƣợc hiển thị ở Hình 7 và
Để giải quyết vấn đề này, nhóm nghiên cứu sử dụng thêm một Hình 8 dƣới đây.
chỉ số khác, đó là Phƣơng sai, để có thể đánh giá một cách tối
ƣu hơn.
b) Phương sai
Phƣơng sai đƣợc tính bằng công thức:
∑( ̅)
(9)
với d là độ lệch (khoảng cách) giữa trọng tâm cá phát hiện
đƣợc với trọng tâm chuẩn từ bộ dữ liệu thực nghiệm, ̅ là giá
trị trung bình của d; m tổng số khung hình trong video.
Phƣơng sai (Var) cho thấy độ phân tán của lỗi sai. Một giá
trị nhỏ của chỉ số này cho thấy lỗi sai tập trung rất gần nhau, và
gần giá trị trung bình của chúng. Ngƣợc lại, chỉ số phƣơng sai
cao chỉ ra các lỗi sai rất phân tán. Tóm lại, một thuật toán Phát Hình 7. MSE của nhóm video Bình thƣờng
hiện và Bám đuổi đạt hiệu quả tốt nghĩa là nó phải cho thấy cả
hai chỉ số MSE và Var có giá trị thấp.
B. Kết quả đánh giá
Trong phần này, nhóm nghiên cứu sẽ trình bày các phân
tích và so sánh từ các kết quả của các thuật toán khác nhau cho
từng video tình huống một cách tổng quan. Các video đƣợc
nhóm thành 4 nhóm theo các tiêu chí đặc trƣng nhằm tiện cho
việc phân tích nhƣ sau: Bình thƣờng (Normal) là các video tình
huống mà cá bơi chậm, không có bóng, Nhanh (Fast) các video
mà cá bơi với tốc độ nhanh, Bất động (Immobile) là các tình
huống mà cá không di chuyển, Bóng (Illusion) các video có sự
xuất hiện bóng của cá. Trong sự đánh giá tổng quan này, các
chỉ số MSE và Var đƣợc lấy từ kết quả trung bình cho các
video trong nhóm. Bảng II minh họa cho các giá trị trung bình Hình 8. Phƣơng sai của nhóm video Bình thƣờng
của MSE và Var đối với 5 thuật toán khác nhau là Ƣớc lƣợng
nền trung bình (MB), GMM, Mean Shift (MS), Lọc Particle Trong nhóm video này, MB là thuật toán cho kết quả MSE
(PF) và thuật toán đƣợc đề xuất (CGMMFD) tƣơng ứng với và Var tốt nhất. Trong khi đó, 4 thuật toán còn lại không cho
từng nhóm video. thấy một ƣu thế đáng kể nào. Kết quả này phản ánh đúng tính
BẢNG II: HIỆU SUẤT HỆ THỐNG
chất của các thuật toán ở trên. Với sự di chuyển với tốc độ
MB GMM MS PF CGM
không thay đổi đột ngột và không có bóng, kết quả tạo nền
MFD trung bình sẽ cho kết quả tốt, hệ quả là việc phát hiện và bám
446
446
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
đuổi cá cho độ chính xác cao, MSE thấp nhất. Lỗi sai chỉ xảy
ra khi cá đôt ngột bơi ngƣợc hƣớng đang di chuyển, tạo thành
lỗi bám đuổi đối trong thời gian ngắn đối với bộ lọc Kalman.
Trong Hình 8, Phƣơng sai của mỗi thuật toán ứng với từng
video đặc trƣng đƣợc chọn và hiển thị. Kết quả Var trong nhóm
này cũng cho thấy chất lƣợng tốt của thuật toán MB, với chỉ số
thấp. Ngƣợc lại, thuật toán GMM lại cho kết quả tệ nhất trong
cả 5 thuật toán đối với cả chỉ số MSE và Var. Trong khi đó kết
quả MSE và Var của CGMMFD cho thấy sự ổn định khi hầu
hết chỉ số ở các video nằm trong khoảng dƣới 2 (tức 100 đơn
vị).
Tóm lại, thuật toán MB có thể xem là thuật toán phù hợp
nhất cho các video nhóm Bình thƣờng, còn thuật toán
Hình 10. Phƣơng sai của các video Bất động
CGMMFD cũng cho thấy chất lƣợng bám đuổi ổn định và
tƣơng đối tốt. Hình 10 cho thấy giá trị Var từ các thuật toán có giá trị
2) Nhóm video Bất động tƣơng đối thấp, đặc biệt hơn, ở vài video tình huống, chúng có
Khi cá nằm yên do tác động của độc chất trong môi trƣờng thể thấy đƣợc giá trị bé hơn 10 đơn vị (giá trị âm trên thang
nƣớc. Các thuật toán Phát hiện và Bám đuổi cá gặp phải đồng log). Điều này xảy ra chính là do cá hầu nhƣ không di chuyển,
thời những thuận lợi và bất lợi. Nhóm video này cũng bao gồm dẫn đến kết quả bám đuổi hầu nhƣ không cho lỗi sai đối với
các trƣờng hợp mà cá di chuyển rất ít. Kết quả chi tiết đƣợc những thuật toán nhƣ MS, PF và CGMMFD. Nhƣng ở video
trình bày ở Hình 9 và 10. mã OPI21, chỉ số Var lại cao đột biến, lý do là vì ở video này,
cá có sự di chuyển đột ngột trong khoảng thời gian nhỏ sau một
thời gian dài bất động, chính điều này gây ra sai lêch ở kết quả
bƣớc Phát hiện cá, làm cho thuật toán GMM có kết quả Var
cao bất thƣờng.
Tóm lại, trƣờng hợp Bất động của cá có thể đƣợc giải quyết
tốt bằng cách dùng thuật toán Mean Shift, lọc Particle và
CGMMFD, nhƣng không thể là GMM hoặc MB.
3) Nhóm video Nhanh
Trong các video này, cá di chuyển với vận tốc nhanh hơn
bình thƣờng, đồng thời, lúc di chuyển ra các cạnh của hồ, cá
cũng gây ra các bóng ảnh ảo trên các khu vực này. Tốc độ này
của cá gây ảnh hƣởng hầu nhƣ giống nhau đối với các thuật
Hình 9. MSE của các video Bất động toán. Hình 11 cho thấy, không có nhiều sự sai biệt ở kết quả
MSE từ các thuật toán tƣơng ứng với các video tình huống.
Kết quả MSE của thuật toán GMM và MB rất cao Thuật toán Mean Background cho kết quả khả quan trong các
(trên10000 đơn vị) cho thấy 2 thuật toán này không thể giải video này nhƣ đã đề cập từ trƣớc: khi cá di chuyển nhanh, nền
quyết đƣợc tình huống xảy ra trong nhóm các video này. Điều tạo ra cũng đạt chất lƣợng cao hơn, từ đó kết quả Phát hiện cá
này là do khi cá không di chuyển, hoặc di chuyển rất ít, thì cũng tốt hơn. Bên cạnh đó, cá di chuyển nhanh cũng tạo ra điều
thuật toán GMM sẽ xem cá là nền và không thể trích xuất đƣợc kiện thích hợp cho phƣơng pháp Frame Differencing. Vì thế,
khối cá, dẫn đến sai số cực lớn và liên tục. Tƣơng tự, thuật toán thuật toán CGMMFD cũng hiệu quả trong trƣờng hợp này. Trái
MB cũng không thể tạo ảnh nền chính xác, bởi vì trong thuật lại kết quả MSE của Mean Shift và lọc Particle lại không tốt
toán này, ảnh nền đƣợc tạo ra phụ thuộc vào độ dài của video bằng. Lý do là vì trong các video này, tốc độ của cá di chuyển
và sự di chuyển của cá. Kết quả là không thể phát hiện đƣợc cá nhanh, histogram thay đổi nhiều hơn, làm cho hai thuật toán
khi trừ nền, dẫn đến sai số khi bám đuổi. Trong khi đó, kết quả này bám trƣợt trọng tâm của cá. Nhƣng nhìn chung thì hai
bám đuổi từ thuật toán Mean Shift, lọc Particle, và CGMMFD thuật toán này vẫn có thể hữu dụng vì chúng cho giá trị MSE
lại đạt chất lƣợng khả quan hơn. Với Mean Shift và lọc khá thấp, chỉ vào khoảng 100 trong hầu hết các video trong
Particle, hai thuật toán này có thể bám đuổi đƣợc chính xác hơn nhóm này.
bởi vì histogram [8],[9] trong các trƣờng hợp này thay đổi rất
Nhƣ vậy, tốc độ cao của cá ảnh hƣởng tƣơng đối ít tới kết
ít. Bên cạnh đó, thuật toán đƣợc đề xuất CGMMFD cũng cho
quả của các thuật toán kể trên. Do đó, trong nhóm video này,
kết quả MSE và Var thấp một cách tƣơng đối ổn định nhờ có
không có thuật toán nào thật sự tối ƣu hơn thuật toán nào.
bƣớc khởi tạo cùng với phát hiện bất động.
447
447
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Tuy nhiêm, ở trƣờng hợp xuất hiện bóng cá này, thuật toán
đƣợc đề xuất CGMMFD vẫn cho kết quả MSE và Var có thể
chấp nhận đƣợc, với giá trị tƣơng đối thấp.
Nói chung, trƣờng hợp nhóm video có sự xuất hiên của
bóng cá thì chỉ số MSE và Var có xu hƣớng tăng với tất cả năm
thuật toán. Tuy nhiên, thuật toán CGMMFD có lợi thế hơn nhờ
độ đơn giản của thuật toán, và tính ổn định kết quả MSE và
Var ở tất cả cá video.
Hình 11. MSE của các video nhanh
Hình 14. Phƣơng cho các video có bóng
IV. KẾT LUẬN
Trong nghiên cứu này, chúng to đã nâng cao chất lƣợng của
việc Phát hiện và Bám đuổi cá bằng cách khai thác thuật toán
GMM và bộ lọc Kalman, cùng với Frame-Differencing. Sau
Hình 12. Phƣơng của các video nhanh khi xây dựng thuật toán trên, chúng tôi cũng đã tiến hành kiểm
4) Nhóm video có Bóng thử chất lƣợng bằng hai chỉ số là MSE và Var đƣợc tạo ra từ
Một điều hiển nhiên là sự xuất hiện của bóng (ảnh ảo của thuật toán đề xuất CGMMFD cùng với bốn thuật toán khác.
cá) trong các video này ở trên mặt nƣớc (trƣờng hợp 1), góc Kết quả cho thấy, thuật toán chúng tôi đề xuất cho kết quả khả
bên phải bể cá (trƣờng hợp 2) hay ảnh ở cả hai vị trí nhƣ trên quan trong việc Phát hiện và Bám đuổi cá nhờ cho ra giá trị
(trƣờng hợp 3), đều làm tăng chỉ số MSE và Var một cách đáng MSE và Var thấp. Có đƣợc điều này là vì thuật toán này bao
kể. Các loại bóng này ảnh hƣởng nghiêm trọng nhất đến thuật gồm hai thuật toán khác nhau nhƣng có thể bổ sung cho nhau
toán Mean Shift và lọc Particle, bởi vì các bóng này làm sai một cách hợp lý là GMM và FD. Tuy nhiên, phƣơng pháp này
lệch kết quả histogram ở hai thuật toán này, từ đó gây ra sự vẫn chƣa thể giải quyết việc Phát hiện và Bám đuổi cá ở môi
bám đuổi sai đối tƣợng, tức là thay vì bám theo cá thật thì hai trƣờng thời gian thực vì nó cần ảnh của các khung hình kế tiếp.
thuật toán này dễ dàng bị bám lệch sang bóng cá. Do đó, trong những nghiên cứu tiếp theo, nhóm sẽ tập trung
tìm ra những cách kết hợp khác hiệu quả hơn, nhằm nâng cao
chất lƣợng của việc Phát hiện và Bám đuổi cá một cách ổn định
và hiệu suất cao hơn.
LỜI CẢM ƠN
Nghiên cứu này đƣợc hỗ trợ chính thức bởi Bộ Khoa học
và Công nghệ, nằm trong dự án nghiên cứu cấp bộ năm 2014-
2015. Nhóm nghiên cứu cũng xin chân thành cảm ơn nhóm
nghiên cứu TRT3DCS của trƣờng ĐH Bách Khoa Đà Nẵng
trong quá trình nghiên cứu này.
THAM KHẢO
[1] Vinaykumar, M.,Jatoth, R.K. " Performance evaluation of Alpha-Beta
and Kalman filter for object tracking." (2014).
[2] Fier, R., Albu, A.B., Hoeberechts, M., " Automatic fish counting system
Hình 13. MSE cho các video có bóng for noisy deep-sea videos", 14-19 Sept. 2014, pp. 1-6.
[3] Stauffer, C., Grimson, W. (1999) “Adaptive Background Mixture
Bên cạnh đó, trong trƣờng hợp 3 của bóng cá, MSE và Var Models for Real-Time Tracking”. IEEE Computer Society Conf. on
của thuật toán MB cũng rất cao, bởi vì xuất hiện đến 3 bóng Computer Vision and Pattern Recognition, 246-252.
của cá, tạo ra sự xác định sai lệch về đối tƣợng để bám đuổi [4] Ramsey Faragher. (September, 2012) “Understanding the Basis of the
tƣơng tự nhƣ trƣờng hợp của thuật toán Mean Shift và lọc Kalman Filter Via a Simple and Intuitive Derivation”.
Particle [5] C. Ridder, O. Munkelt, and H. Kirchner, “Adaptive background
estimation and foreground detection using Kalman filtering”, In Proc.
ICAM, 1995.
448
448
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
[6] Ning J., Zhang L., Zhang D., and Wu C.;. (2010). “Robust Mean Shift
Tracking with Corrected Background-Weighted Histogram”.
[7] Comaniciu D., Ramesh V., and Meer P.: “Real-Time Tracking of Non-
Rigid Objects Using Mean Shift”. Proc. IEEE Conf. Computer Vision
and Pattern Recognition, Hilton Head, SC, USA, June, 2000, pp. 142-
149.
[8] K. Nummiaro, E. Koller-Meier, L. V. Gool. “A Color-based Particle
Filter.” In First International Workshop on Generative- Model- Based
Vision, 2002.
[9] M. Fotouhi, A. R. Gholami, and S. Kasaei. (2011) “Particle Filter-Based
Object Tracking Using Adaptive Histogram.”
[10] Singla Nishu.: Motion Detection Based on Frame Difference Method.
International Journal of Information & Computation Technology.
Volume 4, Number 15 (2014), pp. 1559-1565.
449
nguon tai.lieu . vn