Định vị đối tượng bay nhỏ, khoảng cách gần trên cơ sở camera với công nghệ deep learning

Bài viết đề xuất một giải pháp định vị các đối tượng bay kích cỡ nhỏ, trong khoảng cách gần trên cơ sở sử dụng stereo camera với thuật giải học sâu (deep learning) để giải quyết vấn đề trên. Kết quả thử nghiệm giải pháp đề xuất cho kết quả hoạt động ổn định và có khả năng triển khai thực tế. Kỷ yếu Hội nghị Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/08/2018 DOI: 10.15625/vap.2018.00020 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ

Thể loại Tài liệu miễn phí Tự động hoá

Số trang 7

Ngày tạo 10/21/2021 1:06:04 AM +00:00

Loại tệp PDF

Kích thước 0.46 M

Tên tệp

Tải Định vị đối tượng bay nhỏ, khoảng cách gần trên cơ... (.pdf)

Xem mẫu

Kỷ yếu Hội nghị Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/08/2018 DOI: 10.15625/vap.2018.00020 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING Hà Mạnh Đào1 1 Trường Đại học Công nghiệp Hà Nội (HaUI) wncs2012@gmail.com, daohm@haui.edu.vn TÓM TẮT: Ở Việt Nam hiện nay các đối tượng bay nói chung, các đối tượng bay không người lái nói riêng như máy bay không người lái, Quadcopter, Flyingcam,.... phát triển mạnh mẽ. Vấn đề định vị các đối tượng này đặc biệt được quan tâm trong an ninh quốc phòng, trong sự phát triển kinh tế với Cách mạng Công nghiệp 4.0... đã có nhiều phương pháp định vị các đối tượng này nhưng mỗi phương pháp đều có điểm mạnh và nhược điểm riêng. Trong bài báo này tác giả đề xuất một giải pháp định vị các đối tượng bay kích cỡ nhỏ, trong khoảng cách gần trên cơ sở sử dụng stereo camera với thuật giải học sâu (deep learning) để giải quyết vấn đề trên. Kết quả thử nghiệm giải pháp đề xuất cho kết quả hoạt động ổn định và có khả năng triển khai thực tế. Từ khóa: stereo camera, học sâu, hệ thống định vị, đối tượng bay, Flyingcam. I. ĐẶT VẤN ĐỀ Trên thế giới các đối tượng bay nói chung, các đối tượng bay không người lái như máy bay không người lái, Quadcopter, FlyingCam,... phát triển mạnh mẽ. Trong nước hiện nay các đối tượng bay cũng xuất hiện ngày càng nhiều và được ứng dụng phổ biến trong nhiều lĩnh vực khác nhau. Chính vì vậy vấn đề định vị các đối tượng này được đặc biệt quan tâm trong lĩnh vực an ninh quốc phòng, trong sự phát triển kinh tế với Cách mạng Công nghiệp 4.0, nhất là vấn đề an toàn cho các tòa nhà chung cư, các vùng trọng điểm, an ninh biên giới,.... Đã có nhiều phương pháp định vị các đối tượng này như ứng dụng phương pháp định vị Rada, GPS, camera quang học, Laze độ phân giải cao để định vị các đối tượng bay. Phương pháp định vị đối tượng bay bằng camera với các thành tựu khoa học mới hiện nay đang được phát triển mạnh mẽ trên thế giới và trong nước. Việc xác định vị trí của đối tượng chuyển động bằng camera đòi hỏi các phương pháp xử lý ảnh, các phương pháp nhận dạng, các phương pháp xác định vị trí của đối tượng qua các ảnh thu được liên tiếp để từ đó xác định được vận tốc của đối tượng chuyển động đảm bảo thời gian thực. Trong bài báo này, chúng tôi thực hiện xây dựng một hệ thống SCMS (Stereo Camera based Monitoring System) sử dụng nhiều modul với 2 camera để thu ảnh và phân tích nhận dạng đối tượng qua ảnh sử dụng thuật giải học sâu với mạng nơ ron tích chập (CNN). Từ đó hệ thống sẽ tiến hành tính toán định vị các đối tượng bay và gửi qua mạng về một trung tâm giám sát hiển thị và lưu trữ lên đám mây. Phần tiếp theo của bài báo được bố trí như sau: phần II sẽ đề xuất và xây dựng hệ thống SCMS; phần III là phần mô phỏng và cuối cùng là phần kết luận. II. HỆ THỐNG SCSM VỚI THUẬT GIẢI HỌC SÂU A. Mô tả hệ thống SCSM Hệ thống SCSM ứng dụng thuật toán định vị để giám sát các đối tượng bay được thể hiện như hình 1. Hệ thống gồm các thành phần: Modul thu thập và xử lý ảnh Mạng truyền thông Trung tâm giám sát Camera1 PS1 IPS1 Trung tâm Camera2 giám sát Camera1 PS2 Mạng truyền thông IPS2 Camera2 (Internet/4G) ................. PSn Camera1 Cloud IPSn Camera2 Hình 1. Hệ thống định vị và giám sát đối tượng
Hà H Mạnh Đào 155  Moduul định vị cục bộ sử dụng stereo camera PSi P với i=1,..., n.  Trungg tâm giám sáát: Thu thập thhông tin định vị v của các đốii tượng được nnhận dạng từ các modul PS Si được gửi về quua mạng Internnet/4G. Dữ liệệu định vị này y sẽ được Trun ng tâm giám ssát xử lý để looại bỏ dữ liệu dư thừa và được gửi lưu lên đáám mây cho pphép truy cập theo t dõi ở bất cứ đâu qua m mạng.  Thànhh phần đám m mây: Cho phéép lưu trữ dữ liệu định vị nhằm n phục vụụ cho người sử ể truy xuất ử dụng có thể giám sát vị trí của ccác đối tượng bay tại bất cứ ứ đâu qua mạn ng sử dụng cácc thiết bị di độộng. B. B Modul PSi và nhận dạn ng ảnh với thu uật giải học sâ âu Mỗi moodul PSi (i=1...n) gồm có 2 camera và thành t phần xửử lý ảnh, địnhh vị đối tượngg IPS (Image Processing System). S IPS phải p có tài nguuyên xử lý mạạnh như PC nh húng PC104, Raspberry R Pi, FPGA,... để ccó thể đáp ứng thời gian th hực. IPS có nhiệm n vụ tại m mỗi thời điểm m thu đồng thờời 2 ảnh từ 2 camera, c thực hiện tiền xử llý ảnh và nhận n dạng các đối đ tượng ảnh thông qua mạạng CNN. Trêên cơ sở các đối tượng đượcc nhận dạng, IIPS sẽ thực hiiện tính vị trí 3D3 của các đối đ tượng tronng hệ tọa độ ccục bộ và hệ ttọa độ hệ thốn ng. Sau đó nóó sẽ chuyển dữ ữ liệu này về trung tâm giá ám sát qua mạng m truyền thhông là mạng Internet tốc đđộ cao hoặc 4G G. 1. 1 Thuật giải học h sâu Thuật giải g học sâu sử ử dụng mạng nơ ron tích chập c (CNN) để nhận dạng ccác đối tượngg bay. Hình 2 là cấu trúc các c lớp của mộột mạng nơ roon CNN. Nó ggồm 3 loại lớp p chính: Lớp tíích chập, lớp sub-samplingg (pool), lớp đầ ầu ra (FC). Các C lớp của mạng m được sắpp xếp theo kiếnn trúc truyền thẳng, t lần lượ ợt sau mỗi lớp tích chập là m một lớp sub-sa ampling và sau s lớp tích chhập cuối cùng là lớp đầu ra. Các lớp tích chập c và sub-saampling là cácc lớp hai chiềuu còn lớp đầu ra là lớp 1 chiều. c Hình 2. Cấu C trúc lớp củaa CNN - Lớp tíích chập: Bản đồ đặc trưng đầu ra của lớp p tích chập đư ược tính theo ccông thức sau [2]: Yk  f (W Wk * x) (2) với v x là ảnh vàào, bộ lọc tíchh chập liên quaan đến bản đồ ứ k là Wk; ‘*’ thể hiện toánn tử tích chập 2D; f (.) ồ đặc trưng thứ th hể hiện hàm kích k hoạt phi tuyến cho phhép trích lọc các c đặc trưng phi tuyến. Hààm kích hoạt phi tuyến đượ ợc sử dụng phổ p biến hiện nay n là ReUL [3] thay cho hhàm sigmoid, hyperbolic h tan ngent trong mạạng nơ ron truuyền thống.  Lớp tổng hợp (poool/sub-samplinng): lớp này cho c phép tổng g hợp để giảmm độ phân giảii không gian của c bản đồ đặc đ trưng để đạt đ được sự bấất biến không gian do sự biiến dạng và dịịch đầu vào. L Lớp này có thhể lấy trung bình của các đầu ưng hiện nay lớp tổng hợp thường sử dụụng toán tử cự đ vào hoặc lấy cực đại giiá trị của các đầu vào. Như ực đại theo hàm h sau [5]: Ykij  max xkpq (3) ( p , q )ij Ykij là đầu ra của c phép toánn tổng hợp liênn kết với bản đồ đặc trưng g thứ k; xkpq là phần tử tạii vị trí (p, q) chứa trong vùng v tổng hợpp ij thể hiệnn các phần tử xxung quanh vị trí (i, j).
156 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING - Lớp kết nối đầy đủ (FC: Full Connection): Lớp này có kết nối đầy đủ để thực hiện chức năng lập luận mức cao. Trong bài toán phân loại chuẩn nó sử dụng toán tử Softmax [5] và toán tử này hiện nay thường được thay thế bởi máy véc tơ trợ giúp (SVM) để cải tạo độ chính xác phân loại mẫu [6]. Mạng CNN để có thể sử dụng để nhận dạng được ảnh nói chung, nhận đạng đối tượng bay nói riêng, thì nó phải được huấn luyện. CNN được huấn luyện bằng thuật học có giám sát. Quá trình huấn luyện thực chất là quá trình đi cực tiểu hàm sai số giữa tín hiệu ra thực sự với tín hiệu đầu ra mong muốn sử dụng tập dữ liệu mẫu là các cặp {xk, dk} với k=1, 2,..., K. Giả sử tập dữ liệu huấn luyện gồm K ảnh đầu vào và K mẫu đầu ra mong muốn. xk là ảnh đầu vào thứ k, dk là mẫu ảnh đầu ra mong muốn tương ứng. Hàm sai số của CNN có dạng: K NL 1 E (w)  KxN L  ( y k 1 n 1 k n  d nk ) 2 (1) Trong đó yk là ảnh đầu ra thực sự tương ứng với cặp mẫu {xk, dk} tại kỳ huấn luyện nào đó. Mạng CNN thường được huấn luyện ở chế độ mini-batch với thuật giảm gradient sai số E (t ) Các thuật giảm gradient sai số phổ biến là GD, GDMV, RPROP, CG, LM [2]. Quá trình huấn luyện CNN gồm 2 pha: Pha truyền thẳng và pha truyền ngược để cập nhật trọng số cho các liên kết lớp mạng nhằm làm giảm sai số đầu ra. Quá trình xây dựng và huấn luyện CNN nhận dạng các đối tượng bay được thực hiện thông qua các bước sau:  Tạo tập dữ liệu ảnh mẫu các đối tượng bay gồm 2 tập: Tập huấn luyện và tập test.  Tạo mạng CNN  Khởi tạo các trọng liên kết và ngưỡng (bias)  Tính toán đầu ra tương ứng với mỗi mẫu đầu vào (truyền xuôi)  Huấn luyện mạng để đạt đầu ra mong muốn đối với các mẫu đầu vào (truyền ngược)  Thực hiện kiểm thử CNN với tập dữ liệu test. Trong các bước xây dựng CNN, tập dữ liệu huấn luyện CNN đóng một vai trò quan trọng trong việc phân loại và nhận dạng đối tượng. Đối với các đối tượng bay, tập dữ liệu huấn luyện phải thu thập được nhiều hình ảnh khác nhau, nhiều kích cỡ khác nhau cho một đối tượng vì các đối tượng đi vào trường quan sát của mỗi Camera với các tư thế bay và khoảng cách bay khác nhau. 2. Xác định vị trí trong PSi a) Xác định vị trí trong hệ tọa độ PSi Xét hệ Camera gồm Camera1( Left Camera) và Camera2 (Right Camera) như hình 3. Từ hình 3 tọa độ của đối tượng p là (Xp, Yp, Zp) được tính từ 2 ảnh của hệ camera theo các công thức (2), (3), (4). Z Zp P(xp, E (2) (3) 01 0 02 (4) f Xp Xl Xr Left Camera Right Camera Hình 3. Hệ stereo camera b) Tính toán vị trí trong hệ tọa độ hệ thống Giả sử các PSi có tọa độ 0i là (xi, yi, zi) với i=1,..,n, nếu đối tượng j trong hệ tọa độ cục bộ 0i có tọa độ là (xij, yij, zij) thì tọa độ của đối tượng j trong hệ tọa độ hệ thống 0 có tọa độ tương ứng là (x,y,z) được tính theo công thức (5). (xq, yq, zq, 1)= (xij, yij, zij, 1) R (5) với R là ma trận biến đổi: R=RTRα trong đó RT, Rα là các phép biến đổi tịnh tiến và phép biến đổi quay tương ứng được xác định trước từ việc bố trí ban đầu các modul PSi. Ví dụ giả sử tại thời điểm T từ 2 camera của PS1 thu được 2 ảnh và xác định được tọa độ trong hệ trục tọa độ 01 là A(15,7, Z0), B(10,11, Z0); từ 2 camera của PS2 tính được tọa độ của
Hà Mạnh Đào 157 2 đối tượng là C(6, 6, Z0) và D(10, 11,Z0), giả sử độ xâu Z như nhau. Trong hệ tọa độ hệ thống 0XY: 01y1x1 có tọa độ (10, 5, 0), 02x2y2 có tọa độ (14, 10, 0) thì tọa độ của các đối tượng A, B, C, D trong hệ 0XY sẽ được xác định là: A’: (25,12, Z0), B’: (20,16, Z0), C’: (20, 16, Z0), D’: (30, 11, Z0). Các dữ liệu tọa độ này từ PS1, PS2 gửi về Trung tâm giám sát sẽ được xử lý và xác định được tọa độ của 3 đối tượng P->B’=C’, Q->A’, R->D’ (hình 4). y2 Y D(10,11) C(6,7) Y 02 P(20,16) y1 x2 Q(25,12) B(10,11) R(30,11) A(15,7) 0 X 01 x1 0 X Hình 4: Ánh xạ tọa độ của các đối tượng trong PSi vào 0XY C. Trung tâm giám sát Begin Khởi động và đồng bộ hệ thống Thu dữ liệu tọa độ từ các PSi (i=1...n) Loại bỏ dữ liệu dư thừa Cập nhật tọa độ lên bản đồ Google Map Gửi dữ liệu lên đám mây Tiếp tục ? End Hình 5. Lưu đồ thuật toán của Trung tâm giám sát Trung tâm giám sát có nhiệm vụ:  Đồng bộ hóa các modul PSi mỗi khi khởi động  Quét nhận tọa độ của các đối tượng gửi về, cập nhật và thực hiện hiển thị trên bản đồ Google Map nhằm giám sát các đối tượng.  Gửi dữ liệu lên đám mây. Lưu đồ thuật toán của Trung tâm giám sát đơn giản thể hiện như hình 5.
158 1 ĐỊNH VỊ V ĐỐI TƯỢNG G BAY NHỎ, K KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMER RA VỚI CÔNG G NGHỆ DEEP LEARNING L III. MÔ Ô PHỎNG SC CSM Hệ thốnng mô phỏng như hình 5, trrong đó gồm 2 bộ PS1, PS2 2 cùng chung m một kit Raspbberry Pi3 với các c camera có c thông số nhhư sau:  Kít Raspberry R Pi3: Kít sử dụng hhệ điều hành Raspbian R sử dụụng OpenWRRT. Trên kít càài đặt môi trườ ờng Python 3.4 vớới thư viện OppenCV3.3. Trrên hệ thống này n mạng nơ ronr CNN với m mã Python sẽẽ được chạy và à thực hiện nhận dạng đối tượnng từ ảnh, mỗii kênh cameraa là một CNN.  Camm mera: có các thhông số sau o Ống kính t iêu cự: F6.0M MM o Focus khoảảng: 20MM o Độ phân giiải Video: 6440 x 480 o Kích thướcc: 3.8 x 1.5 x 3cm Hình 5. Mô hình mô phỏng 2 mo odul PS1, PS2 Hệ thốnng sử dụng C CNN AlexNett của thư viện n OpenCV 3.3 được viết tr trong ngôn nggữ Python. Đâây là CNN được đ huấn luyyện trước với hhàng triệu mẫẫu. Với CNN này n cho phép huấn luyện thheo phương p háp chuyển giao với tập m mới (hìnhh 6) để đảm bảảo tốc độ huấnn luyện nhanh. mẫu Hìình 6. Tập mẫẫu huận luyện chuyển giao Quá trìnnh huấn luyệnn với tập mẫu trong mô phỏ ỏng được thựcc hiện trên PC C mạnh và đượợc huấn luyện n trong 300 kỳ k huấn luyện. X y1 y2 P1(x11,,y11,z) P2(x21,yy21,z) O1 x1 1 O2 x2 O Y PS1 PS S2 Hình 7. Bố ttrí PS1, PS2 với v các hệ tọa độ cục bộ và hhệ thống
Hà H Mạnh Đào 159 Quá trìnnh test: Chươnng trình mô phhỏng thực hiệện song song 2 bộ camera bốố trí như hìnhh 7, mỗi bộ thu u 2 ảnh với th m T=20 ms. Từ mỗi cặp ảảnh các IPS thực hiện xác địịnh vị trí của ccác đối tượng trong hệ trục tọa độ cục hời gian cắt mẫu bộ, P để cập nhậật lên màn hìnnh giám sát h ệ thống. Sau đó b tính toán trrong hệ trục ttọa độ hệ thốnng và gửi tới PC đ nó tổng hợp h vị trí từ 2 bộ PS để choo kết quả cuối cùng. Các thô ông số hệ 2 caamera: B= 3,88 cm, f= 0,2 cmm, O1O2=30 cm, tọa độ O1(50, O 10,0), O2(80,10,0), O kkhoảng cách ZZ=1m từ đó cáác tọa độ x, y được xác địnhh bởi các côngg thức (3), (4) và tọa độ hệ h thống được tính theo cônng thức (5). Kếết quả thu đượợc tương ứng với v các đối tượợng từ 2 bộ PS S thể hiện như ư bảng 1. O112 O222 O21 O111 O13 O14 O244 O23 3 Hình 8. K Kết quả ảnh thu u được với các đối đ tượng từ 2 bbộ PS Bảng 1. Tọaa độ cục bộ (PS) và tọa độ hệ th hống của các đốối tượng Objjects Tọa độ cục bộ Tọa độ ộ hệ thống Tọa độ Hệ thống (xi, yi, zi) (X, Y, Z) sauu khi xử lý O11 (20, 20, 1000) (70, 30, 100) O O11=O21 O12 (30, 30, 1000) (80, 40, 100) O O12=O22 O13 (40, 20, 1000) (90, 30, 100) O O13=O23 O14 (50, 26, 1000) (100, 36, 100) O O14=O24 O21 (-10, 20, 1000) (70, 30, 100) O22 (0, 30, 1000) (80, 40, 100) O23 (10, 20, 1000) (90, 30, 100) O24 (20, 26, 1000) (100, 36, 100) IV. KẾT LUẬN Vấn đềề an ninh, kinhh tế, xã hội đốối với các đối tượng bay kíích cỡ vừa, nhhỏ, tốc độ thấpp trong thực tết hiện nay th hực sự là mộtt vấn đề đáng qquan tâm. Để quản lý, cảnh h báo, ngăn ch hặn các vấn đềề tiêu cực từ cáác đối tượng này n đòi hởi phải p giám sát đượcđ vị trí tốcc độ của các đđối tượng này. Bài báo này đã đ thực hiện xxây dựng một hệ thống định h vị trên cơ sở s camera sử dụng d công nghhệ học sâu màà cụ thể là mạạng nơ non tích chập (CNN)). Kết quả thử ử nghiệm đã chứng tỏ hệ hống là khả thhi trong thực ttế. Tuy nhiên hệ thống còn nhiều hạn chế: Chưa thực nghiệm trongg thực tế, chưa th a phân tách được đ đối tượng che khuất nnhau, chưa thử h thống GIS và đám mây tthực tế, tập dữ ử nghiệm với hệ ữ liệu huấn lu uyện còn ít. Trong T thời giaan tới chúng ttôi sẽ khắc phhục các hạn ch hế đồng thời ứng dụng hệ thống này vàào giám sát ca acstoaf nhà chung c cư, giámm sát các khuu vực nhậy cảm m; thử nghiệm m giám sát chuuyển hàng lậuu qua biên giớới với các đối tượng bay khác k nhau... V. TÀI LIIỆU THAM KHẢO K [1] Waseem Rawat, R Zenghhui, Deep Coonvolutional Neural N Netwo orks for Imagge Classificattion: A Comprehensive Review, Neural Computtation 29, 23522–2449, 2017. [2] S. L. Phunng and A. Bouzerdoum, M MATLAB library for conv volutional neuural network, Technical Report, ICT Signal Processsing Laboratorry, University of Wollongonng. Research Innstitute, Visuaaland Audio S [3] Nair, V., & Hinton, G. E., Rectifed llinear units im mprove restrictted Boltzmannn machines, Proceedings ofo the 27th Internationnal Conferencee on Machine Learning (pp. 807–814), In nternational M Machine Learnning Society, 2010. 2 [4] LeCun Y., Bengio, Y., & Hinton, G., D Deep learning g, Nature, 521(7553), 436–4444, 2015. [5] Szegedy, C., Liu, W., Jia, Y., Serrmanet, P., Reed, S., Anguelov, D.,... Rabinovich, A., Going de eeper with convolutionn, Proceedinggs of the IEE EE Conferencee on Computeer Vision andd Pattern Recognition (pp. 1–9), Los Alamitos, CA: C IEEE Com mputer Societty, 2015.
160 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING [6] Tang, Y., Deep learning using linear support vector machines, 2013. [7] Deepika Jaswal, Sowmya.V, K.P.Soman, Image Classification Using Convolutional Neural Networks , International Journal of Advancements in Research & Technology, Volume 3, Issue 6, ISSN 2278-7763 , June- 2014. FLYING OBJECT LOCATION ESTIMATION FROM A STEREO CAMERA BASED THE DEEP LEARNING TECHNOLOGY Ha Manh Dao ABSTRACT: In Vietnam, the flying subjects in general , unmanned objects in particular, such as unmanned aircraft, Quadcopter, FlyingCam,.... developed strongly. The problem of locating these objects is particularly concerned in defense security, in the economic development with the industrial revolution 4.0... There are many methods of locating these objects but each method is has its strengths and weaknesses. In this paper, the we proposes a solution for locating small size objects, distance near, low velocity, using a stereo camera with deep learning algorithm to solve the problem. Test results show that the system can be deployed in practical applications.

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học