Xem mẫu

  1. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DẠNG VÀ TRUY VẤN ĐỐI TƯỢNG BA CHIỀU VỚI RING VIEW VÀ NEURAL EMBEDDING Bùi Ngọc Minh*, Đỗ Trọng Lễ, Nguyễn Vinh Tiệp, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên lạc: bnminh@selab.hcmus.edu.vn TÓM TẮT Bài tóa n nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm. Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằng cách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau. Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khi không ép buộc tính thứ tự giữa tất cả các hình chiếu. Với cấu trúc Ring View đã được định nghĩa, chúng tôi đề xuất một mạng neural network để phân lớp các vật thể 3D. Phương pháp được đề xuất không chỉ giới hạn cho các đối tượng 3D toàn vẹn, mà cũng có thể phân lớp những đối tượng không toàn vẹn, thường bắt gặp từ dữ liệu thu thập bởi robot. Tác giả thí nghiệm với tập dữ liệu từ cuộc thi SHREC 2017 và 2018, phần “RGB-D to CAD retrieval”, cũng như với tập dữ liệu ModelNet40. Phương pháp đề xuất đạt độ chính xác truy vấn mAP 85.5% trong tập dữ liệu từ SHREC 2017, 85.4% trong tập dữ liệu từ SHREC 2018 và 91.13% trong tập dữ liệu ModelNet40, tương đương với các công trình liên quan trong lĩnh vực. Từ khóa: Máy học, thị giác máy tính 3D, nhận dạng đối tượng, truy vấn đối tượng. 3D OBJECT CLASSIFICATION AND RETRIEVAL WITH RING VIEW AND NEURAL EMBEDDING Bui Ngoc Minh*, Do Trong Le, Nguyen Vinh Tiep, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: bnminh@selab.hcmus.edu.vn ABSTRACT The problem of 3D object classification and retrieval has attracted lot of attention. In this work, we propose a method to recognize 3D object by exploiting the 2D projections of the 3D objects from different viewpoints. We based on the topological combination between views in a ring, which has several views, while we do not enforce the topological relationship between of all views. With the predefined structure of view-rings, we propose a neural network to classify the 3D objects. The proposed method is not limited to recognize complete 3D objects, but has the ability to classify even incomplete objects, which are commonly captured by moving robots. We experiment our method with datasets from the SHREC2017 and SHREC2018 competition, track RGB-D to CAD retrieval, also with the ModelNet40 dataset. We achieve the mAP retrieval score of 85.5% on the dataset from SHREC2017, 85.4% on the dataset from SHREC2018 and 91.13% on the ModelNet40 dataset, which are comparable with another works in the field. Keywords: Machine learning, 3D vision, object classification, object retrieval. 185
  2. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học TỔNG QUAN Phương pháp truyền thống trong việc Lĩnh vực thị giác máy tính ba chiều mô tả một đối tượng ảnh ba chiều là sử đang là một chủ đề được quan tâm dụng các đặc trưng truyền thống thiết nhiều hơn bởi sự xuất hiện của các thiết kế bởi con người. Phân loại đối tượng bị, cảm biến thu thập dữ liệu thông tin 3D dựa trên nhóm phương pháp này ba chiều và những nhu cầu thực tế yêu cũng bao gồm các thao tác chính: phát cầu máy tính hiểu và sử dụng được dữ hiện keypoint, trích xuất đặc trưng và liệu ba chiều như thực tại tăng cường, phân lớp dựa trên đặc trưng đã trích thực tại ảo, xe tự lái, robot giao hàng, xuất. Các phương pháp thuộc nhóm siêu thị tự động, chứng thực bằng này có ưu điểm là có thể thực thi khuôn mặt ba chiều,v.v… nhanh, không cần nhiều dữ liệu mẫu, Yêu cầu của bài tóa n nhận dạng đối tuy nhiên có thể không đủ tổng quát và tượng ba chiều là, đầu vào là thông tin tốt để nhận dạng dữ liệu. Các phương vật thể ba chiều, phân lớp hoặc gán pháp được áp dụng thành công như nhãn phù hợp cho vật thể đó. Mục tiêu Point Feature Histograms, Fast Point của hệ thống truy vấn thông tin là tìm Feature Histograms, RoPS. kiếm những mẫu thông tin có liên quan Các phương pháp tiếp cận sử dụng hoặc tương tự với thông tin mà người mạng Neural network - Deep dùng cần tìm kiếm. Learning Trong đề tài này, nhóm tác giả tiếp cận Dựa trên dữ liệu voxel. 3D ShapeNets lĩnh vực truy vấn thông tin ba chiều và VoxNet (Maturana et al., 2015), cross-domain dựa trên kết quả của việc Volumetric and Multi-View CNNs là nhận dạng đối tượng 3D. Nhóm tác giả những nghiên cứu đầu tiên cho hướng đề xuất phương pháp biểu diễn đối tiếp cận này. Trong VoxNet, tác giả và tượng 3D bằng cách biểu diễn multi- cộng sự chuyển đổi dữ liệu point cloud view. Tuy nhiên, thay vì sử dụng thông thành dữ liệu dạng voxel, sau đó thực tin các view một cách riêng lẻ, hoặc sử hiện học sâu bằng mạng 3D CNN. dụng thông tin các view một cách toàn Các phương pháp tiếp cận sử dụng cục, nhóm tác giả đề xuất cách biểu cách biểu diễn dữ liệu ba chiều diễn đối tượng 3D bằng các ring view, volumetric nhìn chung có thể biểu diễn trong đó, thứ tự của các ring là không được tính không gian của dữ liệu bắt buộc, và tính thứ tự topology của nhưng có nhiều mặt hạn chế như: dữ các view trong ring được sử dụng. liệu volumetric được encode khá thưa, Sau khi có được cách biểu diễn đối không mang nhiều thông tin như dữ tượng 3D bằng hệ thống các ring-view. liệu ảnh; tóa n tử 3D convolution có chi Nhóm tác giả đề xuất các phương pháp phí tính tóa n lớn; đối tượng 3D được nhận dạng đối tượng bằng RV-Net kết biểu diễn dưới độ phân giải thấp không hợp với cơ chế attention, cũng như đủ để thể hiện chi tiết các đặc trưng của phương pháp Neural Embedding sử đối tượng. dụng các kĩ thuật đã có của lĩnh vực xử Dựa trên dữ liệu pointcloud. Deep Kd- lý văn bản để áp dụng qua việc nhận network (Klokov et al., 2017) sử dụng dạng đối tượng 3D. cấu trúc dữ liệu cây K chiều (kd-tree) học dữ liệu point cloud trực tiếp mà CÁC CÔNG TRÌNH LIÊN QUAN không cần thiết phải chuyển sang định Biểu diễn đối tượng 3D bằng các đặc dạng voxel. PointNet sử dụng mạng trưng trích xuất thủ công MLP share weight để encode đặc trưng 186
  3. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học từng point riêng lẻ. Tác giả Pointnet++ đề ra set abstraction layer, với tư tưởng KẾT QUẢ THÍ NGHIỆM chọn ra một điểm đại diện cho một Các độ đo được sử dụng vùng cục bộ như thao tác convolutional Độ đo chính cho bài tóa n nhận dạng - trong mạng neural. phân lớp đối tượng 3D được nhóm sử Dựa trên dữ liệu view ảnh 2D. Trong dụng là độ đo accuracy tính bằng công công trình Multi-view CNN (Hang Su thức: el al., 2015), tác giả đề xuất phương accuracy pháp đưa ra descriptor cho các vật thể số mẫu dự đóa n chính xác ba chiều bằng cách dựa trên tập hợp = tổng số mẫu ảnh 2D là các hình chiếu của đối tượng Độ đo cho bài tóa n truy vấn được sử 3D trên các mặt phẳng. Sau đó sử dụng dụng là precision, recall, mean average mạng CNN trên ảnh 2D để tạo ra đặc precision (mAP), normalized trưng biểu diễn đối tượng 3D thông discounted cumulative gain (NDCG) qua tập ảnh 2D này. RotationNet được sử dụng trong cuộcthi SHREC17 (Kanezaki et al., 2016) là mô hình cải và SHREC18. tiến dựa trên Multi-view CNN bằng Các tập dữ liệu được sử dụng cách giữ thứ tự các view cần theo một Tập dữ liệu đầu tiên nhóm sử dụng để chiều nhất định thay vì không giữ thứ tiến hành thí nghiệm là tập dữ liệu tự các view. ObjectNN được sử dụng trong cuộc thi Biểu diễn đối tượng bằng ring view SHREC 2017: RGB-D Object-to-CAD Nhóm đề xuất hai cách thiết lập hệ Retrieval. Tập dữ liệu thứ hai nhóm sử thống camera ảo khác nhau để chụp dụng là tập dữ liệu được sử dụng trong nhiều view ở góc độ khác nhau của đối track cuộc thi SHREC 2018: RGB-D tượng. Đồng thời, cách sắp xếp các Object-to-CAD Retrieval. view trong một ring cũng được thực hiện ở nhiều chiến lược khác nhau. Bảng 1. Các tập dữ liệu được sử dụng Số Tên tập dữ Tập Tập lượng Tính chất liệu query target lớp 1667 3308 Không toàn vẹn, SHREC2017 20 RGB-D CAD không hướng 2101 3308 Không toàn vẹn, SHREC2018 20 RGB-D CAD không hướng ModelNet40 9843 Train, 2468 Test 40 CAD, không hướng Hai tập dữ liệu kể trên đều có đặc điểm thật được reconstruct lại bằng camera chung là những đối tượng quen thuộc 3D. thường gặp trong nhà, dữ liệu biểu diễn Do vậy, các đối tượng này không đều dưới dạng mesh, có thông tin màu sắc không được căn chỉnh hướng và đều và đều là đối tượng được cắt ra từ cảnh không toàn vẹn. 187
  4. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học Hình 1. Tổng quan kiến trúc mạng RV-Net Thí nghiệm phương pháp Ring View lượng view của mỗi ring, số lượng Vector nhóm để gom cụm cho cho tự điển, Trong mô hình Ring View Vector kích thước của cửa sổ context, phương được đề xuất có nhiều siêu tham số có pháp xếp hạng cho bài tóa n truy vấn thể tùy chỉnh để tìm mô hình tốt nhất tìm phân lớp. cho phương pháp đề xuất: như số Bảng 2. Accuracy từng ring và tổ hợp các ring trên tập SHREC2017 với mỗi ring gồm 8 view Ring Số view Tập Validation Tập Test 1 8 59.02% 54.57% 2 8 62.44% 55.04% 1+2 16 70.00% 66.04% All views 26 71.95% 68.62% Dựa trên quan sát trên những ảnh hình tốt hơn khi dữ liệu cung cấp nhiều render được từ những view khác nhau view hơn, có nhiều thông tin hơn về trên danh sách các view được đề xuất, đối tượng. nhóm tác giả nhận thấy có những view Thí nghiệm phương pháp RVNet thể hiện được đối tượng rõ ràng giúp Phương pháp phân lớp sử dụng RV- cho việc nhận dạng được phân lớp của Net có hai tham số cần được chọn. Thứ đối tượng tốt hơn những view khác. Do nhất là tham số về phương pháp fusion vậy nhóm tác giả quyết định thí giữa các view trong một ring. Thứ hai nghiệm trên mô hình Ring View là hiệu quả của circular ring và square Vector cho những ring và tổ hợp các ring. ring khác nhau. Kết quả cho thấy mô Bảng 3. Accuracy trên tập validation SHREC2017 với cách tổ hợp view và ring khác nhau Mean fusion FC fusion LSTM fusion Circular ring 79.30% 79.34% 79.86% Square ring 81.01% 83.02% 80.30% Cấu hình Square Ring tốt hơn các kết (83.02%) trên tập validation, cho thấy quả của cấu hình sử dụng Circular việc sử dụng tính thứ tự giữa các view Ring. Đặc điểm này do các đối tượng trong một ring mang lại hiệu quả . Do trong tập SHREC17 và SHREC18 đó, nhóm chọn cấu hình sử dụng cách thường bị không toàn vẹn về một phía, thiết lập Square ring và sử dụng một do vậy thiết lập Square Ring sẽ cho các tầng fully connected để phối hợp các ring bao gồm các view tốt hơn so với view để tiếp tục thí nghiệm. Circular Ring là các ring gồm các view Để đánh giá phương pháp RV-Net, xung quanh đối tượng. Phương pháp nhóm tác giả tiến hành thí nghiệm so kết hợp các view sử dụng 1 tầng Fully sánh với các kết quả hiện tại trong tập Connected cho kết quả cao nhất dữ liệu SHREC2017, SHREC2018. 188
  5. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học Bảng 4. So sánh kết quả với các nhóm khác trong SHREC18 Run Precision Recall mAP NDCG Tran View-ring-1 0.800 0.800 0.800 0.760 Tran View-ring-2 0.820 0.820 0.820 0.779 Tran View-ring-bow1 0.800 0.800 0.800 0.781 Tran View-ring-bow2 0.820 0.820 0.820 0.801 Li No-cross-domain 0.638 0.638 0.638 0.616 Li Cross-domain-lambda-1 0.657 0.657 0.657 0.631 Li Cross-domain-lambda-10 0.641 0.641 0.626 0.617 Khoi Pointwise-cnn 0.652 0.652 0.652 0.613 Khoi Pointnet 0.706 0.706 0.706 0.665 Nhóm SR-FC-Majority Vote 0.851 0.850 0.850 0.808 SV Nhóm SR-FC-WeightedVote 0.854 0.853 0.853 0.811 SV Kết quả ở thí nghiệm trên tập 2D của đối tượng 3D và đề xuất khái SHREC17 và SHREC18 cho thấy niệm Ring View. phương pháp của nhóm tác giả đề xuất Nhóm tác giả đề xuất hai phương pháp đạt được độ chính xác cao hơn so với phân loại đối tượng 3D, đặc biệt là đối các phương pháp còn lại với khoảng tượng 3D không toàn vẹn hiệu quả là cách lớn (khoảng 3%). Điều này chứng RV-Net và Neural embedding. Kết quả tỏ tính hiệu quả của phương pháp trên của các thí nghiệm ở cấc tập dữ liệu các dữ liệu không toàn vẹn như dữ liệu SHREC2017, SHREC2018 và SHREC17 và SHREC18. ModelNet40 đã chứng tỏ khả năng hoạt động tốt của phuơng pháp nhóm KẾT LUẬN tác giả đề xuất. Ngoài ra, việc áp dụng Trong đề tài này, nhóm tác giả đã đề các phuơng pháp của lĩnh vực xử lý xuất cách biểu diễn đối tượng 3D bằng văn bản trên lĩnh vực nhận dạng đối cách sử dụng việc kết hợp tính thứ tự tượng 3D là một ý tưởng nghiên cứu bán phần giữa các view - là hình chiếu mới và cần được phát triển. TÀI LIỆU THAM KHẢO A. KANEZAKI. Rotationnet: Learning object classification using unsupervised viewpoint estimation. CoRR, vol. abs/1603.06208, 2016. C. R. QI, H. SU, K. MO, AND L. J. GUIBAS. Pointnet: Deep learning on point sets for 3d classification and segmentation. CoRR, vol. abs/1612.00593, 2016. D. MATURANA AND S. SCHERER. VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition. In IROS, 2015. R. KLOKOV AND V. S. LEMPITSKY. Escape from cells: Deep kd-networks for the recognition of 3d point cloud models. CoRR, vol. abs/1704.01222, 2017. 189
nguon tai.lieu . vn