Xem mẫu
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
NHẬN DẠNG VÀ TRUY VẤN ĐỐI TƯỢNG BA CHIỀU
VỚI RING VIEW VÀ NEURAL EMBEDDING
Bùi Ngọc Minh*, Đỗ Trọng Lễ, Nguyễn Vinh Tiệp, Trần Minh Triết
Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh
*Tác giả liên lạc: bnminh@selab.hcmus.edu.vn
TÓM TẮT
Bài tóa n nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm.
Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằng
cách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau.
Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khi
không ép buộc tính thứ tự giữa tất cả các hình chiếu. Với cấu trúc Ring View đã
được định nghĩa, chúng tôi đề xuất một mạng neural network để phân lớp các vật
thể 3D. Phương pháp được đề xuất không chỉ giới hạn cho các đối tượng 3D toàn
vẹn, mà cũng có thể phân lớp những đối tượng không toàn vẹn, thường bắt gặp
từ dữ liệu thu thập bởi robot. Tác giả thí nghiệm với tập dữ liệu từ cuộc thi
SHREC 2017 và 2018, phần “RGB-D to CAD retrieval”, cũng như với tập dữ
liệu ModelNet40. Phương pháp đề xuất đạt độ chính xác truy vấn mAP 85.5%
trong tập dữ liệu từ SHREC 2017, 85.4% trong tập dữ liệu từ SHREC 2018 và
91.13% trong tập dữ liệu ModelNet40, tương đương với các công trình liên quan
trong lĩnh vực.
Từ khóa: Máy học, thị giác máy tính 3D, nhận dạng đối tượng, truy vấn đối
tượng.
3D OBJECT CLASSIFICATION AND RETRIEVAL
WITH RING VIEW AND NEURAL EMBEDDING
Bui Ngoc Minh*, Do Trong Le, Nguyen Vinh Tiep, Tran Minh Triet
University of Science – VNU Ho Chi Minh City
*Corresponding Author: bnminh@selab.hcmus.edu.vn
ABSTRACT
The problem of 3D object classification and retrieval has attracted lot of
attention. In this work, we propose a method to recognize 3D object by exploiting
the 2D projections of the 3D objects from different viewpoints. We based on the
topological combination between views in a ring, which has several views, while
we do not enforce the topological relationship between of all views. With the
predefined structure of view-rings, we propose a neural network to classify the
3D objects. The proposed method is not limited to recognize complete 3D objects,
but has the ability to classify even incomplete objects, which are commonly
captured by moving robots. We experiment our method with datasets from the
SHREC2017 and SHREC2018 competition, track RGB-D to CAD retrieval, also
with the ModelNet40 dataset. We achieve the mAP retrieval score of 85.5% on
the dataset from SHREC2017, 85.4% on the dataset from SHREC2018 and
91.13% on the ModelNet40 dataset, which are comparable with another works
in the field.
Keywords: Machine learning, 3D vision, object classification, object retrieval.
185
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
TỔNG QUAN Phương pháp truyền thống trong việc
Lĩnh vực thị giác máy tính ba chiều mô tả một đối tượng ảnh ba chiều là sử
đang là một chủ đề được quan tâm dụng các đặc trưng truyền thống thiết
nhiều hơn bởi sự xuất hiện của các thiết kế bởi con người. Phân loại đối tượng
bị, cảm biến thu thập dữ liệu thông tin 3D dựa trên nhóm phương pháp này
ba chiều và những nhu cầu thực tế yêu cũng bao gồm các thao tác chính: phát
cầu máy tính hiểu và sử dụng được dữ hiện keypoint, trích xuất đặc trưng và
liệu ba chiều như thực tại tăng cường, phân lớp dựa trên đặc trưng đã trích
thực tại ảo, xe tự lái, robot giao hàng, xuất. Các phương pháp thuộc nhóm
siêu thị tự động, chứng thực bằng này có ưu điểm là có thể thực thi
khuôn mặt ba chiều,v.v… nhanh, không cần nhiều dữ liệu mẫu,
Yêu cầu của bài tóa n nhận dạng đối tuy nhiên có thể không đủ tổng quát và
tượng ba chiều là, đầu vào là thông tin tốt để nhận dạng dữ liệu. Các phương
vật thể ba chiều, phân lớp hoặc gán pháp được áp dụng thành công như
nhãn phù hợp cho vật thể đó. Mục tiêu Point Feature Histograms, Fast Point
của hệ thống truy vấn thông tin là tìm Feature Histograms, RoPS.
kiếm những mẫu thông tin có liên quan Các phương pháp tiếp cận sử dụng
hoặc tương tự với thông tin mà người mạng Neural network - Deep
dùng cần tìm kiếm. Learning
Trong đề tài này, nhóm tác giả tiếp cận Dựa trên dữ liệu voxel. 3D ShapeNets
lĩnh vực truy vấn thông tin ba chiều và VoxNet (Maturana et al., 2015),
cross-domain dựa trên kết quả của việc Volumetric and Multi-View CNNs là
nhận dạng đối tượng 3D. Nhóm tác giả những nghiên cứu đầu tiên cho hướng
đề xuất phương pháp biểu diễn đối tiếp cận này. Trong VoxNet, tác giả và
tượng 3D bằng cách biểu diễn multi- cộng sự chuyển đổi dữ liệu point cloud
view. Tuy nhiên, thay vì sử dụng thông thành dữ liệu dạng voxel, sau đó thực
tin các view một cách riêng lẻ, hoặc sử hiện học sâu bằng mạng 3D CNN.
dụng thông tin các view một cách toàn Các phương pháp tiếp cận sử dụng
cục, nhóm tác giả đề xuất cách biểu cách biểu diễn dữ liệu ba chiều
diễn đối tượng 3D bằng các ring view, volumetric nhìn chung có thể biểu diễn
trong đó, thứ tự của các ring là không được tính không gian của dữ liệu
bắt buộc, và tính thứ tự topology của nhưng có nhiều mặt hạn chế như: dữ
các view trong ring được sử dụng. liệu volumetric được encode khá thưa,
Sau khi có được cách biểu diễn đối không mang nhiều thông tin như dữ
tượng 3D bằng hệ thống các ring-view. liệu ảnh; tóa n tử 3D convolution có chi
Nhóm tác giả đề xuất các phương pháp phí tính tóa n lớn; đối tượng 3D được
nhận dạng đối tượng bằng RV-Net kết biểu diễn dưới độ phân giải thấp không
hợp với cơ chế attention, cũng như đủ để thể hiện chi tiết các đặc trưng của
phương pháp Neural Embedding sử đối tượng.
dụng các kĩ thuật đã có của lĩnh vực xử Dựa trên dữ liệu pointcloud. Deep Kd-
lý văn bản để áp dụng qua việc nhận network (Klokov et al., 2017) sử dụng
dạng đối tượng 3D. cấu trúc dữ liệu cây K chiều (kd-tree)
học dữ liệu point cloud trực tiếp mà
CÁC CÔNG TRÌNH LIÊN QUAN không cần thiết phải chuyển sang định
Biểu diễn đối tượng 3D bằng các đặc dạng voxel. PointNet sử dụng mạng
trưng trích xuất thủ công MLP share weight để encode đặc trưng
186
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
từng point riêng lẻ. Tác giả Pointnet++
đề ra set abstraction layer, với tư tưởng KẾT QUẢ THÍ NGHIỆM
chọn ra một điểm đại diện cho một Các độ đo được sử dụng
vùng cục bộ như thao tác convolutional Độ đo chính cho bài tóa n nhận dạng -
trong mạng neural. phân lớp đối tượng 3D được nhóm sử
Dựa trên dữ liệu view ảnh 2D. Trong dụng là độ đo accuracy tính bằng công
công trình Multi-view CNN (Hang Su thức:
el al., 2015), tác giả đề xuất phương accuracy
pháp đưa ra descriptor cho các vật thể số mẫu dự đóa n chính xác
ba chiều bằng cách dựa trên tập hợp =
tổng số mẫu
ảnh 2D là các hình chiếu của đối tượng Độ đo cho bài tóa n truy vấn được sử
3D trên các mặt phẳng. Sau đó sử dụng dụng là precision, recall, mean average
mạng CNN trên ảnh 2D để tạo ra đặc
precision (mAP), normalized
trưng biểu diễn đối tượng 3D thông discounted cumulative gain (NDCG)
qua tập ảnh 2D này. RotationNet được sử dụng trong cuộcthi SHREC17
(Kanezaki et al., 2016) là mô hình cải và SHREC18.
tiến dựa trên Multi-view CNN bằng
Các tập dữ liệu được sử dụng
cách giữ thứ tự các view cần theo một Tập dữ liệu đầu tiên nhóm sử dụng để
chiều nhất định thay vì không giữ thứ
tiến hành thí nghiệm là tập dữ liệu
tự các view.
ObjectNN được sử dụng trong cuộc thi
Biểu diễn đối tượng bằng ring view SHREC 2017: RGB-D Object-to-CAD
Nhóm đề xuất hai cách thiết lập hệ Retrieval. Tập dữ liệu thứ hai nhóm sử
thống camera ảo khác nhau để chụp dụng là tập dữ liệu được sử dụng trong
nhiều view ở góc độ khác nhau của đối track cuộc thi SHREC 2018: RGB-D
tượng. Đồng thời, cách sắp xếp các Object-to-CAD Retrieval.
view trong một ring cũng được thực
hiện ở nhiều chiến lược khác nhau.
Bảng 1. Các tập dữ liệu được sử dụng
Số
Tên tập dữ Tập Tập
lượng Tính chất
liệu query target
lớp
1667 3308 Không toàn vẹn,
SHREC2017 20
RGB-D CAD không hướng
2101 3308 Không toàn vẹn,
SHREC2018 20
RGB-D CAD không hướng
ModelNet40 9843 Train, 2468 Test 40 CAD, không hướng
Hai tập dữ liệu kể trên đều có đặc điểm thật được reconstruct lại bằng camera
chung là những đối tượng quen thuộc 3D.
thường gặp trong nhà, dữ liệu biểu diễn Do vậy, các đối tượng này không đều
dưới dạng mesh, có thông tin màu sắc không được căn chỉnh hướng và đều
và đều là đối tượng được cắt ra từ cảnh không toàn vẹn.
187
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
Hình 1. Tổng quan kiến trúc mạng RV-Net
Thí nghiệm phương pháp Ring View lượng view của mỗi ring, số lượng
Vector nhóm để gom cụm cho cho tự điển,
Trong mô hình Ring View Vector kích thước của cửa sổ context, phương
được đề xuất có nhiều siêu tham số có pháp xếp hạng cho bài tóa n truy vấn
thể tùy chỉnh để tìm mô hình tốt nhất tìm phân lớp.
cho phương pháp đề xuất: như số
Bảng 2. Accuracy từng ring và tổ hợp các ring trên tập SHREC2017 với mỗi
ring gồm 8 view
Ring Số view Tập Validation Tập Test
1 8 59.02% 54.57%
2 8 62.44% 55.04%
1+2 16 70.00% 66.04%
All views 26 71.95% 68.62%
Dựa trên quan sát trên những ảnh hình tốt hơn khi dữ liệu cung cấp nhiều
render được từ những view khác nhau view hơn, có nhiều thông tin hơn về
trên danh sách các view được đề xuất, đối tượng.
nhóm tác giả nhận thấy có những view Thí nghiệm phương pháp RVNet
thể hiện được đối tượng rõ ràng giúp Phương pháp phân lớp sử dụng RV-
cho việc nhận dạng được phân lớp của Net có hai tham số cần được chọn. Thứ
đối tượng tốt hơn những view khác. Do nhất là tham số về phương pháp fusion
vậy nhóm tác giả quyết định thí giữa các view trong một ring. Thứ hai
nghiệm trên mô hình Ring View là hiệu quả của circular ring và square
Vector cho những ring và tổ hợp các ring.
ring khác nhau. Kết quả cho thấy mô
Bảng 3. Accuracy trên tập validation SHREC2017 với cách tổ hợp view và ring
khác nhau
Mean fusion FC fusion LSTM fusion
Circular ring 79.30% 79.34% 79.86%
Square ring 81.01% 83.02% 80.30%
Cấu hình Square Ring tốt hơn các kết (83.02%) trên tập validation, cho thấy
quả của cấu hình sử dụng Circular việc sử dụng tính thứ tự giữa các view
Ring. Đặc điểm này do các đối tượng trong một ring mang lại hiệu quả . Do
trong tập SHREC17 và SHREC18 đó, nhóm chọn cấu hình sử dụng cách
thường bị không toàn vẹn về một phía, thiết lập Square ring và sử dụng một
do vậy thiết lập Square Ring sẽ cho các tầng fully connected để phối hợp các
ring bao gồm các view tốt hơn so với view để tiếp tục thí nghiệm.
Circular Ring là các ring gồm các view Để đánh giá phương pháp RV-Net,
xung quanh đối tượng. Phương pháp nhóm tác giả tiến hành thí nghiệm so
kết hợp các view sử dụng 1 tầng Fully sánh với các kết quả hiện tại trong tập
Connected cho kết quả cao nhất dữ liệu SHREC2017, SHREC2018.
188
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
Bảng 4. So sánh kết quả với các nhóm khác trong SHREC18
Run Precision Recall mAP NDCG
Tran View-ring-1 0.800 0.800 0.800 0.760
Tran View-ring-2 0.820 0.820 0.820 0.779
Tran View-ring-bow1 0.800 0.800 0.800 0.781
Tran View-ring-bow2 0.820 0.820 0.820 0.801
Li No-cross-domain 0.638 0.638 0.638 0.616
Li Cross-domain-lambda-1 0.657 0.657 0.657 0.631
Li Cross-domain-lambda-10 0.641 0.641 0.626 0.617
Khoi Pointwise-cnn 0.652 0.652 0.652 0.613
Khoi Pointnet 0.706 0.706 0.706 0.665
Nhóm SR-FC-Majority Vote 0.851 0.850 0.850 0.808
SV
Nhóm SR-FC-WeightedVote 0.854 0.853 0.853 0.811
SV
Kết quả ở thí nghiệm trên tập 2D của đối tượng 3D và đề xuất khái
SHREC17 và SHREC18 cho thấy niệm Ring View.
phương pháp của nhóm tác giả đề xuất Nhóm tác giả đề xuất hai phương pháp
đạt được độ chính xác cao hơn so với phân loại đối tượng 3D, đặc biệt là đối
các phương pháp còn lại với khoảng tượng 3D không toàn vẹn hiệu quả là
cách lớn (khoảng 3%). Điều này chứng RV-Net và Neural embedding. Kết quả
tỏ tính hiệu quả của phương pháp trên của các thí nghiệm ở cấc tập dữ liệu
các dữ liệu không toàn vẹn như dữ liệu SHREC2017, SHREC2018 và
SHREC17 và SHREC18. ModelNet40 đã chứng tỏ khả năng
hoạt động tốt của phuơng pháp nhóm
KẾT LUẬN tác giả đề xuất. Ngoài ra, việc áp dụng
Trong đề tài này, nhóm tác giả đã đề các phuơng pháp của lĩnh vực xử lý
xuất cách biểu diễn đối tượng 3D bằng văn bản trên lĩnh vực nhận dạng đối
cách sử dụng việc kết hợp tính thứ tự tượng 3D là một ý tưởng nghiên cứu
bán phần giữa các view - là hình chiếu mới và cần được phát triển.
TÀI LIỆU THAM KHẢO
A. KANEZAKI. Rotationnet: Learning object classification using unsupervised
viewpoint estimation. CoRR, vol. abs/1603.06208, 2016.
C. R. QI, H. SU, K. MO, AND L. J. GUIBAS. Pointnet: Deep learning on point
sets for 3d classification and segmentation. CoRR, vol. abs/1612.00593,
2016.
D. MATURANA AND S. SCHERER. VoxNet: A 3D Convolutional Neural
Network for Real-Time Object Recognition. In IROS, 2015.
R. KLOKOV AND V. S. LEMPITSKY. Escape from cells: Deep kd-networks
for the recognition of 3d point cloud models. CoRR, vol. abs/1704.01222,
2017.
189
nguon tai.lieu . vn