Xem mẫu
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019
DOI: 10.15625/vap.2019.00045
NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D
DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN
Lê Tiến Mẫu1, Nguyễn Tấn Khôi2, Romain Raffin3
1
Trường Cao đẳng Quảng Ngãi; tienmauqn@gmail.com
2
Đại học Bách khoa - Đại học Đà Nẵng; ntkhoi@dut.udn.vn
3
Trường Đại học Aix-Marseille & LSIS UMR7296, Pháp; romain.raffin@univ-amu.fr
TÓM TẮT: Trong lĩnh vực tái tạo mô hình 3D các mẫu vật đã và đang được nhiều người quan tâm nghiên cứu, các kết quả nghiên
cứu tái tạo đã được ứng dụng rộng rãi trong nhiều lĩnh vực như khảo cổ, y tế, sản xuất thiết bị, thực tại ảo …. Việc tái tạo, nhận
dạng các thành phần cấu thành nên đối tượng 3D trở thành công cụ hiệu quả để nghiên cứu, bảo tồn và quảng bá các di tích khảo
cổ. Trong bài báo này, chúng tôi tìm hiểu phương pháp tái tạo mô hình 3D từ tập dữ liệu 2D chụp xung quanh đối tượng. Từ đó
phân tích, nhận dạng các thành phần của đối tượng 3D, kết hợp sử dụng phương pháp học sâu và phân đoạn tập hình ảnh 2D tương
đồng. Đề xuất dựa trên mối liên hệ giữa tập điểm bất biến trên ảnh 2D và mô hình 3D, tạo các chú thích các thành phần cấu thành
nên mô hình 3D và kết quả bước đầu thu nhận để tạo cơ sở dữ liệu phục vụ trong nghiên cứu, phục dựng lại các mô hình đã bị
khiếm khuyết.
Từ khóa: Tái tạo 3D, mô hình 3D, học sâu, phân đoạn 2D, chú thích 2D/3D, phân đoạn 3D, Mask R-CNN.
I. GIỚI THIỆU
Hiện nay, với sự phát triển của đồ họa máy tính và công nghệ thực tại ảo, hướng nghiên cứu về tái tạo mô hình,
mẫu vật 3D đã và đang được nhiều công ty và tổ chức quan tâm phát triển về thuật toán và phương pháp. Các mô hình
3D tái tạo đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như trong y học, kiến trúc đặc biệt trong bảo tồn
các di tích khảo cổ bằng cách số hóa dữ liệu các di tích, cổ vật để lưu trữ hay làm hướng dẫn viên ảo [1,3]. Có nhiều
nghiên cứu đã đề xuất phương pháp tái tạo mô hình, mẫu vật bằng nhiều cách khác nhau như sử dụng máy quét, chụp
cộng hưởng từ, laser, hay tái tạo từ một hay nhiều ảnh 2D [10, 11, 14, 15]. Các kết quả được sử dụng để phân tích,
phân đoạn hay nhận dạng đối tượng. Tuy nhiên các nghiên cứu này chủ yếu thu nhận thông tin là các mô hình 3D mà
chưa có sự kết hợp xử lý thu nhận thông tin từ dữ liệu ảnh đầu vào, hay kết hợp ảnh để phân tích nhận dạng mô hình.
Ngoài ra, một lĩnh vực đang được nghiên cứu phổ biến là đề xuất các kỹ thuật cho phép máy tính tự học để giải
quyết các vấn đề như nhận dạng hình ảnh, nhận đạng đối tượng trong video đó là “Học máy” (Machine learning) thuộc
lĩnh vực trí tuệ nhân tạo. Các kết quả của nghiên cứu đã được ứng dụng trong y tế, phân tích tài chính hay truy vết đối
tượng. Các nghiên cứu dựa trên học máy đều được sử dụng trong việc phân tích, xử lý phân đoạn hình ảnh, trích xuất
thông tin từ dữ liệu ảnh 2D thu được kết quả rất cao [7, 21].
Hai hướng nghiên cứu trên theo hai hướng tiếp cận khác nhau, xử lý trên dữ liệu mô hình 3D và tập ảnh 2D.
Tuy nhiên cùng bắt nguồn từ dữ liệu đầu vào là thực thể và ảnh chụp, giữa mô hình 3D và tập dữ liệu 2D luôn tồn tại
mối quan hệ lẫn nhau. Xuất phát từ nhận xét đánh giá này, chúng tôi đề xuất một hướng tiếp cận kết hợp xử lý và trích
xuất thông tin hai chiều từ dữ liệu 2D, 3D và ngược lại để phân tích đặc trưng ngữ nghĩa 2D và 3D tương ứng. Bài báo
này giới thiệu phương pháp tái tạo 3D từ tập ảnh 2D và xác định mối tương quan giữa tập ảnh 2D và mô hình 3D của
cùng một đối tượng. Đồng thời với việc tái tạo, chúng tôi sử dụng phương pháp học sâu để nhận dạng và phân đoạn tập
ảnh 2D. Trên hai kết quả đó bài báo bước đầu tái tạo và xác định mối quan hệ đặc trưng giữa các ảnh và mô hình 3D,
đồng thời nhận dạng và phân tích đặc trưng ngữ nghĩa trên mô hình 3D, kết quả này phục vụ trong quá trình số hóa, lưu
trữ và bảo tồn các di tích. Nghiên cứu của chúng tôi bước đầu nghiên cứu trên dữ liệu khảo cổ đó là bảo tàng Chămpa
Đà Nẵng và tượng tại di tích Mỹ Sơn, nhằm mục đích số hóa, chú thích ngữ nghĩa trên bộ dữ liệu này.
Bài báo được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II giới thiệu một số
nghiên cứu liên quan đến tái tạo mô hình 3D và phương pháp nhận dạng và phân tích đặc trưng 2D dựa vào kỹ thuật
học sâu. Trong phần III, bài báo đề xuất một phương pháp kết hợp xử lý đồng thời từ tập dữ liệu 2D để tái tạo mô hình
và nhận dạng các thành phần cấu thành đối tượng. Phần IV mô tả kết quả thử nghiệm với 2 bộ dữ liệu tượng Chămpa
và phần V kết luận và thảo luận.
II. NỘI DUNG
Đã có nhiều phương pháp tái tạo mô hình 3D trên cơ sở ảnh và máy quét scan. Như [11] đưa ra một máy quét
thời gian thực dựa trên máy quay phim và máy chiếu để hiện thị mô hình đối tượng. Và [10, 14] đã đề xuất một phương
pháp trên cơ sở chỉ khai thác các ảnh chụp. Một số tiếp cận khác tái tạo đối tượng 3D trên cơ sở từ tập ảnh được thu
thập từ nhiều nguồn khác nhau của đối tượng [14]. Các phương pháp tái tạo phụ thuộc vào máy móc và chi phí thường
lớn và nghiên cứu chỉ dừng ở mô hình 3D tạo ra, chưa phân tích mối liên hệ giữa ảnh, mô hình 3D và mối tương quan
của chúng. Việc tái tạo 3D từ nhiều ảnh là quá trình tạo ra mô hình ba chiều từ một tập các ảnh. Đó là một quá trình xử
lý ngược thu ảnh 2D từ cảnh 3D. Bản chất của một hình ảnh là một phép chiếu từ một cảnh 3D trên một mặt phẳng 2D.
- 354 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN
Trong suốt quá trình xử lý thì độ sâu của cảnh được loại bỏ. Điểm 3D tương ứng với một điểm ảnh được giới hạn trên
đường thẳng ngắm [2]. Từ một ảnh đơn lẻ thì không thể xác định được điểm trên đường thẳng tương ứng đến điểm
ảnh. Nếu có 2 ảnh, như vậy vị trí của một điểm 3D có thể được tìm thấy như giao điểm của hai tia chiếu. Việc xử lý
này được đề cập như đỉnh hai cạnh của tam giác [2, 10, 3].
Nhằm tăng cường kết quả trong phân tích, nhận dạng đối tượng trên tập ảnh 2D với độ chính xác cao, phương
pháp phổ biến và hiệu quả đó là mạng nơron tích chập (Convolutional Neural Network-CNNs). Phương pháp thường
sử dụng cơ chế như cửa sổ trượt để phát hiện và nhận dạng các đối tượng [7, 21, 9] hay sử dụng các thuộc tính đặc
trưng đã được học trong quá trình huấn luyện. Tất cả các ý tưởng giải pháp trên đều đi đến một mục đích xây dựng mô
hình để nhận dạng các đối tượng có mối liên quan lẫn nhau hay có cùng những đặc trưng cố định với độ chính xác cao.
Trên cơ sở sử dụng phương pháp học sâu, bài báo phân tích và nhận dạng các thành phần cấu thành nên đối
tượng như: chân, tay, đầu,… từ tập ảnh 2D. Từ kết quả này, chúng tôi đề xuất phương pháp tái nhận dạng và phân đoạn
đối tượng 3D để phân tích, chú thích đặc trưng ngữ nghĩa của 2D/3D tương ứng.
III. ĐỀ XUẤT PHƯƠNG PHÁP
Trong bài báo này chúng tôi đề xuất phương pháp kết hợp xử lý đồng thời nhiều giai đoạn trên dữ liệu 2D và 3D
tương ứng. Mục tiêu nhằm từ tập dữ liệu 2D thu nhận từ đối tượng, tiến hành tạo chú thích ngữ nghĩa cho đối tượng
trên ảnh 2D và mô hình 3D. Bài báo có 3 giai đoạn chính, được mô tả như hình 1. Ở giai đoạn thu thập dữ liệu là giai
đoạn tiền xử lý dữ liệu liên quan đến việc huấn luyện để tạo mặt nạ và chú thích 2D và nó cũng là dữ liệu để tái tạo mô
hình 3D cho đối tượng. Giai đoạn này dữ liệu được thu nhận bằng cách chụp ảnh vòng quanh đối tượng [2, 14]. Kết
quả của giai đoạn này là tiền đề để huấn luyện ở giai đoạn 2, giai đoạn chúng tôi sử dụng phương pháp học máy [9] để
nhận dạng từng thành phần của đối tượng, trên cơ sở đó tạo mặt nạ tương ứng với mỗi thành phần. Đồng thời với giai
đoạn phân đoạn hình ảnh trên cơ sở học máy, với bộ dữ liệu tập ảnh 2D chúng tôi tái tạo mô hình 3D tương ứng. Giai
đoạn cuối cùng chúng tôi đề xuất kết hợp giữa kết quả chú thích ngữ nghĩa ở giai đoạn 2 để tạo mặt nạ chú thích ngữ
nghĩa trên đối tượng 3D.
Hình 1. Các giai đoạn xử lý chính
Phần này bài báo mô tả một số giai đoạn chính trong quá trình tái tạo và trích lọc điểm đặc trưng như: thu thập
dữ liệu ảnh 2D, trích xuất các điểm đặc trưng [4], xác định cặp điểm tương đồng, tính hướng chụp của máy ảnh [2],
tính toán độ sâu điểm ảnh và tái tạo 3D [14]. Giai đoạn cuối cùng là phân tích mối liên hệ các điểm bất biến trên ảnh
2D và 3D để làm cơ sở cho truy vết tập điểm tương ứng trên 2D/3D. Lưu đồ trong phương pháp tiếp cận của chúng tôi
được biểu diễn như Hình 1.
A. Thu thập dữ liệu
Đã có nhiều phương pháp thu thập dữ liệu như chụp ảnh cắt lớp, ảnh từ và phương pháp phổ biến trong tái tạo
hiện nay đó là sử dụng máy scan. Những phương pháp trên thu được kết quả có độ chính xác cao, tuy nhiên chi phí đắt.
Dữ liệu được sử dụng trong quá trình thử nghiệm chúng tôi tiến hành thu thập tại bảo tàng Chăm Đà Nẵng và Tượng
tại di tích Mỹ Sơn bằng cách chụp từng ảnh xung quanh đối tượng như Hình 2.
Hình 2. Mô tả các vị trí của camera chụp ảnh
Với cùng một bộ dữ liệu chúng tôi sử dụng để thực hiện 2 giai đoạn khác nhau, giai đoạn thứ nhất để huấn luyện
trong nhận dạng, phân đoạn cấu trúc thành phần đối tượng, giai đoạn thứ hai là để tái tạo mô hình 3D.
- Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 355
Để nâng cao hiệu quả trong quá trình thu thập dữ liệu cần phải chụp ở mỗi cặp bức ảnh đều được giao nhau một
vùng nào đó. Và tăng độ chính xác trong quá trình tái tạo máy ảnh cần đảm bảo các tham số như độ sáng, tiêu cự, khẩu
độ và tốc độ hạn chế thay đổi. Hình 3 minh họa một số ảnh 2D được chụp xung quanh một đối tượng.
Hình 3. Một số ảnh được chụp xung quanh đối tượng Nữ thần
B. Xử lý và tái tạo mô hình 3D
1. Xác định tập điểm đặc trưng bất biến
Để phát hiện các điểm bất biến tương ứng cho tập ảnh, bài báo đề xuất sử dụng thuật toán SIFT (Scale-Invariant
Feature Transform). Các bước chính để phát hiện điểm bất biến được mô tả như [4]:
1) Tìm cực trị trong không gian đo, được định nghĩa bởi hàm không gian tỷ lệ của ảnh L( x, y, ) và được xác
định tích chập giữa hàm Gaussian và ảnh gốc I ( x, y )
L( x, y, ) G( x, y, k ) * I ( x, y) (1)
( x2 y 2 )
1
Trong đó: G ( x, y , k ) 2
e 2 2
2
I ( x, y ) : Ảnh đầu vào;
L( x, y, ) : Hàm không gian tỷ lệ của ảnh; : tham số tỷ lệ.
Để xác định điểm đặc trưng bất biến, là những điểm ít phụ thuộc vào giá trị co giãn và xoay ảnh, thuật toán đã
sử dụng hàm DoG (Difference-of-Gaussian) để tính toán sự sai khác giữa hai không gian đo, hàm được ký hiệu
D( x, y, ) và được xác định như sau:
D( x, y, ) (G( x, y, k ) G( x, y, )) * I( x, y )
(2)
L ( x, y , k ) L ( x, y , )
2) Lọc loại bỏ các điểm tương phản kém, các điểm dư thừa theo biên và chỉ trích xuất các điểm đặc trưng tiềm
năng.
3) Gán hướng cho các điểm đặc trưng (với mỗi mẫu ảnh L( x, y ) , gọi hai giá trị m( x, y), (x, y) tương ứng là
độ dốc và hướng được xác định:
2 2
m( x, y ) ( L( x 1, y ) L( x 1, y )) ( L( x, y 1) L( x, y 1)) (3)
1 L( x, y 1) L( x, y 1)
( x, y ) tan (4)
L( x 1, y ) L( x 1, y )
4) Mô tả, gán tọa độ kích thước các điểm đặc trưng.
Sau khi thu thập các tập điểm đặc trưng của mỗi ảnh, sử dụng phương pháp đối sánh mỗi cặp điểm để xác định
cặp điểm tương đồng cho mỗi cặp ảnh. Hình 4 mô tả cặp điểm tương đồng giữa 2 ảnh.
Hình 4. Điểm đặc trưng tương đồng của 2 ảnh
Kết quả của giai đoạn này thu được tập điểm đặc trưng tương ứng cho mỗi ảnh và cặp ảnh. Nó là cơ sở để xác
định hướng và vị trí tương đối của ảnh được chụp và cung cấp thông tin cho giai đoạn tái tạo.
- 356 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN
2. Xác định hướng các ảnh từ tập điểm đặc trưng
Ở giai đoạn này, chúng ta cần xác định hướng và vị trí đặt của camera của các ảnh từ tập điểm đặc trưng bất
biến và các cặp điểm tương đồng của mỗi cặp ảnh. Bởi vì tập các ảnh thu được từ các vị trí và hướng khác nhau của
mỗi góc chụp, các điểm đặc trưng cung cấp các thông tin hữu ích trong việc xác định vị trí và hướng của ảnh tương
ứng với góc chụp. Bài báo sử dụng phương pháp xác định hướng của các ảnh với một ảnh chính được chia thành 2 giai
đoạn chính được mô tả [2, 14] như sau:
1) Chọn một ảnh chính, thực hiện đệ quy ghép cặp từng ảnh với ảnh chính; hướng của một ảnh thu được tốt nhất
khi được xác định bởi ma trận đồng nhất và giảm tỉ lệ ảnh bằng thuật toán RANSAC [14]. Với mỗi bước thực
hiện phải được điều chỉnh để tránh việc tích lũy lỗi.
2) Tính tổng bình phương bé nhất cho tất cả các tham số, trên các điểm đặc trưng của ảnh lỗi của một giải pháp
trước đó. Trong đó, một ảnh lỗi của một điểm là sự sai khác giữa tọa độ của một điểm đặc trưng và phép chiếu
ngược của nó trên một ảnh. Đầu ra của giai đoạn này cung cấp các thông tin về hướng và vị trí của camera
chụp ảnh. Hình 5 mô tả các vị trí đã được chụp ảnh, được tái hiện trên mô hình 3D.
Hình 5. Mô tả các vị trí ảnh thu được trong quá trình chụp
3. Tái tạo vật thể 3D từ tập dữ liệu 2D
Tái tạo 3D là giai đoạn phục hồi thông tin độ sâu cho mỗi điểm ảnh đặc trưng. Một bản đồ độ sâu của ảnh là
mỗi pixel được biểu diễn độ sâu tương ứng với điểm nhìn 3D từ điểm nhìn của một ảnh chính. Từ tập bản đồ độ sâu
được chuyển đổi trực tiếp sang tập điểm 3D tương ứng, mỗi điểm 3D sau khi tái tạo luôn được liên kết với một pixel
trong ảnh tương ứng. Giai đoạn này cung cấp một bản đồ hệ số tương quan giữa các cặp ảnh để tính toán độ sâu cho
mỗi điểm ảnh trong bản đồ độ sâu. Các bước xử lý chính [14] mô tả như sau:
1) Chọn hướng và vị trí của camera thu được từ giai đoạn xử lý trước đó và xác định ảnh phù hợp;
2) Tính toán đo lường cho mỗi điểm có khả năng trong không gian (đó là tổng của các hệ số tương quan cho mỗi
cặp ảnh);
3) Trích xuất bề mặt đối tượng bằng cách tiếp cận năng lượng tối thiểu trên toàn bộ không gian và làm mịn theo
một thứ tự để đồng nhất bề mặt đối tượng.
Kết quả của giai đoạn này là tập điểm 3D, mỗi điểm 3D được tạo từ tập điểm bất biến SIFT và chúng được bổ
sung thông tin độ sâu cho mỗi điểm ảnh. Vì vậy giữa tập điểm 3D và 2D luôn tồn tại mối liên hệ lẫn nhau. Đây là cơ sở
quan trọng để xác định mối tương quan giữa tập điểm 2D và 3D.
C. Tương quan giữa tập điểm bất biến 2D và tập điểm 3D
Giai đoạn tái tạo mô hình 3D (nội dung B), mỗi điểm 3D được tạo ra từ những điểm đặc trưng bất biến từ ảnh
2D và chúng được bổ sung thông tin độ sâu. Như vậy, mỗi điểm đặc trưng được chọn sẽ liên kết với một điểm 3D.
Trong Hình 5, các điểm màu đỏ (Hình 5a) là tập điểm đặc trưng bất biến được tìm thấy bởi thuật toán và chỉ một số ít
điểm nổi bật (Hình 5b) được chọn để tham gia vào giai đoạn tái tạo.
(a) Tập điểm bất biến được (b) Tập điểm được chọn
tìm thấy tham gia tái tạo
Hình 6. Trích lọc tập điểm đặc trưng
- Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 357
Để xác định và truy lại vết các điểm đặc trưng tương ứng với mỗi ảnh, bài báo đề xuất sử dụng phương pháp
truy vết ngược. Do mỗi điểm 3D của đối tượng đã được liên kết với một ảnh chính (ảnh chính là ảnh được chọn để thu
nhận màu sắc, đặc trưng của đối tượng (nội dung B)). Từ ảnh chính trích xuất các điểm đặc trưng bất biến và đối sánh,
so khớp với tập điểm đặc trưng với mỗi ảnh khác. Nếu mỗi cặp điểm tương đồng thì đánh dấu và trích lọc. Hình 4 minh
họa các vị trí và giá trị tương đồng của các cặp điểm đặc trưng giữa từng cặp ảnh.
D. Phân đoạn đối tượng 2D dựa trên kỹ thuật học sâu Mask R-CNN
Mạng nơron tích chập (Convolutional Neural Network - CNNs) đang được ứng dụng phổ biến trong kỹ thuật
học sâu (Deep learning). Đã có nhiều ứng dụng sử dụng kết quả nghiên cứu CNNs trong việc nhận dạng, phân lớp các
đối tượng trong ảnh. Hình 6 biểu diễn mô hình được đề xuất bởi [21] sử dụng mô hình mạng CNN để tạo phân vùng sự
xuất hiện của đối tượng trên ảnh gồm 3 giai đoạn chính.
1) Trích xuất khoảng 2000 vùng được đề xuất sử dụng thuật toán [13]
2) Tính toán các thuộc tính cho các vùng đề xuất sử dụng mạng nơ-ron tích chập.
3) Phân lớp cho mỗi khu vực sử dụng phương pháp học có giám sát SVM (Support Vector Machine).
Hình 7. Kiến trúc mạng R-CNN
Tuy nhiên tốc độ xử lý của R-CNN và Fast R-CNN khá chậm bởi do phải tạo ra nhiều các vùng đặc trưng trong
ảnh. Trong kết quả nghiên cứu [21], tác giả đã đề xuất bổ sung môđun ROIAlign (Region of Interest) để cải thiện tốc
độ xử lý và nâng cao tính chính xác của các vùng đề xuất như vùng màu xanh trong Hình 8. Kết quả nghiên cứu [9]
tiếp tục mở rộng môđun tích hợp tạo mặt nạ để phân vùng và nhận dạng vùng đặc trưng tương ứng.
Trong giai đoạn này, chúng tôi đề xuất kết hợp tách các vùng đã được nhận dạng được tạo, đánh dấu và giãn nở
(khôi phục) kích thước ảnh ban đầu cho mỗi vùng, đánh dấu và tạo mặt nạ cho từng bộ phận. Mục đích được sử dụng
trong giai đoạn ánh xạ các vùng mặt nạ tương ứng từ tập điểm 2D sang 3D và xác định ngữ nghĩa cho đối tượng.
Hình 8. Mô hình phân đoạn ảnh trên Mask R-CNN
IV. KẾT QUẢ THỬ NGHIỆM
Kết quả thực nghiệm tái tạo mô hình 3D và nhận dạng các vùng cục bộ và học máy được triển khai thử nghiệm trên
nền tảng Google colab. Nhóm nghiên cứu đã tiến hành khảo sát và chụp ảnh xung quanh các pho tượng tại Bảo tàng Điêu
khắc Chăm Đà Nẵng và khu di tích Mỹ Sơn ở Quảng Nam. Trong Bảng 1 thống kê số ảnh đã được chụp và thu nhận trên
mỗi đối tượng và một số dữ liệu mẫu được sử dụng trong quá trình tái tạo và huấn luyện được upload tại [22].
Bảng 1. Số lượng ảnh thu thập trên mỗi đối tượng
Tượng Số ảnh chụp
Nữ thần Siva 70
Thần linh – Mỹ sơn 56
Tượng Dvarapala 60
Thần Brahma 65
Trong phương pháp đề xuất, chúng tôi chia thành ba giai đoạn xử lý chính. Giai đoạn thứ nhất, tái tạo mô hình
3D cho mỗi tập ảnh. Như kết quả Hình 7 và 8 một số ảnh đặc trưng các vị trí chụp và mô hình đối tượng 3D thu nhận
được với ba góc nhìn sau khi được tái tạo.
- 358 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN
Dữ liệu tập ảnh như Bảng 1 được sử dụng trong quá trình tái tạo. Hình 8, 9 hiển thị ảnh mẫu của dữ liệu và mô
hình sau tái tạo với các vị trí chụp khác nhau quanh tượng Nữ thần Siva tại Bảo tàng Điêu khắc Chăm Đà Nẵng và
Tượng vật ở Di tích Mỹ Sơn - Quảng Nam.
(a) Một số ảnh chụp với vị trí khác nhau của tượng nữ Thần
(b) Mô hình tái tạo 3D với 3 góc nhìn
Hình 9. Dữ liệu ảnh chụp và mô hình tái tạo 3D tượng nữ Thần
(a) Một số ảnh chụp với vị trí khác nhau của Tượng
(b) Mô hình tái tạo 3D với 3 góc nhìn của Tượng
Hình 10. Dữ liệu ảnh chụp và mô hình 3D tái tạo Tượng Chămpa
Như ở giai đoạn thứ 2 từ bộ dữ liệu ảnh ban đầu chúng tôi thực hiện huấn luyện và phân đoạn ngữ nghĩa đối
tượng. Trong giai đoạn này, chúng tôi truy vết và ghi nhận lại các vùng đã được phân đoạn từ mô hình huấn luyện. Như
Hình 10, 3 cột bên trái là 3 ảnh 2D sau khi phân đoạn và được nhận dạng sau khi huấn luyện, cột phải là mô hình 3D
được chú thích tương ứng với các thành phần từ dữ liệu 2D.
Bảng 2. Dữ liệu 2D và mô hình 3D sau khi huấn luyện và chú thích
Dữ liệu sau khi phân đoạn trên 2D Chú thích trên 3D
Siva – Đà Nẵng
Tượng nữ thần
Tượng Di tích
Quảng Nam
Mỹ Sơn –
- Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 359
V. KẾT LUẬN VÀ THẢO LUẬN
Trong bài báo này, chúng tôi giới thiệu và đề xuất một giải pháp kết hợp phân đoạn ngữ nghĩa trên đối tượng
2D/3D. Trên cơ sở kết hợp xử lý đồng thời tái tạo mô hình 3D và sử dụng phương pháp học sâu để phân đoạn hình ảnh
để tái phân đoạn trên đối tượng 3D. Kết quả bài báo bước đầu đã thu thập ảnh và tái tạo thành công một số tượng Chăm
cổ tại bảo tàng Đà Nẵng và di tích Mỹ Sơn. Kết quả bước đầu là cơ sở để phân đoạn, nhận dạng và phân tích từng bộ
phận trên các đối tượng 2D/3D phục vụ số hóa lưu trữ và bảo tồn.
Hướng phát triển tiếp theo của chúng tôi theo cách tiếp cận này là tái tạo đối tượng 3D từ tập ảnh cho các đối
tượng khác nhau từ dữ liệu ảnh được thu thập từ nhiều nguồn khác nhau tiến hành phân đoạn, nhận dạng và phân tích
ngữ nghĩa trên 2D và 3D. Từ đó xây dựng bộ dữ liệu số hóa cho các mô hình đối tượng cụ thể và chú thích các đặc
trưng của mô hình 3D và tập ảnh thu được.
VI. LỜI CẢM ƠN
Nhóm nghiên cứu chân thành cảm ơn Phòng thí nghiệm LSIS, Trường Đại học Aix-Marseille - Cộng hòa Pháp;
Bảo tàng Điêu khắc Chăm Đà Nẵng đã tư vấn trao đổi các nội dung chính của bài báo và hỗ trợ thu thập dữ liệu phục
vụ thử nghiệm phương pháp đề xuất.
TÀI LIỆU THAM KHẢO
[1] Adeline Manuel, Livio De Luca and Philippe Véron, "A Hybrid Approach for the Semantic Annotation of
Spatially Oriented Images", International Journal of Heritage in the Digital Era, 2014.
[2] APERO: International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,
Volume XXXVIII-5/W16, 2011 ISPRS Trento 2011 Workshop, 2-4 March 2011, Trento, Italy.
[3] Christian Lindequist Larsen, "3D Reconstruction of Buildings From Images with Automatic Fac¸ade Refinement",
Master’s Thesis, Vision, Graphics and Interactive Systems, 2010.
[4] David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer
Vision, Volume 60 Issue 2, November 2004.
[5] Ding Yun Chen and Ming Ouhyoung, "A 3D Object Retrieval System based on Multi-Resolution Reeb Graph".
Proc. of Computer Graphics Workshop, 2002.
[6] Dmitriy Bespalov, William C. Regli, Ali Shokouf, "Local feature extraction and matching partial objects"
Computer-Aided Design 38(9), pp. 1020–1037, 2006.
[7] Girshick, Ross. “Fast R-CNN.” 2015 IEEE International Conference on Computer Vision (ICCV), 2015
[8] G. Stavropoulos, P. Moschonas, K. Moustakas, D. Tzovaras and M.G. Strintzis, "3D Model Search and Retrieval
from Range Images using Salient Features", IEEE Transactions on Multimedia, vol. 12, no.7, pp. 692-704,
November 2010.
[9] He, Kaiming et al. “Mask R-CNN.” 2017 IEEE International Conference on Computer Vision (ICCV), 2017.
[10] JC. Torres, G. Arroyo, C. Romo, "3D Digitization using Structure from Motion", CEIG-Spanish Computer
Graphics Conference, 2012.
[11] Jebara, Tony, Ali Azarbayejani, and Alex Pentland. "3D structure from 2D motion, Signal Processing Magazine",
IEEE 16.3, pp. 66-84, 1999.
[12] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[13] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
[14] MicMac, Apero, Pastis and Other Beverages in a Nutshell, 2015.
[15] SF. El-Hakim, JA. Beraldin, M. Picard, "Detailed 3D reconstruction of large-scale heritage sites with integrated
techniques", Computer Graphics and Applications, IEEE Volume 24, Issue 3, pp. 21-29, 2004.
[16] Park, Hyun Soo, et al, "3D Trajectory Reconstruction under Perspective Projection", International Journal of
Computer Vision, pp. 1-21, 2015.
[17] C. Baillard, C. Schmid, A. Zisserman, and A. Fitzgibbon, "Automatic line matching and 3D reconstruction of
buildings from multiple views", In ISPRS Conference on Automatic Extraction of GIS Objects from Digital
Imagery, volume 32, pp. 69-80, 1999.
[18] R. Berthilsson, K. Astrom, and A. Heyden, "Reconstruction of general curves, using factorization and bundle
adjustment", International Journal of Computer Vision, 41(3), pp. 171–182, 2001.
[19] M. Pierrot-Deseilligny, N. Paparoditis. A multiresolution and optimization-based image matching approach: An
application to surface reconstruction from SPOT5-HRS stereo imagery. In IAPRS vol XXXVI-1/W41 in ISPRS
- 360 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN
Workshop On Topographic Mapping From Space (With Special Emphasis on Small Satellites), Ankara, Turquie,
02-2006
[20] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and
semantic segmentation. In CVPR, 2014
[21] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal
networks. In NIPS, 2015
[22] Dataset: https://drive.google.com/open?id=11pyGnMIgA9qj3jLfpD4rl-wsVvQEun8v
[23] M. Le-Tien, K. Nguyen-Tan and R. Raffin, "A Method to Determine the Characteristic of Object Based on 2D/3D
Correspondance," 2019 IEEE-RIVF International Conference on Computing and Communication Technologies
(RIVF), Danang, Vietnam, 2019, pp. 1-7
3D OBJECT-PARTS RECOGNITION BASED ON MASK-R CNN DEEP
NEURAL NETWORK
Le Tien Mau, Nguyen Tan Khoi, Romain Raffin
ABSTRACT: This paper presents a new method to retrieve semantic of 3D objects by combination of 2D images and the
corresponding 3D model reconstructed using photogrammetry. Our proposed method for determining the characteristics
consists of three major steps: 1) reconstruction of 3D object, 2) recognization characteristics based on the Mask R-CNN method of
the image set and 3) determining characteristics of this reconstructed 3D object from both spaces (2D and 3D) and extraction all
semantic notation for 2D/3D data set.
nguon tai.lieu . vn