Xem mẫu
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
PHÁT SINH CÂU MÔ TẢ CHO HÌNH ẢNH DÙNG PHƯƠNG PHÁP
ATTENTION TĂNG CƯỜNG THÔNG TIN KHÁI NIỆM
Võ Hồ Việt Khoa*, Lương Quốc An, Trần Minh Triết
Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh
*Tác giả liên lạc: vhvkhoa@gmail.com
TÓM TẮT
Bài tóa n phát sinh câu mô tả là một bài tóa n khó. Sự phát triển của các mô hình
mạng nơ-ron nhân tạo kết hợp với kỹ thuật attention đã cho ra nhiều kết quả tốt
trong bài tóa n này. Tuy nhiên vẫn còn nhiều vấn đề trong bài tóa n chưa được
giải quyết triệt để. Đặc biệt là vấn đề về tính toàn vẹn của câu mô tả và độ chi
tiết của câu mô tả. Trong đề tài này, nhóm sinh viên, từ những mô hình đã tìm
hiểu, đề xuất một mô hình sử dụng kỹ thuật attention trên hình ảnh được tăng
cường thêm các thông tin khái niệm và cải tiến chiến lược beam search trong quá
trình phát sinh câu mô tả. Nhóm thử nghiệm mô hình trên tập dữ liệu MSCOCO
với các độ đo BLEU, METEOR, ROUGE-L, CIDEr. Kết quả cho thấy mô hình
đạt được một số cải thiện trong việc giải quyết vấn đề mô tả câu chi tiết, tuy nhiên
vẫn còn nhiều hạn chế.
Từ khóa: Phát sinh mô tả cho hình ảnh, mô hình attention, beam search,
sequences model.
IMAGE CAPTION GENERATION WITH ATTENTION ON IMAGE
AND CONCEPTS AUGMENTATION
Vo Ho Viet Khoa*, Luong Quoc An, Tran Minh Triet
University of Science – VNU Ho Chi Minh City
*Corresponding Author: vhvkhoa@gmail.com
ABSTRACT
Image captioning is a challenging problem in Computer Vision. The development
of artificial neural network combined with attention mechanism has showed good
performance in this problem. However, there are a lot of unsolved issues in image
captioning, especially the completeness and detail of the generated captions. In
this research, we propose a captioning model using attention mechanism over
image features combined with information from concepts extracted from images.
We also propose a modified beam search to find a complete caption. We report
results on MSCOCO dataset on different metrics: BLEU, METEOR, ROUGE-L,
CIDEr. The results show that our model achieves some improvement in
generating image caption compared to some previous methods but still has some
limits compared to the current state of the art.
Keywords: Image captioning, attention mechanism, beam search, sequences
model.
TỔNG QUAN dụng trong nhiều lĩnh vực từ hỗ trợ
Bài tóa n phát sinh câu mô tả cho hình người khiếm thị cho đến xây dựng hệ
ảnh là bài tóa n kết hợp giữa xử lý thống thông minh. Để giải quyết bài
thông tin hình ảnh và xử lý ngôn ngữ tóa n này đòi hỏi không chỉ khả năng
tự nhiên. Bài tóa n này có thể được ứng nhận diện chính xác đối tượng, hành
195
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
động mà còn phải xử lý các vấn đề về mạng là một khối). Hình ảnh sau khi
ngữ pháp và tính nhập nhằn trong ngôn được xử lý cho ra khối đặc trưng có
ngữ. Đặc biệt là vấn đề về mức độ chi kích thước 14x14x1024.
tiết của câu mô tả vì tuy rằng nội dung Khối đặc trưng của hình ảnh sau đó
mô tả liên quan đến hình ảnh nhưng độ được xử lý qua khối attention. Nhóm
chi tiết sẻ tùy thuộc vào từng người mô sinh viên tiến hành làm phẳng khối đặc
tả khác nhau. Đồng thời, độ chi tiết của trưng này thành 196x1024 chiều và
câu mô tả cũng thể hiện chất lượng của đưa vào mô hình soft attention. Mô
câu mô tả đó. hình attention sẽ gán trọng số cho
Nhiều công trình trong những năm gần 196 vector biểu diễn vùng thứ trong
đây cho ra kết quả mô tả tốt như công hình ảnh và gộp lại thành một vector
trình của Karpathy và cộng sự [A. duy nhất.
Karpathy et. al 2015]. Năm 2015,
nhóm của Kelvin Xu dựa trên ý tưởng
attention trong dịch máy đã đề xuất
một mô hình attention trên hình ảnh Giá trị của thể hiện mức độ “tập
[K. Xu et. al 2016]. Tuy nhiên, một số trung” của mô hình. Thông tin của các
câu mô tả do những phương pháp trên vector có trọng số cao sẽ được giữ
phát sinh vẫn chưa được chi tiết. Đồng lại trong còn các vector có trọng số
thời, việc lựa chọn đặc trưng để phát thấp sẽ bị lược bỏ. Vector đặc trưng
sinh câu mô tả có thể bị sai lệch vì mô sau đó sẽ được sử dụng để phát sinh ra
hình tự học lấy cách lựa chọn đặc trưng câu mô tả. Thông tin từ lần phát sinh
từ dữ liệu. này sẽ được truyền ngược về để điều
Nhóm sinh viên nhận thấy rằng việc chỉnh lại bộ trọng số tập trung sang
mô tả chi tiết nhãn các đối tượng trong đối tượng khác bên trong hình ảnh.
ảnh thay vì các từ tổng quát làm tăng
chất lượng câu mô tả. Vì vây nhóm đề Tăng cường thông tin khái niệm
xuất một mô hình dựa trên phương Từ mô hình sử dụng ResNet, nhóm
pháp attention trên hình ảnh kết hợp sinh viên tiến hành thêm vào một khối
với các thông tin nhãn ngữ nghĩa được phát hiện vật thể (object detector) để
rút trích ra từ hình ảnh. Thông tin từ phát sinh ra nhãn của các đối tượng có
các nhãn ngữ nghĩa có thể giúp bổ sung trong ảnh. Với một ảnh đầu vào, mô
thêm thông tin để phát sinh ra từ mô tả hình phát hiện đối tượng sẽ cho ra một
chính xác và chi tiết hơn. danh sách các nhãn. Các nhãn thu được
này sẽ được đưa qua một mô hình
PHƯƠNG PHÁP attention thứ 2 để chọn lọc ra các nhãn
Sử dụng mô hình ResNet liên quan bổ sung thêm thông tin cho
Nhóm sinh viên đề xuất mô hình sử khối LSTM để phát sinh câu mô tả tốt
dụng ResNet [K. He et. al 2016] làm hơn.
bộ rút trích đặc trưng. Hình ảnh đầu Một ảnh đầu vào sẽ được xử lý qua mô
vào sẽ được điều chỉnh về một kích hình ResNet sẽ rút trích khối đặc trưng
thước cố định 224x224. Khi rút trích của ảnh. Ảnh đầu vào này cũng sẽ được
đặc trưng với ResNet, nhóm rút trích đưa qua một khối xử lý phát hiện đối
đặc trưng ở tầng tích chập tượng. Khối xử lý này sẽ cho biết trong
(convolution) cuối cùng của khối mạng ảnh có những đối tượng nào với độ tin
(block) phía trước khối mạng cuối cậy bao nhiêu. Nhóm sinh viên chọn
cùng (không tính lớp softmax ở cuối mô hình Mask R-CNN [K. He et. al
196
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
2017] là mô hình mới được đề xuất gần nhãn đó đang được mô hình sử dụng để
đây nhất. Hình ảnh sau khi đi qua mô phát sinh ra từ mô tả. Các vector biểu
hình Mask R-CNN sẽ được rút trích ra diễn nhãn cũng sẽ được tổng hợp theo
các nhãn với độ tin cậy thể hiện có đối trọng số để tạo ra vector 512.
tượng đó trong ảnh hay không. Để hạn
chế vấn đề mô tả các nội dung không
quan trọng trong ảnh, nhóm sinh viên
quyết định chọn nhãn có độ tin cậy Các giá trị trọng số cũng được điều
cao nhất. chỉnh động trong quá trình phát sinh
Các nhãn này ban đầu được biểu diễn tương tự như kỹ thuật attention trên
bằng vector one-hot có chiều với hình ảnh. Thông tin từ lần phát sinh
là kích thước của bộ từ điển các nhãn. trước sẽ được truyền ngược về để điều
Các nhãn đối tượng sẽ được nhân với chỉnh lại giá trị của các trọng số .
ma trận embedding để chuyển về
không gian mô tả ngữ nghĩa. Mỗi nhãn Vector tổng hợp của hình ảnh và
sẽ được đưa về một vector 512 chiều vector tổng hợp của nhãn sẽ được
để biểu diễn cho nhãn đó. Khối đặc nối lại cùng với vector embedding 512
trưng của hình ảnh và các vector biểu chiều biểu diễn từ mô tả của lần phát
diễn các nhãn lần lượt được đưa vào sinh trước. Cuối cùng ta sẽ có một
hai mô hình attention khác nhau. Kỹ vector tổng hợp với 2048 chiều. Các
thuật attention trên hình ảnh đã được đặc trưng tuy đã được tổng hợp vào
mô tả trong mục trước. Khối đặc trưng trong một vector nhưng phân bố của
từ hình ảnh sẽ được đưa vào mô hình các đặc trưng vẫn khác nhau. Cho nên
soft attention này. Các vector biểu diễn vector này sau đó sẽ được đưa qua một
các nhãn sẽ được đưa vào khối lớp mạng liên kết đầy đủ (fully
attention thứ hai. Các vector này cũng connected) để tổng hợp các thông tin
sẽ được gán một trọng số . Giá trị của trong vector này thêm một lần nữa.
thể hiện mức độ quan trọng của nhãn Vector sau quá trình xử lý vẫn giữ kích
đó. Nếu giá trị của cao có nghĩa là thước 2048 chiều.
Hình 1. Kiến trúc mô hình phát sinh câu mô tả do nhóm đề xuất
Phát sinh câu mô tả bằng LSTM Hochreiter et. al 1997] để tiến hành
Vector tổng hợp chứa thông tin từ phát sinh câu mô tả. Mô hình LSTM xử
hình ảnh và các nhãn ngữ nghĩa sẽ lý vector đặc trưng để tính tóa n ra
được đưa qua khối LSTM [S. trạng thái ẩn tại mỗi thời điểm. Trạng
197
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
thái ẩn từ mô hình LSTM sẽ được luôn nằm trong khoảng [0, 1] nên xác
đưa qua một bộ phân lớp để dự tóa n từ suất của câu mô tả xuất hiện sẽ càng
mô tả cần phát sinh từ một tập từ điển. nhỏ khi câu càng dài.
Trạng thái ẩn cũng sẽ được sử dụng Vì vậy, nhóm sinh viên đã đề xuất cải
để tính tóa n ra bộ trong số attention tiến phương pháp beam search để khắc
mới cho cả hình ảnh và nhãn ngữ nghĩa phục nhược điểm này bằng cách cho
để trích chọn đặc trưng mới cho lần thêm một điều kiện nữa cho việc chọn
phát sinh tiếp theo. Từ được phát sinh chuỗi tốt nhất. Cụ thể hơn, sau mỗi
ra sau đó sẽ được nhân với ma trận bước lặp, mô hình sẽ xét xem trong các
word embedding[T. Mikolov et. al ký tự đã chọn cho beam search có ký
2013] để tạo thành vector 512 chiều. tự "." hay không, nếu có ký tự "." và
Vector biểu diễn từ mô tả này sẽ được chuỗi ứng viên hiện tại của beam
truyền ngược về để tổng hợp cùng với search vẫn chưa phải là chuỗi kết thúc
đặc trưng dữ liệu cho lần phát sinh tiếp bằng dấu "." thì chuỗi này sẽ được thay
theo. Sau quá trình phát sinh, độ lỗi bằng chuỗi tiền tố đã giúp mô hình sinh
giữa câu mô tả do mô hình tạo ra và câu ra dấu "." gộp với dấu ".". ngược lại,
mô tả trong tập dữ liệu được tính tóa n. nếu đã tồn tại một chuỗi ứng viên kết
Cụ thể hàm lỗi được tính như sau: thúc bằng dấu "." thì ta mới so sánh xác
suất xuất hiện của 2 chuỗi rồi mới chọn
một trong hai chuỗi làm chuỗi ứng viên
cho bước lặp tiếp theo.
Trong đó là số lượng lần lặp phát KẾT QUẢ VÀ THẢO LUẬN
sinh ra từ mô tả và là số lượng trọng Nhóm sinh viên tiến hành thí nghiệm
số attention. Mô hình được huấn luyện trên 2 mô hình: Mô hình attention trên
dựa trên việc tối ưu hóa hàm lỗi của mô ảnh sử dụng ResNet [K. He et. al 2016]
hình. làm bộ rút trích đặc trưng và mô hình
Chiến lược Beam Search cải tiến tăng cường thêm thông tin khái niệm.
Trong quá trình phát sinh câu mô tả, Nhóm sử dụng bộ trọng số của mô hình
việc chọn một cách tham lam từ có dự ResNet được huấn luyện sẵn cung cấp
đóa n cao nhất có thể dẫn đến cách bởi thư viện torchvision của nền tảng
nhánh cho ra kết quả không tốt. Để hạn Pytorch. Mô hình sử dụng ResNet này
chế vấn đề này, nhiều công trình đã áp được huấn luyện trên tập dữ liệu với 19
dụng phương pháp beam search[A. lần lặp. Tổng thời gian huấn luyện
Karpathy et. al 2015]. Phương pháp khoảng 60 giờ. Trong quá trình huấn
beam search này không cho kết quả tốt luyện, nhóm sinh viên sử dụng trực
như mong đợi dù khi sử dụng kích tiếp từ trong câu mô tả gốc để đưa vào
thước beam lớn. Vấn đề này là do cách lần xử lý tiếp theo để hạn chế ảnh
thức lựa chọn chuỗi ứng viên của beam hưởng của sự sai lệch trong lần phát
search. Với kích thước beam là , thì ở sinh trước. Tuy nhiên trong quá trình
mỗi bước lặp của LSTM phương pháp đánh giá, từ do mô hình phát sinh được
sẽ chọn ra ký tự sao cho xác suất xuất sử dụng để đưa vào lần phát sinh tiếp
hiện của chúng và chuỗi tiền tố của theo. Beam search được áp dụng trong
chúng là cao nhất. Tuy nhiên, nếu quá trình đánh giá để chọn ra câu mô tả
chuỗi càng dài thì khả năng bị loại bỏ tốt nhất.
càng cao, bởi vì tích của xác suất của Đối với mô hình được tăng cường
các từ cấu thành nên câu mô tả là số thông tin khái niệm từ các nhãn ngữ
198
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
nghĩa, nhóm sinh viên cũng huấn luyện KẾT LUẬN
và kiểm thử trên tập MS COCO 2017 Dựa trên các phương pháp đã có trong
[T. Lin et. al 2014]. Nhóm sinh viên sử bài tóa n phát sinh câu mô tả cho hình
dụng mô hình Mask R-CNN [K. He et. ảnh, nhóm sinh viên đã đề xuất một mô
al 2017] được cung cấp bởi chương hình cải tiến dựa trên mô hình attention
trình Detectron do Facebook AI trên hình ảnh được tăng cường thông
Research phát triển để rút trích các tin khái niệm. Mô hình do nhóm sinh
nhãn của các đối tượng trông ảnh. Mô viên đề xuất tập trung vào giải quyết
hình được huấn luyện trong khoảng 5 vấn đề độ chi tiết trong các câu mô tả.
ngày với khoảng 30 lần duyệt qua bộ Nhóm sinh viên đã chạy thử nghiệm và
dữ liệu. Phương pháp early stopping đánh giá kết quả trên tập dữ liệu
trên độ đo CIDEr được áp dụng để MSCOCO với các độ đo đánh giá khác
chọn ra mô hình có kết qủa tốt trên độ nhau. Kết quả cho thấy mô hình đạt
đo đánh giá. được sự cải tiến nhất định khi kết quả
So sánh hai mô hình trên cùng một giá mô tả tốt hơn một số mô hình hiện có
trị beam size, mô hình được tăng và mô hình có thể phát sinh ra những
cường thông tin khái niệm từ các nhãn câu mô tả với độ chi tiết cao. Kết quả
ngữ nghĩa cho ra kết quả tốt hơn. Kết attention cũng cho thấy mô hình có khả
quả attention trên hình ảnh cũng cho năng tự điều chỉnh để chọn lọc đặc
thấy mô hình có khả năng tự điều chỉnh trưng phù hợp. Tuy nhiên, mô hình của
để “nhìn” vào đối tượng liên quan khi nhóm sinh viên đề xuất vẫn còn nhiều
phát sinh từ mô tả. hạn chế.
TÀI LIỆU THAM KHẢO
A. KARPATHY AND L. FEI-FEI. Deep visual-semantic alignments for
generating image descriptions. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), June 2015.
K. HE, X. ZHANG, S. REN, AND J. SUN. Deep residual learning for image
recognition. In The IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), June 2016.
S. HOCHREITER AND J. SCHMIDHUBER. Long short-term memory. Neural
Comput., vol. 9, pp. 1735–1780, Nov. 1997.
T. LIN, M. MAIRE, S. J. BELONGIE, L. D. BOURDEV, R. B. GIRSHICK, J.
HAYS, P. PERONA, D. RAMANAN, P. DOLLÁR, AND C. L. ZITNICK.
Microsoft COCO: Common objects in context. CoRR, vol. abs/1405.0312,
2014.
199
nguon tai.lieu . vn