Xem mẫu

  1. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học PHÁT SINH CÂU MÔ TẢ CHO HÌNH ẢNH DÙNG PHƯƠNG PHÁP ATTENTION TĂNG CƯỜNG THÔNG TIN KHÁI NIỆM Võ Hồ Việt Khoa*, Lương Quốc An, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên lạc: vhvkhoa@gmail.com TÓM TẮT Bài tóa n phát sinh câu mô tả là một bài tóa n khó. Sự phát triển của các mô hình mạng nơ-ron nhân tạo kết hợp với kỹ thuật attention đã cho ra nhiều kết quả tốt trong bài tóa n này. Tuy nhiên vẫn còn nhiều vấn đề trong bài tóa n chưa được giải quyết triệt để. Đặc biệt là vấn đề về tính toàn vẹn của câu mô tả và độ chi tiết của câu mô tả. Trong đề tài này, nhóm sinh viên, từ những mô hình đã tìm hiểu, đề xuất một mô hình sử dụng kỹ thuật attention trên hình ảnh được tăng cường thêm các thông tin khái niệm và cải tiến chiến lược beam search trong quá trình phát sinh câu mô tả. Nhóm thử nghiệm mô hình trên tập dữ liệu MSCOCO với các độ đo BLEU, METEOR, ROUGE-L, CIDEr. Kết quả cho thấy mô hình đạt được một số cải thiện trong việc giải quyết vấn đề mô tả câu chi tiết, tuy nhiên vẫn còn nhiều hạn chế. Từ khóa: Phát sinh mô tả cho hình ảnh, mô hình attention, beam search, sequences model. IMAGE CAPTION GENERATION WITH ATTENTION ON IMAGE AND CONCEPTS AUGMENTATION Vo Ho Viet Khoa*, Luong Quoc An, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: vhvkhoa@gmail.com ABSTRACT Image captioning is a challenging problem in Computer Vision. The development of artificial neural network combined with attention mechanism has showed good performance in this problem. However, there are a lot of unsolved issues in image captioning, especially the completeness and detail of the generated captions. In this research, we propose a captioning model using attention mechanism over image features combined with information from concepts extracted from images. We also propose a modified beam search to find a complete caption. We report results on MSCOCO dataset on different metrics: BLEU, METEOR, ROUGE-L, CIDEr. The results show that our model achieves some improvement in generating image caption compared to some previous methods but still has some limits compared to the current state of the art. Keywords: Image captioning, attention mechanism, beam search, sequences model. TỔNG QUAN dụng trong nhiều lĩnh vực từ hỗ trợ Bài tóa n phát sinh câu mô tả cho hình người khiếm thị cho đến xây dựng hệ ảnh là bài tóa n kết hợp giữa xử lý thống thông minh. Để giải quyết bài thông tin hình ảnh và xử lý ngôn ngữ tóa n này đòi hỏi không chỉ khả năng tự nhiên. Bài tóa n này có thể được ứng nhận diện chính xác đối tượng, hành 195
  2. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học động mà còn phải xử lý các vấn đề về mạng là một khối). Hình ảnh sau khi ngữ pháp và tính nhập nhằn trong ngôn được xử lý cho ra khối đặc trưng có ngữ. Đặc biệt là vấn đề về mức độ chi kích thước 14x14x1024. tiết của câu mô tả vì tuy rằng nội dung Khối đặc trưng của hình ảnh sau đó mô tả liên quan đến hình ảnh nhưng độ được xử lý qua khối attention. Nhóm chi tiết sẻ tùy thuộc vào từng người mô sinh viên tiến hành làm phẳng khối đặc tả khác nhau. Đồng thời, độ chi tiết của trưng này thành 196x1024 chiều và câu mô tả cũng thể hiện chất lượng của đưa vào mô hình soft attention. Mô câu mô tả đó. hình attention sẽ gán trọng số cho Nhiều công trình trong những năm gần 196 vector biểu diễn vùng thứ trong đây cho ra kết quả mô tả tốt như công hình ảnh và gộp lại thành một vector trình của Karpathy và cộng sự [A. duy nhất. Karpathy et. al 2015]. Năm 2015, nhóm của Kelvin Xu dựa trên ý tưởng attention trong dịch máy đã đề xuất một mô hình attention trên hình ảnh Giá trị của thể hiện mức độ “tập [K. Xu et. al 2016]. Tuy nhiên, một số trung” của mô hình. Thông tin của các câu mô tả do những phương pháp trên vector có trọng số cao sẽ được giữ phát sinh vẫn chưa được chi tiết. Đồng lại trong còn các vector có trọng số thời, việc lựa chọn đặc trưng để phát thấp sẽ bị lược bỏ. Vector đặc trưng sinh câu mô tả có thể bị sai lệch vì mô sau đó sẽ được sử dụng để phát sinh ra hình tự học lấy cách lựa chọn đặc trưng câu mô tả. Thông tin từ lần phát sinh từ dữ liệu. này sẽ được truyền ngược về để điều Nhóm sinh viên nhận thấy rằng việc chỉnh lại bộ trọng số tập trung sang mô tả chi tiết nhãn các đối tượng trong đối tượng khác bên trong hình ảnh. ảnh thay vì các từ tổng quát làm tăng chất lượng câu mô tả. Vì vây nhóm đề Tăng cường thông tin khái niệm xuất một mô hình dựa trên phương Từ mô hình sử dụng ResNet, nhóm pháp attention trên hình ảnh kết hợp sinh viên tiến hành thêm vào một khối với các thông tin nhãn ngữ nghĩa được phát hiện vật thể (object detector) để rút trích ra từ hình ảnh. Thông tin từ phát sinh ra nhãn của các đối tượng có các nhãn ngữ nghĩa có thể giúp bổ sung trong ảnh. Với một ảnh đầu vào, mô thêm thông tin để phát sinh ra từ mô tả hình phát hiện đối tượng sẽ cho ra một chính xác và chi tiết hơn. danh sách các nhãn. Các nhãn thu được này sẽ được đưa qua một mô hình PHƯƠNG PHÁP attention thứ 2 để chọn lọc ra các nhãn Sử dụng mô hình ResNet liên quan bổ sung thêm thông tin cho Nhóm sinh viên đề xuất mô hình sử khối LSTM để phát sinh câu mô tả tốt dụng ResNet [K. He et. al 2016] làm hơn. bộ rút trích đặc trưng. Hình ảnh đầu Một ảnh đầu vào sẽ được xử lý qua mô vào sẽ được điều chỉnh về một kích hình ResNet sẽ rút trích khối đặc trưng thước cố định 224x224. Khi rút trích của ảnh. Ảnh đầu vào này cũng sẽ được đặc trưng với ResNet, nhóm rút trích đưa qua một khối xử lý phát hiện đối đặc trưng ở tầng tích chập tượng. Khối xử lý này sẽ cho biết trong (convolution) cuối cùng của khối mạng ảnh có những đối tượng nào với độ tin (block) phía trước khối mạng cuối cậy bao nhiêu. Nhóm sinh viên chọn cùng (không tính lớp softmax ở cuối mô hình Mask R-CNN [K. He et. al 196
  3. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học 2017] là mô hình mới được đề xuất gần nhãn đó đang được mô hình sử dụng để đây nhất. Hình ảnh sau khi đi qua mô phát sinh ra từ mô tả. Các vector biểu hình Mask R-CNN sẽ được rút trích ra diễn nhãn cũng sẽ được tổng hợp theo các nhãn với độ tin cậy thể hiện có đối trọng số để tạo ra vector 512. tượng đó trong ảnh hay không. Để hạn chế vấn đề mô tả các nội dung không quan trọng trong ảnh, nhóm sinh viên quyết định chọn nhãn có độ tin cậy Các giá trị trọng số cũng được điều cao nhất. chỉnh động trong quá trình phát sinh Các nhãn này ban đầu được biểu diễn tương tự như kỹ thuật attention trên bằng vector one-hot có chiều với hình ảnh. Thông tin từ lần phát sinh là kích thước của bộ từ điển các nhãn. trước sẽ được truyền ngược về để điều Các nhãn đối tượng sẽ được nhân với chỉnh lại giá trị của các trọng số . ma trận embedding để chuyển về không gian mô tả ngữ nghĩa. Mỗi nhãn Vector tổng hợp của hình ảnh và sẽ được đưa về một vector 512 chiều vector tổng hợp của nhãn sẽ được để biểu diễn cho nhãn đó. Khối đặc nối lại cùng với vector embedding 512 trưng của hình ảnh và các vector biểu chiều biểu diễn từ mô tả của lần phát diễn các nhãn lần lượt được đưa vào sinh trước. Cuối cùng ta sẽ có một hai mô hình attention khác nhau. Kỹ vector tổng hợp với 2048 chiều. Các thuật attention trên hình ảnh đã được đặc trưng tuy đã được tổng hợp vào mô tả trong mục trước. Khối đặc trưng trong một vector nhưng phân bố của từ hình ảnh sẽ được đưa vào mô hình các đặc trưng vẫn khác nhau. Cho nên soft attention này. Các vector biểu diễn vector này sau đó sẽ được đưa qua một các nhãn sẽ được đưa vào khối lớp mạng liên kết đầy đủ (fully attention thứ hai. Các vector này cũng connected) để tổng hợp các thông tin sẽ được gán một trọng số . Giá trị của trong vector này thêm một lần nữa. thể hiện mức độ quan trọng của nhãn Vector sau quá trình xử lý vẫn giữ kích đó. Nếu giá trị của cao có nghĩa là thước 2048 chiều. Hình 1. Kiến trúc mô hình phát sinh câu mô tả do nhóm đề xuất Phát sinh câu mô tả bằng LSTM Hochreiter et. al 1997] để tiến hành Vector tổng hợp chứa thông tin từ phát sinh câu mô tả. Mô hình LSTM xử hình ảnh và các nhãn ngữ nghĩa sẽ lý vector đặc trưng để tính tóa n ra được đưa qua khối LSTM [S. trạng thái ẩn tại mỗi thời điểm. Trạng 197
  4. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học thái ẩn từ mô hình LSTM sẽ được luôn nằm trong khoảng [0, 1] nên xác đưa qua một bộ phân lớp để dự tóa n từ suất của câu mô tả xuất hiện sẽ càng mô tả cần phát sinh từ một tập từ điển. nhỏ khi câu càng dài. Trạng thái ẩn cũng sẽ được sử dụng Vì vậy, nhóm sinh viên đã đề xuất cải để tính tóa n ra bộ trong số attention tiến phương pháp beam search để khắc mới cho cả hình ảnh và nhãn ngữ nghĩa phục nhược điểm này bằng cách cho để trích chọn đặc trưng mới cho lần thêm một điều kiện nữa cho việc chọn phát sinh tiếp theo. Từ được phát sinh chuỗi tốt nhất. Cụ thể hơn, sau mỗi ra sau đó sẽ được nhân với ma trận bước lặp, mô hình sẽ xét xem trong các word embedding[T. Mikolov et. al ký tự đã chọn cho beam search có ký 2013] để tạo thành vector 512 chiều. tự "." hay không, nếu có ký tự "." và Vector biểu diễn từ mô tả này sẽ được chuỗi ứng viên hiện tại của beam truyền ngược về để tổng hợp cùng với search vẫn chưa phải là chuỗi kết thúc đặc trưng dữ liệu cho lần phát sinh tiếp bằng dấu "." thì chuỗi này sẽ được thay theo. Sau quá trình phát sinh, độ lỗi bằng chuỗi tiền tố đã giúp mô hình sinh giữa câu mô tả do mô hình tạo ra và câu ra dấu "." gộp với dấu ".". ngược lại, mô tả trong tập dữ liệu được tính tóa n. nếu đã tồn tại một chuỗi ứng viên kết Cụ thể hàm lỗi được tính như sau: thúc bằng dấu "." thì ta mới so sánh xác suất xuất hiện của 2 chuỗi rồi mới chọn một trong hai chuỗi làm chuỗi ứng viên cho bước lặp tiếp theo. Trong đó là số lượng lần lặp phát KẾT QUẢ VÀ THẢO LUẬN sinh ra từ mô tả và là số lượng trọng Nhóm sinh viên tiến hành thí nghiệm số attention. Mô hình được huấn luyện trên 2 mô hình: Mô hình attention trên dựa trên việc tối ưu hóa hàm lỗi của mô ảnh sử dụng ResNet [K. He et. al 2016] hình. làm bộ rút trích đặc trưng và mô hình Chiến lược Beam Search cải tiến tăng cường thêm thông tin khái niệm. Trong quá trình phát sinh câu mô tả, Nhóm sử dụng bộ trọng số của mô hình việc chọn một cách tham lam từ có dự ResNet được huấn luyện sẵn cung cấp đóa n cao nhất có thể dẫn đến cách bởi thư viện torchvision của nền tảng nhánh cho ra kết quả không tốt. Để hạn Pytorch. Mô hình sử dụng ResNet này chế vấn đề này, nhiều công trình đã áp được huấn luyện trên tập dữ liệu với 19 dụng phương pháp beam search[A. lần lặp. Tổng thời gian huấn luyện Karpathy et. al 2015]. Phương pháp khoảng 60 giờ. Trong quá trình huấn beam search này không cho kết quả tốt luyện, nhóm sinh viên sử dụng trực như mong đợi dù khi sử dụng kích tiếp từ trong câu mô tả gốc để đưa vào thước beam lớn. Vấn đề này là do cách lần xử lý tiếp theo để hạn chế ảnh thức lựa chọn chuỗi ứng viên của beam hưởng của sự sai lệch trong lần phát search. Với kích thước beam là , thì ở sinh trước. Tuy nhiên trong quá trình mỗi bước lặp của LSTM phương pháp đánh giá, từ do mô hình phát sinh được sẽ chọn ra ký tự sao cho xác suất xuất sử dụng để đưa vào lần phát sinh tiếp hiện của chúng và chuỗi tiền tố của theo. Beam search được áp dụng trong chúng là cao nhất. Tuy nhiên, nếu quá trình đánh giá để chọn ra câu mô tả chuỗi càng dài thì khả năng bị loại bỏ tốt nhất. càng cao, bởi vì tích của xác suất của Đối với mô hình được tăng cường các từ cấu thành nên câu mô tả là số thông tin khái niệm từ các nhãn ngữ 198
  5. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học nghĩa, nhóm sinh viên cũng huấn luyện KẾT LUẬN và kiểm thử trên tập MS COCO 2017 Dựa trên các phương pháp đã có trong [T. Lin et. al 2014]. Nhóm sinh viên sử bài tóa n phát sinh câu mô tả cho hình dụng mô hình Mask R-CNN [K. He et. ảnh, nhóm sinh viên đã đề xuất một mô al 2017] được cung cấp bởi chương hình cải tiến dựa trên mô hình attention trình Detectron do Facebook AI trên hình ảnh được tăng cường thông Research phát triển để rút trích các tin khái niệm. Mô hình do nhóm sinh nhãn của các đối tượng trông ảnh. Mô viên đề xuất tập trung vào giải quyết hình được huấn luyện trong khoảng 5 vấn đề độ chi tiết trong các câu mô tả. ngày với khoảng 30 lần duyệt qua bộ Nhóm sinh viên đã chạy thử nghiệm và dữ liệu. Phương pháp early stopping đánh giá kết quả trên tập dữ liệu trên độ đo CIDEr được áp dụng để MSCOCO với các độ đo đánh giá khác chọn ra mô hình có kết qủa tốt trên độ nhau. Kết quả cho thấy mô hình đạt đo đánh giá. được sự cải tiến nhất định khi kết quả So sánh hai mô hình trên cùng một giá mô tả tốt hơn một số mô hình hiện có trị beam size, mô hình được tăng và mô hình có thể phát sinh ra những cường thông tin khái niệm từ các nhãn câu mô tả với độ chi tiết cao. Kết quả ngữ nghĩa cho ra kết quả tốt hơn. Kết attention cũng cho thấy mô hình có khả quả attention trên hình ảnh cũng cho năng tự điều chỉnh để chọn lọc đặc thấy mô hình có khả năng tự điều chỉnh trưng phù hợp. Tuy nhiên, mô hình của để “nhìn” vào đối tượng liên quan khi nhóm sinh viên đề xuất vẫn còn nhiều phát sinh từ mô tả. hạn chế. TÀI LIỆU THAM KHẢO A. KARPATHY AND L. FEI-FEI. Deep visual-semantic alignments for generating image descriptions. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. K. HE, X. ZHANG, S. REN, AND J. SUN. Deep residual learning for image recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. S. HOCHREITER AND J. SCHMIDHUBER. Long short-term memory. Neural Comput., vol. 9, pp. 1735–1780, Nov. 1997. T. LIN, M. MAIRE, S. J. BELONGIE, L. D. BOURDEV, R. B. GIRSHICK, J. HAYS, P. PERONA, D. RAMANAN, P. DOLLÁR, AND C. L. ZITNICK. Microsoft COCO: Common objects in context. CoRR, vol. abs/1405.0312, 2014. 199
nguon tai.lieu . vn