Ứng dụng tương tác và tăng cường tiện ích trên thiết bị di động sử dụng tìm kiếm và phân đoạn hình ảnh

Bài viết trình bày việc nghiên cứu bài toán phân đoạn đối tượng trên video và đề xuất cải tiến các thuật toán có sẵn để tăng cường độ chính xác và cải thiện tốc độ. Áp dụng kĩ thuật phân đoạn video để xây dựng ứng dụng sử dụng thông tin video và hình ảnh nhằm tạo ra môi trường trải nghiệm mới cho khách du lịch. Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học ỨNG DỤNG TƯƠNG TÁC VÀ TĂNG CƯỜNG TIỆN ÍCH TRÊN THIẾT BỊ DI ĐỘNG SỬ DỤNG TÌM KIẾM VÀ PHÂN ĐOẠN HÌNH ẢN

Thể loại Tài liệu miễn phí Tự động hoá

Số trang 6

Ngày tạo 4/6/2023 2:26:52 PM +00:00

Loại tệp PDF

Kích thước 0.76 M

Tên tệp

Tải Ứng dụng tương tác và tăng cường tiện ích trên thi... (.pdf)

Xem mẫu

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học ỨNG DỤNG TƯƠNG TÁC VÀ TĂNG CƯỜNG TIỆN ÍCH TRÊN THIẾT BỊ DI ĐỘNG SỬ DỤNG TÌM KIẾM VÀ PHÂN ĐOẠN HÌNH ẢNH Nguyễn Phan Mạnh Hùng*, Đinh Quang Hiếu Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Tp. Hồ Chí Minh * Tác giả liên hệ: nguyenphanmanhung@gmail.com TÓM TẮT Khám phá và chia sẻ trải nghiệm từ lâu đã là một trong những nhu cầu thiết yếu của con người. Từ xa xưa con người đã phát triển và sử dụng những cách thức khác nhau nhằm chia sẻ trải nghiệm của bản thân như nhật kí hải trình, sách, tranh, ảnh. Sự phát triển bùng nổ của các thiết bị kĩ thuật số và công nghệ thông tin từ đầu thế kỉ 21 tới nay đã và đang thay đổi thói quen chia sẻ của con người. Bên cạnh đó, bước tiến mạnh mẽ của các thiết bị di động giúp chúng ta có thể dễ dàng lưu trữ và chia sẻ những khoảnh khắc bên người thân, bạn bè. Hàng loạt các ứng dụng cũng được phát triển để kịp thời đáp ứng nhu cầu đó như các trang mạng xã hội như facebook, twitter, instagram… Nắm bắt được nhu cầu đó nhóm quyết định nghiên cứu và phát triển ứng dụng trên nền tảng di động kết hợp với việc sử dụng các công nghệ, kĩ thuật mới bao gồm thực tại tăng cường, phân đoạn đối tượng trong video, tìm kiếm ảnh nhằm đem lại trải nghiệm độc đáo và hỗ trợ không chỉ người dùng cơ bản mà còn người dùng là các doanh nghiệm trong việc xây dựng những nội dung số mới lạ, sáng tạo. Từ khóa: Phân đoạn đối tượng, tìm kiếm kỉ niệm, thực tại tăng cường. INTERACTIVE APPLICATIONS AND STRENGTHS OF UTILITY ON MOBILE DEVICE USING SEARCH AND PHOTOGRAPHY DISTRIBUTION Nguyen Phan Manh Hung*, Đinh Quang Hieu University of Science – VNU Ho Chi Minh City * Corresponding Author: nguyenphanmanhhung@gmail.com ABSTRACT According to recent statistics of the Institute of Mental Health Central, the number of people with mental health problems is 15-20% of the population in Viet Nam. In the US, the number of people who are experiencing the phenomenon of mental health disorders in a year is 61.5 million, ie for 4 people, 1 people with the disease. This poses an urgent problem for science, find solutions and reduce the symptoms of nerve. Galvanic Skin Response Equipment launched, the aim is determined based on the psychological changes in human skin sweat. This research focuses on the use OPAMP, sensor circuit design to get the signal "change the resistance of the skin", then transmit signals to KIT FRDM-KL46Z, for handling and identification of human emotions. The study focused on KIT Freescale platform with the processor inside the ARM Cortex M0 +. With psychological state analysis device opens psychological treatments more effective, device costs a lot cheaper products than overseas. Keywords: Audience segments, search for memories, enhanced reality. TỒNG QUAN lịch. Bên cạnh đó, sự phát triển của các thiết Từ xưa đến nay con người luôn thích được bị kĩ thuật, công nghệ cao như máy ảnh kĩ khám phá và chia sẻ những trải nghiệm của thuật số, điện thoại và sự hỗ trợ mạnh mẽ của mình khi đi du lịch. Cùng với việc các khu các ứng dụng trên nền tảng được phát triển du lịch, trung tâm vui chơi giải trí, khu sinh bởi cộng đồng công nghệ rộng lớn cùng với thái, các thành phố lớn ngày càng mọc lên các doanh nghiệp đã giúp cho việc chia sẻ nhiều để phục vụ cho nhu cầu khám phá và những trải nghiệm trở nên dễ dàng, sáng tạo, trải nghiệm khiến cho nhu cầu đó ngày càng và hứng thú hơn bao giờ hết. tăng cao. Cùng lúc đó, sự phát triển vượt bậc Nắm bắt được nhu cầu này, nhóm quyết định của công nghệ thông tìn đã mang lại nhiều sự tập trung vào việc nghiên cứu và phát triển thay đổi lớn trong trải nghiệm của người du một hệ thống thông minh trên nền tảng di 147
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học động, tận dụng những công nghệ và kĩ thuật dùng mới. Điều này phần nào làm hạn chế mới như thực tại tăng cường, các thuật toán trải nghiệm của người dùng. Do vậy, nhóm hỗ trợ phân đoạn đối tượng trên video, đồng quyết định nghiên cứu bài toán phân đoạn thời cho phép người dùng tìm kiếm lại những đối tượng trên video và tích hợp giải pháp kĩ niệm cũ bằng hình ảnh. này vào ứng dụng nhằm tạo ra nét độc đáo Lý do nhóm chọn phát triển hệ thống trên riêng cho sản phẩm. Chức năng này có thể nền tảng di động bởi thiết bị di động, đặc biệt giúp người dùng tạo ra những đoạn video độc là điện thoại thông minh ngày càng trở nên đáo dùng để chia sẻ với bạn bè, gia đình, phổ biến. Hơn nữa, điện thoại là thiết bị người thân hay cũng có thể sử dụng để xây không thể thiếu trong quá trình du lịch nhằm dựng những video quảng cáo mới lạ thu hút giúp du khách có thể lưu giữ lại những hơn. khoảnh khắc, kỉ niệm và chia sẻ với mọi Trong bài toán phân đoạn đối tượng trên người một cách dễ dàng. Tuy nhiên, hiện nay video, ta cần phân tách các đối tượng trong có rất nhiều ứng dụng được phát triển nhằm video ra khỏi background. Các đối tượng thu hỗ trợ du lịch với nhiều tính năng đa dạng. được có thể sử dụng với nhiều mục đích khác Tuy vậy, có thể thấy rằng các ứng dụng hiện nhau như để tổng hợp thông tin và tóm tắt nay khá giống nhau và không sở hữu những video, nhận dạng đối tượng, index ảnh cho đặc trưng cần thiết để có thể thu hút người search engine,... Hình 1. Ví dụ về bài toán phân đoạn trên video Trong ảnh, các đối tượng, được chỉ định, sẽ tượng được cung cấp bởi người dùng trên được tách ra khỏi cảnh nền với độ chính xác một hoặc một vài frame như bounding box ở cấp độ pixel. hoặc mask của đối tượng. Dựa trên thông tin Đề tài của nhóm sẽ tập trung vào 2 vấn đề có được, ta có nhiều cách khác nhau để giải chính: quyết bài toán như xây dựng model để rút  Nghiên cứu bài toán phân đoạn đối tượng trích và học các đặc trưng của object dựa trên trên video và đề xuất cải tiến các thuật toán thông tin có sẵn và dùng model này để trực có sẵn để tăng cường độ chính xác và cải tiếp tách đối tượng trong những frame còn thiện tốc độ. lại.  Áp dụng kĩ thuật phân đoạn video để xây Unsupervised: các phương pháp dựng ứng dụng sử dụng thông tin video và (Papazoglou and Ferrari 2013) (Ochs and hình ảnh nhằm tạo ra môi trường trải nghiệm Brox 2011) thuộc nhóm này sẽ sử dung mới cho khách du lịch. thông tin nội hàm của video, ảnh để quyết định đối tượng nào cần được tách khỏi KIẾN THỨC NỀN TẢNG background. Cụ thể với một video, ta có thể Phân đoạn đối tượng trên video xác định được đối tượng cần quan tâm nếu Trong bài toán phân đoạn đối tượng trên chúng di chuyển khác hướng với video, đã có nhiều phương pháp được đề xuất background. Một vài phương pháp khác sử chủ yếu thuộc hai hướng tiếp cận chính là: dụng một model đãđược huấn luyện trước Semisupervised: các phương pháp (Caelles, với các tập dữ liệu khác nhằm phát hiện các et al. 2017) (Tsai, Yang and Black n.d.) đối tượng quan trọng trong một bức ảnh hay thuộc nhóm này sẽ tách các đối tượng từ video. video dựa trên thông tin tăng cường về đối Mỗi hướng tiếp cận có ưu nhược điểm riêng. 148
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Trong hướng tiếp cận đầu, ta có thể kiểm liệu để huấn luyện thì các mô hình này sẽ gặp soát được đối tượng cần theo dõi dễ hơn, khó khăn để tách chúng ra khỏi background. nhưng chi phí cung cấp object mask cũng Tuy vậy điểm mạnh của các phương pháp khá lớn. Các mô hình thuộc hướng tiếp cận này là nó có thể tự động rút trích tất cả các sau cần phải phải dựa vào chuyển động của đối tượng nổi bật trong video mà không cần vật thể để có thể xác định đối tượng cần tách thông tin tăng cường. hoặc phải được huấn luyện trước trên một tập Trong đề tài này nhóm sử dụng và cải tiến dữ liệu khác để học khái niệm thế nào là một dựa trên nền tảng thuật toán nêu trong vật thể. Do vậy nếu vật thể đứng yên hoặc “Video object segmentation via optical flow” không thuộc nhóm các vật thể trong tập dữ (OFL) thuộc hướng tiếp cận thứ nhất. Hình 5. Mô hình thuật toán OFL Thuật toán OFL bao gồm các bước chính: tới việc mỗi superpixel có thể chứa cả object Bước 1: Ước lượng vị trí đối tượng trong ảnh lẫn background. Do đố, để tận dụng ưu điểm dựa vào object mask ở frame trước và optical của 2 hướng tiếp cận, tác giả bài báo OFL đã flow. Dựa vào optical flow, ta có thể ước xây dựng graphical model sử dụng thông tin lượng vị trí tương đối của đối tượng trong hỗn hợp của cả 2 cấp độ, gọi là multi level frame hiện tại. Nhằm đảm bảo đối tượng nằm graphical model. trọn trong object mask, tác giả sử dụng phép 𝐸𝑠𝑒𝑔 = 𝜆1 𝐸𝑝𝑖𝑥 (𝑋) + 𝜆2 𝐸𝑠𝑢𝑝 (𝑌) dilation để mở rộng phạm vi tìm kiếm, gọi là + 𝜆3 𝐸𝑝𝑎𝑖𝑟 (𝑋, 𝑌) 𝑀𝑖𝑛𝑖𝑡 . Mask này được tinh chỉnh một lần nữa Bước 3: Dùng graph cut để tách các pixel dựa trên thông tin về màu sắc và khoảng cách thuộc foreground và background. Graph cut tương đối của mỗi pixel. Cụ thể, mỗi pixel sẽ được sử dụng để gán nhãn cho từng pixel sao được đánh giá tiềm năng thông qua hàm sau: cho hàm lỗi xây dựng ở bước 3 được tối ưu 𝑆𝑡 (𝑥𝑖 ) = 𝐴𝑡 (𝑥𝑖𝑡 ) + 𝐿𝑡 (𝑥𝑖𝑡 , 𝑀𝑖𝑛𝑖𝑡 ) nhất. Bước 2: Sử dụng multi-level graphical model 𝑀𝑡 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑀 (𝐸𝑠𝑒𝑔 ) để xây dựng hàm đánh giá tiềm năng mỗi Bước 4: Sử dụng kết quả có được để cải pixel có thuộc object cần tách. OFL đánh giá thiện optical flow. Sau đó optical flow sẽ tiềm năng mỗi pixel ở 2 cấp độ: pixel và được dùng để cải thiện kết quả segmentation. superpixel, dựa trên các thông tin về màu Các bước từ 1 tới 4 sẽ được lặp đi lặp lại tới sắc, vị trí, feature được rút trích từ mạng cho tới khi kết quả phân đoạn đối tượng CNN, độ thống nhất về tiềm năng giữa pixel không thay đổi đáng kể/hội tụ. và superpixel chứa nó… Sử dụng thông tin ở cấp độ pixel giúp mô hình có thể được những PHƯƠNG PHÁP ĐỀ XUẤT chi tiết nhỏ của đối tượng nhưng các thông Cải tiến thuật toán OFL tin này cũng dễ bị tác động bởi nhiễu có thể Dựa trên nền tảng thuật toán OFL (Tsai, do sự thiếu chính xác bởi optical flow. Yang and Black n.d.), nhóm đề xuất 3 hướng Ngược lại, ở cấp độ superpixel, ta có thể thu cải tiến nhằm tăng độ chính xác cho kết quả: được nhiều thông tin hơn khi xét các pixel có Cải tiến 1: Object mask nhận được từ OFL tính chất tương tự nằm trong vùng lân cận. vẫn gặp một số vấn đề như nhiễu và đường Tuy vậy, việc tính toán superpixel có thể biên chưa được rõ ràng. Để giải quyết, nhóm không chính xác do đường biên bị mờ, dẫn tích hợp module contour snapping được đề 149
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học xuất trong bài báo OSVOS. Ý tưởng cơ bản superpixel ấy. Nhìn chung, kết quả của của phương pháp này là ta sẽ phân lớp 1 contour snapping phụ thuộc khá nhiều vào superpixel thuộc foreground/background thay kết quả của phương pháp dùng để xây dựng vì phân lớp riêng biệt từng pixel. Nhãn của superpixel. Sau khi kiểm tra, nhóm sử dụng mỗi superpixel sẽ được quyết định dựa vào model được đề xuất trong bài báo (Yang, et phần trăm pixel thuộc foreground nằm trong al. 2016). Hình 3. Ví dụ về kết quả của OFL. Có thể thấy vẫn còn một số vùng nhỏ trong thân chiếc xe bus vẫn bị phân loại nhầm là background. Hơn nữa, boundary của xe bus vẫn còn bị răng cưa Hình 4. Ví dụ về kết quả trước và sau khi thực hiện Contour Snapping. Có thể thấy kết quả sau khi tinh chỉnh đã loại bỏ được nhiễu và đường biên cũng mượt hơn Cải tiến 2: Tại bước 2, để xây dựng hàm lỗi đó, nếu vật thể không biến đổi quá nhiều, ta E_seg, ta cần tính potential của mỗi pixel dựa có thể tận dụng lại SVM trước đó bởi chúng trên feature rút trích từ CNN (Ví dụ: VGG). vẫn mang thông tin hữu ích để đánh giá tiềm Feature này sẽ được đưa vào SVM được năng mỗi pixel. Vấn đề đặt ra là khi nào thì huấn luyện từ đầu dựa trên thông tin của ta nên dùng SVM cũ và khi nào cần huấn frame liền trước. Dựa vào quan sát kết quả luyện một SVM mới. Nhóm đề xuất sử dụng thực tế, nhóm nhận thấy rằng việc sử dụng kích thước tương đối của đối tượng được một SVM mới, được huấn luyện từ đầu phát hiện ở frame trước so với kích thước đối không phải luôn phù hợp bởi có thể thông tin tượng trong ground truth. Khi kích thước này của frame liền trước không đủ tốt (bị che dưới một ngưỡng nhất định, ta sẽ dừng việc khuất, mờ, nhiễu. Ví dụ: Hình 5). Bên cạnh cập nhật SVM. Hình 5. Ảnh trái là của frame gần nhất, ảnh phải là của một frame trong quá khứ. Có thể thấy, thông tin của frame gần nhất về chiếc xe sẽ không đầy đủ do bị khói che khuất. Trong khi đó, ở frame kia, các chi tiết của chiếc xe tương đối rõ, do đó SVM được huấn luyện dựa trên frame nhiều khả năng đánh giá tốt hơn 150
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Cải tiến 3: Một đối tượng có thể xuất hiện lấp thông tin. Trong tương lai, để có thể điều dưới nhiều góc độ khác nhau. Do đó, việc chỉ chỉnh số lượng và tần số lưu giữ SVM trong sử dụng 1 SVM trên frame gần nhất mà đối quá khứ, nhóm dự định sẽ sử dụng thông tin tượng còn hiển thị rõ ràng như cái tiến trước về tốc độ chuyển động của vật thể dựa trên là chưa đủ để đánh giá. Ví dụ: khi theo dõi optical flow. cùng lúc nhiều người, một người có thể bị Ứng dụng hỗ trợ du lịch Smart Travel che khuất bởi những người khác, và khi xuất Dựa trên những nhu cầu thực tế, nhóm xây hiện trở lại người đó quay lưng vào camera. dựng ứng dụng hỗ trợ du lịch Smart Travel Do vậy, dù có lưu giữ SVM trước khi người với các hướng tiếp cận sau: đó biến mất (quay mặt về camera), ta cũng Sử dụng thực tại tăng cường để tăng trải không thể nhận ra được người này dựa vào nghiệm du lịch thông qua camera của điện thông tin học được của SVM đó. Vì vậy, thoại. Khi người dùng sử dụng camera của nhóm quyết định sử dụng SVM được train điện thoại để quét xung quanh thì thông tin trên nhiều frame khác nhau. Kết quả đánh giá về các địa điểm, quán ăn, nhà hàng,... sẽ của mỗi pixel là trung bình các kết quả đánh được hiển thị lên màn hình camera của điện giá bởi các SVM khác. Hiện thời, nhóm cố thoại tương ứng với vị trí của địa điểm đó – định số lượng SVM cần sử dụng là 5, và cứ VD: Hình 6. mỗi 2 frame sẽ lưu lại 1 SVM để tránh trùng Hình 6. Ví dụ hiển thị thông tin địa điểm dựa trên thực tại tăng cường Áp dụng visual instance search để xem lại các kỷ niệm trong quá khứ, thông qua đó biết được mọi người thường làm gì ở địa điểm này, cung cấp cho người dùng một số gợi ý khi đi đến đây. Thuật toán sử dụng để tìm kiếm các hình ảnh có liên quan được nhắc đến trong bài báo (Nguyen, et al. 2016) – VD: Hình 7. Hình 7. Ví dụ sử dụng visual instance search 151
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Sử dụng video segmentation để cung cấp dùng có thể tạo một video hướng dẫn du lịch thêm thông tin cho đối tượng: ứng dụng cho hoặc video giới thiệu về một đối tượng bất phép người dùng chọn video, sau đó khoanh kỳ. Điều này giúp tăng trải nghiệm cho mọi vùng đối tượng cần segmentation và thêm người, cung cấp nhiều thông tin và cung cấp thông tin cho đối tượng đó. Khi đó người khả năng tương tác với video - VD: Hình 8. Hình 8. Ví dụ chức năng khoanh vùng đối tượng KẾT LUẬN Challenge nhưng đã được thay đổi bổ sung Kết quả đạt được để phù hợp với thực tế. Nhóm đã đề xuất và phát triển ứng dụng Hướng phát triển Smart Travel dựa trên nên tảng di động nhằm Hiện nay, quá trình tạo video tương tác tốn hỗ trợ người dùng khi đi du lịch, giúp người khá nhiều thời gian, do đó chỉ có thể xử lý dùng đạt được những trải nghiệm thú vị đồng offline. Trong tương lai, nhóm sẽ tìm hiểu và thời chia sẻ chúng với cộng động một cách tối ưu số lượng tham số của mô hình cho dễ dàng và hấp dẫn. phép việc xử lý video hiệu quả hơn. Ứng dụng cũng nhắm tới đối tượng bao gồm Bên cạnh đó, từ việc áp dụng các nghiên cứu các đoàn thể, doanh nghiệp mong muốn cung trên để phát triển ứng dụng Smart Travel, cấp khách hàng những nội dung số ấn tượng, nhóm hy vọng trong tương lai có thể mở mới mẻ, mang tính tương tác cao nhưng roongj phạm vi không chỉ hỗ trợ du lịch, không tốn quá nhiều chi phí thông qua việc quảng cáo mà còn trong các lĩnh vực khác ứng dụng các kĩ thuật tìm kiếm và phân đoạn như giải trí, giáo dục,… hình ảnh được sử dụng trong DAVIS TÀI LIỆU THAM KHẢO CAELLES, SERGI, KEVIS-KOKITSI MANINIS, JORDI PONT-TUSET, LAURA LEAL- TAIXÉ, DANIEL CREMERS, AND LUC VAN GOOL. 2017. “One-Shot Video Object Segmentation.” CVPR. NGUYEN, VINH-TIEP, KHANH-DUY LE, MINH-TRIET TRAN, AND MORTEN FJELD. 2016. “NowAndThen: A Social Network-Based Photo.” MUM. OCHS, PETER, AND THOMAS BROX. 2011. “Object segmentation in video: a hierarchical variational approach for turning point trajectories into dense regions.” ICCV. PAPAZOGLOU, ANESTIS, AND VITTORIO FERRARI. 2013. “Fast object segmentation in unconstrained video.” ICCV. TSAI, YI-HSUAN, MING-HSUAN YANG, AND MICHAEL J. BLACK. N.D. “Video Segmentation via Object Flow.” CVPR, 2016. YANG, JIMEI, BRIAN PRICE, SCOTT COHEN, HONGLAK LEE, AND MING-HSUAN YANG. 2016. “Object Contour Detection with a Fully Convolutional Encoder-Decoder Network.” CVPR. 152

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học