Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Nghiên cứu và phân tích các mô hình đánh giá chất lượng ảnh Light field với chuẩn mã hóa H.266/VVC Phí Công Huy1,2, PGS. TS. Trịnh Anh Vũ2, TS. Hoàng Văn Xiêm2 Khoa Đa phương tiện, Học Viện Công Nghệ Bưu Chính Viễn Thông1 Khoa Điện tử Viễn thông, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội2 Email: huypc@ptit.edu.vn, 17028025@vnu.edu.vn, vuta@vnu.edu.vn, xiemhoang@vnu.edu.vn Tóm tắt - Light-Field (LF) là một dạng dữ liệu về hình ảnh, khai thác dữ liệu ba chiều (3-D), ước lượng chiều sâu với thông tin phong phú từ nhiều chiều thông tin. Nó cung [5]. cấp đa dạng thông tin về hình ảnh như nội dung 2D, chiều sâu, vị trí góc nhìn, độ dài tiêu cự, v.v. Do đó, đánh giá LF có lợi thế về sự phong phú của dữ liệu cùng với chất lượng hình ảnh LF là công việc đầy thách thức. Trong các tính năng tuyệt vời được đề cập ở trên tuy nhiên nó bài viết này, chúng tôi trình bày một số kết quả đánh giá cũng gặp phải một số vấn đề liên quan tới xử lý tín hiệu về chất lượng hình ảnh LF dựa trên phương pháp đánh và phần mềm, nguyên nhân chính nằm ở dung lượng dữ giá chủ quan, đặc biệt tập trung vào những độ sâu trường liệu cao và cấu trúc khác với các bức ảnh 2D thông ảnh (DOF) khác nhau với trường nhìn khác nhau (FOV). thường. Tuy nhiên, một hình ảnh với dữ liệu nhiều thông Kết quả đánh giá chất lượng chủ quan được xây dựng dựa tin như LF, nó hứa hẹn sẽ có một tương lai tiềm năng. trên bộ dữ liệu LF bao gồm 228 hình ảnh từ nguồn EPFL Nó có thể áp dụng vào việc hỗ trợ tối ưu hình ảnh trong với hai mức lấy nét khác nhau (lấy nét tiền cảnh và lấy nét sản xuất kỹ xảo phim, cho phép những trải nghiệm mới hậu cảnh). Để có sự đánh giá đa dạng, các thông tin nhiễu trong các ứng dụng hình ảnh, hội nghị từ xa và cải thiện được bổ sung vào các ảnh LF bằng cách mã hóa hình ảnh nội dung thị giác trong thực tế ảo và gia tăng (VR-AR) thông qua bộ mã hóa video mới nhất – Versatile Video [6]. Coding (VVC). Kết quả nghiên cứu của bài báo đã cung cấp những lưu ý về hiệu năng của 2 phương pháp đánh giá Gần đây, hình ảnh LF có thể được áp dụng cho nhiều phổ biến đó là Pick-signal Noise Ratio (PSNR) và lĩnh vực như công cụ y sinh học như ống soi tai [7], kính Structure Similarity Index (SSIM) sử dụng cho ảnh LF. hiển vi [8], điều khiển robot dựa trên thị giác [9], velocimetry [10], v.v. Tuy nhiên, dữ liệu hình ảnh LF là Từ khóa— Image quality assessment, Light Field image, một loại dữ liệu có cấu trúc phức tạp và kích thước cao Coding, Benchmarking cần được phân tích và khám phá, cụ thể là trong đánh giá và biểu diễn chất lượng. Hình ảnh LF có thể bị nhiều I. GIỚI THIỆU loại nhiễu do các giai đoạn xử lý hình ảnh LF khác nhau Năm 2015, nhóm những chuyên gia về chuẩn nén như thu thập ở giai đoạn xử lý ban đầu, tái tạo / nén ở ảnh JPEG đã đưa ra một khái niệm mới đó là JPEG giai đoạn xử lý giữa và kết xuất / hiển thị ở giai đoạn xử Plenoptic, một định dạng ảnh với dữ liệu thông tin 7-D lý sau này. Do đó, một mô hình đánh giá chất lượng hình [1]. Plenoptic bao gồm các loại dữ liệu như light field, ảnh LF (LF-IQA) hiệu quả là một nhu cầu rất cần thiết point cloud, holography…Điều này mở ra những hướng trong thời gian hiện tại, đặc biệt, mô hình này phải kiểm nghiên cứu rất triển vọng cho các nhà nghiên cứu về xử soát được đặc điểm riêng biệt của LF, ví dụ: lựa chọn lý tín hiệu và ảnh. điểm nét sau khi chụp. Light-Field (LF) là sự thể hiện của một tập hợp của Trong các nghiên cứu trước đây, một số mô hình tất cả các tia sáng được ghi lại ở mọi điểm trong không đánh giá chất lượng hình ảnh (IQA) đã được đề xuất, gian và ở các hướng; Do đó, dữ liệu LF có thể cung cấp chẳng hạn như Tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR), dữ liệu với các thông tin phong phú. Nó được biết đến Lỗi bình phương trung bình (MSE) và Chỉ số tương thông qua hệ thống Image-Based Rendering (IBR) do đồng cấu trúc (SSIM). Tuy nhiên, các mô hình này Levoy và Hanrahan đề xuất năm 1996 [2]. Trong hai không khai thác đầy đủ các đặc điểm LF, bao gồm thông thập kỷ qua, đã có một sự cải tiến rất lớn về kỹ thuật LF, tin màu sắc và thông tin hình học của ảnh LF và hình ví dụ: cách thu thập dữ liệu, kết xuất dữ liệu và kỹ thuật ảnh phân nhóm (EPIs). Đặc biệt, các nghiên cứu gần đây lấy mẫu. Đặc biệt, nhiều loại máy ảnh chuyên dụng được chưa khám phá đầy đủ sự phức tạp của độ sâu trường phát triển để ghi lại dữ liệu LF, ví dụ như Lytro LF, Illum ảnh (DOF) từ hình ảnh LF. Các tiêu chuẩn đánh giá [3], và Raytrix [4]. Các máy ảnh này cung cấp cho chúng khách quan không phản ánh hiết sự biểu đạt phong phú ta những tính năng tuyệt vời của dữ liệu LF như thay đổi của LF và phản ánh kết quả cảm nhận của mắt người. điểm nhìn và góc nhìn, lấy nét dữ liệu sau khi ghi hình, ISBN 978-604-80-5958-3 36
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Chính vì vây, bài báo này sẽ trình bày một nghiên hình đuôi file là .LFR (Light Field Raw) cùng kích thước cứu đánh giá chất lượng về hình ảnh LF bằng cách đánh 7728x5368 , dung lượng sấp xỉ 50MB. giá chủ quan. Sự phức tạp của DOF trong hình ảnh LF là mục tiêu chính để tạo thành tập dữ liệu LF. Tập dữ liệu được sử dụng tất cả từ nguồn EPFL [11], được phân loại thành hai loại chính, đó là lớp DOF phức tạp và lớp DOF đơn giản. Mỗi loại DOF chứa một FOV rộng và hẹp. Các thông tin nhiễu được bổ sung vào hình ảnh LF thông qua bộ mã hóa VVC, hình ảnh LF được mã hóa với ba tham số định lượng (QPs), cụ thể là QP22, Hình 2. Cấu tạo cơ bản bên trong máy ảnh để thu dữ liệu QP40, QP50. Ligh-Field Cấu trúc của bài báo được phân chia như sau: Phần Trong dữ liệu Light Field, có một thuật ngữ còn được 2 mô tả các đặc tính của ảnh LF, Phần 3 sẽ mô tả quá sử dụng đó là “super-pixel”, đó là hệ thống ống kính nhỏ trình đánh giá chất lượng chủ quan kèm theo phương (lenslet) được thể hiện trên bức ảnh light field. Vì vậy, pháp đánh giá. Kết quả và thảo luận được thể hiện trong bức ảnh light field có rất nhiều góc nhìn khác nhau. Tuy Phần 4 và cuối cùng là kết luận trong Phần 5. nhiên, như mô tả ở phía trên về dữ liệu Light Field, đây không phải là những pixel giống như bức ảnh 2-D thông II. CÁC NGHIÊN CỨU LIÊN QUAN thường, đó chỉ là tập hợp các mẫu thấu kính nhỏ (lenslet) trên một khoảng không gian 7728 x 5368. Khi dữ liệu A. Đặc tính ảnh light field light field gốc được giải mã, sẽ tạo ra được cấu trúc dữ Dữ liệu plenoptic-light field cung cấp rất nhiều thông liệu (thể hiện ở Hình 3) với thông số 15 x 15 x 625 x 434 tin với 7-chiều bao gồm: không gian (x, y, z), thời gian x 4, trong đó 15 x 15 là số lượng điểm nhìn, 625 x 434 (t), vị trí (θ, ϕ), bước sóng của ánh sáng (λ). Nó được là độ phân giải và 4 là hệ màu cơ bản đi kèm với trọng tổng hợp chung trong tham số P(x, y, z, θ, ϕ, λ, t). Tuy số [12] nhiên, 7 chiều của dữ liệu không phải là chiều không B W gian và cảm xúc như các thuật ngữ hiện nay mà nó cung G R cấp các loại thông tin. Đối với hình ảnh 3-D, mô hình 3- D thể hiện dựa trên không gian 2-D và bổ sung thêm độ 1 ………... sâu để có 3-D, còn với phim 4-D, 5-D bổ sung thêm cảm xúc và sự tương tác, như xem phim đua xe 4-D có thêm 2 434 pixels tương tác lắc lư như đang ngồi trên xe, 5-D có thể nếm ……………… 625 pixels ……………… cảm nhận sự việc đang diễn ra. Vì vậy, để tránh nhầm ……………… ……………... ……………… ……………… lẫn và hiểu sai ý nghĩa, tác giả đưa ra cách gọi dữ liệu 15 ………... plenoptic-light field, đó là dữ liệu gồm có 7 loại thông 1 2 15 tin được cung cấp: không gian (x, y, z), thời gian (t), vị trí (θ, ϕ), bước sóng của ánh sáng (λ) như Hình 1. Cũng Hình 3: Cấu trúc dữ liệu LF. vì dữ liệu phong phú như vậy, nên hình ảnh Light Field sau khi được ghi lại bằng máy ảnh chuyên dụng, có thể Từ những đặc thù của cấu trúc dữ liệu LF, những tính tự lấy chọn điểm nét, thay đổi vị trí hay kết xuất ra hình năng mà dữ liệu LF có thể cung cấp như: xuất ảnh 3D, ảnh 3D. thay đổi điểm lấy nét, hay tạo ra các video dựa trên các ảnh nhỏ, v.v B. Mô hình mã hóa video H.266/VVC H.266/VVC là tiêu chuẩn mã hóa video mới nhất, được ITU-T và ISO/IEC đồng xuất bản. Vào tháng 7 năm 2020, bộ mã hóa VVC được công bố là nén video thế hệ tiếp theo. Tiêu chuẩn video này được thiết kế để hiệu quả và linh hoạt để đáp ứng nhu cầu truyền thông hiện đại. Hình 1. Các loại thông tin thể hiện cho dữ liệu Light Field Để có hiệu quả mã hóa, H.266/VVC được bổ sung nhiều công cụ mã hóa mới so với H.265/HEVC tiêu Dữ liệu Ligh Field được tạo ra hoặc ghi lại bằng một chuẩn trước đó [16] Như độ phân giải vectơ chuyển máy ảnh chuyên dụng, trong đó nó có một hệ thống động thích ứng (AMVR), chế độ phân vùng tam giác những ống kính nhỏ được sắp xếp trước cảm biến của (TPM), dự đoán nội bộ dựa trên ma trận (MIP), phân máy ảnh, để ghi lại những hình ảnh từ các góc độ và vùng khối linh hoạt với cây đa loại (MTT), dự đoán hai chiều sâu khác nhau như Hình 2. Vì vậy, dữ liệu của lần với trọng lượng CU (BCW), chuyển đổi khối phụ light field dung lượng và kích thước khá lớn với mỗi bức (SBT) và nhiều cải tiến gia tăng của thiết kế mã hóa video lai cổ điển [17]. Dựa trên cải tiến các công cụ mã ISBN 978-604-80-5958-3 37
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Bảng. 1 Tổng quan về định nghĩa dữ liệu LF Loại lấy nét LF Mô tả Số lượng mẫu CWF Lớp phức tạp với FOV rộng và lấy nét vào Tiền cảnh 10 CWB Lớp phức tạp với FOV rộng và lấy nét vào Hậu cảnh 10 CNF Lớp phức tạp với FOV hẹp và lấy nét vào Tiền cảnh 10 CNB Lớp phức tạp với FOV hẹp và lấy nét vào Hậu cảnh 10 SWF Lớp đơn giản với FOV rộng và lấy nét vào Tiền cảnh 8 SWB Lớp đơn giản với FOV rộng và lấy nét vào Hậu cảnh 8 SNF Lớp đơn giản với FOV hẹp và lấy nét vào Tiền cảnh 10 SNB Lớp đơn giản với FOV hẹp và lấy nét vào Hậu cảnh 10 hóa mới, giảm tốc độ bit được báo cáo khoảng 50% so sử dụng làm phương pháp kiểm tra để so sánh chất lượng với H.265 / HEVC, đặc biệt, H.266 / VVC có thể sử hình ảnh. Thử nghiệm này được xác định với thang điểm dụng cho video độ nét cực cao, ví dụ: 4K hoặc 8K, cũng xếp hạng 5 cấp và bao gồm một cặp ảnh LF tham khảo có dải động cao và gam màu rộng [17]. ẩn để kiểm tra sự chính xác của người tham gia, các mức điểm đánh giá như sau, 1 – Yếu, 2 - Kém, 3 – Bình Về cấu trúc phức tạp và kích thước cao của LF, cấu thường, 4 – Khá, và 5 – Tốt. hình mã hóa được sử dụng với 3 QP s khác nhau. Cụ thể, QP22, QP40 và QP50 được sử dụng và xác định 3 Môi trường điều kiện thử nghiệm được điều chỉnh để mức chất lượng di chuyển từ rất cao đến rất thấp. tuân theo Khuyến nghị ITU-R BT.500-13 [14]. Các người dùng được mời tham gia thử nghiệm được xem ảnh LF thông qua màn hình Dell U2419H với 24 inch, III. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ẢNH độ phân giải full HD 1920x1080, và khoảng cách xem LIGHT FIELD SAU MÃ HÓA (NÉN) 1,2m (±15cm). Về trình phát video, phần mềm MPV [15] đã được sử dụng cho phương pháp đánh giá này. Trong nghiên cứu này, một tập dữ liệu LF được lựa chọn từ EPFL [11] gồm 38 thể loại nội dung khác nhau, Tất cả các video được cho chạy liên tục thông qua với các loại DOF, FOV khác nhau. Các định nghĩa về phần mềm Matlab phiên bản 2019b, điểm của mỗi cá bộ dữ liệu được mô tả trong Bảng 1. Dữ liệu này được nhân tham gia đánh giá được ghi lại tự động vào một thư chia thành hai phần dựa trên độ phức tạp của LF-DOF, mục riêng. Tổng cộng có 236 kết quả thu được tại buổi tức là lớp DOF phức tạp và lớp DOF đơn giản (khái đánh giá. Trong mọi trường hợp, không kết quả bất niệm lớp phức tạp và đơn giản được định nghĩa thông thường nào được tìm thấy. Kết quả sau đó được tổng hợp qua số lượng đối tượng mà ảnh LF có thể lấy nét, nếu dựa trên cách tính trung bình - Mean Opinion Scores hơn 2 đối tượng được coi là lớp phức tạp). Mỗi loại DOF (MOS) và 95% Khoảng thời gian tự tin (CIs). Số lượng chứa 2 loại FOV, tức là FOV hẹp và FOV rộng. Các người tham gia thử nghiệm là 8 nữ và 12 nam, độ tuổi thông số thay đổi cấu hình của các điểm lấy nét của từng khoảng 19 – 39 với thị lực ổn định. hình ảnh LF được tính toán trong dải tham số từ -0.7 cho tới 1. Để thay đổi điêrm lấy nét của hình ảnh LF, chúng B. Phương pháp đánh giá khách quan PSNR ta thay đổi tham số của độ dốc, gọi là “slope” của hình Phương pháp đánh giá khách quan PSNR được sử ảnh LF bằng LF Toolbox v.0.4 [13]. Có hai loại lấy nét, dụng phổ biến nhất để đo chất lượng của việc tái tạo lại lấy nét tiền cảnh và lấy nét hậu cảnh. Tuy nhiên, một số các tín hiệu từ các bộ nén bị dữ liệu có tổn thất (ví dụ: hình ảnh LF chỉ có thể lấy nét với tham số độ dốc bằng để nén hình ảnh). Tín hiệu trong trường hợp này là dữ 0, trường hợp này, nội dung bức ảnh sẽ quyết định đó là liệu gốc và nhiễu là lỗi do nén. Khi so sánh các bộ nén bức ảnh lấy nét tiền cảnh hay hậu cảnh. dữ liệu, PSNR được coi là một giá trị tương đối với cách con người có thể đánh giá về chất lượng tái tạo [19]. A. Phương pháp đánh giá chủ quan Các giá trị điển hình cho PSNR khi nén hình ảnh và Các đánh giá chất lượng chủ quan đã được tiến hành video bị tổn hao là từ 30 đến 50 dB, với điều kiện thông tại Trường Đại học Công nghệ, Đại, ĐHQG Hà Nội, số bit là 8 bit, với thông số bit càng cao, thì càng tốt. Việt Nam. Đầu tiên, tất cả các loại lấy nét khác nhau của Chất lượng xử lý của hình ảnh 12-bit được coi là cao khi ảnh LF được tạo ra thông qua phần mềm MatLab, tiếp giá trị PSNR là 60 dB hoặc cao hơn. Đối với dữ liệu 16- theo đó các ảnh này được ghép với nhau theo mô hình bit, các giá trị điển hình cho PSNR là từ 60 đến 80 dB. xoắn ốc, nhằm tạo ra các video giả lập, với 30 Fps và 12 Công thức tính PSNR được mô tả như sau giây cho tổng thời lượng một video. Sau đó, các video giả lập này được mã hóa bởi VVC codec với 3 QPs (tức là 22, 40, 50) nhằm tạo ra các thông tin nhiễu khác nhau. 2552 (1) 𝑃𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 ( ) Mô hình đánh giá 2 hình ảnh song song DSIS [18] được 𝑀𝑆𝐸 ISBN 978-604-80-5958-3 38
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Với 𝑀 𝑁 𝑀𝑆𝐸(𝑥, 𝑦) = 1/𝑀𝑁 ∑ ∑(𝑥𝑖𝑗 − 𝑦𝑖𝑗 )2 (2) 𝑖=1 𝑗=1 C. Phương pháp đánh giá khách quan SSIM Phương pháp SSIM là một phương pháp để đo mức độ giống nhau giữa hai hình ảnh. SSIM dự đoán chất lượng hình ảnh dựa trên hình ảnh không được nén hoặc không bị biến dạng ban đầu làm tài liệu tham khảo. Nó cho chúng ta biết một hình ảnh cần so sánh có chất lượng tốt ra sao so với hình ảnh tham chiếu ban đầu. Đặc biệt, phương pháp này được coi là phù hợp với hệ thống thị giác của con người [19]. SSIM được thiết kế để cải thiện các phương pháp truyền thống như PSNR và sai số bình phương trung bình MSE. Các giá trị đánh giá của phương pháp này được dao động từ 0 đến 1. Giá trị càng tiến gần 1, đồng nghĩa với việc hình ảnh cần so sánh có chất lượng tương đồng với hình ảnh gốc. SSIM được tính toán tổ hợp dựa trên các đặc tính của hỉnh ảnh như: độ sáng, độ tương phản, và độ tương đồng. Công thức SSIM được tính như sau: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑙(𝑥,𝑦) 𝑐(𝑥,𝑦) 𝑠(𝑥,𝑦) (4) Hình 4. Kết quả của phương pháp đánh giá chủ quan trên các loại LF khác nhau Với 𝑙(𝑥,𝑦) = 2𝜇𝑥 𝜇𝑦 + 𝐶1 ⁄𝜇2𝑥 + 𝜇2𝑦 + 𝐶1 B. Phân tích các loại lấy nét của ảnh LF 𝑐(𝑥,𝑦) = 2𝜎𝑥 𝜎𝑦 + 𝐶2 ⁄𝜎2𝑥 + 𝜎2𝑦 + 𝐶2 (5) Để phân tích 8 loại lấy nét LF khác nhau, cách phù hợp nhất được tính toán cho mỗi loại lấy nét, đó là hệ 𝑠(𝑥,𝑦) = 𝜎𝑥𝑦 + 𝐶3 ⁄𝜎𝑥 𝜎𝑦 + 𝐶3 số xác định sự tương quan 𝑅2 như trong Hình 2. 𝑅2 là một thước đo thống kê về sự tương quan dữ liệu thực tế và nó được tính toán như sau: IV. PHÂN TÍCH KẾT QUẢ ∑(𝑥𝑖 − 𝑥̂𝑖 )2 (6) 2 A. Kết quả từ phương pháp đánh giá chủ quan 𝑅 =1− ∑(𝑥𝑖 − 𝑥̅𝑖 )2 Trong Hình 4, MOS và CIs thuộc loại LF khác nhau được trình bày. Có 4 nội dung đại diện cho 4 loại lấy nét khác nhau của LF, tức là CW (Lớp phức tạp với FOV Trong đó, 𝑥𝑖 và 𝑥̂𝑖 là các giá trị tương ứng của giá trị rộng), CN (Lớp phức tạp với FOV hẹp), SW (Lớp đơn gốc và dự đoán của mỗi cá nhân đánh giá; trong khi 𝑥̅𝑖 giản với FOV rộng) và SN (Lớp đơn giản với FOV hẹp). là khoảng cách dữ liệu cách xa giá trị trung bình. Kết quả cho thấy, 95% CIs được chấp nhận với trung bình 0,3 và các CIs tối đa khoảng 0,6. Dựa trên kết quả trong Hình 5, có 𝑅2 = 0.5 nghĩa là hầu hết dữ liệu gốc không có sự tương quan nào. Đáng Đáng chú ý, tất cả các loại lấy nét tiền cảnh cho thấy chú ý, loại lấy nét CNB và CNF, có mối tương quan chất lượng hình ảnh tốt hơn so với lấy nét hậu cảnh bởi thấp nhất 𝑅2 = 0.4, sau đó là SWF, SWB, SNF và SNB vì các chủ thể trong ảnh gần hơn với tầm nhìn mắt người. với 𝑅2 = 0.5. Những ảnh LF có sự tương quan thấp như: Về các ảnh có chủ thể gần, cũng lưu ý rằng FOV hẹp House_Lake - SW, Wall_Decoration - SN, nhận được điểm MOS tốt hơn so với FOV rộng. Stone_Pillars_Inside - CN), đều có đặc điểm tương tự, tức là contrast thấp, dải màu thấp. Tuy nhiên, loại lấy nét CWF và CWB cho mối tương quan tốt hơn vì sự cải thiện của contrast và dải màu, với 𝑅2 = 0.7, ví dụ: Bench_in_Paris, Fountain_Vincent_2, v.v. Do đó, lý do sự tương quan thấp bị tác động bởi độ tương phản thấp và dải tương phản động thấp, và nó ảnh hưởng đến độ sâu của hình ảnh LF. ISBN 978-604-80-5958-3 39
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) C. Phân tích mô hình đánh giá chất lượng hình ảnh phản. Hai yếu tố này nên được xem xét để cải thiện các PSNR và SSIM tham số tương quan khi đánh giá chất lượng của ảnh LF. SSIM và PSNR là hai mô hình đánh giá chất lượng Hơn nữa, bài báo đã xác định và phân loại loại các loại hình ảnh phổ biến. SSIM được coi là mô hình đánh giá lấy nét khác nhau theo từng nội dung của ảnh LF, việc gần với mắt người nhất, bằng cách tìm điểm giống nhau này có thể hữu ích cho nghiên cứu phân tích chất lượng giữa hai bức ảnh. Trong khi đó, PSNR chỉ tính toán sự ảnh LF trong tương lai. khác biệt giữa hai bức ảnh. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong đề tài mã số 102.01-2020.15. NGUỒN THAM KHẢO [1] T. Ebrahimi, F. Pereira, P. Schelkens, “JPEG Pleno: Toward an Efficient Representation of Visual Reality”, Industry and Standards, IEEE Multimedia, 2016 [2] M. Levoy and P. Hanrahan, “Light field rendering,” in Proc. SIGGRAPH, 1996, pp. 31–42. [3] Lytro camera, https://www.lytro.com/ [4] Raytrix, https://www.raytrix.de/ [5] I. Ihrke, J. Restrepo, and L. Mignard-Debise, “Principles of Light Field Imaging”, IEEE Signal Processing Magazine, 2016 [6] T. Ebrahimi, S. Foessel, F. Pereira, P. Schelkens, “JPEG Pleno: Toward an Efficient Representation of Visual Reality,” IEEE Multimedia, Oct-Dec 2016 [7] N. Bedard, T. Shope, A. Hoberman, M. A. Haralam, N. Shaikh, J. Kovačević, N. Balram, and I. Tošić, "Light field otoscope design for 3D in vivo imaging of the middle ear," Biomedical optics express, vol. 8, pp. 260-272, 2017 [8] H. Li, C. Guo, and S. Jia, "High-resolution light-field microscopy," Frontiers in Optics, FW6D. 3, 2017 [9] D. Tsai, D. G. Dansereau, T. Peynot, and P. Corke, "Image- Based Visual Servoing With Light Field Cameras," IEEE Robotics and Automation Letters 2(2), pp. 912-919, 2017 [10] K. Lynch, T. Fahringer, and B. Thurow, “Three-dimensional particle image velocimetry using a plenoptic camera” American Institute of Aeronautics and Astronautics (AIAA), 2012. [11] M. Řeřábek and T. Ebrahimi, “New Light Field Image Dataset,” Hình 6. Sự tương quan của ảnh LF dựa trên PSNR và SSIM 8th International Conference on Quality of Multimedia Experience, Lisbon, Portugal, 2016. Hình 6, trình bày kết quả so sánh các loại lấy nét phù [12] Ren Ng, M. Levoy, et al, “Light Field Photography with a Hand- hợp nhất của PSNR và SSIM với ảnh LF khác nhau. Nó held Plenoptic Camera”, Stanford Tech Report, 2005 cho thấy rằng sự tương quan trên cả hai mô hình được [13] D. Dansereau, “Light Field Toolbox v0.4,” tính toán đều thấp khoảng 50% của giá trị trung bình. http://www.mathworks.com/matlabcentral/fileexchange/49683 Thậm chí, sự tương quan trên PSNR tốt hơn một chút so -light-field-toolbox-v0-4 với SSIM, khoảng 60%. Nhưng, PSNR không phù hợp [14] ITU-R BT.500-13, “Methodology for the subjective assessment để đánh giá chất lượng thị giác của con người. Do đó, of the quality of television pictures,” International để cải thiện mô hình SSIM, chúng ta cần xem xét các Telecommunications Union, Jan 2012 đặc điểm LF, tức là dải màu động và độ tương phản. [15] MPV video player. [Online]. Available: https://mpv.io [16] G. J. Sullivan, J. R. Ohm, W. J. Han and T. Wiegand, “Overview of the High Efficiency Video Coding (HEVC) Standard,” in V. KẾT LUẬN IEEE Transactions on Circuits and Systems for Video Bài báo đã trình bày một nghiên cứu về cách đánh Technology, vol. 22, no. 12, pp. 1649-1668, Dec. 2012. giá chất chủ quan và khách quan với lượng dữ liệu ảnh [17] B. Benjamin, C. Jianle, L. Shan, W. Ye-Kui, “Versatile Video Coding (Draft 10)”, 19th Meeting: by teleconference, Joint LF có các điểm lấy nét thay đổi. Đồng thời, bài báo cũng Video Experts Team (JVET) of ITU-T SG 16 WP 3 and mô tả bộ mã hóa mới nhất VVC và áp dụng nó để tạo ra ISO/IEC JTC 1/SC 29/WG 11, 22 June – 1 July 2020. những hình ảnh có thông tin nhiễu với các cấp độ nén [18] I. Viola, M. Rˇ erˇábek, T. Bruylants, P. Schelkens, F. Pereira, khác nhau. Dựa trên kết quả so sánh giữa các phương and T. Ebrahimi, “Objective and subjective evaluation of light pháp đánh giá chủ quan và khách quan, bài báo đã đưa field image compression algorithms,” in Proc. 32nd Picture ra được lý do ảnh hưởng tới khả năng đánh giá chất Coding Symp., pp. 1–5, 2016 lượng ảnh LF khi sử dụng các mô hình đánh giá hiện tại [19] A. Horé and D. Ziou, "Image Quality Metrics: PSNR vs. SSIM," 2010 20th International Conference on Pattern Recognition, như PSNR và SSIM, đó là dải màu động và độ tương 2010, pp. 2366-2369 ISBN 978-604-80-5958-3 40
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Hình 5. Sự tương quan của MOS so sánh với phương pháp SSIM ISBN 978-604-80-5958-3 41
nguon tai.lieu . vn