Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Phương Pháp Giảm Thời Gian Dự Đoán Nội Khung Trong Chuẩn Mã Hóa Video H.266/Versatile Video Coding Nguyễn Quang Sang1, Bùi Thanh Hương1,2, Đinh Triều Dương1, Hoàng Văn Xiêm1 1 Khoa Điện tử Viễn thông, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội 2 Khoa Công nghệ thông tin, Trường Đại học Xây dựng Email: xiemhoang@vnu.edu.vn Abstract— Vào năm 2020, tiêu chuẩn mã hóa video Coding (HEVC) [2], ở cùng một mức chất lượng, tiêu H.266/Versatile Video Coding (VVC) đã được ISO và chuẩn mã hóa video H.266/VVC có thể tiết kiệm tới ITU-T thông qua. Để đạt được hiệu năng mã hóa cao hơn 40% lượng bit tiêu thụ [3]. nhất, mô hình mã hóa video này đã được nghiên cứu và Để đạt được hiệu năng mã hóa cao, nhiều kỹ thuật tích hợp nhiều kỹ thuật mã hóa mới. Trong đó, đối với phương pháp dự đoán nội khung, số lượng chế độ dự mới đã được nghiên cứu và tích hợp vào bộ mã hóa đoán được tăng lên 67 chế độ. Mặc dù biến đổi H.266/VVC. Hình 1 dưới đây mô tả sự khác biệt về các Hadamard được sử dụng giúp làm giảm độ phức tạp tính kỹ thuật được sử dụng trong HEVC và VVC. Bên cạnh toán nhưng so với tiêu chuẩn mã hóa video H.265/High việc áp dụng cấu trúc phân chia khối hình đa dạng (cây Efficiency Video Coding (HEVC), thời gian xử lý của phân chia nhị phân, tam phân, tứ phân - QTMT) ở tất VVC vẫn còn rất cao. Trong bài báo cáo này, chúng tôi cả các cấu hình mã hóa, riêng với mã hóa dự đoán nội đề xuất một phương pháp làm giảm độ phức tạp tính khung, có thể kể đến số lượng chế độ dự đoán tăng lên toán cho quá trình dự đoán nội khung của mô hình mã 67 (so với 35 chế độ ở HEVC), và một số kỹ thuật mở hóa video VVC bằng cách giảm số lượng ứng viên trong rộng được áp dụng như kỹ thuật đa đường tham chiếu tập các chế độ dự đoán. Kết quả cho thấy, phương pháp đề xuất giúp làm giảm trung bình từ 26.67% đến 28.47% (multiple-reference line – MRL), kỹ thuật chia nhỏ thời gian xử lý. khối nội khung (intra sub-partition – ISP), kỹ thuật sao chép khối nội khung (intra block copy – IBC). Tuy Keywords- H.266/Versatile Video Coding, dự đoán nội nhiên, các kỹ thuật này khiến cho bộ mã hóa có độ khung, lựa chọn hướng dự đoán. phức tạp tính toán cao, gây ra độ trễ lớn trong quá trình truyền – nhận dữ liệu. Cũng theo số liệu tại báo cáo [3], I. GIỚI THIỆU thời gian xử lý của VVC cao hơn HEVC tới hơn 30 lần. Với sự phát triển của công nghệ sản xuất thiết bị ghi hình và màn hình hiển thị trong những năm trở lại đây, các ứng dụng video liên tục được nâng cao chất VVC intra lượng để tăng tính trải nghiệm cho người dùng. Ngày nay, chúng ta có thể xem được những video với tốc độ HEVC intra MRL khung hình cao hiển thị chuyển động được mượt mà QT QTMT hơn, video độ phân giải lớn (HD, Full-HD, 2K, 4K…) ISP cho hình ảnh sắc nét hơn, video 360o để ghi lại hình 35 chế độ 67 chế độ IBC dự đoán dự đoán ảnh góc rộng… Tuy nhiên, với những loại hình video này chất lượng cao này, thách thức đặt ra cho các hệ ... thống truyền thông đa phương tiện là lượng dữ liệu vô cùng lớn trong khi băng thông và khả năng lưu trữ của Hình 1. Các kỹ thuật được áp dụng cho chế độ dự đoán nội thiết bị còn nhiều hạn chế. khung trong HEVC và VVC Để giải quyết các vấn đề cấp thiết trên, từ năm 2015, các tổ chức uy tín trên thế giới đã bắt đầu nghiên Trong các kỹ thuật nêu trên, có thể thấy việc tăng cứu mô hình mã hóa video thế hệ mới mang tên số lượng chế độ dự đoán từ 35 lên 67 ảnh hưởng trực H.266/Versatile Video Coding (VVC) [1]. Mô hình mã tiếp đến việc cải thiện hiệu năng nhưng cũng là nguyên hóa video thế hệ mới này đã được chính thức thông qua nhân khiến độ phức tạp mã hóa tăng lên đáng kể. Việc như một tiêu chuẩn mã hóa video vào tháng 7 năm giảm thời gian xử lý cho dự đoán nội khung luôn là bài 2020. Các kết quả thử nghiệm chỉ ra rằng, so với tiêu toán gây ra nhiều thách thức cho các nhà nghiên cứu chuẩn mã hóa video H.265/High Efficiency Video ISBN 978-604-80-5958-3 135
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) khi vừa phải giảm thiểu được độ phức tạp tính toán, đoán góc rộng cho khối hình có tỉ lệ Chiều Rộng / vừa phải đảm bảo được hiệu năng mã hóa không bị ảnh Chiều cao bằng 1/2 và 2. hưởng. Thông qua việc phân tích đặc trưng về kích thước và mối quan hệ giữa các khối hình lân cận, bài Bảng I: Các hướng bị thay thế trong chế độ dự đoán góc báo cáo này đề xuất một phương pháp giảm thời gian rộng mã hóa cho chế độ dự đoán nội khung trong mô hình Tỉ lệ Chiều Rộng Các hướng bị thay thế mã hóa video H.266/VVC bằng cách giảm số lượng /Chiều Cao (W/H) hướng dự đoán của khối hình. W / H = 16 Hướng 12, 13,14,15 Bài báo cáo được trình bày theo cấu trúc gồm 4 W/H=8 Hướng 12, 13 phần. Phần 1 giới thiệu tổng quan về mục đích và động W/H=4 Hướng 2,3,4,5,6,7,8,9,10,11 lực nghiên cứu. Phần 2 trình bày chi tiết về chế độ dự W/H=2 Hướng 2,3,4,5,6,7, đoán nội khung trong mô hình mã hóa video W/H=1 H.266/VVC và các nghiên cứu giảm thời gian mã hóa W / H = 1/2 Hướng 61,62,63,64,65,66 liên quan. Trong phần 3 của bài báo cáo, chúng tôi mô Hướng tả về thuật toán được đề xuất. Các kết quả kiểm thử và W / H = 1/4 57,58,59,60,61,62,63,64,65,66 kết luận được trình bày lần lượt trong phần 4 và 5. W / H = 1/8 Hướng 55, 56 W / H = 1/16 Hướng 53, 54, 55, 56 II. DỰ ĐOÁN NỘI KHUNG TRONG H.266/VVC VÀ CÁC NGHIÊN CỨU LIÊN QUAN A. Dự đoán nội khung trong mô hình mã hóa video H.266/VVC Tiêu chuẩn mã hóa video H.266/VVC được nghiên cứu và chuẩn hóa nhằm hướng tới việc có thể mã hóa các video độ phân giải cao (Full-HD, 2K, 4K, …), nên kích thước khối hình tối đa cho phép lên tới 128×128. Do đó, số lượng chế độ dự đoán trong dự đoán nội khung của VVC lên tới 67 chế độ, bao gồm chế độ Planar, chế độ DC và 65 hướng trong chế độ dự đoán theo hướng (Angular Mode) [4]. Hình 2 mô tả các chế độ và hướng dự đoán nội khung trong VVC. Các Hình 3: Ví dụ về dự đoán góc rộng trong VVC hướng được ký hiệu bởi mũi tên màu đen là các hướng giống với hướng trong HEVC. Các hướng được ký Để giảm thời gian xử lý cho bộ mã hóa, biến đổi hiệu bởi mũi tên màu đỏ là các hướng mới được bổ Hadamard [5] đã được sử dụng như một phép biến đổi sung trong VVC. thay thế và ước lượng chi phí RD (RDCost). Các chế độ dự đoán có giá trị tổng sai khác sau biến đổi (SATD) nhỏ nhất sẽ được bộ mã hóa chọn để tính toán chi phí RD và đưa ra quyết định lựa chọn chế độ dự đoán cho khối hình hiện tại. Cụ thể, quy trình lựa chọn chế độ mã hóa trong VVC được tiến hành theo các bước sau: Bước 1: Tính toán tổng giá trị tuyệt đối sai khác sau biến đổi (SATD) cho chế độ Planar, DC và các hướng 0: Planar giống với HEVC (có mũi tên màu đen trong Hình 2), 1: DC sử dụng biến đổi Hadamard như công thức (1) SATD =  ( j TH * y − y i org * TH T pred ) (1) Trong đó: TH là ma trận biến đổi Hadamard, yorg là Hình 2: Các chế độ dự đoán nội khung trong VVC giá trị pixel gốc, ypred là giá trị pixel dự đoán, THT là ma trận chuyển vị của TH. Đối với các khối có dạng hình chữ nhật (N×N, Bước 2: Lựa chọn N hướng có SATD nhỏ nhất (N 2N×2N, N×2N, N×3N…), VVC cho phép thay đổi vị phụ thuộc vào kích thước khối hình) và các hướng bên trí giữa các hướng để kết quả dự đoán được tối ưu nhất. cạnh nó (là các hướng mới trong VVC, có mũi tên màu Tùy vào tỉ lệ Chiều Rộng / Chiều Cao của khối hình mà đỏ trong Hình 2) để thêm vào tập các ứng viên. các hướng dự đoán được thay thế khác nhau (Bảng I). Bước 3: Thêm các hướng có xác suất cao nhất cho Chế độ này gọi là dự đoán góc rộng (Wide-angle intra dự đoán (Most Probable Mode – MPM) để thêm vào prediction). Hình 3 là một ví dụ sử dụng chế độ dự tập các ứng viên. Các hướng này là các hướng có tần ISBN 978-604-80-5958-3 136
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) suất xuất hiện nhiều nhất khi dự đoán các khối hình lân VVC sử dụng cấu trúc cây phân chia tứ phân kết cận. hợp nhị phân và tam phân nên cho phép khối hình mã Bước 4: Tính RDcost cho tập các ứng viên dựa vào hóa có kích thước dao động từ 4×4 đến 128×128. Đối công thức (2) và (3) với các khối hình có kích thước từ 8×8 trở xuống, giá SSD =  i j ( yorg − y pred ) 2 (2) trị các điểm ảnh trong khối hình không có nhiều sự thay đổi. RDCost = SSD+  × R (3) Bảng II: Tần suất được chọn của các chế độ dự đoán nội khung TB. Chuỗi video QP Planar DC Angular Trong đó SSD là tổng bình phương sai khác (Sum Angular Square Different), yorg là giá trị pixel gốc, ypred là giá trị 22 30.32 17.96 51.73 0.10 BasketballPass 37 30.53 24.83 44.64 0.09 pixel dự đoán, λ là hằng số Lagrange, R là lượng bit 22 28.93 16.99 54.08 0.11 BlowingBubbles cần để mã hóa. 37 21.92 26.49 51.59 0.10 Chế độ dự đoán được bộ mã hóa lựa chọn là chế độ 22 24.32 14.67 61.01 0.12 BQSquare 37 12.19 26.36 61.46 0.12 có giá trị RDCost nhỏ nhất. 22 35.26 18.87 45.87 0.09 RaceHorses B. Các nghiên cứu giảm thời gian mã hóa cho dự 37 29.96 24.41 45.63 0.09 đoán nội khung trong H.266/VVC Kể từ khi bắt đầu được triển khai xây dựng bộ mã Từ các phân tích và nhận định trên, chúng tôi đề xuất thuật toán giảm thời gian dự đoán nội khung trong hóa vào năm 2015, các nghiên cứu giảm thời gian mã H.266/VVC gồm các bước sau: hóa cho dự đoán nội khung liên tục được công bố. Tác giả Naima Zouidi và cộng sự đề xuất phương Bước 1: Kiểm tra kích thước khối hình cần mã hóa. pháp giảm số lượng chế độ dự đoán tại công bố [6]. Nếu kích thước khối hình nhỏ hơn hoặc bằng 8×8, thay Dựa vào hệ số lượng tử và độ sâu phân chia nhị phân đổi tập các chế độ dự đoán và tiến hành tính toán RDCost theo các bước đã nêu trong phần II.A. Tập các của khối hình, bộ mã hóa sẽ đưa ra một danh sách N chế độ dự đoán gồm: {Planar, DC, 2, 18, 34, 50, 66}. chế độ dự đoán nhất định (N
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Trong đó, TO là thời gian xử lý của bộ mã hóa gốc, Bắt Đầu TP là thời gian xử lý của bộ mã hóa sử dụng phương pháp đề xuất. Bảng III: Các chuỗi video kiểm thử Số khung Tốc độ Chuỗi video Độ phân giải hình mã Kích thước khung hình hóa Khối hình
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) ParkScene (độ phân giải Full-HD) cho kết quả tiết nâng cao chất lượng khung hình tái tạo sau giải mã kiệm từ 29.35% đến 43.42% thời gian mã hóa. Trong [12], tích hợp vào mô hình mã hóa video liên lớp khi đó, lượng bit mã hóa trung bình giảm 0.07% khi so SVVC [13], đồng thời áp dụng các kỹ thuật học máy, sánh ở cùng mức chất lượng. Có thể giải thích việc tiết học sâu tiên tiến để cải thiện hiệu quả của thuật toán. kiệm lượng bit mã hóa là do trong quá trình ước lượng RDCost bằng biến đổi Hadamard, việc giảm số lượng VI. LỜI CẢM ƠN chế độ dự đoán trong tập các ứng viên đã giúp loại bỏ Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa đi một số chế độ gây ra sai lệch trong quá trình ước học và công nghệ Quốc gia (NAFOSTED) trong đề tài lượng. mã số 102.01-2020.15. Bảng V: Kết quả giảm thời gian mã hóa (∆T) khi sử dụng phương pháp đề xuất TÀI LIỆU THAM KHẢO [1] B. Bross, J. Chen, J. -R. Ohm, G. J. Sullivan and Y. -K. Wang, ∆T BD- “Developments in International Video Coding Standardization Chuỗi video Trung After AVC, With an Overview of Versatile Video Coding QP 22 QP 27 QP 32 QP 37 BR bình (VVC),” in Proceedings of the IEEE, 2020. BasketballPass -23.63 -23.88 -24.75 -23.43 -23.92 -0.08 [2] G. J. Sullivan, J. Ohm, W. Han and T. Wiegand, “Overview of BQSquare -24.72 -27.50 -29.19 -30.14 -27.89 -0.19 the High Efficiency Video Coding (HEVC) Standard,” in IEEE Transactions on Circuits and Systems for Video BlowingBubbles -24.70 -26.29 -28.11 -28.36 -26.86 -0.07 Technology, vol. 22, no. 12, pp. 1649-1668, Dec. 2012. RaceHorsesD -24.39 -26.48 -26.88 -26.08 -25.96 -0.03 [3] F. Bossen, et al. , “AHG report: Test model software BasketballDrill -19.68 -21.85 -24.95 -21.28 -21.94 -0.12 development (AHG3),” in document JVET-X0003, 24th JVET Meeting, by teleconference, 6–15 Oct. 2021. BQMall -24.75 -26.08 -27.36 -26.96 -26.29 -0.08 [4] A. Browne, J. Chen, Y. Ye and S. H. Kim, “Algorithm PartyScene -24.61 -26.90 -28.43 -28.87 -27.20 -0.12 description for Versatile Video Coding and Test Model 14 RaceHorsesC -27.41 -28.19 -29.62 -28.39 -28.40 -0.02 (VTM 14),” in document JVET-W2002, 23rd JVET Meeting, by teleconference, 7–16 Jul. 2021. FourPeople -23.59 -24.28 -24.41 -23.57 -23.96 -0.05 [5] W. K. Pratt, J. Kane and H. C. Andrews, "Hadamard transform Johnny -24.88 -22.92 -20.86 -17.65 -21.58 0.06 image coding," in Proceedings of the IEEE, vol. 57, no. 1, pp. Kimono -38.22 -38.73 -33.71 -29.35 -35.00 -0.04 58-68, Jan. 1969. ParkScene -39.48 -41.51 -43.42 -43.41 -41.95 -0.07 [6] N. Zouidi, F. Belghith, A. Kessentini and N. Masmoudi, "Fast intra prediction decision algorithm for the QTBT structure," in Trung bình -26.67 -27.88 -28.47 -27.29 -27.58 -0.07 IEEE International Conference on Design & Test of Integrated Micro & Nano-Systems (DTS), Gammarth-Tunis, Tunisia, 2019. [7] Y. Chen, L. Yu, H. Wang, T. Li, S. Wang, “A novel fast intra mode decision for versatile video coding,” in Journal of Visual Communication and Image Representation, vol. 71, pp. 102849, Aug. 2020. [8] VVCSoftware_VTM. [Online]. Available: https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/- /tree/VTM-14.0 a) Bộ mã hóa VVC gốc b) Phương pháp đề xuất [9] G. Bjontegaard, “Calculation of average PSNR differences Hình 5: Kết quả lựa chọn chế độ dự đoán Planar và DC between RD curves,” in document VCEG-M33, 13th ITU-T cho khung hình thuộc chuỗi video BasketballPass với hệ số VCEG Meeting, VCEG, Austin, TX, USA, Apr. 2001. lượng tử QP = 22 [10] StreamEye. [Online]. Available: https://www.elecard.com/products/video-analysis/streameye V. KẾT LUẬN [11] Xiem HV, Sang NQ, Minh DB, Minh DN and Duong DT, "Fast QTMT for H.266/VVC Intra Prediction using Early- Trong bài báo này, chúng tôi trình bày và phân tích Terminated Hierarchical CNN model," in 2021 International quá trình lựa chọn hướng dự đoán nội khung trong Conference on Advanced Technologies for Communications (ATC), HoChiMinh City, Vietnam, 2021. chuẩn mã hóa video H.266/VVC, đồng thời đề xuất [12] Xiem HV and Hung NH, "Enhancing Quality for VVC một phương pháp giúp làm giảm thời gian mã hóa nội Compressed Videos with Multi-Frame Quality Enhancement khung bằng cách giảm số lượng ứng viên chế độ dự Model," in 2020 International Conference on Advanced đoán. Kết quả kiểm thử cho thấy thời gian mã hóa của Technologies for Communications (ATC), Nha Trang, toàn bộ quá trình giảm trung bình từ 26.67% đến Vietnam, 2020. 28.47%. Hướng nghiên cứu tiếp theo của chúng tôi dự [13] Xiem HV, Sangand F. Pereira, "Versatile Video Coding Based Quality Scalability With Joint Layer Reference," in IEEE kiến sẽ kết hợp phương pháp này với các phương pháp Signal Processing Letters, vol. 27, pp. 2079-2083, 2020. đã được nhóm nghiên cứu đề xuất trước đó nhằm giảm thời gian xử lý cho quá trình phân chia khối hình [11], ISBN 978-604-80-5958-3 139
nguon tai.lieu . vn