Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Phương Pháp Giảm Thời Gian Dự Đoán Nội
Khung Trong Chuẩn Mã Hóa Video
H.266/Versatile Video Coding
Nguyễn Quang Sang1, Bùi Thanh Hương1,2, Đinh Triều Dương1, Hoàng Văn Xiêm1
1
Khoa Điện tử Viễn thông, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
2
Khoa Công nghệ thông tin, Trường Đại học Xây dựng
Email: xiemhoang@vnu.edu.vn
Abstract— Vào năm 2020, tiêu chuẩn mã hóa video Coding (HEVC) [2], ở cùng một mức chất lượng, tiêu
H.266/Versatile Video Coding (VVC) đã được ISO và chuẩn mã hóa video H.266/VVC có thể tiết kiệm tới
ITU-T thông qua. Để đạt được hiệu năng mã hóa cao hơn 40% lượng bit tiêu thụ [3].
nhất, mô hình mã hóa video này đã được nghiên cứu và Để đạt được hiệu năng mã hóa cao, nhiều kỹ thuật
tích hợp nhiều kỹ thuật mã hóa mới. Trong đó, đối với
phương pháp dự đoán nội khung, số lượng chế độ dự
mới đã được nghiên cứu và tích hợp vào bộ mã hóa
đoán được tăng lên 67 chế độ. Mặc dù biến đổi H.266/VVC. Hình 1 dưới đây mô tả sự khác biệt về các
Hadamard được sử dụng giúp làm giảm độ phức tạp tính kỹ thuật được sử dụng trong HEVC và VVC. Bên cạnh
toán nhưng so với tiêu chuẩn mã hóa video H.265/High việc áp dụng cấu trúc phân chia khối hình đa dạng (cây
Efficiency Video Coding (HEVC), thời gian xử lý của phân chia nhị phân, tam phân, tứ phân - QTMT) ở tất
VVC vẫn còn rất cao. Trong bài báo cáo này, chúng tôi cả các cấu hình mã hóa, riêng với mã hóa dự đoán nội
đề xuất một phương pháp làm giảm độ phức tạp tính khung, có thể kể đến số lượng chế độ dự đoán tăng lên
toán cho quá trình dự đoán nội khung của mô hình mã 67 (so với 35 chế độ ở HEVC), và một số kỹ thuật mở
hóa video VVC bằng cách giảm số lượng ứng viên trong rộng được áp dụng như kỹ thuật đa đường tham chiếu
tập các chế độ dự đoán. Kết quả cho thấy, phương pháp
đề xuất giúp làm giảm trung bình từ 26.67% đến 28.47%
(multiple-reference line – MRL), kỹ thuật chia nhỏ
thời gian xử lý. khối nội khung (intra sub-partition – ISP), kỹ thuật sao
chép khối nội khung (intra block copy – IBC). Tuy
Keywords- H.266/Versatile Video Coding, dự đoán nội nhiên, các kỹ thuật này khiến cho bộ mã hóa có độ
khung, lựa chọn hướng dự đoán. phức tạp tính toán cao, gây ra độ trễ lớn trong quá trình
truyền – nhận dữ liệu. Cũng theo số liệu tại báo cáo [3],
I. GIỚI THIỆU thời gian xử lý của VVC cao hơn HEVC tới hơn 30
lần.
Với sự phát triển của công nghệ sản xuất thiết bị
ghi hình và màn hình hiển thị trong những năm trở lại
đây, các ứng dụng video liên tục được nâng cao chất VVC intra
lượng để tăng tính trải nghiệm cho người dùng. Ngày
nay, chúng ta có thể xem được những video với tốc độ HEVC intra MRL
khung hình cao hiển thị chuyển động được mượt mà QT QTMT
hơn, video độ phân giải lớn (HD, Full-HD, 2K, 4K…) ISP
cho hình ảnh sắc nét hơn, video 360o để ghi lại hình 35 chế độ 67 chế độ
IBC
dự đoán dự đoán
ảnh góc rộng… Tuy nhiên, với những loại hình video
này chất lượng cao này, thách thức đặt ra cho các hệ ...
thống truyền thông đa phương tiện là lượng dữ liệu vô
cùng lớn trong khi băng thông và khả năng lưu trữ của
Hình 1. Các kỹ thuật được áp dụng cho chế độ dự đoán nội
thiết bị còn nhiều hạn chế. khung trong HEVC và VVC
Để giải quyết các vấn đề cấp thiết trên, từ năm
2015, các tổ chức uy tín trên thế giới đã bắt đầu nghiên Trong các kỹ thuật nêu trên, có thể thấy việc tăng
cứu mô hình mã hóa video thế hệ mới mang tên số lượng chế độ dự đoán từ 35 lên 67 ảnh hưởng trực
H.266/Versatile Video Coding (VVC) [1]. Mô hình mã tiếp đến việc cải thiện hiệu năng nhưng cũng là nguyên
hóa video thế hệ mới này đã được chính thức thông qua nhân khiến độ phức tạp mã hóa tăng lên đáng kể. Việc
như một tiêu chuẩn mã hóa video vào tháng 7 năm giảm thời gian xử lý cho dự đoán nội khung luôn là bài
2020. Các kết quả thử nghiệm chỉ ra rằng, so với tiêu toán gây ra nhiều thách thức cho các nhà nghiên cứu
chuẩn mã hóa video H.265/High Efficiency Video
ISBN 978-604-80-5958-3 135
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
khi vừa phải giảm thiểu được độ phức tạp tính toán, đoán góc rộng cho khối hình có tỉ lệ Chiều Rộng /
vừa phải đảm bảo được hiệu năng mã hóa không bị ảnh Chiều cao bằng 1/2 và 2.
hưởng. Thông qua việc phân tích đặc trưng về kích
thước và mối quan hệ giữa các khối hình lân cận, bài Bảng I: Các hướng bị thay thế trong chế độ dự đoán góc
báo cáo này đề xuất một phương pháp giảm thời gian rộng
mã hóa cho chế độ dự đoán nội khung trong mô hình Tỉ lệ Chiều Rộng Các hướng bị thay thế
mã hóa video H.266/VVC bằng cách giảm số lượng /Chiều Cao (W/H)
hướng dự đoán của khối hình. W / H = 16 Hướng 12, 13,14,15
Bài báo cáo được trình bày theo cấu trúc gồm 4 W/H=8 Hướng 12, 13
phần. Phần 1 giới thiệu tổng quan về mục đích và động W/H=4 Hướng 2,3,4,5,6,7,8,9,10,11
lực nghiên cứu. Phần 2 trình bày chi tiết về chế độ dự W/H=2 Hướng 2,3,4,5,6,7,
đoán nội khung trong mô hình mã hóa video W/H=1
H.266/VVC và các nghiên cứu giảm thời gian mã hóa W / H = 1/2 Hướng 61,62,63,64,65,66
liên quan. Trong phần 3 của bài báo cáo, chúng tôi mô Hướng
tả về thuật toán được đề xuất. Các kết quả kiểm thử và W / H = 1/4
57,58,59,60,61,62,63,64,65,66
kết luận được trình bày lần lượt trong phần 4 và 5. W / H = 1/8 Hướng 55, 56
W / H = 1/16 Hướng 53, 54, 55, 56
II. DỰ ĐOÁN NỘI KHUNG TRONG H.266/VVC
VÀ CÁC NGHIÊN CỨU LIÊN QUAN
A. Dự đoán nội khung trong mô hình mã hóa video
H.266/VVC
Tiêu chuẩn mã hóa video H.266/VVC được nghiên
cứu và chuẩn hóa nhằm hướng tới việc có thể mã hóa
các video độ phân giải cao (Full-HD, 2K, 4K, …), nên
kích thước khối hình tối đa cho phép lên tới 128×128.
Do đó, số lượng chế độ dự đoán trong dự đoán nội
khung của VVC lên tới 67 chế độ, bao gồm chế độ
Planar, chế độ DC và 65 hướng trong chế độ dự đoán
theo hướng (Angular Mode) [4]. Hình 2 mô tả các chế
độ và hướng dự đoán nội khung trong VVC. Các Hình 3: Ví dụ về dự đoán góc rộng trong VVC
hướng được ký hiệu bởi mũi tên màu đen là các hướng
giống với hướng trong HEVC. Các hướng được ký Để giảm thời gian xử lý cho bộ mã hóa, biến đổi
hiệu bởi mũi tên màu đỏ là các hướng mới được bổ Hadamard [5] đã được sử dụng như một phép biến đổi
sung trong VVC. thay thế và ước lượng chi phí RD (RDCost). Các chế
độ dự đoán có giá trị tổng sai khác sau biến đổi
(SATD) nhỏ nhất sẽ được bộ mã hóa chọn để tính toán
chi phí RD và đưa ra quyết định lựa chọn chế độ dự
đoán cho khối hình hiện tại. Cụ thể, quy trình lựa chọn
chế độ mã hóa trong VVC được tiến hành theo các
bước sau:
Bước 1: Tính toán tổng giá trị tuyệt đối sai khác sau
biến đổi (SATD) cho chế độ Planar, DC và các hướng
0: Planar
giống với HEVC (có mũi tên màu đen trong Hình 2),
1: DC sử dụng biến đổi Hadamard như công thức (1)
SATD = (
j TH * y − y
i org * TH T
pred ) (1)
Trong đó: TH là ma trận biến đổi Hadamard, yorg là
Hình 2: Các chế độ dự đoán nội khung trong VVC giá trị pixel gốc, ypred là giá trị pixel dự đoán, THT là ma
trận chuyển vị của TH.
Đối với các khối có dạng hình chữ nhật (N×N, Bước 2: Lựa chọn N hướng có SATD nhỏ nhất (N
2N×2N, N×2N, N×3N…), VVC cho phép thay đổi vị phụ thuộc vào kích thước khối hình) và các hướng bên
trí giữa các hướng để kết quả dự đoán được tối ưu nhất. cạnh nó (là các hướng mới trong VVC, có mũi tên màu
Tùy vào tỉ lệ Chiều Rộng / Chiều Cao của khối hình mà đỏ trong Hình 2) để thêm vào tập các ứng viên.
các hướng dự đoán được thay thế khác nhau (Bảng I). Bước 3: Thêm các hướng có xác suất cao nhất cho
Chế độ này gọi là dự đoán góc rộng (Wide-angle intra dự đoán (Most Probable Mode – MPM) để thêm vào
prediction). Hình 3 là một ví dụ sử dụng chế độ dự tập các ứng viên. Các hướng này là các hướng có tần
ISBN 978-604-80-5958-3 136
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
suất xuất hiện nhiều nhất khi dự đoán các khối hình lân VVC sử dụng cấu trúc cây phân chia tứ phân kết
cận. hợp nhị phân và tam phân nên cho phép khối hình mã
Bước 4: Tính RDcost cho tập các ứng viên dựa vào hóa có kích thước dao động từ 4×4 đến 128×128. Đối
công thức (2) và (3) với các khối hình có kích thước từ 8×8 trở xuống, giá
SSD = i j ( yorg − y pred )
2 (2) trị các điểm ảnh trong khối hình không có nhiều sự
thay đổi.
RDCost = SSD+ × R (3) Bảng II: Tần suất được chọn của các chế độ dự đoán nội
khung
TB.
Chuỗi video QP Planar DC Angular
Trong đó SSD là tổng bình phương sai khác (Sum Angular
Square Different), yorg là giá trị pixel gốc, ypred là giá trị 22 30.32 17.96 51.73 0.10
BasketballPass
37 30.53 24.83 44.64 0.09
pixel dự đoán, λ là hằng số Lagrange, R là lượng bit 22 28.93 16.99 54.08 0.11
BlowingBubbles
cần để mã hóa. 37 21.92 26.49 51.59 0.10
Chế độ dự đoán được bộ mã hóa lựa chọn là chế độ 22 24.32 14.67 61.01 0.12
BQSquare
37 12.19 26.36 61.46 0.12
có giá trị RDCost nhỏ nhất. 22 35.26 18.87 45.87 0.09
RaceHorses
B. Các nghiên cứu giảm thời gian mã hóa cho dự 37 29.96 24.41 45.63 0.09
đoán nội khung trong H.266/VVC
Kể từ khi bắt đầu được triển khai xây dựng bộ mã Từ các phân tích và nhận định trên, chúng tôi đề
xuất thuật toán giảm thời gian dự đoán nội khung trong
hóa vào năm 2015, các nghiên cứu giảm thời gian mã
H.266/VVC gồm các bước sau:
hóa cho dự đoán nội khung liên tục được công bố.
Tác giả Naima Zouidi và cộng sự đề xuất phương Bước 1: Kiểm tra kích thước khối hình cần mã hóa.
pháp giảm số lượng chế độ dự đoán tại công bố [6]. Nếu kích thước khối hình nhỏ hơn hoặc bằng 8×8, thay
Dựa vào hệ số lượng tử và độ sâu phân chia nhị phân đổi tập các chế độ dự đoán và tiến hành tính toán
RDCost theo các bước đã nêu trong phần II.A. Tập các
của khối hình, bộ mã hóa sẽ đưa ra một danh sách N
chế độ dự đoán gồm: {Planar, DC, 2, 18, 34, 50, 66}.
chế độ dự đoán nhất định (N
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Trong đó, TO là thời gian xử lý của bộ mã hóa gốc,
Bắt Đầu TP là thời gian xử lý của bộ mã hóa sử dụng phương
pháp đề xuất.
Bảng III: Các chuỗi video kiểm thử
Số khung
Tốc độ
Chuỗi video Độ phân giải hình mã
Kích thước khung hình
hóa
Khối hình
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
ParkScene (độ phân giải Full-HD) cho kết quả tiết nâng cao chất lượng khung hình tái tạo sau giải mã
kiệm từ 29.35% đến 43.42% thời gian mã hóa. Trong [12], tích hợp vào mô hình mã hóa video liên lớp
khi đó, lượng bit mã hóa trung bình giảm 0.07% khi so SVVC [13], đồng thời áp dụng các kỹ thuật học máy,
sánh ở cùng mức chất lượng. Có thể giải thích việc tiết học sâu tiên tiến để cải thiện hiệu quả của thuật toán.
kiệm lượng bit mã hóa là do trong quá trình ước lượng
RDCost bằng biến đổi Hadamard, việc giảm số lượng VI. LỜI CẢM ƠN
chế độ dự đoán trong tập các ứng viên đã giúp loại bỏ Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa
đi một số chế độ gây ra sai lệch trong quá trình ước học và công nghệ Quốc gia (NAFOSTED) trong đề tài
lượng. mã số 102.01-2020.15.
Bảng V: Kết quả giảm thời gian mã hóa (∆T) khi sử dụng
phương pháp đề xuất
TÀI LIỆU THAM KHẢO
[1] B. Bross, J. Chen, J. -R. Ohm, G. J. Sullivan and Y. -K. Wang,
∆T
BD- “Developments in International Video Coding Standardization
Chuỗi video Trung After AVC, With an Overview of Versatile Video Coding
QP 22 QP 27 QP 32 QP 37 BR
bình (VVC),” in Proceedings of the IEEE, 2020.
BasketballPass -23.63 -23.88 -24.75 -23.43 -23.92 -0.08 [2] G. J. Sullivan, J. Ohm, W. Han and T. Wiegand, “Overview of
BQSquare -24.72 -27.50 -29.19 -30.14 -27.89 -0.19 the High Efficiency Video Coding (HEVC) Standard,” in
IEEE Transactions on Circuits and Systems for Video
BlowingBubbles -24.70 -26.29 -28.11 -28.36 -26.86 -0.07 Technology, vol. 22, no. 12, pp. 1649-1668, Dec. 2012.
RaceHorsesD -24.39 -26.48 -26.88 -26.08 -25.96 -0.03 [3] F. Bossen, et al. , “AHG report: Test model software
BasketballDrill -19.68 -21.85 -24.95 -21.28 -21.94 -0.12 development (AHG3),” in document JVET-X0003, 24th JVET
Meeting, by teleconference, 6–15 Oct. 2021.
BQMall -24.75 -26.08 -27.36 -26.96 -26.29 -0.08
[4] A. Browne, J. Chen, Y. Ye and S. H. Kim, “Algorithm
PartyScene -24.61 -26.90 -28.43 -28.87 -27.20 -0.12 description for Versatile Video Coding and Test Model 14
RaceHorsesC -27.41 -28.19 -29.62 -28.39 -28.40 -0.02 (VTM 14),” in document JVET-W2002, 23rd JVET Meeting,
by teleconference, 7–16 Jul. 2021.
FourPeople -23.59 -24.28 -24.41 -23.57 -23.96 -0.05
[5] W. K. Pratt, J. Kane and H. C. Andrews, "Hadamard transform
Johnny -24.88 -22.92 -20.86 -17.65 -21.58 0.06
image coding," in Proceedings of the IEEE, vol. 57, no. 1, pp.
Kimono -38.22 -38.73 -33.71 -29.35 -35.00 -0.04 58-68, Jan. 1969.
ParkScene -39.48 -41.51 -43.42 -43.41 -41.95 -0.07 [6] N. Zouidi, F. Belghith, A. Kessentini and N. Masmoudi, "Fast
intra prediction decision algorithm for the QTBT structure," in
Trung bình -26.67 -27.88 -28.47 -27.29 -27.58 -0.07
IEEE International Conference on Design & Test of Integrated
Micro & Nano-Systems (DTS), Gammarth-Tunis, Tunisia,
2019.
[7] Y. Chen, L. Yu, H. Wang, T. Li, S. Wang, “A novel fast intra
mode decision for versatile video coding,” in Journal of Visual
Communication and Image Representation, vol. 71, pp.
102849, Aug. 2020.
[8] VVCSoftware_VTM. [Online]. Available:
https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-
/tree/VTM-14.0
a) Bộ mã hóa VVC gốc b) Phương pháp đề xuất
[9] G. Bjontegaard, “Calculation of average PSNR differences
Hình 5: Kết quả lựa chọn chế độ dự đoán Planar và DC between RD curves,” in document VCEG-M33, 13th ITU-T
cho khung hình thuộc chuỗi video BasketballPass với hệ số VCEG Meeting, VCEG, Austin, TX, USA, Apr. 2001.
lượng tử QP = 22 [10] StreamEye. [Online]. Available:
https://www.elecard.com/products/video-analysis/streameye
V. KẾT LUẬN [11] Xiem HV, Sang NQ, Minh DB, Minh DN and Duong DT,
"Fast QTMT for H.266/VVC Intra Prediction using Early-
Trong bài báo này, chúng tôi trình bày và phân tích Terminated Hierarchical CNN model," in 2021 International
quá trình lựa chọn hướng dự đoán nội khung trong Conference on Advanced Technologies for Communications
(ATC), HoChiMinh City, Vietnam, 2021.
chuẩn mã hóa video H.266/VVC, đồng thời đề xuất
[12] Xiem HV and Hung NH, "Enhancing Quality for VVC
một phương pháp giúp làm giảm thời gian mã hóa nội Compressed Videos with Multi-Frame Quality Enhancement
khung bằng cách giảm số lượng ứng viên chế độ dự Model," in 2020 International Conference on Advanced
đoán. Kết quả kiểm thử cho thấy thời gian mã hóa của Technologies for Communications (ATC), Nha Trang,
toàn bộ quá trình giảm trung bình từ 26.67% đến Vietnam, 2020.
28.47%. Hướng nghiên cứu tiếp theo của chúng tôi dự [13] Xiem HV, Sangand F. Pereira, "Versatile Video Coding Based
Quality Scalability With Joint Layer Reference," in IEEE
kiến sẽ kết hợp phương pháp này với các phương pháp Signal Processing Letters, vol. 27, pp. 2079-2083, 2020.
đã được nhóm nghiên cứu đề xuất trước đó nhằm giảm
thời gian xử lý cho quá trình phân chia khối hình [11],
ISBN 978-604-80-5958-3 139
nguon tai.lieu . vn