Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Phương pháp lựa chọn hệ số lượng tử trên bộ
nén H265/HEVC theo đặc trưng thị giác bằng
mạng Neural tích chập
Phạm Thanh Tùng∗ , Đinh Triều Dương† , Đặng Văn Trọng ∗ và Lê Thanh Hà ‡
∗ Khoa Khoa học cơ bản và Ngoại ngữ, Đại học Phòng cháy chữa cháy
† Khoa Điện tử viễn thông, Đại học Công nghệ
‡ Khoa Công nghệ thông tin, Đại học Công nghệ
Tác giả liên hệ: Đinh Triều Dương (email:duongdt@vnu.edu.vn)
Tóm tắt—Trong bài báo này chúng tôi phát triển mô biết nhất trong khi các lỗi xuất hiện ở tường tòa nhà ít
hình dự đoán chất lượng hình ảnh video khi nén bằng nhìn thấy. Hình 1 không chỉ cho thấy có nhiễu tạo ra
mạng Neural tích chập trích chọn đặc trưng thị giác của bởi nén video mà còn thể hiện mức độ nhạy cảm với
khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng
tử (QP) áp dụng vào bộ nén video H265/HEVC. Bộ dữ liệu
nhiễu theo yếu tố thị giác con người (HVS) với không
thực nghiệm đánh giá chất lượng ảnh chủ quan của 40286 thời gian khác nhau. Những vấn đề này đã được tìm hiểu
khối ảnh dùng cho huấn luyện mô hình. Mô hình dự đoán vào đầu những năm 1990 [2] và được bổ sung trong các
chất lượng hình ảnh được tùy chỉnh trên nền tảng kiến nghiên cứu tiếp theo [1]. Nhận định này cho thấy có
trúc mạng Resnext-50 nhằm mô phỏng theo cách đánh thể tạo ra một bộ nén video theo nhận thức, trong đó
giá chủ quan của con người. Mô hình dự đoán này làm áp dụng nén sâu hơn cho các khu vực hình ảnh mà thị
cơ sở cho phương pháp lựa chọn hệ số lượng đơn vị mã
giác của con người ít nhạy cảm hơn với biến dạng và
hóa khối (CU) khi nén video theo chất lượng thị giác cho
trước. Thực nghiệm trên bộ nén H265/HEVC phiên bản nén tốt hơn ở những khu vực còn lại. Để thực hiện mục
HM 16.20 cho thấy chất lượng đánh giá chủ quan có cải tiêu này, câu hỏi chính cần được giải quyết là làm thế
thiện so với bộ nén ban đầu với cùng tốc độ bit. nào để dự đoán các vùng nhạy cảm với biến dạng nhằm
Từ khóa—lựa chọn hệ số lượng tử, bộ nén H265/ HEVC, áp dụng QP thấp nhằm đảm bảo chất lượng cho những
đặc trưng thị giác. vùng này.
I. GIỚI THIỆU
Trong mã hóa video, đánh giá chất lượng hình ảnh
có ý nghĩa quan trọng trong việc tính toán hiệu năng
và làm căn cứ để lựa chọn cách mã hoá tối ưu. Tất cả
các bộ nén video thuộc họ MPEG-x và H.26x đều là các
bộ nén dự đoán chuyển động theo khối. Chúng đạt được
hiệu suất nén cao bằng cách sử dụng phương pháp lượng
tử hóa có tổn thất trong miền tần số. Hậu quả mất mát
thông tin của việc nén trong các bộ mã hóa video là việc Hình 1: Khung hình đầu tiên của video thử nghiệm
xuất hiện các biến dạng hình ảnh trong video được giải Foreman trước và sau khi nén.
mã. Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh
trong các khối nơi áp dụng lượng tử hóa hoặc làm mất Trong nhiều bộ nén video, thuật toán tối ưu hóa tốc
chi tiết hình ảnh [1]. Ví vụ trong Hình 1, khung hình độ bit - biến dạng (RDO) trong kiến trúc phần mềm
đầu tiên của video thử nghiệm thường dùng Foreman HEVC (HM) [3], [4] được sử dụng để cải thiện hiệu
được nén với cùng một hệ số lượng tử trên toàn khung. năng nén [5]. Việc lựa chọn chế độ tối ưu hiệu năng
Khung hình sau khi nén suy giảm chất lượng đáng kể nén của từng đơn vị mã hóa cơ bản bằng cách chọn chế
so với khung hình ban đầu. Đồng thời, sự thay đổi chất độ mã hóa tốt nhất dưới một giá trị QP nhất định, trong
lượng được cảm nhận không đồng đều trên toàn khung. đó đơn vị cơ bản có thể là khung, lát (slice) hoặc đơn
Các nhiễu xuất hiện trên khuôn mặt nhân vật dễ nhận vị mã hóa (CU). Tùy thuộc vào loại khung hình, bộ nén
ISBN 978-604-80-5958-3 90
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
video thực hiện tối ưu hóa tỷ lệ nén với biến dạng bằng thành dữ liệu đầu vào phù hợp với kiến trúc trình bày
cách cực tiểu hàm chi phí [4]. Hàm chi phí ở đây là trong Hình 2. Toàn dữ liệu được chia thành 10 phần
hàm kết hợp giữa tốc độ nén và độ biến dạng. Trong theo tỷ lệ 8:1:1 (tương ứng 32000: 4000: 4286 mẫu)
đó thang đo biến dạng là sai số bình phương trung bình dành lần lượt cho việc huấn luyện, hiệu chỉnh và đánh
(MSE) giữa các giá trị pixel trong khối hình ảnh gốc giá mô hình dự đoán chất lượng.
và các giá trị pixel trong khối tạo lại sau khi giải nén.
MSE đã được sử dụng rộng rãi trong nén hình ảnh và B. Kiến trúc học sâu của mô hình
video do công thức tính toán đơn giản, có thể dễ dàng Phương pháp đánh giá sự suy giảm chất lượng hình
giải quyết trong toán học (cụ thể là trong bài toán tối ảnh theo [14] tương đối đơn giản nhưng cũng đã phần
ưu). Tuy nhiên, MSE được xác định là tương quan kém nào cho thấy ảnh hưởng của nội dung khối ảnh đến sự
với chất lượng cảm nhận thị giác [6], [7]. suy giảm chất lượng khi mã hóa video. Từ kết quả này,
Hiện nay, các nghiên cứu vẫn tiếp tục phát triển chúng tôi sử dụng phương pháp học sâu sử dụng mạng
phương pháp lựa chọn QP nhằm tăng hiệu năng theo Neural tích chập (CNN) trích chọn đặc trưng cơ sở dữ
đánh giá chủ quan của con người. Một số nghiên cứu liệu thực nghiệm quy mô lớn (bộ dữ liệu HMII) nhằm
đưa ra cách tiếp cận cải thiện tỷ lệ nén hoặc tăng chất ước lượng chất lượng khối ảnh sau khi mã hóa. Sau khi
lượng thị giác bằng kỹ thuật lựa chọn QP. Nói chung, thực hiện huấn luyện mô hình đánh giá chất lượng hình
những nghiên cứu này xem xét mối quan hệ QP − λ ảnh sử dụng học sâu như nội dung trình bày trong [15],
trong quá trình tối ưu mã hóa RDO. Một số nghiên cứu kiến trúc mạng tích chập trích chọn đặc trưng ResNeXt-
gần đây ứng dụng học sâu (DNN) cho hiệu quả khả quan 50 (Hình 3) cho thấy hiệu quả tốt hơn so với các kiến
đối với nén video [8], [9], [10], [11]. Tuy nhiên, chưa trúc khác. Do đó, trong mô hình đề xuất tiếp tục sử
có thuật toán dựa trên nền tảng DNN nhằm lựa chọn dụng kiến trúc này nhưng có sự điều chỉnh phù hợp với
QP để cải thiện chất lượng cảm nhận tri giác. Chính vì mục đích đề ra biểu diễn theo Hình 2.
vậy, bài báo này trình bày phương pháp DNN lựa chọn Trong Hình 2, dữ liệu đầu vào có kích thước 128 ×
QP được huấn luyện, điều chỉnh và kiểm tra trên bộ dữ 128 × 4, trong đó có 3 lớp đầu tiên là 3 thành phần màu
liệu đánh giá chất lượng ảnh chủ quan mà tác giả đề RGB của khối ảnh gốc, lớp thứ 4 là hệ số lượng tử dùng
xuất trong nghiên cứu trước đây [12]. để mã hoá khối. Như vậy, mô hình không sử dụng khối
Phần còn lại của bài báo được tổ chức như sau: phần biến dạng sau mã hoá mà dự đoán chất lượng dựa trên
II sẽ giới thiệu về quá trình huấn luyện, hiệu chỉnh và kết khối gốc và hệ số lượng tử. Sau khi qua mạng tích chập
quả kiểm tra mô hình mạng CNN dự đoán. Tiếp theo, ResNeXt-50, các đặc trưng sẽ được trích chọn qua lớp
thuật toán của phương pháp lựa chọn QP được trình bày hồi quy để dự đoán chất lượng khối ảnh sau mã hoá.
trong phần III. Phần IV tiến hành đánh giá hiệu năng
C. Kết quả huấn luyện của mô hình
phương pháp đề xuất cài đặt trên bộ nén H.265/HEVC
khi nén một số mẫu video so với bộ nén chuẩn. Cuối Các tham số tối ưu ADAM được chọn theo khuyến
cùng, chúng tôi kết luận bài báo trong phần V. nghị trong [16] gồm: β1 = 0.9, β2 = 0.999, ϵ = 10−8
và tốc độ học α ấn định là 5 × 10−4 . Kết quả đánh giá
II. MÔ HÌNH DỰ ĐOÁN CHẤT LƯỢNG HÌNH ẢNH hiệu năng mô hình trong quá trình huấn luyện sau 100
KHI NÉN epoch như Hình 4. Kết quả kiểm tra trên tập dữ liệu
đánh giá gồm 4286 mẫu cho kết quả tương quan tuyến
A. Dữ liệu
tính Pearson (PLCC) giữa kết quả dữ đoán với kết quả
Trong nghiên cứu trước đây [12], chúng tôi đã xây thực nghiệm bằng 0.9505 và hệ số tương quan xếp hạng
dựng bộ dữ liệu thực nghiệm đánh giá chất lượng hình Spearman (SRCC) bằng 0.9088. So sánh với kết quả
ảnh HMII gồm 40286 mẫu. Quá trình thực nghiệm tiến tương quan giữa hệ số lượng tử và chất lượng lần lượt
hành theo quy chuẩn ITU-R BT.500-11 của tổ chức viễn PLCC=-0,807 và SRCC= -0,8438 cho thấy ảnh hưởng
thông quốc tế [13] với sự tham gia của 2189 lượt người quan trọng của nội dung khối đến chất lượng hình ảnh
đánh giá. Mỗi mẫu trong bộ dữ liệu gồm 1 khối ảnh gốc, biến dạng của nó khi nén.
1 khối ảnh biến dạng sau mã hoá có cùng kích thước
128 × 128, hệ số lượng tử QP dùng để mã hoá khối gốc III. ĐỀ XUẤT PHƯƠNG PHÁP LỰA CHỌN HỆ SỐ
và kết quả chất lượng chủ quan DMOS đã được tiền xử LƯỢNG TỬ THEO CHẤT LƯỢNG
lý loại bỏ nhiễu như đề cập trong nghiên cứu [12]. Mẫu Trong nén video, có 2 cách thiết lập QP chính: đồng
dữ liệu được chuẩn hoá lại thành 3 thành phần màu của nhất trên toàn video và tùy biến theo các đơn vị mã hóa
khối gốc ghép thêm thành phần hệ số lượng tử QP để cơ bản. Ở thiết lập thứ nhất, tất cả các khối trên tất cả
ISBN 978-604-80-5958-3 91
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Siamese Network
RGB original Resnext-50 Patch Qualiy
Regression
CTU block +QP feature Extractor Estimate
Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh.
B
Input max-pool
Conv 7x7 Conv Iden�ty Conv Iden�ty
Patch 2x2
R
x2 x3
Feature Global
Iden�ty Conv Iden�ty Conv
Vector avg-pool
x2 x5
Hình 3: Trích xuất đặc trưng bằng ResNeXt-50.
QC,ΔQC,w, CUorg
qp = 1;
QC=QC+w*ΔQC
False
PIQA(CUorg, qp)>QC
Hình 4: Kết quả huấn luyện mô hình.
True
qp++
các khung hình đều nén với cùng một hệ số lượng tử
nên tốc độ mã hoá nhanh hơn, nhưng có nhược điểm là
chất lượng không đồng đều, dễ bị phát hiện biến dạng.
Ở thiết lập thứ hai bộ nén đặt ra giá trị QP ban đầu qpselected=qp
qp và ngưỡng điều chỉnh qpf actor. Khi đó, hệ số QP
cho các đơn vị mã hóa được lựa chọn tối ưu theo RDO
trong khoảng [qp − qpf actor , qp + qpf actor ). Ngoài ra,
người sử dụng có thể thiết lập tốc độ bit cho video cần qpselected
nén phù hợp với cấu hình thiết bị, nhu cầu chất lượng
và tốc độ đường truyền. Do đó cần thiết phải điều chỉnh Hình 5: Sơ đồ thuật toán PAPS.
QP cho từng đơn vị mã hóa nhằm đảm bảo tốc độ bit
với chất lượng cao nhất theo đơn vị đo MSE. Như đã
đề cập trên, MSE không thể hiện được chất lượng theo
nhận thức tri giác của con người. Do đó, trong nghiên theo chất lượng thị giác cần đạt được của video nén.
cứu này chúng tôi đề xuất phương pháp lựa chọn QP Mục tiêu chính của phương pháp đảm bảo chất lượng
ISBN 978-604-80-5958-3 92
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
QC, DQC
PAPS
CUOrg Res Bin
- + Transform Quantization CABAC
Reference Intra/Inter
Frame Prediction
Constructed Inv. Inv.
Frame
In-loop Filter + Transform Quantization
Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến.
thị giác trên toàn khung hình đồng thời tăng cường chất Bộ nén cải tiến theo trong nghiên cứu được sử dụng
lượng ở các vùng thu hút chú ý của người quan sát. Một nén nội khung (All-intra) các mẫu video thử nghiệm
khối ảnh tham chiếu CUorg trong khung hình được mã chuẩn gồm 2 video thuộc nhóm A (độ phân giải 2K), 5
hoá bởi hệ số lượng tử qp có chất lượng dự đoán theo video thuộc nhóm B (độ phân giải FHD), 3 video thuộc
nhận thức thị giác là: nhóm C (độ phân giải 768 × 480), 3 video thuộc nhóm
D (độ phân giải 400×240) và 3 video thuộc nhóm E (độ
y = QIQA(CUorg , qp), (1) phân giải HD). Mỗi video nén dưới 4 mức chất lượng thị
giác QC gồm: 3.0, 3.5, 4.0 và 4.5; giá trị ngưỡng chất
trong đó QIQA là mô hình CNN dự đoán chất lượng
lượng điều chỉnh ∆QC = 0.5. Tương tự, bộ nén chuẩn
hình ảnh trình bày bên trên. Thuật toán xác định hệ số
HM 16.20 thực hiện nén nội khung các mẫu video thử
lượng tử cho các khối của một khung hình video (thuật
nghiệm chuẩn với cùng tốc độ bit như với bộ nén cải
toán PAPS) biểu diễn như Hình 5. Dữ liệu đầu vào của
tiến. Ngoài ra, để làm rõ hiệu năng nén theo nhận thức
thuật toán bao gồm khối ảnh gốc CUorg , chất lượng cần
tri giác là mục tiêu chính của nghiên cứu, chúng tôi đã
đạt được QC và ngưỡng chất lượng điều chỉnh ∆QC.
tiến hành thực nghiệm đánh giá chất lượng hình ảnh chủ
Ngưỡng chất lượng điều chỉnh giới hạn mức tăng hoặc
quan các video tái tạo sau khi nén. Trong thực nghiệm,
giảm QC phụ thuộc tỷ lệ vào trọng số thu hút sự chú ý
người quan sát được yêu cầu đánh giá chất lượng video
w của khối xác định theo [17]. Kết quả của thuật toán là
tái tạo theo thang đo M OS từ 1 đến 5 tương ứng với
hệ số lượng tử qpselected ước lượng để chất lượng khối
chất lượng tăng đần. Hiệu năng DM OSR so sánh giữa
biến dạng sau nén tối thiểu cần đạt QC.
chất lượng M OSpro nén theo bộ mã cải tiến với chất
IV. ĐÁNH GIÁ HIỆU NĂNG PHƯƠNG PHÁP ĐỀ lượng M OSHM nén theo bộ mã gốc như công thức sau:
XUẤT
DM OSR = M OSpro − M OSHM . (2)
Để đánh giá hiệu quả của phương pháp lựa chọn hệ
số lượng tử theo chất lượng thị giác, chúng tôi cài đặt Kết quả so sánh hiệu năng theo thang đo SSIM và
thuật toán của phương pháp vào bộ nén H.265/HEVC đánh giá chủ quan giữa bộ mã cải tiến so với bộ mã
phiên bản HM 16.20 theo sơ đồ như Hình 6. Trong đó, gốc HM 16.20 trình bày trong Bảng 1. Bảng kết quả
mỗi khung hình gốc phân chia thành các khối kích thước cho thấy bộ mã cải tiến với phương pháp đề xuất cho
64 × 64 lấy mở rộng thành 128 × 128 và đưa vào PAPS. hiệu năng theo thang đo SSIM cơ bản tốt hơn so với
Đồng thời, khung hình gốc cũng được sử dụng để xác bộ mã gốc. Theo thực nghiệm đo chất lượng chủ quan,
định trọng số thu hút sự chú ý. Kết quả thu được là một bộ mã cải tiến cũng có hiệu suất tốt hơn cho các mẫu
ma trận hệ số lượng tử được xác định tương ứng với các video với độ phân giải cao hơn (nhóm A và nhóm E).
khối của khung hình làm cơ sở cho quá trình lượng tử Đối với các video thử nghiệm có nhiều vùng đồng nhất,
hoá. vùng nền lớn, các đối tượng trong khung có độ tương
ISBN 978-604-80-5958-3 93
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
(a) Khung hình gốc (b) Trọng số chú ý
(c) Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến
(e) Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc
Hình 7: Kết quả nén video trên khung hình đầu tiên mẫu video ‘Johnny’.
phản cao, thuật toán được đề xuất cho hiệu quả mã hóa V. KẾT LUẬN
tốt hơn. Các đặc điểm hình ảnh của video thử nghiệm Trong bài báo này, chúng tôi đề xuất phương pháp lựa
như vậy có thể thấy trong video ‘Johnny’, ‘FourPeople’, chọn QP theo đặc trưng thị giác áp dụng cho đơn vị mã
‘BasketballDrive’, ‘KristenAndSarra’, ‘BasketballPass ‘ hóa khối của khung hình video. Phương pháp đề xuất sử
trong đó tăng chất lượng đáng kể nhất về mặt cảm dụng một mô hình trên nền tảng mạng CNN Resnext-50
nhận. Mặt khác, phương pháp đề xuất hiệu quả kém để trích xuất các đặc trưng dự đoán chất lượng hình ảnh
trên ‘BQTerrace và ‘Cactus’ có nhiều họa tiết hơn và sau nén của khối dưới một mức lượng tử xác định. Kết
độ tương phản thấp hơn. Ví dụ trong Hình 7 cho thấy quả áp dụng với cách nén nội khung trên H.265/HEVC
chất lượng hình ảnh khung hình đầu tiên video ‘Johnny’ cho thấy hiệu năng theo SSIM tăng trung bình 5.5% đối
theo bộ nén cải tiến có sự cải thiện so bộ nén gốc đặt với thành phần độ sáng và 0.124 theo chất lượng chủ
biệt là vùng mặt của nhân vật và vùng biên giữa nhân quan thực nghiệm. Đánh giá chất lượng chủ quan cho
vật với phần nền. thấy rằng phương pháp được đề xuất có thể tạo ra chất
lượng hình ảnh tốt hơn về nhận thức thị giác so với bộ
nén gốc với cùng tốc độ bít.
ISBN 978-604-80-5958-3 94
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Bảng I: So sánh chất lượng hình ảnh theo thang đo SSIM và đánh giá chủ quan bộ nén dùng phương pháp đề xuất
so với bộ nén gốc
BD SSIM-rate
Nhóm Video mẫu DMOSR
Y U V
Traffic -6.9% -4.6% -3.2% 0.125
A
PeopleOnStreet -7.6% -6.7% -6.9% 0.191
Kimono -2.9% -5.0% -5.3% 0.168
ParkScene -4.9% -4.4% -4.8% 0.017
B Cactus -6.8% -7.0% -7.8% -0.105
BasketballDrive -4.7% -4.2% -5.3% 0.211
BQTerrace -7.8% -5.0% -4.6% -0.076
BasketballDrill -2.5% -2.8% -1.5% 0.249
C BQMall -2.6% -12.0% -13.1% 0.041
PartyScene -5.1% -3.0% -2.8% 0.139
BasketballPass -7.4% -4.7% -6.5% 0.218
D BQSquare -7.3% -0.8% -5.1% 0.052
RaceHorses -3.4% -3.3% -1.5% 0.140
FourPeople -3.5% -4.8% -4.9% 0.194
E Johnny -6.2% -4.4% -5.3% 0.237
KristenAndSara -8.3% -4.3% -5.2% 0.180
Class A -7.3% -5.6% -5.1% 0.158
Class B -5.4% -5.1% -5.5% 0.043
Class C -4.0% -6.0% -5.8% 0.143
Class D -6.0% -2.9% -4.4% 0.137
Class E -6.0% -4.5% -5.1% 0.204
All -5.5% -4.8% -5.2% 0.124
TÀI LIỆU THAM KHẢO in 2017 IEEE Visual Communications and Image Processing
(VCIP), 2017, pp. 1–4.
[1] N. Jayant, J. Johnston, and R. Safranek, “Signal compression
[10] S. Ki, S.-H. Bae, M. Kim, and H. Ko, “Learning-based just-
based on models of human perception,” Proceedings of the IEEE,
noticeable-quantization- distortion modeling for perceptual video
vol. 81, no. 10, pp. 1385–1422, 1993. coding,” IEEE Transactions on Image Processing, vol. 27, no. 7,
[2] H. R. Wu, K. Rao, and A. Kassim, “Digital video image pp. 3178–3193, 2018.
quality and perceptual coding,” Journal of Electronic Imaging [11] H. Choi and I. V. Baji´c, “Deep frame prediction for video
- J ELECTRON IMAGING, vol. 16, 01 2007. coding,” IEEE Transactions on Circuits and Systems for Video
[3] I. Marzuki and D. Sim, “Overview of potential technologies for Technology, vol. 30, no. 7, pp. 1843–1855, 2020.
future video coding standard (fvc) in jem software : Status and [12] T. P. Thanh, C. Ma Thi, T. N. Manh, L. Le Dinh, and
review,” IEIE Transactions on Smart Processing and Computing, H. Le Thanh, “Compression artifacts image patch database
vol. 7, pp. 22–35, 02 2018. for perceptual quality assessment,” in 2020 12th International
[4] G. Sullivan and T. Wiegand, “Rate-distortion optimization for Conference on Knowledge and Systems Engineering (KSE), 2020,
video compression,” IEEE Signal Processing Magazine, vol. 15, pp. 55–60.
no. 6, pp. 74–90, 1998. [13] I. T. Union, “Methodology for the subjective assessment of the
[5] B. Li, J. Xu, D. Zhang, and H. Li, “Qp refinement according quality of television pictures,” International Telecommunication
to lagrange multiplier for high efficiency video coding,” in 2013 Union, vol. 23, no. 5, pp. 1937–1952, 2013.
IEEE International Symposium on Circuits and Systems (ISCAS), [14] T. T. Pham, T. D. Dinh, V. X. Hoang, T. Vu Huu, and T. H. Le,
2013, pp. 477–480. “Distortion model based on perceptual of local image content,”
[6] Z. Wang and A. C. Bovik, “Mean squared error: Love it or In 4th International Conference on Consumer Electronics Asia,
leave it? a new look at signal fidelity measures,” IEEE Signal 06 2019.
Processing Magazine, vol. 26, no. 1, pp. 98–117, 2009. [15] T. T. Pham, X. V. Hoang, N. T. Nguyen, D. T. Dinh, and L. T.
[7] B. Girod, “Psychovisual aspects of image processing: What’s Ha, “End-to-end image patch quality assessment for image/video
wrong with mean squared error?” in Proceedings of the Seventh with compression artifacts,” IEEE Access, vol. 8, pp. 215 157–
Workshop on Multidimensional Signal Processing, 1991, pp. P.2– 215 172, 2020.
P.2. [16] D. Kingma and J. Ba, “Adam: A method for stochastic optimiza-
[8] S. Ma, X. Zhang, C. Jia, Z. Zhao, S. Wang, and S. Wanga, tion,” International Conference on Learning Representations, 12
“Image and video compression with neural networks: A review,” 2014.
IEEE Transactions on Circuits and Systems for Video Technol- [17] Z. Liu, W. Zou, and O. Le Meur, “Saliency tree: A novel saliency
ogy, vol. PP, pp. 1–1, 04 2019. detection framework,” IEEE Transactions on Image Processing,
[9] Y. Li, B. Li, D. Liu, and Z. Chen, “A convolutional neural vol. 23, no. 5, pp. 1937–1952, 2014.
network-based approach to rate control in hevc intra coding,”
ISBN 978-604-80-5958-3 95
nguon tai.lieu . vn