Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập Phạm Thanh Tùng∗ , Đinh Triều Dương† , Đặng Văn Trọng ∗ và Lê Thanh Hà ‡ ∗ Khoa Khoa học cơ bản và Ngoại ngữ, Đại học Phòng cháy chữa cháy † Khoa Điện tử viễn thông, Đại học Công nghệ ‡ Khoa Công nghệ thông tin, Đại học Công nghệ Tác giả liên hệ: Đinh Triều Dương (email:duongdt@vnu.edu.vn) Tóm tắt—Trong bài báo này chúng tôi phát triển mô biết nhất trong khi các lỗi xuất hiện ở tường tòa nhà ít hình dự đoán chất lượng hình ảnh video khi nén bằng nhìn thấy. Hình 1 không chỉ cho thấy có nhiễu tạo ra mạng Neural tích chập trích chọn đặc trưng thị giác của bởi nén video mà còn thể hiện mức độ nhạy cảm với khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng tử (QP) áp dụng vào bộ nén video H265/HEVC. Bộ dữ liệu nhiễu theo yếu tố thị giác con người (HVS) với không thực nghiệm đánh giá chất lượng ảnh chủ quan của 40286 thời gian khác nhau. Những vấn đề này đã được tìm hiểu khối ảnh dùng cho huấn luyện mô hình. Mô hình dự đoán vào đầu những năm 1990 [2] và được bổ sung trong các chất lượng hình ảnh được tùy chỉnh trên nền tảng kiến nghiên cứu tiếp theo [1]. Nhận định này cho thấy có trúc mạng Resnext-50 nhằm mô phỏng theo cách đánh thể tạo ra một bộ nén video theo nhận thức, trong đó giá chủ quan của con người. Mô hình dự đoán này làm áp dụng nén sâu hơn cho các khu vực hình ảnh mà thị cơ sở cho phương pháp lựa chọn hệ số lượng đơn vị mã giác của con người ít nhạy cảm hơn với biến dạng và hóa khối (CU) khi nén video theo chất lượng thị giác cho trước. Thực nghiệm trên bộ nén H265/HEVC phiên bản nén tốt hơn ở những khu vực còn lại. Để thực hiện mục HM 16.20 cho thấy chất lượng đánh giá chủ quan có cải tiêu này, câu hỏi chính cần được giải quyết là làm thế thiện so với bộ nén ban đầu với cùng tốc độ bit. nào để dự đoán các vùng nhạy cảm với biến dạng nhằm Từ khóa—lựa chọn hệ số lượng tử, bộ nén H265/ HEVC, áp dụng QP thấp nhằm đảm bảo chất lượng cho những đặc trưng thị giác. vùng này. I. GIỚI THIỆU Trong mã hóa video, đánh giá chất lượng hình ảnh có ý nghĩa quan trọng trong việc tính toán hiệu năng và làm căn cứ để lựa chọn cách mã hoá tối ưu. Tất cả các bộ nén video thuộc họ MPEG-x và H.26x đều là các bộ nén dự đoán chuyển động theo khối. Chúng đạt được hiệu suất nén cao bằng cách sử dụng phương pháp lượng tử hóa có tổn thất trong miền tần số. Hậu quả mất mát thông tin của việc nén trong các bộ mã hóa video là việc Hình 1: Khung hình đầu tiên của video thử nghiệm xuất hiện các biến dạng hình ảnh trong video được giải Foreman trước và sau khi nén. mã. Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh trong các khối nơi áp dụng lượng tử hóa hoặc làm mất Trong nhiều bộ nén video, thuật toán tối ưu hóa tốc chi tiết hình ảnh [1]. Ví vụ trong Hình 1, khung hình độ bit - biến dạng (RDO) trong kiến trúc phần mềm đầu tiên của video thử nghiệm thường dùng Foreman HEVC (HM) [3], [4] được sử dụng để cải thiện hiệu được nén với cùng một hệ số lượng tử trên toàn khung. năng nén [5]. Việc lựa chọn chế độ tối ưu hiệu năng Khung hình sau khi nén suy giảm chất lượng đáng kể nén của từng đơn vị mã hóa cơ bản bằng cách chọn chế so với khung hình ban đầu. Đồng thời, sự thay đổi chất độ mã hóa tốt nhất dưới một giá trị QP nhất định, trong lượng được cảm nhận không đồng đều trên toàn khung. đó đơn vị cơ bản có thể là khung, lát (slice) hoặc đơn Các nhiễu xuất hiện trên khuôn mặt nhân vật dễ nhận vị mã hóa (CU). Tùy thuộc vào loại khung hình, bộ nén ISBN 978-604-80-5958-3 90
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) video thực hiện tối ưu hóa tỷ lệ nén với biến dạng bằng thành dữ liệu đầu vào phù hợp với kiến trúc trình bày cách cực tiểu hàm chi phí [4]. Hàm chi phí ở đây là trong Hình 2. Toàn dữ liệu được chia thành 10 phần hàm kết hợp giữa tốc độ nén và độ biến dạng. Trong theo tỷ lệ 8:1:1 (tương ứng 32000: 4000: 4286 mẫu) đó thang đo biến dạng là sai số bình phương trung bình dành lần lượt cho việc huấn luyện, hiệu chỉnh và đánh (MSE) giữa các giá trị pixel trong khối hình ảnh gốc giá mô hình dự đoán chất lượng. và các giá trị pixel trong khối tạo lại sau khi giải nén. MSE đã được sử dụng rộng rãi trong nén hình ảnh và B. Kiến trúc học sâu của mô hình video do công thức tính toán đơn giản, có thể dễ dàng Phương pháp đánh giá sự suy giảm chất lượng hình giải quyết trong toán học (cụ thể là trong bài toán tối ảnh theo [14] tương đối đơn giản nhưng cũng đã phần ưu). Tuy nhiên, MSE được xác định là tương quan kém nào cho thấy ảnh hưởng của nội dung khối ảnh đến sự với chất lượng cảm nhận thị giác [6], [7]. suy giảm chất lượng khi mã hóa video. Từ kết quả này, Hiện nay, các nghiên cứu vẫn tiếp tục phát triển chúng tôi sử dụng phương pháp học sâu sử dụng mạng phương pháp lựa chọn QP nhằm tăng hiệu năng theo Neural tích chập (CNN) trích chọn đặc trưng cơ sở dữ đánh giá chủ quan của con người. Một số nghiên cứu liệu thực nghiệm quy mô lớn (bộ dữ liệu HMII) nhằm đưa ra cách tiếp cận cải thiện tỷ lệ nén hoặc tăng chất ước lượng chất lượng khối ảnh sau khi mã hóa. Sau khi lượng thị giác bằng kỹ thuật lựa chọn QP. Nói chung, thực hiện huấn luyện mô hình đánh giá chất lượng hình những nghiên cứu này xem xét mối quan hệ QP − λ ảnh sử dụng học sâu như nội dung trình bày trong [15], trong quá trình tối ưu mã hóa RDO. Một số nghiên cứu kiến trúc mạng tích chập trích chọn đặc trưng ResNeXt- gần đây ứng dụng học sâu (DNN) cho hiệu quả khả quan 50 (Hình 3) cho thấy hiệu quả tốt hơn so với các kiến đối với nén video [8], [9], [10], [11]. Tuy nhiên, chưa trúc khác. Do đó, trong mô hình đề xuất tiếp tục sử có thuật toán dựa trên nền tảng DNN nhằm lựa chọn dụng kiến trúc này nhưng có sự điều chỉnh phù hợp với QP để cải thiện chất lượng cảm nhận tri giác. Chính vì mục đích đề ra biểu diễn theo Hình 2. vậy, bài báo này trình bày phương pháp DNN lựa chọn Trong Hình 2, dữ liệu đầu vào có kích thước 128 × QP được huấn luyện, điều chỉnh và kiểm tra trên bộ dữ 128 × 4, trong đó có 3 lớp đầu tiên là 3 thành phần màu liệu đánh giá chất lượng ảnh chủ quan mà tác giả đề RGB của khối ảnh gốc, lớp thứ 4 là hệ số lượng tử dùng xuất trong nghiên cứu trước đây [12]. để mã hoá khối. Như vậy, mô hình không sử dụng khối Phần còn lại của bài báo được tổ chức như sau: phần biến dạng sau mã hoá mà dự đoán chất lượng dựa trên II sẽ giới thiệu về quá trình huấn luyện, hiệu chỉnh và kết khối gốc và hệ số lượng tử. Sau khi qua mạng tích chập quả kiểm tra mô hình mạng CNN dự đoán. Tiếp theo, ResNeXt-50, các đặc trưng sẽ được trích chọn qua lớp thuật toán của phương pháp lựa chọn QP được trình bày hồi quy để dự đoán chất lượng khối ảnh sau mã hoá. trong phần III. Phần IV tiến hành đánh giá hiệu năng C. Kết quả huấn luyện của mô hình phương pháp đề xuất cài đặt trên bộ nén H.265/HEVC khi nén một số mẫu video so với bộ nén chuẩn. Cuối Các tham số tối ưu ADAM được chọn theo khuyến cùng, chúng tôi kết luận bài báo trong phần V. nghị trong [16] gồm: β1 = 0.9, β2 = 0.999, ϵ = 10−8 và tốc độ học α ấn định là 5 × 10−4 . Kết quả đánh giá II. MÔ HÌNH DỰ ĐOÁN CHẤT LƯỢNG HÌNH ẢNH hiệu năng mô hình trong quá trình huấn luyện sau 100 KHI NÉN epoch như Hình 4. Kết quả kiểm tra trên tập dữ liệu đánh giá gồm 4286 mẫu cho kết quả tương quan tuyến A. Dữ liệu tính Pearson (PLCC) giữa kết quả dữ đoán với kết quả Trong nghiên cứu trước đây [12], chúng tôi đã xây thực nghiệm bằng 0.9505 và hệ số tương quan xếp hạng dựng bộ dữ liệu thực nghiệm đánh giá chất lượng hình Spearman (SRCC) bằng 0.9088. So sánh với kết quả ảnh HMII gồm 40286 mẫu. Quá trình thực nghiệm tiến tương quan giữa hệ số lượng tử và chất lượng lần lượt hành theo quy chuẩn ITU-R BT.500-11 của tổ chức viễn PLCC=-0,807 và SRCC= -0,8438 cho thấy ảnh hưởng thông quốc tế [13] với sự tham gia của 2189 lượt người quan trọng của nội dung khối đến chất lượng hình ảnh đánh giá. Mỗi mẫu trong bộ dữ liệu gồm 1 khối ảnh gốc, biến dạng của nó khi nén. 1 khối ảnh biến dạng sau mã hoá có cùng kích thước 128 × 128, hệ số lượng tử QP dùng để mã hoá khối gốc III. ĐỀ XUẤT PHƯƠNG PHÁP LỰA CHỌN HỆ SỐ và kết quả chất lượng chủ quan DMOS đã được tiền xử LƯỢNG TỬ THEO CHẤT LƯỢNG lý loại bỏ nhiễu như đề cập trong nghiên cứu [12]. Mẫu Trong nén video, có 2 cách thiết lập QP chính: đồng dữ liệu được chuẩn hoá lại thành 3 thành phần màu của nhất trên toàn video và tùy biến theo các đơn vị mã hóa khối gốc ghép thêm thành phần hệ số lượng tử QP để cơ bản. Ở thiết lập thứ nhất, tất cả các khối trên tất cả ISBN 978-604-80-5958-3 91
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Siamese Network RGB original Resnext-50 Patch Qualiy Regression CTU block +QP feature Extractor Estimate Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh. B Input max-pool Conv 7x7 Conv Iden�ty Conv Iden�ty Patch 2x2 R x2 x3 Feature Global Iden�ty Conv Iden�ty Conv Vector avg-pool x2 x5 Hình 3: Trích xuất đặc trưng bằng ResNeXt-50. QC,ΔQC,w, CUorg qp = 1; QC=QC+w*ΔQC False PIQA(CUorg, qp)>QC Hình 4: Kết quả huấn luyện mô hình. True qp++ các khung hình đều nén với cùng một hệ số lượng tử nên tốc độ mã hoá nhanh hơn, nhưng có nhược điểm là chất lượng không đồng đều, dễ bị phát hiện biến dạng. Ở thiết lập thứ hai bộ nén đặt ra giá trị QP ban đầu qpselected=qp qp và ngưỡng điều chỉnh qpf actor. Khi đó, hệ số QP cho các đơn vị mã hóa được lựa chọn tối ưu theo RDO trong khoảng [qp − qpf actor , qp + qpf actor ). Ngoài ra, người sử dụng có thể thiết lập tốc độ bit cho video cần qpselected nén phù hợp với cấu hình thiết bị, nhu cầu chất lượng và tốc độ đường truyền. Do đó cần thiết phải điều chỉnh Hình 5: Sơ đồ thuật toán PAPS. QP cho từng đơn vị mã hóa nhằm đảm bảo tốc độ bit với chất lượng cao nhất theo đơn vị đo MSE. Như đã đề cập trên, MSE không thể hiện được chất lượng theo nhận thức tri giác của con người. Do đó, trong nghiên theo chất lượng thị giác cần đạt được của video nén. cứu này chúng tôi đề xuất phương pháp lựa chọn QP Mục tiêu chính của phương pháp đảm bảo chất lượng ISBN 978-604-80-5958-3 92
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) QC, DQC PAPS CUOrg Res Bin - + Transform Quantization CABAC Reference Intra/Inter Frame Prediction Constructed Inv. Inv. Frame In-loop Filter + Transform Quantization Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến. thị giác trên toàn khung hình đồng thời tăng cường chất Bộ nén cải tiến theo trong nghiên cứu được sử dụng lượng ở các vùng thu hút chú ý của người quan sát. Một nén nội khung (All-intra) các mẫu video thử nghiệm khối ảnh tham chiếu CUorg trong khung hình được mã chuẩn gồm 2 video thuộc nhóm A (độ phân giải 2K), 5 hoá bởi hệ số lượng tử qp có chất lượng dự đoán theo video thuộc nhóm B (độ phân giải FHD), 3 video thuộc nhận thức thị giác là: nhóm C (độ phân giải 768 × 480), 3 video thuộc nhóm D (độ phân giải 400×240) và 3 video thuộc nhóm E (độ y = QIQA(CUorg , qp), (1) phân giải HD). Mỗi video nén dưới 4 mức chất lượng thị giác QC gồm: 3.0, 3.5, 4.0 và 4.5; giá trị ngưỡng chất trong đó QIQA là mô hình CNN dự đoán chất lượng lượng điều chỉnh ∆QC = 0.5. Tương tự, bộ nén chuẩn hình ảnh trình bày bên trên. Thuật toán xác định hệ số HM 16.20 thực hiện nén nội khung các mẫu video thử lượng tử cho các khối của một khung hình video (thuật nghiệm chuẩn với cùng tốc độ bit như với bộ nén cải toán PAPS) biểu diễn như Hình 5. Dữ liệu đầu vào của tiến. Ngoài ra, để làm rõ hiệu năng nén theo nhận thức thuật toán bao gồm khối ảnh gốc CUorg , chất lượng cần tri giác là mục tiêu chính của nghiên cứu, chúng tôi đã đạt được QC và ngưỡng chất lượng điều chỉnh ∆QC. tiến hành thực nghiệm đánh giá chất lượng hình ảnh chủ Ngưỡng chất lượng điều chỉnh giới hạn mức tăng hoặc quan các video tái tạo sau khi nén. Trong thực nghiệm, giảm QC phụ thuộc tỷ lệ vào trọng số thu hút sự chú ý người quan sát được yêu cầu đánh giá chất lượng video w của khối xác định theo [17]. Kết quả của thuật toán là tái tạo theo thang đo M OS từ 1 đến 5 tương ứng với hệ số lượng tử qpselected ước lượng để chất lượng khối chất lượng tăng đần. Hiệu năng DM OSR so sánh giữa biến dạng sau nén tối thiểu cần đạt QC. chất lượng M OSpro nén theo bộ mã cải tiến với chất IV. ĐÁNH GIÁ HIỆU NĂNG PHƯƠNG PHÁP ĐỀ lượng M OSHM nén theo bộ mã gốc như công thức sau: XUẤT DM OSR = M OSpro − M OSHM . (2) Để đánh giá hiệu quả của phương pháp lựa chọn hệ số lượng tử theo chất lượng thị giác, chúng tôi cài đặt Kết quả so sánh hiệu năng theo thang đo SSIM và thuật toán của phương pháp vào bộ nén H.265/HEVC đánh giá chủ quan giữa bộ mã cải tiến so với bộ mã phiên bản HM 16.20 theo sơ đồ như Hình 6. Trong đó, gốc HM 16.20 trình bày trong Bảng 1. Bảng kết quả mỗi khung hình gốc phân chia thành các khối kích thước cho thấy bộ mã cải tiến với phương pháp đề xuất cho 64 × 64 lấy mở rộng thành 128 × 128 và đưa vào PAPS. hiệu năng theo thang đo SSIM cơ bản tốt hơn so với Đồng thời, khung hình gốc cũng được sử dụng để xác bộ mã gốc. Theo thực nghiệm đo chất lượng chủ quan, định trọng số thu hút sự chú ý. Kết quả thu được là một bộ mã cải tiến cũng có hiệu suất tốt hơn cho các mẫu ma trận hệ số lượng tử được xác định tương ứng với các video với độ phân giải cao hơn (nhóm A và nhóm E). khối của khung hình làm cơ sở cho quá trình lượng tử Đối với các video thử nghiệm có nhiều vùng đồng nhất, hoá. vùng nền lớn, các đối tượng trong khung có độ tương ISBN 978-604-80-5958-3 93
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) (a) Khung hình gốc (b) Trọng số chú ý (c) Khung hình kết quả theo bộ nén cải tiến (d) QP theo bộ nén cải tiến (e) Khung hình kết quả theo bộ nén gốc (f) QP theo bộ nén gốc Hình 7: Kết quả nén video trên khung hình đầu tiên mẫu video ‘Johnny’. phản cao, thuật toán được đề xuất cho hiệu quả mã hóa V. KẾT LUẬN tốt hơn. Các đặc điểm hình ảnh của video thử nghiệm Trong bài báo này, chúng tôi đề xuất phương pháp lựa như vậy có thể thấy trong video ‘Johnny’, ‘FourPeople’, chọn QP theo đặc trưng thị giác áp dụng cho đơn vị mã ‘BasketballDrive’, ‘KristenAndSarra’, ‘BasketballPass ‘ hóa khối của khung hình video. Phương pháp đề xuất sử trong đó tăng chất lượng đáng kể nhất về mặt cảm dụng một mô hình trên nền tảng mạng CNN Resnext-50 nhận. Mặt khác, phương pháp đề xuất hiệu quả kém để trích xuất các đặc trưng dự đoán chất lượng hình ảnh trên ‘BQTerrace và ‘Cactus’ có nhiều họa tiết hơn và sau nén của khối dưới một mức lượng tử xác định. Kết độ tương phản thấp hơn. Ví dụ trong Hình 7 cho thấy quả áp dụng với cách nén nội khung trên H.265/HEVC chất lượng hình ảnh khung hình đầu tiên video ‘Johnny’ cho thấy hiệu năng theo SSIM tăng trung bình 5.5% đối theo bộ nén cải tiến có sự cải thiện so bộ nén gốc đặt với thành phần độ sáng và 0.124 theo chất lượng chủ biệt là vùng mặt của nhân vật và vùng biên giữa nhân quan thực nghiệm. Đánh giá chất lượng chủ quan cho vật với phần nền. thấy rằng phương pháp được đề xuất có thể tạo ra chất lượng hình ảnh tốt hơn về nhận thức thị giác so với bộ nén gốc với cùng tốc độ bít. ISBN 978-604-80-5958-3 94
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Bảng I: So sánh chất lượng hình ảnh theo thang đo SSIM và đánh giá chủ quan bộ nén dùng phương pháp đề xuất so với bộ nén gốc BD SSIM-rate Nhóm Video mẫu DMOSR Y U V Traffic -6.9% -4.6% -3.2% 0.125 A PeopleOnStreet -7.6% -6.7% -6.9% 0.191 Kimono -2.9% -5.0% -5.3% 0.168 ParkScene -4.9% -4.4% -4.8% 0.017 B Cactus -6.8% -7.0% -7.8% -0.105 BasketballDrive -4.7% -4.2% -5.3% 0.211 BQTerrace -7.8% -5.0% -4.6% -0.076 BasketballDrill -2.5% -2.8% -1.5% 0.249 C BQMall -2.6% -12.0% -13.1% 0.041 PartyScene -5.1% -3.0% -2.8% 0.139 BasketballPass -7.4% -4.7% -6.5% 0.218 D BQSquare -7.3% -0.8% -5.1% 0.052 RaceHorses -3.4% -3.3% -1.5% 0.140 FourPeople -3.5% -4.8% -4.9% 0.194 E Johnny -6.2% -4.4% -5.3% 0.237 KristenAndSara -8.3% -4.3% -5.2% 0.180 Class A -7.3% -5.6% -5.1% 0.158 Class B -5.4% -5.1% -5.5% 0.043 Class C -4.0% -6.0% -5.8% 0.143 Class D -6.0% -2.9% -4.4% 0.137 Class E -6.0% -4.5% -5.1% 0.204 All -5.5% -4.8% -5.2% 0.124 TÀI LIỆU THAM KHẢO in 2017 IEEE Visual Communications and Image Processing (VCIP), 2017, pp. 1–4. [1] N. Jayant, J. Johnston, and R. Safranek, “Signal compression [10] S. Ki, S.-H. Bae, M. Kim, and H. Ko, “Learning-based just- based on models of human perception,” Proceedings of the IEEE, noticeable-quantization- distortion modeling for perceptual video vol. 81, no. 10, pp. 1385–1422, 1993. coding,” IEEE Transactions on Image Processing, vol. 27, no. 7, [2] H. R. Wu, K. Rao, and A. Kassim, “Digital video image pp. 3178–3193, 2018. quality and perceptual coding,” Journal of Electronic Imaging [11] H. Choi and I. V. Baji´c, “Deep frame prediction for video - J ELECTRON IMAGING, vol. 16, 01 2007. coding,” IEEE Transactions on Circuits and Systems for Video [3] I. Marzuki and D. Sim, “Overview of potential technologies for Technology, vol. 30, no. 7, pp. 1843–1855, 2020. future video coding standard (fvc) in jem software : Status and [12] T. P. Thanh, C. Ma Thi, T. N. Manh, L. Le Dinh, and review,” IEIE Transactions on Smart Processing and Computing, H. Le Thanh, “Compression artifacts image patch database vol. 7, pp. 22–35, 02 2018. for perceptual quality assessment,” in 2020 12th International [4] G. Sullivan and T. Wiegand, “Rate-distortion optimization for Conference on Knowledge and Systems Engineering (KSE), 2020, video compression,” IEEE Signal Processing Magazine, vol. 15, pp. 55–60. no. 6, pp. 74–90, 1998. [13] I. T. Union, “Methodology for the subjective assessment of the [5] B. Li, J. Xu, D. Zhang, and H. Li, “Qp refinement according quality of television pictures,” International Telecommunication to lagrange multiplier for high efficiency video coding,” in 2013 Union, vol. 23, no. 5, pp. 1937–1952, 2013. IEEE International Symposium on Circuits and Systems (ISCAS), [14] T. T. Pham, T. D. Dinh, V. X. Hoang, T. Vu Huu, and T. H. Le, 2013, pp. 477–480. “Distortion model based on perceptual of local image content,” [6] Z. Wang and A. C. Bovik, “Mean squared error: Love it or In 4th International Conference on Consumer Electronics Asia, leave it? a new look at signal fidelity measures,” IEEE Signal 06 2019. Processing Magazine, vol. 26, no. 1, pp. 98–117, 2009. [15] T. T. Pham, X. V. Hoang, N. T. Nguyen, D. T. Dinh, and L. T. [7] B. Girod, “Psychovisual aspects of image processing: What’s Ha, “End-to-end image patch quality assessment for image/video wrong with mean squared error?” in Proceedings of the Seventh with compression artifacts,” IEEE Access, vol. 8, pp. 215 157– Workshop on Multidimensional Signal Processing, 1991, pp. P.2– 215 172, 2020. P.2. [16] D. Kingma and J. Ba, “Adam: A method for stochastic optimiza- [8] S. Ma, X. Zhang, C. Jia, Z. Zhao, S. Wang, and S. Wanga, tion,” International Conference on Learning Representations, 12 “Image and video compression with neural networks: A review,” 2014. IEEE Transactions on Circuits and Systems for Video Technol- [17] Z. Liu, W. Zou, and O. Le Meur, “Saliency tree: A novel saliency ogy, vol. PP, pp. 1–1, 04 2019. detection framework,” IEEE Transactions on Image Processing, [9] Y. Li, B. Li, D. Liu, and Z. Chen, “A convolutional neural vol. 23, no. 5, pp. 1937–1952, 2014. network-based approach to rate control in hevc intra coding,” ISBN 978-604-80-5958-3 95
nguon tai.lieu . vn