Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Phương pháp tạo thông tin phụ trợ dựa trên kỹ thuật học máy cho mã hóa video Wyner-Ziv Nguyễn Thị Hương Thảo & Vũ Hữu Tiến Học Viện Công Nghệ Bưu Chính Viễn Thông Email: { thaonth, tienvh}@ptit.edu.vn Abstract— Mã hóa video Wyner-Ziv (WZ) là một trường xét mức độ méo tín hiệu thì sẽ không có sự tổn thất về hợp đặc biệt của mã hóa video phân tán – sơ đồ mã hóa hiệu suất nén khi so với trường hợp mã hóa kết hợp. video dựa trên các định lý Slepian-Wolf và Wyner-Ziv. Dựa trên các định lý này, một số sơ đồ mã hóa video Ngược lại với bộ mã hóa video dự đoán, mã hóa video WZ thực tế được đề xuất từ năm 2002 bởi một số nhóm WZ khai thác thống kê nguồn tại phía bộ giải mã để giữ nghiên cứu. Trong số đó phải kể đến kiến trúc cho bộ mã hóa có độ phức tạp thấp. Tuy nhiên, cho đến hiện nay mã hóa video WZ vẫn chưa đạt được hiệu năng DISCOVER [3] của nhóm dự án Châu Âu. Trong kiến nén như các giải pháp mã hóa video dự đoán truyền trúc này, các khung hình của chuỗi được chia thành hai thống. Lý do chính là đến từ việc tạo thông tin phụ trợ - tập khung hình: các khung hình chính và khung hình một dự đoán của khung hình WZ gốc, có chất lượng WZ. Nhóm ảnh (GOP) có kích thước n được định chưa cao. Để khắc phục vấn đề này, bài báo đề xuất một nghĩa là một tập gồm n khung hình trong có có một kỹ thuật tạo thông tin phụ trợ cải tiến cho mã hóa video khung hình chính và n  1 khung hình WZ. Các khung WZ bằng cách kết hợp hai ứng viên thông tin phụ trợ để tạo ra thông tin phụ trợ có chất lượng tốt trong quá trình hình chính được mã hóa và giải mã độc lập sử dụng các giải mã. Các kết quả mô phỏng cho thấy các cải tiến đáng kỹ thuật mã hóa chế độ Intra ví dụ như H.264/AVC kể của chất lượng thông tin phụ trợ, và do đó là hiệu Intra [4] hoặc HEVC Intra [5]. Các khung hình WZ năng nén của bộ mã hóa video phân tán trong các điều được mã hóa một cách độc lập, được biến đổi sang kiện khác nhau như sự thay đổi của nội dung chuỗi miền tần số và được lượng tử hóa. Tại phía bộ giải mã, video, kích thước video. các khung hình chính đã giải mã được sử dụng để tạo ra thông tin phụ trợ - đây là một ước lượng của khung Keywords- Video WZ, thông tin phụ trợ. hình WZ cần giải mã. Để ước lượng thông tin phụ trợ, kiến trúc DISCOVER sử dụng kỹ thuật nội suy thời I. GIỚI THIỆU gian bù chuyển động (MCTI) [6]. Mã hóa video WZ là sơ đồ mã hóa video khai thác Tuy nhiên, mã hóa video WZ vẫn chưa đạt được sự giống nhau giữa các khung hình liên tiếp của chuỗi hiệu năng nén như mã hóa video dự đoán. Một phần là video tại phía giải mã chứ không phải phía mã hóa như do chất lượng của thông tin phụ trợ vì thông tin phụ trợ các giải pháp mã hóa video dự đoán truyền thống. Do có ảnh hưởng lớn đến hiệu năng nén của hệ thống. Đã đó, các bộ mã hóa trong kiến trúc mã hóa video WZ có rất nhiều đề xuất được đưa ra nhằm cải tiến chất thường có độ phức tạp thấp và điều này phù hợp với lượng của thông tin phụ trợ. Trong bài báo này, chúng các ứng dụng mới như mạng giám sát video, mạng cảm tôi đề xuất một phương pháp mới để cải tiến chất lượng biến đa phương tiện. Các ứng dụng này yêu cầu bộ mã của thông tin phụ trợ trong mã hóa video WZ miền hóa có độ phức tạp thấp trong khi cho phép bộ giải mã biến đổi. Trong giải pháp này, chúng tôi tạo ra thông có độ phức tạp cao hơn. Ngoài ra, kiến trúc mã hóa tin phụ trợ bằng cách kết hợp hai SI ứng viên. SI ứng video WZ còn có khả năng phân bố linh hoạt độ phức viên thứ nhất là SI được tạo ra theo phương pháp tạp giữa bộ mã hóa và bộ giải mã tùy theo yêu cầu cụ truyền thống và ứng viên SI thứ hai được tạo ra dựa thể. trên mạng nơ-ron. Sau đó hai ứng viên này được kết Từ quan điểm lý thuyết thông tin, định lý Slepian- hợp với nhau để tạo ra SI cuối cùng. Phương pháp này Wolf [1] đối với nén không tổn thất phát biểu rằng có có thể tạo ra thông tin phụ trợ chính xác hơn và càng thể mã hóa các nguồn có tương quan với nhau một giống với khung hình WZ gốc bằng cách lựa chọn kỹ cách độc lập và giải mã chúng bằng cách kết hợp mà thuật học máy phù hợp. vẫn đạt được cùng tốc độ như trường hợp mã hóa và Bài báo được cấu trúc như sau. Phần II giới thiệu các giải mã kết hợp. Định lý này sau đó được mở rộng với nghiên cứu liên quan bao gồm giới thiệu ngắn gọn về tên gọi định lý Wyner-Ziv [2] phát biểu rằng khi mã kiến trúc bộ mã hóa được sử dụng trong bài báo và các hóa hóa độc lập với một số thông tin phụ trợ sẵn có tại nghiên cứu trước đó về tạo thông tin phụ trợ. Phần III phía giải mã với một số điều kiện nào đó, nghĩa là khi mô tả hệ thống đề xuất. Các tham số mô phỏng và kết và là các nguồn Gauss kết hợp không nhớ và có xem quả mô phỏng được trình bày trong Phần IV và kết luận được đưa ra trong Phần V. ISBN 978-604-80-5958-3 402
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) II. CÁC NGHIÊN CỨU LIÊN QUAN vector chuyển động trước. Tiếp đó, ước lượng chuyển A. Kiến trúc bộ mã hóa WZ-HEVC động song hướng lọc các vector chuyển động thu được ở bước trước với ràng buộc về phép chiếu tuyến tính Phần này giới thiệu về bộ mã hóa WZ miền biến đổi giữa khung hình tham chiếu trước và sau. Để cải thiện với tên gọi WZ-HEVC. Khác với bộ mã hóa độ mượt không gian, bộ lọc trung vị có trọng số sẽ DISCOVER ban đầu [3], các khung hình chính trong được sử dụng. Cuối cùng, bù chuyển động song hướng bộ mã hóa này được mã hóa bằng bộ mã hóa HEVC- được thực hiện để tạo ra thông tin phụ trợ, một ước Intra. Vì vậy nó có tên gọi là WZ-HEVC và được mô lượng của WZF tương ứng. tả trong Hình 1. Mặt phẳng bit WZF đã giải mã Mô hình nhiễu tương quan: Thống kê dư thừa giữa WZF Biến đổi DCT Bộ lượng tử đồng nhất Bộ mã hóa LDPCA Bộ đệm Bộ giải mã LDPCA Tái tạo IDCT các hệ số DCT của WZF gốc và khung hình SI tương Kênh phản hồi ứng được giả định tuân theo phân bố Laplace như sau: Mô hình hóa nhiễu   x  y f X / y ( x)  DCT tương quan e (1) Tạo SI 2 Bộ đệm ở đó f X / y là hàm mật độ xác suất của X với y cho khung hình KF Bộ mã hóa Bộ giải mã KF đã giải mã trước.  là tham số của phân bố Laplace được xác định HEVC Intra HEVC Intra bởi công thức sau: 2 Hình 1. Kiến trúc bộ mã hóa WZ-HEVC  (2) 2 Quá trình mã hóa Chuỗi video đầu vào được phân tách thành các Trong công thức (2),  2 là phương sai của dư thừa khung hình chính (KF) X 2t 1 và các khung hình WZ giữa khung hình WZF gốc và khung hình SI tương (WZF) X t . Các KF được mã hóa bằng bộ mã hóa ứng. Trong bộ mã hóa được sử dụng ở bài báo này, tham số  của phân bố Laplace được ước lượng trực HEVC Intra và WZF được mã hóa theo nguyên tắc tuyến tại bộ giải mã ở mức dải hệ số. phân tán như sau: Bộ giải mã LDPCA: Khi đã có các hệ số DCT của Biến đổi DCT: Mỗi WZF được chia thành các khối khung hình SI và nhiễu tương quan đối với một dải hệ không chồng nhau có kích thước 4  4 và biến đổi số DCT, các mặt phẳng bit của dải hệ số được giải DCT được áp dụng cho mỗi khối để tạo thành các hệ số mã LDPCA với sự hỗ trợ của các bit chẵn lẻ được gửi DCT tương ứng với các pixel trong mỗi khối. từ bộ mã hóa thông qua kênh phản hồi. Để quyết định Lượng tử hóa: Để giảm tốc độ bit, các hệ số DCT có cần gửi thêm các bit chẵn lẻ để giải mã thành công được lượng tử hóa. Các hệ số DCT được nhóm thành cho một mặt phẳng bit nào đó, tiêu chí dừng yêu cầu 16 dải hệ số bk (k  0;15) ở đó mỗi dải hệ số gồm các được sử dụng. Để phát hiện và sửa các lỗi còn lại trong mỗi mặt phẳng bit, tổng kiểm tra dư thừa vòng (CRC) hệ số có cùng vị trí trong các khối khác nhau. Các dải được tính cho mỗi mặt phẳng bit tại bộ mã hóa và gửi DCT này được lượng tử đồng nhất với bộ lượng tử tới bộ giải mã. Bộ giải mã sẽ tính CRC tương ứng cho 2M k ở đó M k là số bit biểu diễn cho các hệ số DCT mỗi mặt phẳng bit đã giải mã LDPCA thành công và so của dải hệ số bk . Các ma trận lượng tử được chọn sánh với CRC nhận được từ bộ mã hóa để đảm bảo loại tương ứng với các mức tốc độ bit khác nhau như trong bỏ xác suất lỗi cho mỗi mặt phẳng bit được giải mã. [7]. Sau khi một mặt phẳng bit được giải mã LDPCA thành công, các mặt phẳng bit còn lại của cùng một dải hệ số Bộ mã hóa LDPCA: Mỗi mặt phẳng bit được đưa sẽ được xử lý tiếp theo cách tương tự. vào bộ mã hóa LDPCA để tạo ra các bit chẵn lẻ tương ứng. Các bit chẵn lẻ này được lưu tại bộ đệm khung Tái tạo: Các mặt phẳng bit đã giải mã LDPCA hình và các bit hệ thống bị loại bỏ. Các bit chẵn lẻ được cùng với khung hình SI và thống kê dư thừa cho mỗi truyền tới bộ giải mã theo từng cụm tùy theo yêu cầu từ dải hệ số DCT được sử dụng cùng nhau để tái tạo lại hệ bộ giải mã. số DCT ban đầu. Giá trị tái tạo cho mỗi hệ số DCT của mỗi dải hệ số DCT được cho trong [9]: Quá trình giải mã u Tại bộ giải mã, các KF được giải mã bằng bộ giải mã HEVC Intra và các WZF được giải mã với sự trợ  xf X|y ( x | y )dx giúp của các KF này. x '  E  x | q ', y   l u (3) Tạo thông tin phụ trợ: Khối nội suy thời gian bù  f X | y ( x | y )dx chuyển động tạo ra thông tin phụ trợ, một ước lượng l của WZF ở bộ mã hóa, bằng cách sử dụng các KF đã ở đó x ' là hệ số DCT tái tạo, y là hệ số DCT tương giải mã trước và sau như trong [8]. Trong mô-đun này, ứng của WZF và E[.] là toán tử kỳ vọng. l , u là các hai khung hình tham chiếu được lọc thông thấp để giảm nhiễu cho quá trình ước lượng chuyển động. Sau biên dưới và trên tương ứng của q ' . đó thực hiện ước lượng chuyển động trước để có được ISBN 978-604-80-5958-3 403
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Biến đổi DCT ngược (IDCT): Cuối cùng, các hệ số thêm từ bộ mã hóa gửi tới [15][16]. Trong các giải DCT tái tạo được biến đổi DCT ngược để nhận được pháp này, bộ mã hóa thường tạo ra mã băm cho mỗi khung hình miền pixel. khối và gửi tới bộ giải mã để hỗ trợ quá trình giải mã B. Các phương pháp tạo thông tin phụ trợ nhằm cải thiện chất lượng SI. Tuy nhiên, nhược điểm Trong mã hóa video dự đoán, các kỹ thuật ước của các phương pháp này là độ phức tạp của bộ mã lượng và bù chuyển động góp phần cải tiến chất lượng hóa sẽ tăng lên. Một hướng tiếp cận khác là SI ban đầu của các khung hình dự đoán dẫn đến các cải tiến đáng được lọc liên tục qua nhiều vòng lặp trong quá trình kể hiệu năng nén của hệ thống. Cũng như vậy, các kỹ giải mã LDPCA bằng cách sử dụng các dữ liệu đã giải thuật tạo thông tin phụ trợ tại bộ giải mã góp phần mã trước đó [17][18][19][20]. Với cách tiếp cận này, quan trọng vào việc cải tiến hiệu năng nén trong mã sự tương đồng giữa SI và khung hình WZ gốc sẽ tăng hóa video WZ để rút ngắn khoảng cách hiệu năng so liên tục trong quá trình giải mã và vì vậy sẽ cải thiện với mã hóa video dự đoán. Tương quan giữa thông tin chất lượng cuối cùng và giảm tốc độ bit yêu cầu. Hơn phụ trợ tại bộ giải mã giữa thông tin phụ trợ tại bộ giải nữa, do không cần phải tạo và gửi thông tin thêm về mã và khung hình WZ hiện thời tại bộ mã hóa càng khung hình hiện thời nên bộ mã hóa vẫn giữ được độ cao thì số lượng bit cần gửi từ bộ mã hóa đến bộ giải phức tạp thấp. Nhược điểm của các cách tiếp cận này mã càng ít để đạt được chất lượng nào đó. Vì vậy, chất là độ phức tạp bộ giải mã sẽ tăng lên so với các giải lượng SI đóng vai trò trung tâm giúp đạt hiệu năng nén pháp trước đó. cho bộ mã hóa WZ. Tuy nhiên, câu hỏi đặt ra là: làm Trong bài báo này đề xuất một phương pháp tạo SI thế nào để tạo ra thông tin phụ trợ tại bộ giải mã trong bằng cách kết hợp SI được tạo ra ban đầu bằng khi khung hình WZ gốc không sẵn có tại bộ giải mã? phương pháp MCTI với SI được tạo ra bằng mạng nơ- Câu trả lời là rất khó để dự đoán một cách chính xác ron. Điều này giúp tạo ra các SI có chất lượng tốt hơn tuyệt đối khung hình WZ gốc mà chỉ có thể dự đoán so với việc chỉ sử dụng SI ban đầu. với mức độ chính xác nào đó dựa trên các khung hình chính đã giải mã trước đó. Cho đến hiện nay, có rất III. HỆ THỐNG ĐỀ XUẤT nhiều nghiên cứu tập trung vào các giải pháp tạo SI. Có thể phân loại các kỹ thuật tạo SI thành hai loại Hình 2 mô tả bộ mã hóa video miền biến đối dựa chính là tạo SI cơ bản và tạo SI nâng cao. Các kỹ thuật trên cấu trúc bộ mã hóa WZ-HEVC được đề cập ở tạo SI cơ bản thường là tạo ra các SI có thể sử dụng mục II. trực tiếp trong quá trình giải mã. Ngược lại, các kỹ Khung hình Bộ mã hóa Bộ giải mã Bộ lượng WZ đã giải mã Bộ mã Bộ giải thuật tạo SI nâng cao thường thực hiện cải tiến chất DCT hóa mã tử hóa Bộ đệm Tái tạo IDCT đồng nhất LDPCA LDPCA lượng của SI ban đầu trong suốt quá trình giải mã, các Các mặt phẳng bit Kênh phản hồi SI ban đầu được tạo ra bằng các kỹ thuật tạo SI cơ bản. Mô hình nhiễu DCT Với các kỹ thuật tạo SI cơ bản thường phát triển Khung hình WZ tương quan theo hai hướng chính. Cách tiếp cận thứ nhất là tạo ra MCTI Tạo SI SI tương ứng cho mỗi khung hình WZ tại bộ giải mã trước khi quá trình giải mã LDPCA bắt đầu. SI được Mô hình mạng Nơ-ron tạo ra dựa trên các khung hình đã giải mã trước đó mà Bộ đệm khung hình Chuỗi video Khung hình không cần bất cứ dữ liệu bổ sung nào từ phía bộ mã đầu vào chính Khung hình Chia tách Bộ mã hóa Bộ giải mã chính đã giải mã hóa [10][11][12]. Các giải pháp này có ưu điểm là bộ khung hình HEVC Intra HEVC Intra mã hóa không cần tạo và gửi các thông tin bổ sung về Hình 2. Kiến trúc mã hóa video WZ đề xuất khung hình hiện thời nhưng có nhược điểm là khó ước lượng chuyển động một cách chuẩn xác khi kích thước Cụ thể, trong phương pháp này, khung hình SI được GOP lớn cũng như tại các vùng có chuyển động bất tạo ra bằng cách kết hợp từ hai khung hình: khung thường hay chuyển động nhanh. Cách tiếp cận thứ hai hình SI MCTI được tạo ra bằng kỹ thuật MCTI như được là SI được tạo ra bằng cách thử lần lượt dựa vào các khung hình đã giải mã trước đó và một số dữ liệu điều mô tả trong [11] và khung hình SI NN được tạo ra bằng khiển từ bộ mã hóa gửi lới. Theo cách tiếp cận này, bộ mạng nơ-ron với đầu vào là các tham số của hai khung giải mã kênh sẽ chạy một số lần cho mỗi ứng viên SI hình chính. và ứng viên tốt nhất sẽ được chọn dựa theo tiêu chí đã Hai khung hình SI MCTI và SI NN được kết hợp để định trước [13][14]. Có thể thấy cách tiếp cận này có tạo ra khung hình SI cuối cùng. Các bước tạo khung ưu điểm là có khả năng thích ứng tốt với nội dung hình SI được mô tả chi tiết như sau. video do có thực hiện một số kỹ thuật ước lượng đơn giản. Tuy nhiên nó lại làm tăng thêm độ phức tạp cho Bước 1: Tạo khung hình SI MCTI bộ mã hóa cũng như cần phải truyền thêm dữ liệu điều khiển sang phía giải mã. SI MCTI là khung hình được tạo ra bằng kỹ thuật Để cải tiến hơn nữa chất lượng của SI, các giải pháp MCTI và được mô tả ngắn gọn theo sơ đồ Hình 3. tạo SI nâng cao được đề xuất. Các SI vẫn có thể được Hai KF tham chiếu trước và sau được lọc thông tạo ra trước khi giải mã LDPCA nhưng có sử dụng thấp và được sử dụng như các tham chiếu trong thuật thêm một số thông tin bổ sung hay còn gọi là các gợi ý toán ước lượng chuyển động tìm kiếm đầy đủ sử dụng ISBN 978-604-80-5958-3 404
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) tiêu chí đối sánh cải tiến. Tiêu chí đối sánh này ưu tiên đầu ra là hệ số DC hoặc AC được dự đoán của khối các vector chuyển động ở gần tâm. Sau đó thực hiện hình trong khung hình SI NN . Hàm kích hoạt ReLU ước lượng chuyển động song hướng. Trong bước này, được sử dụng tại mỗi nơ-ron. các vector chuyển động tương ứng với mỗi khối của SI được lựa chọn và lọc. Tiếp theo, bộ lọc vector trung vị Bước 3: Tạo khung hình SI có trọng số được sử dụng để cải thiện độ mịn không Khung hình SI cuối cùng dùng cho việc giải mã gian của trường chuyển động. Cuối cùng, với vector khung hình WZ được tạo bằng cách kết hợp hai khung chuyển động có được, các khối của SI được tạo ra bằng hình SI MCTI và khung hình SI NN như sau: cách lấy trung bình của bù chuyển động cho các khối của các KF. SI  1.SI MCTI   2 .SI NN (4) Bước 2: Tạo khung hình SI NN Trong đó 1 và  2 là hai trọng số đo mức độ quan Trong phương pháp này, mô hình mạng nơ-ron trọng của hai khung hình SI MCTI và SI NN trong việc được sử dụng để dự đoán khung hình SI NN từ hai tạo ra khung hình SI. Trong phương pháp đề xuất, các khung hình chính. hệ số 1 và  2 được tìm bằng thực nghiệm với các giá trị tương tứng là 0,25 và 0,75. IV. ĐIỀU KIỆN THỬ NGHIỆM VÀ KẾT QUẢ THỬ NGHIỆM A. Điều kiện thử nghiệm Hình 3. Kỹ thuật tạo thông tin phụ trợ bằng nội suy Để đánh giá hiệu năng của giải pháp tạo thông tin khung hình phụ trợ đề xuất so với các phương pháp khác, bốn Cụ thể, hai KF được chia thành các khối kích thước chuỗi video sau được sử dụng là “Akiyo”, 4  4 và được biến đổi cosin rời rạc (DCT). Các hệ số “Carphone”, “Foreman” và “Coastguard” với các DC và AC của hai khối tương ứng trong hai khung đặc điểm được mô tả trong Bảng II. hình chính được đưa vào mạng nơ-ron để dự đoán các Phương pháp tạo SI đề xuất được đánh giá khi áp hệ số DC và AC cho khối hình 4  4 của khung hình dụng trong bộ mã hóa Wyner-Ziv và so sánh với các SI NN . phương pháp tạo SI khác. Dữ liệu được sử dụng để huấn luyện là các khối ảnh Bảng II. Điều kiện thử nghiệm 4  4 trong các khung hình của các chuỗi video "Harbor", "Husky", "Mobile", News" và "Pamphlet" Chuỗi Độ phân Số khung Tham số với độ phân giải không gian 176 144 , số lượng các Video giải hình lượng tử khung hình của mỗi chuỗi là 300. Các chuỗi được chọn Carphone {25,29,34,40} có sự đa dạng về kết cấu ảnh và đặc tính chuyển động Foreman {25,29,34,40} 176x144 300 của chuỗi. Các chuỗi này được mã hóa và giải mã Akiyo {25,29,34,40} HEVC Intra với bốn tham số lượng tử. Tổng số khối Coastguard {26,30,34,38} hình dùng để huấn luyện mô hình là 1.188.000 khối. Phần đánh giá này sử dụng các bộ mã hóa sau: Để huấn luyện cho tập dữ liệu xây dựng ở trên,  HEVC Intra: Bộ mã hóa này sử dụng phần mềm phương pháp đề xuất sử dụng mạng nơ-ron nhiều lớp. tham chiếu HM với chệ độ mã hóa Intra. Đây là bộ Để quyết định cấu trúc mạng nơ-ron với số lớp ẩn và số mã hóa đại diện cho mã hóa video dự đoán được nơ-ron trong mỗi lớp, một số cấu trúc mạng khác nhau lựa chọn để so sánh vì có độ phức tạp bộ mã hóa đã được thử nghiệm. Kết quả thử nghiệm một số cấu thấp. trúc mạng được thể hiện trong bảng I.  WZ-HEVC: Đây là bộ mã hóa Wyner-Ziv tuân Bảng I. Độ chính xác của một số cấu trúc mạng nơ-ron theo kiến trúc DISCOVER với khung hình chính được mã hóa bởi HEVC Intra và SI được tạo ra Cấu trúc mạng Sai số tuyệt đối trung bình bằng phương pháp MCTI. (MAE) {2,1} 1,91  ReSI-WZ-HEVC: Đây là bộ mã hóa WZ-HEVC {2,2,1} 0,85 với mô-đun tạo SI cải tiến được nhóm tác giả đề {2,2,2,1} 0,82 xuất trong [20]. {2,3,2,1} 0,78  NN-WZ-HEVC: Đây là bộ mã hóa được xây dựng {2,4,2,1} 0,82 trên WZ-HEVC với mô-đun tạo SI bằng mạng nơ- Như kết quả chỉ ra trong bảng I, cấu trúc mạng nơ- ron như đề xuất trong mục III. ron gồm một lớp đầu vào, hai lớp ẩn và một lớp đầu ra được lựa chọn. Lớp đầu vào gồm hai giá trị là các hệ số Hiệu năng ở đây là hiệu năng méo – tốc độ bit (RD) DC hoặc AC của hai khối hình trong hai khung hình của phương pháp đề xuất với một số phương pháp chính. Lớp ẩn 1, 2 tương ứng gồm 3 và 2 nơ-ron. Lớp trước đó. Hai đại lượng BD-PSNR và BD-Rate [21] ISBN 978-604-80-5958-3 405
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) cũng được sử dụng trong các đánh giá. Đại lượng BD-  NN-WZ-HEVC so với các bộ mã hóa WZ khác: PSNR cho biết mức cải thiện tương đối giữa hai Hiệu năng RD của bộ mã hóa NN-WZ-HEVC đạt phương pháp bằng cách đo lường sự sai khác trung được mức cải thiện đáng kể so với hai bộ mã hóa bình giữa hai đường cong RD trong đó một đường WZ còn lại. Khi so với bộ mã hóa WZ-HEVC, mức cong RD được chọn làm đường cong cơ sở. Trong cải tiến BD-PSNR lên tới 6,21 dB và mức tiết kiệm nghiên cứu này, NN-WZ-HEVC được chọn làm đường tốc độ bit đạt tới 151,28% đối với chuỗi Akiyo. Đối cong cơ sở. Nếu BD-PSNR âm, điều đó có nghĩa là bộ với các chuỗi chuyển động phức tạp và nhanh thì mã hóa NN-WZ-HEVC có hiệu năng tốt hơn. Tương tự việc tạo SI vẫn gặp khó khăn nên chất lượng SI như vậy, đại lượng BD-Rate cho biết mức độ tiết kiệm chưa cao. Tuy nhiên, về tổng thể, NN-WZ-HEVC tốc độ bit giữa hai phương pháp. Nếu BD-Rate có giá vẫn đạt được mức giảm tốc độ bit trung bình là trị dương, điều đó có nghĩa là đường cong cơ sở NN- 59,28% khi so với bộ mã hóa WZ-HEVC và 8,13% WZ-HEVC có mức tiết kiệm tốc độ bit tốt hơn. khi so với bộ mã hóa ReSI-WZ-HEVC. B. Kết quả và phân tích Bảng III, IV và Hình 4, 5, 6, 7 mô tả và so sánh hiệu năng (trên phương diện tốc độ bit và chất lượng khung hình sau giải nén) của phương pháp đề xuất (thể hiện bằng hiệu năng RD của bộ mã hóa NN-WZ- HEVC) so với các phương pháp tạo SI khác (thể hiện bằng hiệu năng RD của các bộ mã hóa WZ-HEVC, ReSI-WZ-HEVC) và bộ mã hóa truyền thống HEVC- Intra đại diện cho bộ mã hóa có độ phức tạp thấp. Bảng III. So sánh BD-Rate [%] của bộ mã hóa NN-WZ- HEVC với các bộ mã khác Chuỗi Video WZ- ReSI-WZ- HEVC HEVC HEVC Intra Hình 4. RD của các phương pháp với chuỗi Carphone Carphone 70,74 8,43 4,72 Foreman 10,65 6,64 90,64 Akiyo 151,28 16,09 62,28 Coastguard 4,45 1,37 -26,36 Trung bình 59,28 8,13 32,83 Bảng IV. So sánh BD-PSNR [dB] của bộ mã hóa NN-WZ- HEVC với các bộ mã hóa khác Chuỗi Video WZ- ReSI-WZ- HEVC HEVC HEVC Intra Carphone -3,59 -0,66 -0,35 Foreman -0,54 -0,33 -3,74 Akiyo -6,21 -1,11 -3,56 Coastguard -0,18 -0,02 1,51 Hình 5. RD của các phương pháp với chuỗi Foreman Trung bình -2,63 -0,53 -1,54 Từ kết quả được chỉ ra trong bảng III và IV, ta nhận thấy:  NN-WZ-HEVC so với HEVC Intra: Hiệu năng RD của NN-WZ-HEVC tốt hơn so với HEVC cho hầu hết các chuỗi ngoại trừ chuỗi Coastguard là chuỗi có chuyển động nhanh và phức tạp. Đối với các chuỗi chuyển động chậm, NN-WZ-HEVC cho kết quả tốt hơn bởi vì SI có chất lượng tốt. Khi đo bằng đại lượng BD-Rate, NN-WZ-HEVC có thể tiết kiệm đến 90,64% đối với chuỗi chuyển động chậm, ví dụ Foreman. Tổng thể, NN-WZ-HEVC đạt được mức tiết kiệm tốc độ bit trung bình là 32,83% và mức cải thiện BD-PSNR lên tới 1,54dB. Hình 6. RD của các phương pháp với chuỗi Akiyo ISBN 978-604-80-5958-3 406
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) “Overview of the H.264/AVC Video Coding Standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 560–576, 2003. [5] H. Standard, G. J. Sullivan, J. Ohm, W. Han, and T. Wiegand, “Overview of the High Efficiency Video Coding,” IEEE Trans. Circuits Syst. Video Technol., vol. 22, no. 12, pp. 1649–1668, 2012. [6] C. Brites and F. Pereira, “Improving frame interpolation with spatial motion smoothing for pixel domain distributed video coding,” EURASIP Conf. Speech Image Process. Hình 7. RD của các phương pháp với chuỗi Soccer Multimed. Commun. Serv. Smolenice, Slovak Repub., no. January, 2005. V. KẾT LUẬN [7] J. Park, B. Jeon, D. Wang, and A. Vincent, “Wyner-Ziv video coding with region adaptive Trong bài báo này, chúng tôi đề xuất phương pháp quantization and progressive channel noise cải tiến chất lượng của thông tin phụ trợ cho mã hóa modeling,” 2009 IEEE Int. Symp. Broadband Wyner-Ziv bằng cách kết hợp hai ứng viên SI. Ứng Multimed. Syst. Broadcast. BMSB 2009, vol. viên SI đầu tiên chính là SI được tạo ra theo cách 0, 2009, doi: 10.1109/ISBMSB.2009.5133844. truyền thống sử dụng kỹ thuật MCTI và ứng viên SI thứ hai được tạo ra bằng mạng nơ-ron. Hai ứng viên [8] C. Brites, J. Ascenso, and F. Pereira, này sau đó được kết hợp với nhau để tạo thành SI cuối “Improving transform domain Wyner-Ziv cùng. Các kết quả thực nghiệm cho thấy khi so với các video coding performance,” in ICASSP, IEEE phương pháp trước đó, phương pháp tạo SI đề xuất có International Conference on Acoustics, Speech thể tạo ra SI chất lượng tốt hơn và do đó cải thiện được and Signal Processing - Proceedings, 2006, BD-PSNR và tiết kiệm được BD-Rate cho hệ thống mã vol. 2, pp. 525–528, doi: hóa video Wyner-Ziv. 10.1109/icassp.2006.1660395. Hướng phát triển tiếp theo của nghiên cứu này có [9] D. Kubasov, J. Nayak, and C. Guillemot, thể mở rộng theo một số cách. Đầu tiên là thực hiện tối “Optimal reconstruction in Wyner-Ziv video ưu hóa cho mạng nơ-ron để có kết quả tốt hơn. Sau đó coding with multiple side information,” 2007 có thể nghiên cứu xây dựng các mạng nơ-ron cho phù IEEE 9Th Int. Work. Multimed. Signal hợp với các ứng dụng cụ thể. Ví dụ, mạng nơ-ron có Process. MMSP 2007 - Proc., pp. 183–186, thể được xây dựng riêng cho ứng dụng thoại hội nghị 2007, doi: 10.1109/MMSP.2007.4412848. bằng cách thay đổi dữ liệu huấn luyện để phản ánh đúng bản chất của loại ứng dụng này. Với sự phát triển [10] A. Aaron, S. D. Rane, E. Setton, and B. Girod, nhanh chóng của các nghiên cứu về học sâu, việc áp “Transform-domain Wyner-Ziv codec for dụng mạng nơ-ron có thể mang lại các kết quả tốt hơn video,” Vis. Commun. Image Process. 2004, rất nhiều. vol. 5308, p. 520, 2004, doi: 10.1117/12.527204. TÀI LIỆU THAM KHẢO [11] J. Ascenso, C. Brites, and F. Pereira, [1] D. Slepian, J. K. Wolf, and D. Slepian, “Improving Frame Interpolation with Spatial “Noiseless Coding of Correlated Information Motion Smoothing for Pixel Domain Sources,” IEEE Trans. Inf. Theory, vol. 19, no. Distributed Video Coding,” 5th EURASIP 4, pp. 471–480, 1973, doi: Conf. Speech Image Process. Multimed. 10.1109/TIT.1973.1055037. Commun. Serv., no. Dvc, pp. 1–6, 2005. [2] A. Wyner and J.Ziv, “The Rate-Distortion [12] D. Kubasov, C. Guillemot, C. U. De Beaulieu, Function for Source Coding with Side and G. Leclerc, “Mesh-Based Motion- Information at the Decoder,” IEEE Trans. Inf. Compensated Interpolation for Side Theory., vol. 22, no. 1, pp. 1–10, 1976. Information Extraction in Distributed Video [3] X. Artigas, J. Ascenso, M. Dalai, S. Klomp, D. Coding , 2006, pp. 26,” in International Kubasov, and M. Ouaret, “The DISCOVER Conference on Image Processing, Atlanta, GA, codec: architecture, techniques and 2006, pp. 261–264. evaluation.,” Proc. Pict. Coding Symp., pp. 6– [13] R. Puri, A. Majumdar, and K. Ramchandran, 9, 2007. “PRISM: A video coding paradigm with [4] T. Wiegand, G. J. Sullivan, S. Member, G. motion estimation at the decoder,” IEEE Bjøntegaard, A. Luthra, and S. Member, Trans. Image Process., vol. 16, no. 10, pp. ISBN 978-604-80-5958-3 407
  7. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) 2436–2448, 2007, doi: [18] H. Van Luong, L. L. Raket, and S. 10.1109/TIP.2007.904949. Forchhammer, “Re-estimation of motion and [14] R. Puri and K. Ramchandran, “PRISM: A new reconstruction for distributed video coding,” robust video coding architecture based on IEEE Trans. Image Process., vol. 23, no. 7, distributed compression principles,” 2002. pp. 2804–2819, 2014, doi: [15] A. Aaron, S. Rane, and B. Girod, “Wyner-Ziv 10.1109/TIP.2014.2320364. video coding with hash-based motion [19] R. Martins, C. Brites, J. Ascenso, and F. compensation at the receiver,” in 2004 Pereira, “Refining side information for International Conference on Image improved transform domain wyner-ziv video Processing, 2004. ICIP ’04., Singapore, 2004, coding,” IEEE Trans. Circuits Syst. Video pp. 3097–3100. Technol., vol. 19, no. 9, pp. 1327–1341, 2009, [16] F. Pereira and J. Ascenso, “Adaptive Hash- doi: 10.1109/TCSVT.2009.2022783. Based Side Information Exploitation for [20] T. V. Huu, T. Nguyen Thi Huong, M. N. Efficient Wyner-Ziv Video Coding,” in EEE Ngoc, and X. Hoangvan, “Improving International Conference on Image performance of distributed video coding by Processing, San Antonio, TX, 2007, vol. 9, pp. consecutively refining of side information and 29–32. correlation noise model,” Proc. - 2019 19th [17] A. Abou-Elailah, F. Dufaux, M. Cagnazzo, B. Int. Symp. Commun. Inf. Technol. Isc. 2019, Pesquet-Popescu, and J. Farah, “Successive pp. 502–506, 2019, doi: refinement of side information using adaptive 10.1109/ISCIT.2019.8905187. search area for long duration GOPs in [21] G. Bjontegaard, “Calculation of average PSNR distributed video coding,” 2012 19th Int. Conf. differences between RD curves,” 2001. Telecommun. ICT 2012, no. Ict, 2012, doi: 10.1109/ICTEL.2012.6221275. ISBN 978-604-80-5958-3 408
nguon tai.lieu . vn