Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Phương pháp tạo thông tin phụ trợ dựa trên kỹ
thuật học máy cho mã hóa video Wyner-Ziv
Nguyễn Thị Hương Thảo & Vũ Hữu Tiến
Học Viện Công Nghệ Bưu Chính Viễn Thông
Email: { thaonth, tienvh}@ptit.edu.vn
Abstract— Mã hóa video Wyner-Ziv (WZ) là một trường xét mức độ méo tín hiệu thì sẽ không có sự tổn thất về
hợp đặc biệt của mã hóa video phân tán – sơ đồ mã hóa hiệu suất nén khi so với trường hợp mã hóa kết hợp.
video dựa trên các định lý Slepian-Wolf và Wyner-Ziv. Dựa trên các định lý này, một số sơ đồ mã hóa video
Ngược lại với bộ mã hóa video dự đoán, mã hóa video WZ thực tế được đề xuất từ năm 2002 bởi một số nhóm
WZ khai thác thống kê nguồn tại phía bộ giải mã để giữ
nghiên cứu. Trong số đó phải kể đến kiến trúc
cho bộ mã hóa có độ phức tạp thấp. Tuy nhiên, cho đến
hiện nay mã hóa video WZ vẫn chưa đạt được hiệu năng DISCOVER [3] của nhóm dự án Châu Âu. Trong kiến
nén như các giải pháp mã hóa video dự đoán truyền trúc này, các khung hình của chuỗi được chia thành hai
thống. Lý do chính là đến từ việc tạo thông tin phụ trợ - tập khung hình: các khung hình chính và khung hình
một dự đoán của khung hình WZ gốc, có chất lượng WZ. Nhóm ảnh (GOP) có kích thước n được định
chưa cao. Để khắc phục vấn đề này, bài báo đề xuất một nghĩa là một tập gồm n khung hình trong có có một
kỹ thuật tạo thông tin phụ trợ cải tiến cho mã hóa video khung hình chính và n 1 khung hình WZ. Các khung
WZ bằng cách kết hợp hai ứng viên thông tin phụ trợ để
tạo ra thông tin phụ trợ có chất lượng tốt trong quá trình
hình chính được mã hóa và giải mã độc lập sử dụng các
giải mã. Các kết quả mô phỏng cho thấy các cải tiến đáng kỹ thuật mã hóa chế độ Intra ví dụ như H.264/AVC
kể của chất lượng thông tin phụ trợ, và do đó là hiệu Intra [4] hoặc HEVC Intra [5]. Các khung hình WZ
năng nén của bộ mã hóa video phân tán trong các điều được mã hóa một cách độc lập, được biến đổi sang
kiện khác nhau như sự thay đổi của nội dung chuỗi miền tần số và được lượng tử hóa. Tại phía bộ giải mã,
video, kích thước video. các khung hình chính đã giải mã được sử dụng để tạo
ra thông tin phụ trợ - đây là một ước lượng của khung
Keywords- Video WZ, thông tin phụ trợ. hình WZ cần giải mã. Để ước lượng thông tin phụ trợ,
kiến trúc DISCOVER sử dụng kỹ thuật nội suy thời
I. GIỚI THIỆU gian bù chuyển động (MCTI) [6].
Mã hóa video WZ là sơ đồ mã hóa video khai thác Tuy nhiên, mã hóa video WZ vẫn chưa đạt được
sự giống nhau giữa các khung hình liên tiếp của chuỗi hiệu năng nén như mã hóa video dự đoán. Một phần là
video tại phía giải mã chứ không phải phía mã hóa như do chất lượng của thông tin phụ trợ vì thông tin phụ trợ
các giải pháp mã hóa video dự đoán truyền thống. Do có ảnh hưởng lớn đến hiệu năng nén của hệ thống. Đã
đó, các bộ mã hóa trong kiến trúc mã hóa video WZ có rất nhiều đề xuất được đưa ra nhằm cải tiến chất
thường có độ phức tạp thấp và điều này phù hợp với lượng của thông tin phụ trợ. Trong bài báo này, chúng
các ứng dụng mới như mạng giám sát video, mạng cảm tôi đề xuất một phương pháp mới để cải tiến chất lượng
biến đa phương tiện. Các ứng dụng này yêu cầu bộ mã của thông tin phụ trợ trong mã hóa video WZ miền
hóa có độ phức tạp thấp trong khi cho phép bộ giải mã biến đổi. Trong giải pháp này, chúng tôi tạo ra thông
có độ phức tạp cao hơn. Ngoài ra, kiến trúc mã hóa tin phụ trợ bằng cách kết hợp hai SI ứng viên. SI ứng
video WZ còn có khả năng phân bố linh hoạt độ phức viên thứ nhất là SI được tạo ra theo phương pháp
tạp giữa bộ mã hóa và bộ giải mã tùy theo yêu cầu cụ truyền thống và ứng viên SI thứ hai được tạo ra dựa
thể. trên mạng nơ-ron. Sau đó hai ứng viên này được kết
Từ quan điểm lý thuyết thông tin, định lý Slepian- hợp với nhau để tạo ra SI cuối cùng. Phương pháp này
Wolf [1] đối với nén không tổn thất phát biểu rằng có có thể tạo ra thông tin phụ trợ chính xác hơn và càng
thể mã hóa các nguồn có tương quan với nhau một giống với khung hình WZ gốc bằng cách lựa chọn kỹ
cách độc lập và giải mã chúng bằng cách kết hợp mà thuật học máy phù hợp.
vẫn đạt được cùng tốc độ như trường hợp mã hóa và Bài báo được cấu trúc như sau. Phần II giới thiệu các
giải mã kết hợp. Định lý này sau đó được mở rộng với nghiên cứu liên quan bao gồm giới thiệu ngắn gọn về
tên gọi định lý Wyner-Ziv [2] phát biểu rằng khi mã kiến trúc bộ mã hóa được sử dụng trong bài báo và các
hóa hóa độc lập với một số thông tin phụ trợ sẵn có tại nghiên cứu trước đó về tạo thông tin phụ trợ. Phần III
phía giải mã với một số điều kiện nào đó, nghĩa là khi mô tả hệ thống đề xuất. Các tham số mô phỏng và kết
và là các nguồn Gauss kết hợp không nhớ và có xem quả mô phỏng được trình bày trong Phần IV và kết
luận được đưa ra trong Phần V.
ISBN 978-604-80-5958-3 402
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
II. CÁC NGHIÊN CỨU LIÊN QUAN vector chuyển động trước. Tiếp đó, ước lượng chuyển
A. Kiến trúc bộ mã hóa WZ-HEVC động song hướng lọc các vector chuyển động thu được
ở bước trước với ràng buộc về phép chiếu tuyến tính
Phần này giới thiệu về bộ mã hóa WZ miền biến đổi
giữa khung hình tham chiếu trước và sau. Để cải thiện
với tên gọi WZ-HEVC. Khác với bộ mã hóa độ mượt không gian, bộ lọc trung vị có trọng số sẽ
DISCOVER ban đầu [3], các khung hình chính trong được sử dụng. Cuối cùng, bù chuyển động song hướng
bộ mã hóa này được mã hóa bằng bộ mã hóa HEVC- được thực hiện để tạo ra thông tin phụ trợ, một ước
Intra. Vì vậy nó có tên gọi là WZ-HEVC và được mô lượng của WZF tương ứng.
tả trong Hình 1.
Mặt phẳng bit WZF đã
giải mã
Mô hình nhiễu tương quan: Thống kê dư thừa giữa
WZF Biến đổi
DCT
Bộ lượng tử
đồng nhất
Bộ mã hóa
LDPCA
Bộ
đệm
Bộ giải mã
LDPCA
Tái tạo IDCT các hệ số DCT của WZF gốc và khung hình SI tương
Kênh phản hồi
ứng được giả định tuân theo phân bố Laplace như sau:
Mô hình hóa nhiễu x y
f X / y ( x)
DCT
tương quan
e (1)
Tạo SI
2
Bộ đệm
ở đó f X / y là hàm mật độ xác suất của X với y cho
khung hình
KF
Bộ mã hóa Bộ giải mã
KF đã
giải mã
trước. là tham số của phân bố Laplace được xác định
HEVC Intra HEVC Intra
bởi công thức sau:
2
Hình 1. Kiến trúc bộ mã hóa WZ-HEVC (2)
2
Quá trình mã hóa
Chuỗi video đầu vào được phân tách thành các Trong công thức (2), 2 là phương sai của dư thừa
khung hình chính (KF) X 2t 1 và các khung hình WZ giữa khung hình WZF gốc và khung hình SI tương
(WZF) X t . Các KF được mã hóa bằng bộ mã hóa ứng. Trong bộ mã hóa được sử dụng ở bài báo này,
tham số của phân bố Laplace được ước lượng trực
HEVC Intra và WZF được mã hóa theo nguyên tắc
tuyến tại bộ giải mã ở mức dải hệ số.
phân tán như sau:
Bộ giải mã LDPCA: Khi đã có các hệ số DCT của
Biến đổi DCT: Mỗi WZF được chia thành các khối
khung hình SI và nhiễu tương quan đối với một dải hệ
không chồng nhau có kích thước 4 4 và biến đổi
số DCT, các mặt phẳng bit của dải hệ số được giải
DCT được áp dụng cho mỗi khối để tạo thành các hệ số
mã LDPCA với sự hỗ trợ của các bit chẵn lẻ được gửi
DCT tương ứng với các pixel trong mỗi khối.
từ bộ mã hóa thông qua kênh phản hồi. Để quyết định
Lượng tử hóa: Để giảm tốc độ bit, các hệ số DCT có cần gửi thêm các bit chẵn lẻ để giải mã thành công
được lượng tử hóa. Các hệ số DCT được nhóm thành cho một mặt phẳng bit nào đó, tiêu chí dừng yêu cầu
16 dải hệ số bk (k 0;15) ở đó mỗi dải hệ số gồm các được sử dụng. Để phát hiện và sửa các lỗi còn lại trong
mỗi mặt phẳng bit, tổng kiểm tra dư thừa vòng (CRC)
hệ số có cùng vị trí trong các khối khác nhau. Các dải
được tính cho mỗi mặt phẳng bit tại bộ mã hóa và gửi
DCT này được lượng tử đồng nhất với bộ lượng tử
tới bộ giải mã. Bộ giải mã sẽ tính CRC tương ứng cho
2M k ở đó M k là số bit biểu diễn cho các hệ số DCT mỗi mặt phẳng bit đã giải mã LDPCA thành công và so
của dải hệ số bk . Các ma trận lượng tử được chọn sánh với CRC nhận được từ bộ mã hóa để đảm bảo loại
tương ứng với các mức tốc độ bit khác nhau như trong bỏ xác suất lỗi cho mỗi mặt phẳng bit được giải mã.
[7]. Sau khi một mặt phẳng bit được giải mã LDPCA thành
công, các mặt phẳng bit còn lại của cùng một dải hệ số
Bộ mã hóa LDPCA: Mỗi mặt phẳng bit được đưa sẽ được xử lý tiếp theo cách tương tự.
vào bộ mã hóa LDPCA để tạo ra các bit chẵn lẻ tương
ứng. Các bit chẵn lẻ này được lưu tại bộ đệm khung Tái tạo: Các mặt phẳng bit đã giải mã LDPCA
hình và các bit hệ thống bị loại bỏ. Các bit chẵn lẻ được cùng với khung hình SI và thống kê dư thừa cho mỗi
truyền tới bộ giải mã theo từng cụm tùy theo yêu cầu từ dải hệ số DCT được sử dụng cùng nhau để tái tạo lại hệ
bộ giải mã. số DCT ban đầu. Giá trị tái tạo cho mỗi hệ số DCT của
mỗi dải hệ số DCT được cho trong [9]:
Quá trình giải mã
u
Tại bộ giải mã, các KF được giải mã bằng bộ giải
mã HEVC Intra và các WZF được giải mã với sự trợ xf X|y ( x | y )dx
giúp của các KF này. x ' E x | q ', y l
u
(3)
Tạo thông tin phụ trợ: Khối nội suy thời gian bù f X | y ( x | y )dx
chuyển động tạo ra thông tin phụ trợ, một ước lượng l
của WZF ở bộ mã hóa, bằng cách sử dụng các KF đã ở đó x ' là hệ số DCT tái tạo, y là hệ số DCT tương
giải mã trước và sau như trong [8]. Trong mô-đun này, ứng của WZF và E[.] là toán tử kỳ vọng. l , u là các
hai khung hình tham chiếu được lọc thông thấp để
giảm nhiễu cho quá trình ước lượng chuyển động. Sau biên dưới và trên tương ứng của q ' .
đó thực hiện ước lượng chuyển động trước để có được
ISBN 978-604-80-5958-3 403
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Biến đổi DCT ngược (IDCT): Cuối cùng, các hệ số thêm từ bộ mã hóa gửi tới [15][16]. Trong các giải
DCT tái tạo được biến đổi DCT ngược để nhận được pháp này, bộ mã hóa thường tạo ra mã băm cho mỗi
khung hình miền pixel. khối và gửi tới bộ giải mã để hỗ trợ quá trình giải mã
B. Các phương pháp tạo thông tin phụ trợ nhằm cải thiện chất lượng SI. Tuy nhiên, nhược điểm
Trong mã hóa video dự đoán, các kỹ thuật ước của các phương pháp này là độ phức tạp của bộ mã
lượng và bù chuyển động góp phần cải tiến chất lượng hóa sẽ tăng lên. Một hướng tiếp cận khác là SI ban đầu
của các khung hình dự đoán dẫn đến các cải tiến đáng được lọc liên tục qua nhiều vòng lặp trong quá trình
kể hiệu năng nén của hệ thống. Cũng như vậy, các kỹ giải mã LDPCA bằng cách sử dụng các dữ liệu đã giải
thuật tạo thông tin phụ trợ tại bộ giải mã góp phần mã trước đó [17][18][19][20]. Với cách tiếp cận này,
quan trọng vào việc cải tiến hiệu năng nén trong mã sự tương đồng giữa SI và khung hình WZ gốc sẽ tăng
hóa video WZ để rút ngắn khoảng cách hiệu năng so liên tục trong quá trình giải mã và vì vậy sẽ cải thiện
với mã hóa video dự đoán. Tương quan giữa thông tin chất lượng cuối cùng và giảm tốc độ bit yêu cầu. Hơn
phụ trợ tại bộ giải mã giữa thông tin phụ trợ tại bộ giải nữa, do không cần phải tạo và gửi thông tin thêm về
mã và khung hình WZ hiện thời tại bộ mã hóa càng khung hình hiện thời nên bộ mã hóa vẫn giữ được độ
cao thì số lượng bit cần gửi từ bộ mã hóa đến bộ giải phức tạp thấp. Nhược điểm của các cách tiếp cận này
mã càng ít để đạt được chất lượng nào đó. Vì vậy, chất là độ phức tạp bộ giải mã sẽ tăng lên so với các giải
lượng SI đóng vai trò trung tâm giúp đạt hiệu năng nén pháp trước đó.
cho bộ mã hóa WZ. Tuy nhiên, câu hỏi đặt ra là: làm Trong bài báo này đề xuất một phương pháp tạo SI
thế nào để tạo ra thông tin phụ trợ tại bộ giải mã trong bằng cách kết hợp SI được tạo ra ban đầu bằng
khi khung hình WZ gốc không sẵn có tại bộ giải mã? phương pháp MCTI với SI được tạo ra bằng mạng nơ-
Câu trả lời là rất khó để dự đoán một cách chính xác ron. Điều này giúp tạo ra các SI có chất lượng tốt hơn
tuyệt đối khung hình WZ gốc mà chỉ có thể dự đoán so với việc chỉ sử dụng SI ban đầu.
với mức độ chính xác nào đó dựa trên các khung hình
chính đã giải mã trước đó. Cho đến hiện nay, có rất III. HỆ THỐNG ĐỀ XUẤT
nhiều nghiên cứu tập trung vào các giải pháp tạo SI.
Có thể phân loại các kỹ thuật tạo SI thành hai loại Hình 2 mô tả bộ mã hóa video miền biến đối dựa
chính là tạo SI cơ bản và tạo SI nâng cao. Các kỹ thuật trên cấu trúc bộ mã hóa WZ-HEVC được đề cập ở
tạo SI cơ bản thường là tạo ra các SI có thể sử dụng mục II.
trực tiếp trong quá trình giải mã. Ngược lại, các kỹ Khung hình
Bộ mã hóa Bộ giải mã
Bộ lượng WZ đã giải mã
Bộ mã Bộ giải
thuật tạo SI nâng cao thường thực hiện cải tiến chất DCT hóa mã
tử hóa Bộ đệm Tái tạo IDCT
đồng nhất LDPCA LDPCA
lượng của SI ban đầu trong suốt quá trình giải mã, các Các mặt phẳng bit
Kênh phản hồi
SI ban đầu được tạo ra bằng các kỹ thuật tạo SI cơ bản. Mô hình nhiễu
DCT
Với các kỹ thuật tạo SI cơ bản thường phát triển Khung
hình WZ
tương quan
theo hai hướng chính. Cách tiếp cận thứ nhất là tạo ra MCTI Tạo SI
SI tương ứng cho mỗi khung hình WZ tại bộ giải mã
trước khi quá trình giải mã LDPCA bắt đầu. SI được
Mô hình mạng
Nơ-ron
tạo ra dựa trên các khung hình đã giải mã trước đó mà Bộ đệm
khung hình
Chuỗi video Khung hình
không cần bất cứ dữ liệu bổ sung nào từ phía bộ mã đầu vào chính Khung hình
Chia tách Bộ mã hóa Bộ giải mã chính đã giải mã
hóa [10][11][12]. Các giải pháp này có ưu điểm là bộ khung hình HEVC Intra HEVC Intra
mã hóa không cần tạo và gửi các thông tin bổ sung về
Hình 2. Kiến trúc mã hóa video WZ đề xuất
khung hình hiện thời nhưng có nhược điểm là khó ước
lượng chuyển động một cách chuẩn xác khi kích thước
Cụ thể, trong phương pháp này, khung hình SI được
GOP lớn cũng như tại các vùng có chuyển động bất
tạo ra bằng cách kết hợp từ hai khung hình: khung
thường hay chuyển động nhanh. Cách tiếp cận thứ hai
hình SI MCTI được tạo ra bằng kỹ thuật MCTI như được
là SI được tạo ra bằng cách thử lần lượt dựa vào các
khung hình đã giải mã trước đó và một số dữ liệu điều mô tả trong [11] và khung hình SI NN được tạo ra bằng
khiển từ bộ mã hóa gửi lới. Theo cách tiếp cận này, bộ mạng nơ-ron với đầu vào là các tham số của hai khung
giải mã kênh sẽ chạy một số lần cho mỗi ứng viên SI hình chính.
và ứng viên tốt nhất sẽ được chọn dựa theo tiêu chí đã Hai khung hình SI MCTI và SI NN được kết hợp để
định trước [13][14]. Có thể thấy cách tiếp cận này có tạo ra khung hình SI cuối cùng. Các bước tạo khung
ưu điểm là có khả năng thích ứng tốt với nội dung hình SI được mô tả chi tiết như sau.
video do có thực hiện một số kỹ thuật ước lượng đơn
giản. Tuy nhiên nó lại làm tăng thêm độ phức tạp cho Bước 1: Tạo khung hình SI MCTI
bộ mã hóa cũng như cần phải truyền thêm dữ liệu điều
khiển sang phía giải mã. SI MCTI là khung hình được tạo ra bằng kỹ thuật
Để cải tiến hơn nữa chất lượng của SI, các giải pháp MCTI và được mô tả ngắn gọn theo sơ đồ Hình 3.
tạo SI nâng cao được đề xuất. Các SI vẫn có thể được Hai KF tham chiếu trước và sau được lọc thông
tạo ra trước khi giải mã LDPCA nhưng có sử dụng thấp và được sử dụng như các tham chiếu trong thuật
thêm một số thông tin bổ sung hay còn gọi là các gợi ý toán ước lượng chuyển động tìm kiếm đầy đủ sử dụng
ISBN 978-604-80-5958-3 404
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
tiêu chí đối sánh cải tiến. Tiêu chí đối sánh này ưu tiên đầu ra là hệ số DC hoặc AC được dự đoán của khối
các vector chuyển động ở gần tâm. Sau đó thực hiện hình trong khung hình SI NN . Hàm kích hoạt ReLU
ước lượng chuyển động song hướng. Trong bước này, được sử dụng tại mỗi nơ-ron.
các vector chuyển động tương ứng với mỗi khối của SI
được lựa chọn và lọc. Tiếp theo, bộ lọc vector trung vị Bước 3: Tạo khung hình SI
có trọng số được sử dụng để cải thiện độ mịn không Khung hình SI cuối cùng dùng cho việc giải mã
gian của trường chuyển động. Cuối cùng, với vector khung hình WZ được tạo bằng cách kết hợp hai khung
chuyển động có được, các khối của SI được tạo ra bằng
hình SI MCTI và khung hình SI NN như sau:
cách lấy trung bình của bù chuyển động cho các khối
của các KF. SI 1.SI MCTI 2 .SI NN (4)
Bước 2: Tạo khung hình SI NN
Trong đó 1 và 2 là hai trọng số đo mức độ quan
Trong phương pháp này, mô hình mạng nơ-ron trọng của hai khung hình SI MCTI và SI NN trong việc
được sử dụng để dự đoán khung hình SI NN từ hai tạo ra khung hình SI. Trong phương pháp đề xuất, các
khung hình chính. hệ số 1 và 2 được tìm bằng thực nghiệm với các giá
trị tương tứng là 0,25 và 0,75.
IV. ĐIỀU KIỆN THỬ NGHIỆM VÀ KẾT QUẢ
THỬ NGHIỆM
A. Điều kiện thử nghiệm
Hình 3. Kỹ thuật tạo thông tin phụ trợ bằng nội suy Để đánh giá hiệu năng của giải pháp tạo thông tin
khung hình phụ trợ đề xuất so với các phương pháp khác, bốn
Cụ thể, hai KF được chia thành các khối kích thước chuỗi video sau được sử dụng là “Akiyo”,
4 4 và được biến đổi cosin rời rạc (DCT). Các hệ số “Carphone”, “Foreman” và “Coastguard” với các
DC và AC của hai khối tương ứng trong hai khung đặc điểm được mô tả trong Bảng II.
hình chính được đưa vào mạng nơ-ron để dự đoán các Phương pháp tạo SI đề xuất được đánh giá khi áp
hệ số DC và AC cho khối hình 4 4 của khung hình dụng trong bộ mã hóa Wyner-Ziv và so sánh với các
SI NN . phương pháp tạo SI khác.
Dữ liệu được sử dụng để huấn luyện là các khối ảnh
Bảng II. Điều kiện thử nghiệm
4 4 trong các khung hình của các chuỗi video
"Harbor", "Husky", "Mobile", News" và "Pamphlet" Chuỗi Độ phân Số khung Tham số
với độ phân giải không gian 176 144 , số lượng các Video giải hình lượng tử
khung hình của mỗi chuỗi là 300. Các chuỗi được chọn Carphone {25,29,34,40}
có sự đa dạng về kết cấu ảnh và đặc tính chuyển động Foreman {25,29,34,40}
176x144 300
của chuỗi. Các chuỗi này được mã hóa và giải mã Akiyo {25,29,34,40}
HEVC Intra với bốn tham số lượng tử. Tổng số khối Coastguard {26,30,34,38}
hình dùng để huấn luyện mô hình là 1.188.000 khối. Phần đánh giá này sử dụng các bộ mã hóa sau:
Để huấn luyện cho tập dữ liệu xây dựng ở trên, HEVC Intra: Bộ mã hóa này sử dụng phần mềm
phương pháp đề xuất sử dụng mạng nơ-ron nhiều lớp. tham chiếu HM với chệ độ mã hóa Intra. Đây là bộ
Để quyết định cấu trúc mạng nơ-ron với số lớp ẩn và số mã hóa đại diện cho mã hóa video dự đoán được
nơ-ron trong mỗi lớp, một số cấu trúc mạng khác nhau lựa chọn để so sánh vì có độ phức tạp bộ mã hóa
đã được thử nghiệm. Kết quả thử nghiệm một số cấu thấp.
trúc mạng được thể hiện trong bảng I.
WZ-HEVC: Đây là bộ mã hóa Wyner-Ziv tuân
Bảng I. Độ chính xác của một số cấu trúc mạng nơ-ron
theo kiến trúc DISCOVER với khung hình chính
được mã hóa bởi HEVC Intra và SI được tạo ra
Cấu trúc mạng Sai số tuyệt đối trung bình bằng phương pháp MCTI.
(MAE)
{2,1} 1,91 ReSI-WZ-HEVC: Đây là bộ mã hóa WZ-HEVC
{2,2,1} 0,85 với mô-đun tạo SI cải tiến được nhóm tác giả đề
{2,2,2,1} 0,82 xuất trong [20].
{2,3,2,1} 0,78 NN-WZ-HEVC: Đây là bộ mã hóa được xây dựng
{2,4,2,1} 0,82 trên WZ-HEVC với mô-đun tạo SI bằng mạng nơ-
Như kết quả chỉ ra trong bảng I, cấu trúc mạng nơ- ron như đề xuất trong mục III.
ron gồm một lớp đầu vào, hai lớp ẩn và một lớp đầu ra
được lựa chọn. Lớp đầu vào gồm hai giá trị là các hệ số Hiệu năng ở đây là hiệu năng méo – tốc độ bit (RD)
DC hoặc AC của hai khối hình trong hai khung hình của phương pháp đề xuất với một số phương pháp
chính. Lớp ẩn 1, 2 tương ứng gồm 3 và 2 nơ-ron. Lớp trước đó. Hai đại lượng BD-PSNR và BD-Rate [21]
ISBN 978-604-80-5958-3 405
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
cũng được sử dụng trong các đánh giá. Đại lượng BD- NN-WZ-HEVC so với các bộ mã hóa WZ khác:
PSNR cho biết mức cải thiện tương đối giữa hai Hiệu năng RD của bộ mã hóa NN-WZ-HEVC đạt
phương pháp bằng cách đo lường sự sai khác trung được mức cải thiện đáng kể so với hai bộ mã hóa
bình giữa hai đường cong RD trong đó một đường WZ còn lại. Khi so với bộ mã hóa WZ-HEVC, mức
cong RD được chọn làm đường cong cơ sở. Trong cải tiến BD-PSNR lên tới 6,21 dB và mức tiết kiệm
nghiên cứu này, NN-WZ-HEVC được chọn làm đường tốc độ bit đạt tới 151,28% đối với chuỗi Akiyo. Đối
cong cơ sở. Nếu BD-PSNR âm, điều đó có nghĩa là bộ với các chuỗi chuyển động phức tạp và nhanh thì
mã hóa NN-WZ-HEVC có hiệu năng tốt hơn. Tương tự việc tạo SI vẫn gặp khó khăn nên chất lượng SI
như vậy, đại lượng BD-Rate cho biết mức độ tiết kiệm chưa cao. Tuy nhiên, về tổng thể, NN-WZ-HEVC
tốc độ bit giữa hai phương pháp. Nếu BD-Rate có giá vẫn đạt được mức giảm tốc độ bit trung bình là
trị dương, điều đó có nghĩa là đường cong cơ sở NN- 59,28% khi so với bộ mã hóa WZ-HEVC và 8,13%
WZ-HEVC có mức tiết kiệm tốc độ bit tốt hơn. khi so với bộ mã hóa ReSI-WZ-HEVC.
B. Kết quả và phân tích
Bảng III, IV và Hình 4, 5, 6, 7 mô tả và so sánh
hiệu năng (trên phương diện tốc độ bit và chất lượng
khung hình sau giải nén) của phương pháp đề xuất (thể
hiện bằng hiệu năng RD của bộ mã hóa NN-WZ-
HEVC) so với các phương pháp tạo SI khác (thể hiện
bằng hiệu năng RD của các bộ mã hóa WZ-HEVC,
ReSI-WZ-HEVC) và bộ mã hóa truyền thống HEVC-
Intra đại diện cho bộ mã hóa có độ phức tạp thấp.
Bảng III. So sánh BD-Rate [%] của bộ mã hóa NN-WZ-
HEVC với các bộ mã khác
Chuỗi Video WZ- ReSI-WZ- HEVC
HEVC HEVC Intra
Hình 4. RD của các phương pháp với chuỗi Carphone
Carphone 70,74 8,43 4,72
Foreman 10,65 6,64 90,64
Akiyo 151,28 16,09 62,28
Coastguard 4,45 1,37 -26,36
Trung bình 59,28 8,13 32,83
Bảng IV. So sánh BD-PSNR [dB] của bộ mã hóa NN-WZ-
HEVC với các bộ mã hóa khác
Chuỗi Video WZ- ReSI-WZ- HEVC
HEVC HEVC Intra
Carphone -3,59 -0,66 -0,35
Foreman -0,54 -0,33 -3,74
Akiyo -6,21 -1,11 -3,56
Coastguard -0,18 -0,02 1,51 Hình 5. RD của các phương pháp với chuỗi Foreman
Trung bình -2,63 -0,53 -1,54
Từ kết quả được chỉ ra trong bảng III và IV, ta
nhận thấy:
NN-WZ-HEVC so với HEVC Intra: Hiệu năng
RD của NN-WZ-HEVC tốt hơn so với HEVC cho
hầu hết các chuỗi ngoại trừ chuỗi Coastguard là
chuỗi có chuyển động nhanh và phức tạp. Đối với
các chuỗi chuyển động chậm, NN-WZ-HEVC cho
kết quả tốt hơn bởi vì SI có chất lượng tốt. Khi đo
bằng đại lượng BD-Rate, NN-WZ-HEVC có thể tiết
kiệm đến 90,64% đối với chuỗi chuyển động chậm,
ví dụ Foreman. Tổng thể, NN-WZ-HEVC đạt được
mức tiết kiệm tốc độ bit trung bình là 32,83% và
mức cải thiện BD-PSNR lên tới 1,54dB. Hình 6. RD của các phương pháp với chuỗi Akiyo
ISBN 978-604-80-5958-3 406
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
“Overview of the H.264/AVC Video Coding
Standard,” IEEE Trans. Circuits Syst. Video
Technol., vol. 13, no. 7, pp. 560–576, 2003.
[5] H. Standard, G. J. Sullivan, J. Ohm, W. Han,
and T. Wiegand, “Overview of the High
Efficiency Video Coding,” IEEE Trans.
Circuits Syst. Video Technol., vol. 22, no. 12,
pp. 1649–1668, 2012.
[6] C. Brites and F. Pereira, “Improving frame
interpolation with spatial motion smoothing
for pixel domain distributed video coding,”
EURASIP Conf. Speech Image Process.
Hình 7. RD của các phương pháp với chuỗi Soccer Multimed. Commun. Serv. Smolenice, Slovak
Repub., no. January, 2005.
V. KẾT LUẬN [7] J. Park, B. Jeon, D. Wang, and A. Vincent,
“Wyner-Ziv video coding with region adaptive
Trong bài báo này, chúng tôi đề xuất phương pháp quantization and progressive channel noise
cải tiến chất lượng của thông tin phụ trợ cho mã hóa
modeling,” 2009 IEEE Int. Symp. Broadband
Wyner-Ziv bằng cách kết hợp hai ứng viên SI. Ứng
Multimed. Syst. Broadcast. BMSB 2009, vol.
viên SI đầu tiên chính là SI được tạo ra theo cách
0, 2009, doi: 10.1109/ISBMSB.2009.5133844.
truyền thống sử dụng kỹ thuật MCTI và ứng viên SI
thứ hai được tạo ra bằng mạng nơ-ron. Hai ứng viên [8] C. Brites, J. Ascenso, and F. Pereira,
này sau đó được kết hợp với nhau để tạo thành SI cuối “Improving transform domain Wyner-Ziv
cùng. Các kết quả thực nghiệm cho thấy khi so với các video coding performance,” in ICASSP, IEEE
phương pháp trước đó, phương pháp tạo SI đề xuất có International Conference on Acoustics, Speech
thể tạo ra SI chất lượng tốt hơn và do đó cải thiện được and Signal Processing - Proceedings, 2006,
BD-PSNR và tiết kiệm được BD-Rate cho hệ thống mã vol. 2, pp. 525–528, doi:
hóa video Wyner-Ziv. 10.1109/icassp.2006.1660395.
Hướng phát triển tiếp theo của nghiên cứu này có [9] D. Kubasov, J. Nayak, and C. Guillemot,
thể mở rộng theo một số cách. Đầu tiên là thực hiện tối “Optimal reconstruction in Wyner-Ziv video
ưu hóa cho mạng nơ-ron để có kết quả tốt hơn. Sau đó coding with multiple side information,” 2007
có thể nghiên cứu xây dựng các mạng nơ-ron cho phù IEEE 9Th Int. Work. Multimed. Signal
hợp với các ứng dụng cụ thể. Ví dụ, mạng nơ-ron có Process. MMSP 2007 - Proc., pp. 183–186,
thể được xây dựng riêng cho ứng dụng thoại hội nghị
2007, doi: 10.1109/MMSP.2007.4412848.
bằng cách thay đổi dữ liệu huấn luyện để phản ánh
đúng bản chất của loại ứng dụng này. Với sự phát triển [10] A. Aaron, S. D. Rane, E. Setton, and B. Girod,
nhanh chóng của các nghiên cứu về học sâu, việc áp “Transform-domain Wyner-Ziv codec for
dụng mạng nơ-ron có thể mang lại các kết quả tốt hơn video,” Vis. Commun. Image Process. 2004,
rất nhiều. vol. 5308, p. 520, 2004, doi:
10.1117/12.527204.
TÀI LIỆU THAM KHẢO [11] J. Ascenso, C. Brites, and F. Pereira,
[1] D. Slepian, J. K. Wolf, and D. Slepian, “Improving Frame Interpolation with Spatial
“Noiseless Coding of Correlated Information Motion Smoothing for Pixel Domain
Sources,” IEEE Trans. Inf. Theory, vol. 19, no. Distributed Video Coding,” 5th EURASIP
4, pp. 471–480, 1973, doi: Conf. Speech Image Process. Multimed.
10.1109/TIT.1973.1055037. Commun. Serv., no. Dvc, pp. 1–6, 2005.
[2] A. Wyner and J.Ziv, “The Rate-Distortion [12] D. Kubasov, C. Guillemot, C. U. De Beaulieu,
Function for Source Coding with Side and G. Leclerc, “Mesh-Based Motion-
Information at the Decoder,” IEEE Trans. Inf. Compensated Interpolation for Side
Theory., vol. 22, no. 1, pp. 1–10, 1976. Information Extraction in Distributed Video
[3] X. Artigas, J. Ascenso, M. Dalai, S. Klomp, D. Coding , 2006, pp. 26,” in International
Kubasov, and M. Ouaret, “The DISCOVER Conference on Image Processing, Atlanta, GA,
codec: architecture, techniques and 2006, pp. 261–264.
evaluation.,” Proc. Pict. Coding Symp., pp. 6– [13] R. Puri, A. Majumdar, and K. Ramchandran,
9, 2007. “PRISM: A video coding paradigm with
[4] T. Wiegand, G. J. Sullivan, S. Member, G. motion estimation at the decoder,” IEEE
Bjøntegaard, A. Luthra, and S. Member, Trans. Image Process., vol. 16, no. 10, pp.
ISBN 978-604-80-5958-3 407
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
2436–2448, 2007, doi: [18] H. Van Luong, L. L. Raket, and S.
10.1109/TIP.2007.904949. Forchhammer, “Re-estimation of motion and
[14] R. Puri and K. Ramchandran, “PRISM: A new reconstruction for distributed video coding,”
robust video coding architecture based on IEEE Trans. Image Process., vol. 23, no. 7,
distributed compression principles,” 2002. pp. 2804–2819, 2014, doi:
[15] A. Aaron, S. Rane, and B. Girod, “Wyner-Ziv 10.1109/TIP.2014.2320364.
video coding with hash-based motion [19] R. Martins, C. Brites, J. Ascenso, and F.
compensation at the receiver,” in 2004 Pereira, “Refining side information for
International Conference on Image improved transform domain wyner-ziv video
Processing, 2004. ICIP ’04., Singapore, 2004, coding,” IEEE Trans. Circuits Syst. Video
pp. 3097–3100. Technol., vol. 19, no. 9, pp. 1327–1341, 2009,
[16] F. Pereira and J. Ascenso, “Adaptive Hash- doi: 10.1109/TCSVT.2009.2022783.
Based Side Information Exploitation for [20] T. V. Huu, T. Nguyen Thi Huong, M. N.
Efficient Wyner-Ziv Video Coding,” in EEE Ngoc, and X. Hoangvan, “Improving
International Conference on Image performance of distributed video coding by
Processing, San Antonio, TX, 2007, vol. 9, pp. consecutively refining of side information and
29–32. correlation noise model,” Proc. - 2019 19th
[17] A. Abou-Elailah, F. Dufaux, M. Cagnazzo, B. Int. Symp. Commun. Inf. Technol. Isc. 2019,
Pesquet-Popescu, and J. Farah, “Successive pp. 502–506, 2019, doi:
refinement of side information using adaptive 10.1109/ISCIT.2019.8905187.
search area for long duration GOPs in [21] G. Bjontegaard, “Calculation of average PSNR
distributed video coding,” 2012 19th Int. Conf. differences between RD curves,” 2001.
Telecommun. ICT 2012, no. Ict, 2012, doi:
10.1109/ICTEL.2012.6221275.
ISBN 978-604-80-5958-3 408
nguon tai.lieu . vn