Xem mẫu
- Nghiên cứu khoa học công nghệ
THIẾT KẾ KIẾN TRÚC PHẦN CỨNG BỘ TÁCH TÍN HIỆU FSD
CHO HỆ THỐNG MIMO-HRSM
Nguyễn Xuân Nghĩa1,2*, Trần Sơn Tùng1, Lê Minh Tuấn2, Ngô Vũ Đức1
Tóm tắt: Trong bài báo này, chúng tôi đề xuất một kiến trúc phần cứng nhằm
làm giảm độ phức tạp của các máy thu hợp lý cực đại (ML: Maximum Likelihood)
trong hệ thống điều chế không gian tốc độ cao (HRSM: High Rate Spatial
Modulation). Dựa trên mô hình kết hợp thuật toán giải mã cầu và phân rã ma trận
có sắp xếp (Sorted QR decomposition), chúng tôi xây dựng kiến trúc phần cứng cho
hệ thống 4x4 ăng ten, điều chế 16QAM. Kết quả triển khai thiết kế cho thấy mô hình
chúng tôi đề xuất đạt được thông lượng cao hơn so với các mô hình truyền dẫn SM
hay GSM có cùng cấu hình ăng ten thu/phát, trong khi vẫn giữ độ trễ thấp và sử
dụng lượng tài nguyên phần cứng hợp lý.
Từ khóa: MIMO; HRSM; FSD; VLSI.
1. MỞ ĐẦU
Trong lĩnh vực viễn thông, MIMO là một công nghệ truyền dẫn không dây tiên tiến sử
dụng nhiều ăng ten trên cả máy phát và máy thu. Các hệ thống MIMO có thể tăng hiệu suất
phổ tần bằng cách truyền nhiều luồng dữ liệu đồng thời trong cùng một dải tần số [1, 2].
Vấn đề đặt ra khi triển khai hệ thống MIMO trên thực tế đó là phải đảm bảo sự cân
bằng giữa hiệu suất và độ phức tạp của hệ thống. Bộ tách sóng hợp lý cực đại (ML:
Maximum Likelihood) cho phẩm chất lỗi bít tối ưu nhưng có độ phức tạp quá lớn nên rất
khó khăn để triển khai trong thực tế. Chính vì thế, các bộ tách sóng có độ phức tạp thấp
như bộ tách cưỡng bức bằng không (ZF: Zero Forcing) hay bộ tách sai số bình phương
trung bình nhỏ nhất (MMSE: Minimum Mean Square Error) thường được sử dụng trong
các hệ thống MIMO ghép kênh theo không gian (SDM MIMO) bởi vì chúng có độ phức
tạp tính toán rất thấp. Tuy nhiên, nhược điểm của các bộ tách tín hiệu này lại là tỉ lệ lỗi bit
(BER) cao do nhiễu liên kênh còn sót lại khi tách lần lượt các tín hiệu, đặc biệt là trong
trường hợp hệ thống có số lượng ăng ten lớn. Vì vậy, kỹ thuật triệt nhiễu nối tiếp (SIC:
Successive Interference Cancellation) đã được sử dụng trong các bộ tách tín hiệu để khắc
phục điểm yếu này. Hệ thống Không gian-thời gian tuần tự theo lớp của phòng thí nghiệm
Bell (V-BLAST: Vertical-Bell Laboratories Layered Space-Time) được phát minh trong
[3] là một trong số các hệ thống như vậy. Hệ thống này sử dụng bộ tách tín hiệu ZF-
BLAST, thực chất là một bộ tách tín hiệu ZF kết hợp cùng với chương trình triệt nhiễu nối
tiếp SIC. Ngoài ra, trong [4, 5], một bộ tách tín hiệu nữa sử dụng SIC được đề xuất là ZF-
SQRD. Bộ tách này thiết kế dựa trên thuật toán SQRD và áp dụng phương pháp giảm độ
trễ, đã làm giảm được độ phức tạp giảm ở phía thu, tuy nhiên phẩm chất BER của hệ thống
này bị suy giảm so với các bộ tách ZF-VBLAST. Trong [6, 7] các tác giả đề xuất hai bộ
tách sóng mới cho hệ thống VBLAST là MMSE-BLAST và MMSE-SQRD. Kết quả tính
toán và mô phỏng cho thấy, bộ tách MMSE-BLAST cung cấp phẩm chất BER tốt hơn
SQRD-BLAST với cùng độ phức tạp tính toán.
Gần đây, hệ thống điều chế không gian tốc độ cao (HRSM: High Rate Spatial
Modulation) đã được Nguyễn Thu Phương và các cộng sự đề xuất trong [8]. Hệ thống này
cung cấp hiệu suất phổ tần cao hơn đáng kể so với phương pháp điều chế không gian trong
[9] và điều chế không gian tổng quát (GSM) trong [10, 11]. Nguyên lý làm việc của
HRSM dựa trên sự kết hợp kỹ thuật điều chế không gian SM với từ mã chòm sao không
gian (SC: Spatial Constellation). Cụ thể là HRSM đưa các bit thông tin vào chỉ số của ăng
ten và truyền từ mã thông qua điều chế biên độ cầu phương (QAM) hoặc điều chế pha
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 39
- Kỹ thuật điều khiển & Điện tử
PSK (Phase-shift keying). Vì vậy, hệ thống HRSM có hiệu suất BER tốt hơn do ít nhiễu
ICI và IAS hơn các hệ thống MIMO thông thường, như hệ thống STBC-SM [12]. Gần
đây, nhiều bộ tách tín hiệu phức tạp cho hệ thống HRSM được phát triển trong [13], gồm
các bộ tách tín hiệu MSQRD, MBLAST, và ISQRD. Cả 3 bộ tách tín hiệu này có độ phức
tạp thấp nhưng phẩm chất BER bị suy giảm đáng kể so với bộ tách tín hiệu tối ưu ML.
Bên cạnh các bộ tách tín hiệu đã nêu trên, thuật toán giải mã cầu (SD: Sphere
decoding) - một thuật toán tìm kiếm điểm dàn gần nhất tới vector nhận được - cũng được
coi là một cách tiếp cận đầy hứa hẹn. Bộ tách SD được đề xuất đầu tiên trong [14] bằng
cách sử dụng phương pháp liệt kê Fincke-Pohst (PE-SD). Sau đó phương pháp PE-SD đã
được chứng minh là kém hơn phương pháp liệt kê Schnorr-Euchner (SE-SD: Schnorr-
Euchner Sphere Decoding) trong [15] do SE-SD có độ phức tạp không phụ thuộc vào bán
kính cầu ban đầu. Tuy nhiên, SE-SD lại không thể triển khai thiết kế phần cứng theo
phương pháp pipelining do thuật toán đòi hỏi phải tìm kiếm đầy đủ tất cả các bộ giá trị
thỏa mãn điều kiện nằm trong bán kính hình cầu. Chính vì vậy, thuật toán SD có độ phức
tạp biến thiên theo đa thức. Điều này trở thành nút thắt trong việc triển khai thiết kế phần
cứng. Để khắc phục vấn đề này, Barbero và cộng sự đã giới thiệu một phương pháp tiếp
cận mới trong [16] gọi là phương pháp Giải mã cầu cố định (FSD: Fixed Sphere
Decoding). Phương pháp này đạt được thông lượng cố định và sử dụng tài nguyên phần
cứng hiệu quả trong khi vẫn duy trì phẩm chất BER gần với bộ tách tín hiệu tối ưu ML.
Trong bài báo này, chúng tôi đề xuất một thiết kế kiến trúc phần cứng có hiệu suất cao
cho bộ tách tín hiệu của hệ thống HRSM, sử dụng phương pháp Modified Gram Schmidt
SQRD (MGS-SQRD) và FSD. So với các thiết kế tương tự được nêu trong phần tài liệu,
cụ thể là thiết kế của Nguyễn (phần SQRD) trong [17], thiết kế của Barbero (phần FSD)
trong [16], và thiết kế của Chu (phần FSD) trong [18], thiết kế mà chúng tôi đề xuất đạt
được thông lượng lớn hơn đáng kể trong khi sử dụng lượng tài nguyên phần cứng hợp lý.
Ngoài ra, các khối trong kiến trúc phần cứng được thiết kế linh hoạt cho phép phát triển
hơn nữa trong các công trình nghiên cứu trong tương lai.
Phần tiếp theo của bài báo này được trình bày như sau: Mục 2 trình bày mô hình hệ
thống HRSM và nguyên lý làm việc của hai thuật toán SQRD, FSD. Thiết kế phần cứng
được trình bày chi tiết trong mục 3. Mục 4 là kết quả thực thi trên phần cứng và cuối cùng,
kết luận của bài báo được trình bày trong mục 5.
2. MÔ HÌNH HỆ THỐNG
2.1. Hệ thống HRSM
Hình 1. Mô hình hệ thống HRSM.
Xét hệ thống HRSM gồm ăng ten phát và ăng ten thu làm việc trong môi trường
kênh truyền fading Rayleigh cận tĩnh như hình 1. Trong mỗi chu kỳ phát tín hiệu, máy
phát phát đi một từ mã HRSM, , có độ dài + bít. Từ mã HRSM được tạo ra như sau:
luồng dữ liệu phát nối tiếp ( + ) bít được chuyển đổi thành hai luồng dữ liệu song song
có chiều dài lần lượt là m và l bít. Sau đó = 2 × ( − 1) bít được ánh xạ thành một từ
40 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
mã không gian (SC codeword) và bít được điều chế bởi bộ điều chế tín hiệu truyền
thống M-QAM/PSK để tạo ra ký hiệu điều chế , ( = 2 ). Cuối cùng từ mã HRSM
được tạo ra bằng cách nhân từ mã SC với như sau: = × . Để máy, thu có thể tách
được các tín hiệu đã phát một cách dễ dàng, phần tử đầu tiên của s luôn được cố định là 1,
các phần tử còn lại được lựa chọn trong tập ±1, ± phụ thuộc vào giá trị của bít đầu vào.
Ở phía thu, vector tín hiệu nhận được được cho bởi công thức:
= . + , (1)
trong đó, H là ma trận kênh truyền có kích thước × , là vector tạp âm có kích
thước × 1. Các phần tử của ma trận kênh truyền H và véc tơ nhiễu n được giả thiết là
các biến ngẫu nhiên đồng nhất, cùng phân bố (i.i.d) có trung bình bằng 0 và phương sai
. là năng lượng trung bình của tín hiệu điều chế và là tỷ số công suất tín hiệu
trên tạp âm (SNR: signal to noise ratio) trung bình tại mỗi ăng ten thu. Phương trình mô tả
hệ thống trong công thức (1) có thể được biểu diễn dưới dạng hệ thống tương đương mở
rộng như sau:
= + , (2)
trong đó, , và lần lượt là véc tơ tín hiệu thu, ma trận kênh truyền và véc tơ tạp âm
của hệ thống HRSM tương đương mở rộng. Chúng được xác định như sau:
1
= , = 1 , = − (3)
0
2.2. Thuật toán SQRD
Trong phương pháp phân tích QR thông thường, ma trận kênh được thực hiện phân
tách theo phương trình:
= (4)
trong đó, là ma trận unita kích thước ( + ) × có tính chất *Q = I, là ma
trận tam giác trên có kích thước × . Nhân hai vế của phương trình (4) với ta
được:
= + (5)
trong đó, = và = . Do tính chất của ma trận tam giác trên , khối triệt
nhiễu nối tiếp SIC được thực hiện bằng cách ước lượng vector tín hiệu thu bắt đầu từ lớp
dưới cùng. Cụ thể, đầu tiên ta ước lượng từ = + , sau đó giá trị ước
lượng này được dùng để triệt ảnh hưởng của nó và tách symbol tiếp theo, ̂ . Quá trình
này lặp lại cho đến khi tất cả các phần tử của tín hiệu phát c được khôi phục.
Kỹ thuật SIC nêu trên chịu ảnh hưởng mạnh bởi hiện tượng lan truyền lỗi (error
propagation) gây ra tại lớp thứ i do việc tách các symbol các lớp trước đó không hoàn toàn
chính xác. Để khắc phục hiện tượng này, kỹ thuật phân rã QR có sắp xếp trước thực hiện
sắp xếp lại ma trận và Q bằng cách sử dụng một ma trận hoán vị. Công thức (4) được
viết lại thành:
= (6)
trong đó, là một ma trận hoán vị × với các phần tử dùng để thể hiện chỉ số cột
của ma trận , và = . Các cột của ma trận sẽ được sắp xếp theo thứ tự tăng dần
của giá trị độ lớn (norm) vector cột R (0 ≤ < ) để tối thiểu hóa xác suất lỗi truyền tín
hiệu. Điều này cũng có nghĩa là tín hiệu được tách từ lớp dưới cùng sẽ có khuếch đại tạp
âm nhỏ nhất. Tuy nhiên, trong thuật toán giải mã cầu cố định FSD sẽ nêu trong mục tiếp
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 41
- Kỹ thuật điều khiển & Điện tử
theo, lớp dưới cùng hoặc bất kỳ lớp nào được thực hiện tìm kiếm Full-Search (FS) thì phải
được sắp xếp với kênh có khuếch đại tạp âm lớn nhất. Các lớp khác được thực hiện tìm
kiếm Single-Search (SS) có thể sắp xếp theo sơ đồ sắp xếp thông thường. Việc thực hiện
SQRD trong nghiên cứu này sử dụng cách tiếp cận Gram-Schmidt được sửa đổi để tối ưu
hóa hơn trong việc triển khai phần cứng [17].
2.3. Thuật toán FSD
Bộ tách tín hiệu cầu SD là một phương pháp khắc phục nhược điểm về độ phức tạp của
bộ tách tín hiệu ML bằng cách sử dụng phương pháp tree-search để giảm số lượng trường
hợp có thể xảy ra [14]. Nguyên lý của thuật toán SD là chỉ xét các điểm dàn tồn tại bên
trong một mặt cầu ( , ), với vector thu là tâm hình cầu, là bán kính. Trong bộ tách
SD nguyên thủy, thuật toán này sẽ lặp lại việc kiểm tra với tất cả các kết quả hợp lệ trong
bán kính hình cầu để tìm ra vector có giá trị khoảng cách Euclide tích lũy (APED) nhỏ
nhất tới vector , giá trị này chính là tổng của tất cả các giá trị khoảng cách euclide (PED)
trong mỗi lớp và được cho bởi công thức:
= − − (7)
trong đó, = , … ,1. Công thức có thể được viết lại như sau:
̂= min‖ − ‖ ≤ (8)
Trong thuật toán SD, rất khó để ước tính có bao nhiêu nhánh cần phải được tìm kiếm
trước và vì thế độ phức tạp của SD không cố định.
Hình 2. Ví dụ cách liệt kê (duyệt điểm) của thuật toán FSD
trong hệ thống 4 × 4 điều chế 16-QAM.
Một thuật toán tách tín hiệu cầu hiệu quả là FSD (Fixed Sphere Decoder) được các tác
giả đề xuất trong [16]. Thuật toán này cải tiến khái niệm giải mã cầu ban đầu cho các hệ
thống MIMO để phù hợp hơn trong việc triển khai thiết kế phần cứng tốc độ cao nhưng có
nhược điểm là phẩm chất BER của hệ thống bị suy giảm. Ý tưởng cơ bản là xác định trước
số lượng các điểm chòm sao cần xem xét khi tính các chỉ số khoảng cách Euclide cho mỗi
ăng ten phát. Chính vì vậy, số trường hợp thực hiện các bước được cố định khi triển khai
thuật toán FSD. Hơn nữa, độ phức tạp và thông lượng cũng có thể xác định ngay từ khi bắt
đầu thực hiện thuật toán. Ngoài ra, việc cập nhật bán kính và duyệt lặp lại các điểm như
trong thuật toán SD cũng không cần phải thực hiện để tối ưu hiệu suất hệ thống và đơn
giản hơn trong việc triển khai thiết kế. Điều này làm cho thuật toán FSD phù hợp hơn đối
42 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
với việc triển khai kiến trúc pipelining so với kỹ thuật tree-search tuần tự được sử dụng
trong thuật toán SD.
Trong thuật toán FSD, Full-Search (FS) hoặc Single-Search (SS) sẽ được lựa chọn để
thực hiện ở mỗi lớp. FS liệt kê đầy đủ tất cả các trường hợp (điểm) của các lớp có điều
kiện kênh kém nhất, trong khi SS chỉ tìm kiếm các trường hợp giống nhất của các lớp khác
với khuếch đại tạp âm ít hơn [19].
Số lượng điểm được đánh giá ở lớp phải thỏa mãn mối quan hệ sau: [20]
[ ] ≥ [ ] ≥ ⋯ ≥ [ ] (9)
Do đó, tổng số vector cần phải tính toán là = ∏ , và vector ước lượng ̂ là
vector có giá trị APED nhỏ nhất.
Hình 3. So sánh phẩm chất BER giữa bộ tách tín hiệu FSD và SESD
trong hệ thống MIMO 4 × 4 sử dụng điều chế 16-QAM.
Hình 4. So sánh độ phức tạp giữa bộ tách tín hiệu FSD và SESD trong
hệ thống MIMO 4 × 4 sử dụng điều chế 16-QAM.
Để đánh giá rõ hơn khả năng cân bằng giữa phẩm chất hệ thống với độ phức tạp tính
toán của thuật toán FSD, chúng tôi đã tiến hành so sánh hai thông số này của bộ tách tín
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 43
- Kỹ thuật điều khiển & Điện tử
hiệu FSD với bộ tách tín hiệu SESD [21] với cùng hệ thống MIMO 4 × 4, điều chế 16-
QAM. Kết quả so sánh được thể hiện lần lượt trong hình 3 và hình 4. Kết quả mô phỏng
cho thấy khi tỉ lệ tín hiệu trên tạp âm càng cao và số điểm cố định trong mỗi lớp FSD càng
lớn thì phẩm chất BER càng tốt và tiến gần tới đường BER của bộ tách tín hiệu SESD.
Trong khi đó, độ phức tạp tính toán lại biến thiên theo chiều hướng ngược lại. Như vậy,
việc đánh giá chất lượng kênh truyền, chất lượng tín hiệu rất quan trọng trong việc xác
định số điểm cố định trong mỗi lớp FSD nhằm mang lại sự cân bằng hợp lý nhất giữa
phẩm chất hệ thống và độ phức tạp tính toán.
3. KIẾN TRÚC ĐỀ XUẤT
Để có thể triển khai thuật toán tách tín hiệu trong thiết kế phần cứng, chúng tôi sử dụng
công thức (10) dưới đây nhằm thực hiện biến đổi từ hệ thống phức sang hệ thống thực
tương đương:
ℜ( ) ℜ( ) −ℑ( ) ℜ( ) ℜ( )
= + (10)
ℑ( ) ℑ( ) ℜ( ) ℑ( ) ℑ( )
Tuy nhiên, theo cách tiếp cận trong [22], việc sử dụng công thức trên trong thiết kế thời
gian thực full-pipelined sẽ không làm giảm độ phức tạp tính toán bởi vì: 1) cách tiếp cận
này chỉ áp dụng cho các chòm sao QAM và 2) khi số điểm dàn trên mỗi lớp giảm đi một
nửa, phương pháp này tăng gấp đôi kích thước của các ma trận và vector. Vì số lượng các
giai đoạn trong SQRD và số lớp trong FSD lại bằng với số cột và các hàng của ma trận
kênh truyền , nên trong trường hợp này, thiết kế sẽ cần phải có thêm một lượng đáng kể
các flip-flop cho bộ đệm trễ. Cũng đồng nghĩa với việc trễ của hệ thống sẽ tăng lên. Trong
khi đó, mục đích của chúng tôi là đề xuất một thiết kế tối ưu hóa thông lượng và có thể
được áp dụng cho bất kỳ phương pháp điều chế nào. Vì vậy, chúng tôi ưu tiên phương
pháp tiếp cận tối ưu độ phức tạp tính toán.
Sơ đồ thiết kế tổng thể của bộ tách tín hiệu FSD trong hệ thống MIMO 4 × 4 sử dụng
điều chế 16-QAM mà chúng tôi đề xuất được thể hiện trong hình 5.
Hình 5. Sơ đồ thiết kế tổng thể của bộ tách tín hiệu.
3.1. Kiến trúc SQRD
Ở phía thu, bước đầu tiên là thực hiện phân rã QR có sắp xếp ma trận kênh truyền .
Mỗi phần tử của ma trận là một số phức 24 bít được tạo thành bởi hai số thực 12 bít đại
diện cho phần thực và phần ảo. Mỗi số thực có 4 bít cho phần nguyên và 8 bít cho phần
thập phân.
Kiến trúc của phần SQRD được mô tả trong hình 6 với năm khối kết nối liên tiếp, bao
gồm: một khối tính toán chuẩn (norm) và bốn khối xử lý tương ứng với 4 giai đoạn chính
(main stages). Mỗi giai đoạn chính lần lượt có nhiệm vụ tính toán ra giá trị hàng của ma
trận R từ 1 đến 4 và sắp xếp lại giá trị cột của các Q, P sau mỗi giai đoạn.
44 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
Hình 6. Kiến trúc tổng thể khối SQRD.
Kiến trúc của ba giai đoạn đầu tiên được mô tả trong hình 7. Ba giai đoạn này chia sẻ
kiến trúc và tài nguyên giống nhau, ngoại trừ số lượng khối Updater (hình 8) - khối chịu
trách nhiệm cập nhật các ma trận sau khi chia. Cụ thể, bắt đầu có ba khối Updater được sử
dụng trong giai đoạn đầu tiên ( ), sau đó số lượng này giảm đi một sau mỗi giai đoạn hai
và ba. Đến giai đoạn thứ tư được mô tả trong hình 9 và không có bất kỳ khối Updater nào
cần sử dụng.
Hình 7. Kiến trúc SQRD giai đoạn , với X ∈ {1, 2, 3}.
Hình 8. Kiến trúc khối Updater.
Hình 9. Kiến trúc SQRD giai đoạn 4.
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 45
- Kỹ thuật điều khiển & Điện tử
Tất cả các bộ đệm thời gian trong thiết kế đều có chu kỳ
cập nhật 4 chu kỳ đồng hồ cho mỗi giai đoạn, tương ứng
với thông lượng hệ thống. Biểu đồ thời gian của khối
SQRD được mô tả chi tiết trong hình 10.
Để giảm chi phí tài nguyên phần cứng cần cho việc thực
hiện phép chia 8×1 vector phức ( ) với một số thực
( , ), phương án được đưa ra là tính nghịch đảo của số
chia, sau đó lần lượt nhân với số bị chia trong khi thực hiện
đồng thời phép dịch kết quả. Bên cạnh đó, các vector được
chia thành hai phần bằng nhau sẽ cho độ trễ lan truyền ít
hơn đáng kể và thông lượng mạnh hơn. Đổi lại là cần sử
dụng một số bộ đệm thời gian cũng như các đơn vị DSP cần
cho phép nhân trong giới hạn có thể chấp nhận được. Toàn
bộ bước thực hiện trên được thực hiện bởi khối Divider và
chỉ mất 28 cycles cho mỗi vector (xem hình 11).
Hình 10. Biểu đồ thời gian của khối SQRD.
Hình 11. Kiến trúc khối Divider.
3.2. Kiến trúc FSD
Sơ đồ thiết kế tổng thể của khối tách tín hiệu FSD được
mô tả trong hình 12. Để so sánh chính xác hơn với các công
trình nghiên cứu khác, chúng tôi không xét đến ma trận
nhân sử dụng để tiền xử lý vector tín hiệu thu.
Hình 12. Kiến trúc sơ đồ thiết kế tổng thể của khối FSD.
Đối với các hệ thống 4 × 4 MIMO sử dụng điều chế 16-
QAM cùng với phương pháp liệt kê trong hình 2, cần tính
bốn thành phần khoảng cách Euclide (PED) để giải phương
trình số (7). Bốn thành phần này được xử lý, tính toán bởi 4
khối PED tương ứng trong thiết kế ở hình 12. Đầu tiên, khối
46 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
PED 4 sẽ tính 16 giá trị PED từ tập hợp các giá trị ký hiệu trên bản đồ chòm sao 16-QAM
của lớp thứ 4. Từ mỗi ký hiệu sau đó sẽ bắt đầu một nhánh mở rộng đến lớp dưới cùng.
Trong mỗi lớp tiếp theo, 16 giá trị ký hiệu có khoảng cách euclide từng phần nhỏ nhất
tương ứng với mỗi nhánh sẽ được đề xuất. Trong suốt quá trình, khoảng cách euclide tích
lũy của mỗi nhánh được lưu trữ trong bộ đệm riêng biệt và được đưa vào giai đoạn so sánh
một khi việc liệt kê kết thúc. Sau đó, nhánh có khoảng cách euclide tích lũy nhỏ nhất sẽ có
vector ký hiệu tương ứng được chọn làm kết quả cuối cùng.
Vì Full-Search được áp dụng trong lớp trên cùng, nên các ký hiệu đầu ra của khối PED
4 chuyển đến cho khối PED 3 đã được xác định trước và có thể tập hợp lại thành một
bảng. Điều này cho phép khối PED 3 có thể thực hiện hoàn toàn độc lập với khối PED 4.
Tận dụng đặc điểm này, hai khối PED 3 và PED 4 được thiết kế để chạy song song nhằm
giảm độ trễ của hệ thống và giảm số lượng các giai đoạn pipeline.
Kiến trúc chi tiết của các khối PED được mô tả lần lượt trong các hình 13, hình 14,
hình 15 và hình 16.
Hình 13. Kiến trúc khối PED 4.
Hình 14. Kiến trúc khối PED 3.
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 47
- Kỹ thuật điều khiển & Điện tử
Hình 15. Kiến trúc khối PED 2.
Hình 16. Kiến trúc khối PED 1.
48 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
Trong khi tất cả các khối PED từ 3 đến 1 tương đương nhau (xem hình 14, hình 15 và
hình 16), đều cần 16 bộ nhân phức để tính toán giá trị chuẩn như trong công thức (7), thì
khối PED 4 chỉ yêu cầu 3 bộ nhân thực (xem hình 13) vì phương trình của nó có thể được
đơn giản hóa theo kết quả nghiên cứu trong [23]. Cách tiếp cận này cũng làm giảm đáng
kể chi phí phần cứng, nhưng không thể áp dụng cho các lớp khác do vấn đề cân bằng giữa
tính hiệu quả với chi phí cho độ phức tạp phần cứng.
Để giảm chi phí tài nguyên phần cứng, ta có thể tránh việc lặp lại phép nhân giữa thông
tin tín hiệu và phần tử của ma trận trên mỗi nhánh bằng cách triển khai bảng tra cứu
chứa tất cả các giá trị có thể xảy ra. Trên mỗi nhánh của lớp , kết quả được tính
trước tương ứng có thể được trích xuất bằng cách sử dụng phép nhân với thông tin tín hiệu
của lớp trước làm bộ chọn đầu vào. Từ đó, khối ̂ được sử dụng để ước lượng giá trị
của ký hiệu hiện tại bằng cách làm tròn giá trị ký hiệu đến giá trị phức và và giá trị
nguyên gần nhất trên bản đồ chòm sao tín hiệu. Kết quả được thể hiện như sau:
−
= ; = (11)
Đối với phương pháp điều chế 16-QAM, tập các giá trị ký hiệu trên bản đồ chòm sao là
{±1,±3}. Vì vậy, việc ước lượng có thể được thực hiện bằng cách sử dụng hai bộ so sánh
ngưỡng có các giá trị biên thuộc {0,±2}. Bên cạnh đó, để tiết kiệm tài nguyên phần cứng
cho việc thực hiện phép chia trong công thức (11), ta có thể thực hiện bằng cách nhân cả
hai bên với . Do đó, các giá trị biên cuối cùng được sử dụng là {0, ±2 }. Cuối cùng,
giá trị PED tính được bằng cách sử dụng để lấy chuẩn trên tổng kết tất cả các kết quả
trước đó. Việc này cần sử dụng lượng tài nguyên phần cứng là 2 DSPs. Toàn bộ bước thực
hiện trên của khối FSD cần 16 chu kỳ đồng hồ cho mỗi vector. Sơ đồ thiết kế pipeline các
khối PED của module FSD đuợc thể hiện trong hình 17.
Hình 17. Sơ đồ pipeline khối FSD.
4. KẾT QUẢ TRIỂN KHAI THIẾT KẾ
Kết quả thực hiện của SQRD và FSD trên nền tảng Virtex 6 VLX75T speed grade-3
được thể hiện tương ứng trong bảng 1 và bảng 2. Trong thiết kế phần cứng trên nền tảng
FPGA, thông lượng hệ thống được tính dựa trên công thức:
×
TLHT = , (12)
trong đó, là số bit của dữ liệu đầu vào, là tần số cực đại và là số chu kỳ đồng hồ tối
thiểu giữa hai đầu vào liên tiếp.
Kết quả triển khai thiết kế cho phần SQRD được tổng hợp trong bảng 1.
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 49
- Kỹ thuật điều khiển & Điện tử
Bảng 1. So sánh kết quả triển khai thiết kế khối SQRD.
Work [17] This work
Max freq. 429.9 Mhz 449.9 Mhz
Hardware usage 14184 slices 12117 slices
10948 LUTs 10093 LUTs
141 DSPs 151 DSPs
QRDs throughput 53.73 112.48
(Milion matrices/s)
Latency 269 cycles 212 cycles
Theo [17], nhóm nghiên cứu của Nguyễn đề xuất một thiết kế có kết quả tổng thể tốt
hơn so với tất cả các thiết khác được đề cập trong bài báo này. Do đó chúng tôi sẽ chỉ so
sánh kết quả triển khai khối SQRD trong thiết kế của chúng tôi với thiết kế của Nguyễn.
Như mô tả trong bảng 1, thiết kế mới mà chúng tôi đề xuất chỉ cần thêm 10 DSPs, trong
khi chi phí tài nguyên phần cứng giảm xuống và hiệu suất hệ thống được cải thiện đáng
kể. Sự gia tăng DSP này là kết quả khi triển khai kiến trúc xử lý song song trong một số
phần của thiết kế. Cùng với lý do đó, số lượng LUT và slide cũng có thể tăng lên, tuy
nhiên, bằng cách sử dụng phương pháp chia đôi vector dữ liệu, lượng tài nguyên phần
cứng tiết kiệm được đáng kể hơn nhiều so với lượng tài nguyên phần cứng cần cho
pipeline. Trong khi đó, không chỉ độ trễ input-output được giảm hơn 20% mà còn tần số
cực đại cũng được tăng lên. Đồng thời thông lượng hệ thống có thể đạt tới khoảng 112
triệu matrices mỗi giây, gần như là gấp đôi so với thiết kế được so sánh. Vì các thiết kế
khác nhau có thể sử dụng kích thước dữ liệu đầu vào khác nhau, nên việc so sánh thông
lượng bằng / có thể chưa hoàn toàn chính xác. Do đó, đơn vị / được đưa
vào trong bảng để có kết quả so sánh chính xác hơn.
Kết quả triển khai thiết kế cho phần FSD và so sánh kết quả với các thiết kế tương tự
được thể hiện trong bảng 2.
Bảng 2. So sánh kết quả triển khai thiết kế khối FSD.
Work [16] [18] This work
Scheme 4 × 4 16-QAM FSD 4 × 4 16-QAM R/FSD 4 × 4 16-QAM FSD
Platform Virtex 2 XC2VP70 Virtex 5 VSX240T Virtex 6 VLX75T
Max freq. 150 Mhz / 120 MHz 265 Mhz / 175.6 MHz 302.7 Mhz
Hardware 12721 slices/ 18631 slices - / 7865 slices 9778 slices
usage 16119 LUTs/ 32030 LUTs 23728 LUTs / 22921 LUTs 20891 LUTs
160 DSPs/ 99 DSPs 204 DSPs / 99 DSPs 99 DSPs
82 BRAMs/ -
Throughput 600 Mbps / 1.92 Gbps 513.5 Mbps / 2.81 Gbps 4.84 Gbps
In-In delay 4 cycles / 1 cycles - 1 cycles
Latency - 121 cycles 16 cycles
In đậm là kết quả được tổng hợp lại trong cùng một nền tảng với các thiết kế được so sánh.
50 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
Đánh giá tổng quát cho thấy, bộ tách tín hiệu mà chúng tôi đề xuất duy trì một sự cân
bằng hợp lý trong việc sử dụng chi phí tài nguyên phần cứng để đạt được các thông số
thiết kế rất vượt trội, đặc biệt là về thông lượng. So với thiết kế trong [16] và [18], mặc dù
thiết kế chúng tôi đề xuất sử dụng số lượng slide nhiều hơn, nhưng số lượng DSP lại giảm
xuống, kéo theo độ trễ giảm xuống và thông lượng hệ thống tăng lên. Bên cạnh đó, ngoài
việc đánh đổi về sự gia tăng chi phí phần cứng đã nói, các kỹ thuật: triển khai song song
khối PED 3 và PED 4, tối giản số bộ nhân thực trong khối PED 4, triển khai bảng tra cứu
tránh việc lặp lại phép nhân giữa thông tin tín hiệu và phần tử của ma trận đều là
những kỹ thuật thiết kế kiến trúc phần cứng góp phần quan trọng để thiết kế có được kết
quả vượt trội. Cụ thể là thông lượng hệ thống tăng 228% so với thiết kế trong [16] và tăng
460% so với thiết kế trong [18] khi được tổng hợp trên cùng một nền tảng phần cứng. Bên
cạnh đó, khi triển khai thiết kế của chúng tôi cho hệ thống HRSM 4 × 4 ăng ten điều chế
16-QAM trên nền tảng Virtex 6 VLX75T, kết quả đạt tần số cực đại là 302.7 Mhz, độ trễ
16 chu kỳ đồng hồ và thông lượng lên tới 4.84 Gbps.
5. KẾT LUẬN
Trong bài báo này, chúng tôi trình bày một thiết kế kiến trúc phần cứng tối ưu full-
pipelined có thông lượng cao cho bộ tách tín hiệu FSD trong hệ thống HRSM 4 × 4, điều
chế 16-QAM. Kiến trúc phần cứng mà chúng tôi đề xuất có các thông số vượt trội hơn tất
cả các đề xuất tương tự được nêu trong phần tài liệu. Đồng thời, thiết kế này có thể đạt
được hiệu suất BER gần nhất với ML. Kiến trúc bộ tách tín hiệu được chúng tôi đề xuất
phù hợp để ứng dụng cho các thế hệ hệ thống điều chế không gian tốc độ cao.
Lời cảm ơn: Nhóm tác giả xin cảm ơn sự quan tâm, giúp đỡ, hướng dẫn tận tình của
quý thầy cô Viện Điện tử - Viễn thông, Trường Đại học Bách Khoa Hà Nội.
TÀI LIỆU THAM KHẢO
[1]. G. J. Foschini and M. J. Gans, "On limits of wireless communications in a fading
environment when using multiple antennas", Wireless Per. Commun., 6, pp. 311-
335, 1998.
[2]. E. Telatar, "Capacity of multi-antenna Gaussian channels", European Trans.
Telecommun., vol. 10, no. 6, pp.558-595, Nov./Dec. 1999.
[3]. P. W. Wolniansky, G. J. Foschini, G. D. Golden and R. Valenzuela, "VBLAST: an
architecture for realizing very high data rates over the richscattering wireless
channel", Proc. URSI International Symposium on Signals, Systems, and
Electronics, pp. 295-300, 1998.
[4]. D. Wübben, J. Rinas, V. Kühn and K. D. Kammeyer, "Efficient algorithm for
decoding Layered Space-Time Codes", Proc. ITG Conference on Source and
Channel Coding, Berlin, Germany, January 2002.
[5]. J. H. Y. Fan, R. D. Murch and W. H. Mow, "Near Maximum Likelihood Detection
Schemes for Wireless MIMO Systems", IEEE Trans. Wireless Commun., vol. 3, no.
5, pp. 1427¨ ı¿ ½ 1430, Sep. 2004.
[6]. B. Hassibi, "An efficient square-root algorithm for BLAST", Proc. IEEE International
Conference on Acoustics, Speech, and Signal Processing, vol.2, pp. II737-II740,
2000.
[7]. D. Wübben, R. Böhnke, V. Kühn and K. D. Kammeyer, "MMSE Extension of V-
BLAST based on Sorted QR Decomposition", Proc. Veh. Technol. Conf., VTC-
2003, vol. 1, pp. 508-512, Oct. 2003.
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 51
- Kỹ thuật điều khiển & Điện tử
[8]. Thu-Phuong Nguyen, Minh-Tuan Le, Vu-Duc Ngo, Xuan-Nam Tran, Hae-Wook
Choi, “Spatial Modulation for High-Rate Transmission Systems”, in Vehicular
Technology Conference (VTC Spring), IEEE, pp. 1-5,May 2014.
[9]. R. Mesleh, H. Haas, C. Ahn and S. Yun, "Spatial modulation - a new low complexity
spectral efficiency enhancing technique", Proc. First International Conf. Commun.
Netw., Beijing, China, pp. 1-5, Oct. 2006.
[10]. A.Younis, N. Serafimovski, R.Mesleh and H. Haas, "Generalised spatial
modulation", Signals, Systems and Computers (ASILOMAR), 2010 Conference
Record of the Forty Fourth Asilomar Conference on, pp.1498-1502, Nov. 2010.
[11]. J. Fu, C. Hou, W. Xiang, L. Yan and Y. Hou, "Generalised spatial modulation with
multiple active transmit antennas", GLOBECOM Workshops (GC Wkshps), 2010
IEEE, pp.839-844, Dec. 2010.
[12]. E. Basar, Ü. AygölÜ, E.PanaYlrcl, and H. V. Poor, "Space-Time Block Coded
Spatial Modulation", IEEE Trans. Commun., vol. 59, no. 3, pp.823-832, Mar. 2011.
[13]. Dong Nguyen, Xuan-Nam Tran, Trung-Minh Do, Vu-Duc Ngo, and Minh-Tuan Le,
“Low-Complexity Detectors for High-Rate Spatial Modulation", International Conf.
on Advanced Technol. for Commun., ATC 2014 , Hanoi, Vietnam, pp. 652-656,
Oct. 2014.
[14]. M. Damen, H. Gamal, and G. Caire, "On maximum-likelihood detection and the
search for the closest lattice point", IEEE Transactions on Information Theory , vol.
49, no. 10, pp. 2389 – 2402, October 2003.
[15]. E. Agrell, T. Eriksson, A. Vardy and K. Zeger, "Closest point search in lattices",
IEEE Transactions on Information Theory , vol. 48, no. 8, pp. 2201-2214, August
2002.
[16]. L. G. Barbero and J. S. Thompson, "Rapid Prototyping of a Fixed-Throughput
Sphere Decoder for MIMO Systems", IEEE International Conference on
Communications , vol. 7, pp. 3082-3087, June 2006.
[17]. Xuan-Nghia Nguyen, Van-Tu Nguyen, Minh-Tuan Le, Xuan-Nam Tran and Vu-Duc
Ngo, "High Throughput Modified MMSE Hardware Detector for High-Rate Spatial
Modulation System", IEEE Sixth International Conference on Communications and
Electronics (ICCE) , Ha Long, Vietnam, July 2016.
[18]. X. Chu and J. McAllister, "FPGA based soft-core SIMD processing: A MIMO-
OFDM Fixed-Complexity Sphere Decoder case study", 2010 International
Conference on Field-Programmable Technology , Beijing, China, Dec 2010.
[19]. Kelvin Lee and Babak Daneshrad, "VLSI implementation of a quasi-ml, energy
efficient fixed complexity sphere decoder for MIMO communication system",
Proceedings of IEEE International Symposium on Circuits and Systems, Paris,
France, May 2010.
[20]. L. G. Barbero and J. S. Thompson, "A fixed-complexity MIMO detector based on
the complex sphere decoder", IEEE 7th Workshop on Signal Processing Advances
in Wireless Communications , Cannes, France, July 2006.
[21]. C. P. Schnorr and M. Euchner, "Lattice basis reduction: Improved practical
algorithms and solving subset sum problems", Math. Program. , vol. 66, no. 2, pp.
181191, 1994.
[22]. C. Zheng, X. Chu, J. McAllister and R. Woods, "Real-Valued Fixed-Complexity
Sphere Decoder for HighDimensional QAM-MIMO Systems", IEEE Transactions
on Signal Processing , vol. 59, no. 9, pp. 4493-4499, 2011.
52 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
- Nghiên cứu khoa học công nghệ
[23]. M. S. Khairy, M. M. Abdallah and S. E. D. Habib, "Efficient FPGA Implementation
of MIMO Decoder for Mobile WiMAX System", 2009 IEEE International
Conference on Communications , Dresden, Germany, June 2009.
ABSTRACT
AN EFFICIENT MIMO DETECTOR ARCHITECTURE
FOR THE HIGH RATE SPARTIAL MODULATION SYSTEM
In this paper, a hardware architecture has been proposed to reduce the
complexity of maximum logical receivers (ML: Maximum Likelihood) in the High
Rate Spatial Modulation system (HRSM). By combining Sphere Decoding and
Sorted QR Decomposition, we propose a hardware architecture of HRSM detector
for 4x4 antenna system, 16QAM modulation. Implementation result shows that our
design achieves higher throughput compare to other implementations, while still
keep latency low and hardware usage acceptable.
Keywords: MIMO; HRSM; FSD; VLSI.
Nhận bài ngày 16 tháng 5 năm 2019
Hoàn thiện ngày 06 tháng 6 năm 2019
Chấp nhận đăng ngày 17 tháng 6 năm 2019
1
Địa chỉ: Trường Đại học Bách Khoa Hà Nội;
2
Tổng Công ty Viễn thông MobiFone.
*
Email: nghia.nx@mobifone.vn.
Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 53
nguon tai.lieu . vn