Xem mẫu

  1. Nghiên cứu khoa học công nghệ THIẾT KẾ KIẾN TRÚC PHẦN CỨNG BỘ TÁCH TÍN HIỆU FSD CHO HỆ THỐNG MIMO-HRSM Nguyễn Xuân Nghĩa1,2*, Trần Sơn Tùng1, Lê Minh Tuấn2, Ngô Vũ Đức1 Tóm tắt: Trong bài báo này, chúng tôi đề xuất một kiến trúc phần cứng nhằm làm giảm độ phức tạp của các máy thu hợp lý cực đại (ML: Maximum Likelihood) trong hệ thống điều chế không gian tốc độ cao (HRSM: High Rate Spatial Modulation). Dựa trên mô hình kết hợp thuật toán giải mã cầu và phân rã ma trận có sắp xếp (Sorted QR decomposition), chúng tôi xây dựng kiến trúc phần cứng cho hệ thống 4x4 ăng ten, điều chế 16QAM. Kết quả triển khai thiết kế cho thấy mô hình chúng tôi đề xuất đạt được thông lượng cao hơn so với các mô hình truyền dẫn SM hay GSM có cùng cấu hình ăng ten thu/phát, trong khi vẫn giữ độ trễ thấp và sử dụng lượng tài nguyên phần cứng hợp lý. Từ khóa: MIMO; HRSM; FSD; VLSI. 1. MỞ ĐẦU Trong lĩnh vực viễn thông, MIMO là một công nghệ truyền dẫn không dây tiên tiến sử dụng nhiều ăng ten trên cả máy phát và máy thu. Các hệ thống MIMO có thể tăng hiệu suất phổ tần bằng cách truyền nhiều luồng dữ liệu đồng thời trong cùng một dải tần số [1, 2]. Vấn đề đặt ra khi triển khai hệ thống MIMO trên thực tế đó là phải đảm bảo sự cân bằng giữa hiệu suất và độ phức tạp của hệ thống. Bộ tách sóng hợp lý cực đại (ML: Maximum Likelihood) cho phẩm chất lỗi bít tối ưu nhưng có độ phức tạp quá lớn nên rất khó khăn để triển khai trong thực tế. Chính vì thế, các bộ tách sóng có độ phức tạp thấp như bộ tách cưỡng bức bằng không (ZF: Zero Forcing) hay bộ tách sai số bình phương trung bình nhỏ nhất (MMSE: Minimum Mean Square Error) thường được sử dụng trong các hệ thống MIMO ghép kênh theo không gian (SDM MIMO) bởi vì chúng có độ phức tạp tính toán rất thấp. Tuy nhiên, nhược điểm của các bộ tách tín hiệu này lại là tỉ lệ lỗi bit (BER) cao do nhiễu liên kênh còn sót lại khi tách lần lượt các tín hiệu, đặc biệt là trong trường hợp hệ thống có số lượng ăng ten lớn. Vì vậy, kỹ thuật triệt nhiễu nối tiếp (SIC: Successive Interference Cancellation) đã được sử dụng trong các bộ tách tín hiệu để khắc phục điểm yếu này. Hệ thống Không gian-thời gian tuần tự theo lớp của phòng thí nghiệm Bell (V-BLAST: Vertical-Bell Laboratories Layered Space-Time) được phát minh trong [3] là một trong số các hệ thống như vậy. Hệ thống này sử dụng bộ tách tín hiệu ZF- BLAST, thực chất là một bộ tách tín hiệu ZF kết hợp cùng với chương trình triệt nhiễu nối tiếp SIC. Ngoài ra, trong [4, 5], một bộ tách tín hiệu nữa sử dụng SIC được đề xuất là ZF- SQRD. Bộ tách này thiết kế dựa trên thuật toán SQRD và áp dụng phương pháp giảm độ trễ, đã làm giảm được độ phức tạp giảm ở phía thu, tuy nhiên phẩm chất BER của hệ thống này bị suy giảm so với các bộ tách ZF-VBLAST. Trong [6, 7] các tác giả đề xuất hai bộ tách sóng mới cho hệ thống VBLAST là MMSE-BLAST và MMSE-SQRD. Kết quả tính toán và mô phỏng cho thấy, bộ tách MMSE-BLAST cung cấp phẩm chất BER tốt hơn SQRD-BLAST với cùng độ phức tạp tính toán. Gần đây, hệ thống điều chế không gian tốc độ cao (HRSM: High Rate Spatial Modulation) đã được Nguyễn Thu Phương và các cộng sự đề xuất trong [8]. Hệ thống này cung cấp hiệu suất phổ tần cao hơn đáng kể so với phương pháp điều chế không gian trong [9] và điều chế không gian tổng quát (GSM) trong [10, 11]. Nguyên lý làm việc của HRSM dựa trên sự kết hợp kỹ thuật điều chế không gian SM với từ mã chòm sao không gian (SC: Spatial Constellation). Cụ thể là HRSM đưa các bit thông tin vào chỉ số của ăng ten và truyền từ mã thông qua điều chế biên độ cầu phương (QAM) hoặc điều chế pha Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 39
  2. Kỹ thuật điều khiển & Điện tử PSK (Phase-shift keying). Vì vậy, hệ thống HRSM có hiệu suất BER tốt hơn do ít nhiễu ICI và IAS hơn các hệ thống MIMO thông thường, như hệ thống STBC-SM [12]. Gần đây, nhiều bộ tách tín hiệu phức tạp cho hệ thống HRSM được phát triển trong [13], gồm các bộ tách tín hiệu MSQRD, MBLAST, và ISQRD. Cả 3 bộ tách tín hiệu này có độ phức tạp thấp nhưng phẩm chất BER bị suy giảm đáng kể so với bộ tách tín hiệu tối ưu ML. Bên cạnh các bộ tách tín hiệu đã nêu trên, thuật toán giải mã cầu (SD: Sphere decoding) - một thuật toán tìm kiếm điểm dàn gần nhất tới vector nhận được - cũng được coi là một cách tiếp cận đầy hứa hẹn. Bộ tách SD được đề xuất đầu tiên trong [14] bằng cách sử dụng phương pháp liệt kê Fincke-Pohst (PE-SD). Sau đó phương pháp PE-SD đã được chứng minh là kém hơn phương pháp liệt kê Schnorr-Euchner (SE-SD: Schnorr- Euchner Sphere Decoding) trong [15] do SE-SD có độ phức tạp không phụ thuộc vào bán kính cầu ban đầu. Tuy nhiên, SE-SD lại không thể triển khai thiết kế phần cứng theo phương pháp pipelining do thuật toán đòi hỏi phải tìm kiếm đầy đủ tất cả các bộ giá trị thỏa mãn điều kiện nằm trong bán kính hình cầu. Chính vì vậy, thuật toán SD có độ phức tạp biến thiên theo đa thức. Điều này trở thành nút thắt trong việc triển khai thiết kế phần cứng. Để khắc phục vấn đề này, Barbero và cộng sự đã giới thiệu một phương pháp tiếp cận mới trong [16] gọi là phương pháp Giải mã cầu cố định (FSD: Fixed Sphere Decoding). Phương pháp này đạt được thông lượng cố định và sử dụng tài nguyên phần cứng hiệu quả trong khi vẫn duy trì phẩm chất BER gần với bộ tách tín hiệu tối ưu ML. Trong bài báo này, chúng tôi đề xuất một thiết kế kiến trúc phần cứng có hiệu suất cao cho bộ tách tín hiệu của hệ thống HRSM, sử dụng phương pháp Modified Gram Schmidt SQRD (MGS-SQRD) và FSD. So với các thiết kế tương tự được nêu trong phần tài liệu, cụ thể là thiết kế của Nguyễn (phần SQRD) trong [17], thiết kế của Barbero (phần FSD) trong [16], và thiết kế của Chu (phần FSD) trong [18], thiết kế mà chúng tôi đề xuất đạt được thông lượng lớn hơn đáng kể trong khi sử dụng lượng tài nguyên phần cứng hợp lý. Ngoài ra, các khối trong kiến trúc phần cứng được thiết kế linh hoạt cho phép phát triển hơn nữa trong các công trình nghiên cứu trong tương lai. Phần tiếp theo của bài báo này được trình bày như sau: Mục 2 trình bày mô hình hệ thống HRSM và nguyên lý làm việc của hai thuật toán SQRD, FSD. Thiết kế phần cứng được trình bày chi tiết trong mục 3. Mục 4 là kết quả thực thi trên phần cứng và cuối cùng, kết luận của bài báo được trình bày trong mục 5. 2. MÔ HÌNH HỆ THỐNG 2.1. Hệ thống HRSM Hình 1. Mô hình hệ thống HRSM. Xét hệ thống HRSM gồm ăng ten phát và ăng ten thu làm việc trong môi trường kênh truyền fading Rayleigh cận tĩnh như hình 1. Trong mỗi chu kỳ phát tín hiệu, máy phát phát đi một từ mã HRSM, , có độ dài + bít. Từ mã HRSM được tạo ra như sau: luồng dữ liệu phát nối tiếp ( + ) bít được chuyển đổi thành hai luồng dữ liệu song song có chiều dài lần lượt là m và l bít. Sau đó = 2 × ( − 1) bít được ánh xạ thành một từ 40 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  3. Nghiên cứu khoa học công nghệ mã không gian (SC codeword) và bít được điều chế bởi bộ điều chế tín hiệu truyền thống M-QAM/PSK để tạo ra ký hiệu điều chế , ( = 2 ). Cuối cùng từ mã HRSM được tạo ra bằng cách nhân từ mã SC với như sau: = × . Để máy, thu có thể tách được các tín hiệu đã phát một cách dễ dàng, phần tử đầu tiên của s luôn được cố định là 1, các phần tử còn lại được lựa chọn trong tập ±1, ± phụ thuộc vào giá trị của bít đầu vào. Ở phía thu, vector tín hiệu nhận được được cho bởi công thức: = . + , (1) trong đó, H là ma trận kênh truyền có kích thước × , là vector tạp âm có kích thước × 1. Các phần tử của ma trận kênh truyền H và véc tơ nhiễu n được giả thiết là các biến ngẫu nhiên đồng nhất, cùng phân bố (i.i.d) có trung bình bằng 0 và phương sai . là năng lượng trung bình của tín hiệu điều chế và là tỷ số công suất tín hiệu trên tạp âm (SNR: signal to noise ratio) trung bình tại mỗi ăng ten thu. Phương trình mô tả hệ thống trong công thức (1) có thể được biểu diễn dưới dạng hệ thống tương đương mở rộng như sau: = + , (2) trong đó, , và lần lượt là véc tơ tín hiệu thu, ma trận kênh truyền và véc tơ tạp âm của hệ thống HRSM tương đương mở rộng. Chúng được xác định như sau: 1 = , = 1 , = − (3) 0 2.2. Thuật toán SQRD Trong phương pháp phân tích QR thông thường, ma trận kênh được thực hiện phân tách theo phương trình: = (4) trong đó, là ma trận unita kích thước ( + ) × có tính chất *Q = I, là ma trận tam giác trên có kích thước × . Nhân hai vế của phương trình (4) với ta được: = + (5) trong đó, = và = . Do tính chất của ma trận tam giác trên , khối triệt nhiễu nối tiếp SIC được thực hiện bằng cách ước lượng vector tín hiệu thu bắt đầu từ lớp dưới cùng. Cụ thể, đầu tiên ta ước lượng từ = + , sau đó giá trị ước lượng này được dùng để triệt ảnh hưởng của nó và tách symbol tiếp theo, ̂ . Quá trình này lặp lại cho đến khi tất cả các phần tử của tín hiệu phát c được khôi phục. Kỹ thuật SIC nêu trên chịu ảnh hưởng mạnh bởi hiện tượng lan truyền lỗi (error propagation) gây ra tại lớp thứ i do việc tách các symbol các lớp trước đó không hoàn toàn chính xác. Để khắc phục hiện tượng này, kỹ thuật phân rã QR có sắp xếp trước thực hiện sắp xếp lại ma trận và Q bằng cách sử dụng một ma trận hoán vị. Công thức (4) được viết lại thành: = (6) trong đó, là một ma trận hoán vị × với các phần tử dùng để thể hiện chỉ số cột của ma trận , và = . Các cột của ma trận sẽ được sắp xếp theo thứ tự tăng dần của giá trị độ lớn (norm) vector cột R (0 ≤ < ) để tối thiểu hóa xác suất lỗi truyền tín hiệu. Điều này cũng có nghĩa là tín hiệu được tách từ lớp dưới cùng sẽ có khuếch đại tạp âm nhỏ nhất. Tuy nhiên, trong thuật toán giải mã cầu cố định FSD sẽ nêu trong mục tiếp Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 41
  4. Kỹ thuật điều khiển & Điện tử theo, lớp dưới cùng hoặc bất kỳ lớp nào được thực hiện tìm kiếm Full-Search (FS) thì phải được sắp xếp với kênh có khuếch đại tạp âm lớn nhất. Các lớp khác được thực hiện tìm kiếm Single-Search (SS) có thể sắp xếp theo sơ đồ sắp xếp thông thường. Việc thực hiện SQRD trong nghiên cứu này sử dụng cách tiếp cận Gram-Schmidt được sửa đổi để tối ưu hóa hơn trong việc triển khai phần cứng [17]. 2.3. Thuật toán FSD Bộ tách tín hiệu cầu SD là một phương pháp khắc phục nhược điểm về độ phức tạp của bộ tách tín hiệu ML bằng cách sử dụng phương pháp tree-search để giảm số lượng trường hợp có thể xảy ra [14]. Nguyên lý của thuật toán SD là chỉ xét các điểm dàn tồn tại bên trong một mặt cầu ( , ), với vector thu là tâm hình cầu, là bán kính. Trong bộ tách SD nguyên thủy, thuật toán này sẽ lặp lại việc kiểm tra với tất cả các kết quả hợp lệ trong bán kính hình cầu để tìm ra vector có giá trị khoảng cách Euclide tích lũy (APED) nhỏ nhất tới vector , giá trị này chính là tổng của tất cả các giá trị khoảng cách euclide (PED) trong mỗi lớp và được cho bởi công thức: = − − (7) trong đó, = , … ,1. Công thức có thể được viết lại như sau: ̂= min‖ − ‖ ≤ (8) Trong thuật toán SD, rất khó để ước tính có bao nhiêu nhánh cần phải được tìm kiếm trước và vì thế độ phức tạp của SD không cố định. Hình 2. Ví dụ cách liệt kê (duyệt điểm) của thuật toán FSD trong hệ thống 4 × 4 điều chế 16-QAM. Một thuật toán tách tín hiệu cầu hiệu quả là FSD (Fixed Sphere Decoder) được các tác giả đề xuất trong [16]. Thuật toán này cải tiến khái niệm giải mã cầu ban đầu cho các hệ thống MIMO để phù hợp hơn trong việc triển khai thiết kế phần cứng tốc độ cao nhưng có nhược điểm là phẩm chất BER của hệ thống bị suy giảm. Ý tưởng cơ bản là xác định trước số lượng các điểm chòm sao cần xem xét khi tính các chỉ số khoảng cách Euclide cho mỗi ăng ten phát. Chính vì vậy, số trường hợp thực hiện các bước được cố định khi triển khai thuật toán FSD. Hơn nữa, độ phức tạp và thông lượng cũng có thể xác định ngay từ khi bắt đầu thực hiện thuật toán. Ngoài ra, việc cập nhật bán kính và duyệt lặp lại các điểm như trong thuật toán SD cũng không cần phải thực hiện để tối ưu hiệu suất hệ thống và đơn giản hơn trong việc triển khai thiết kế. Điều này làm cho thuật toán FSD phù hợp hơn đối 42 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  5. Nghiên cứu khoa học công nghệ với việc triển khai kiến trúc pipelining so với kỹ thuật tree-search tuần tự được sử dụng trong thuật toán SD. Trong thuật toán FSD, Full-Search (FS) hoặc Single-Search (SS) sẽ được lựa chọn để thực hiện ở mỗi lớp. FS liệt kê đầy đủ tất cả các trường hợp (điểm) của các lớp có điều kiện kênh kém nhất, trong khi SS chỉ tìm kiếm các trường hợp giống nhất của các lớp khác với khuếch đại tạp âm ít hơn [19]. Số lượng điểm được đánh giá ở lớp phải thỏa mãn mối quan hệ sau: [20] [ ] ≥ [ ] ≥ ⋯ ≥ [ ] (9) Do đó, tổng số vector cần phải tính toán là = ∏ , và vector ước lượng ̂ là vector có giá trị APED nhỏ nhất. Hình 3. So sánh phẩm chất BER giữa bộ tách tín hiệu FSD và SESD trong hệ thống MIMO 4 × 4 sử dụng điều chế 16-QAM. Hình 4. So sánh độ phức tạp giữa bộ tách tín hiệu FSD và SESD trong hệ thống MIMO 4 × 4 sử dụng điều chế 16-QAM. Để đánh giá rõ hơn khả năng cân bằng giữa phẩm chất hệ thống với độ phức tạp tính toán của thuật toán FSD, chúng tôi đã tiến hành so sánh hai thông số này của bộ tách tín Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 43
  6. Kỹ thuật điều khiển & Điện tử hiệu FSD với bộ tách tín hiệu SESD [21] với cùng hệ thống MIMO 4 × 4, điều chế 16- QAM. Kết quả so sánh được thể hiện lần lượt trong hình 3 và hình 4. Kết quả mô phỏng cho thấy khi tỉ lệ tín hiệu trên tạp âm càng cao và số điểm cố định trong mỗi lớp FSD càng lớn thì phẩm chất BER càng tốt và tiến gần tới đường BER của bộ tách tín hiệu SESD. Trong khi đó, độ phức tạp tính toán lại biến thiên theo chiều hướng ngược lại. Như vậy, việc đánh giá chất lượng kênh truyền, chất lượng tín hiệu rất quan trọng trong việc xác định số điểm cố định trong mỗi lớp FSD nhằm mang lại sự cân bằng hợp lý nhất giữa phẩm chất hệ thống và độ phức tạp tính toán. 3. KIẾN TRÚC ĐỀ XUẤT Để có thể triển khai thuật toán tách tín hiệu trong thiết kế phần cứng, chúng tôi sử dụng công thức (10) dưới đây nhằm thực hiện biến đổi từ hệ thống phức sang hệ thống thực tương đương: ℜ( ) ℜ( ) −ℑ( ) ℜ( ) ℜ( ) = + (10) ℑ( ) ℑ( ) ℜ( ) ℑ( ) ℑ( ) Tuy nhiên, theo cách tiếp cận trong [22], việc sử dụng công thức trên trong thiết kế thời gian thực full-pipelined sẽ không làm giảm độ phức tạp tính toán bởi vì: 1) cách tiếp cận này chỉ áp dụng cho các chòm sao QAM và 2) khi số điểm dàn trên mỗi lớp giảm đi một nửa, phương pháp này tăng gấp đôi kích thước của các ma trận và vector. Vì số lượng các giai đoạn trong SQRD và số lớp trong FSD lại bằng với số cột và các hàng của ma trận kênh truyền , nên trong trường hợp này, thiết kế sẽ cần phải có thêm một lượng đáng kể các flip-flop cho bộ đệm trễ. Cũng đồng nghĩa với việc trễ của hệ thống sẽ tăng lên. Trong khi đó, mục đích của chúng tôi là đề xuất một thiết kế tối ưu hóa thông lượng và có thể được áp dụng cho bất kỳ phương pháp điều chế nào. Vì vậy, chúng tôi ưu tiên phương pháp tiếp cận tối ưu độ phức tạp tính toán. Sơ đồ thiết kế tổng thể của bộ tách tín hiệu FSD trong hệ thống MIMO 4 × 4 sử dụng điều chế 16-QAM mà chúng tôi đề xuất được thể hiện trong hình 5. Hình 5. Sơ đồ thiết kế tổng thể của bộ tách tín hiệu. 3.1. Kiến trúc SQRD Ở phía thu, bước đầu tiên là thực hiện phân rã QR có sắp xếp ma trận kênh truyền . Mỗi phần tử của ma trận là một số phức 24 bít được tạo thành bởi hai số thực 12 bít đại diện cho phần thực và phần ảo. Mỗi số thực có 4 bít cho phần nguyên và 8 bít cho phần thập phân. Kiến trúc của phần SQRD được mô tả trong hình 6 với năm khối kết nối liên tiếp, bao gồm: một khối tính toán chuẩn (norm) và bốn khối xử lý tương ứng với 4 giai đoạn chính (main stages). Mỗi giai đoạn chính lần lượt có nhiệm vụ tính toán ra giá trị hàng của ma trận R từ 1 đến 4 và sắp xếp lại giá trị cột của các Q, P sau mỗi giai đoạn. 44 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  7. Nghiên cứu khoa học công nghệ Hình 6. Kiến trúc tổng thể khối SQRD. Kiến trúc của ba giai đoạn đầu tiên được mô tả trong hình 7. Ba giai đoạn này chia sẻ kiến trúc và tài nguyên giống nhau, ngoại trừ số lượng khối Updater (hình 8) - khối chịu trách nhiệm cập nhật các ma trận sau khi chia. Cụ thể, bắt đầu có ba khối Updater được sử dụng trong giai đoạn đầu tiên ( ), sau đó số lượng này giảm đi một sau mỗi giai đoạn hai và ba. Đến giai đoạn thứ tư được mô tả trong hình 9 và không có bất kỳ khối Updater nào cần sử dụng. Hình 7. Kiến trúc SQRD giai đoạn , với X ∈ {1, 2, 3}. Hình 8. Kiến trúc khối Updater. Hình 9. Kiến trúc SQRD giai đoạn 4. Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 45
  8. Kỹ thuật điều khiển & Điện tử Tất cả các bộ đệm thời gian trong thiết kế đều có chu kỳ cập nhật 4 chu kỳ đồng hồ cho mỗi giai đoạn, tương ứng với thông lượng hệ thống. Biểu đồ thời gian của khối SQRD được mô tả chi tiết trong hình 10. Để giảm chi phí tài nguyên phần cứng cần cho việc thực hiện phép chia 8×1 vector phức ( ) với một số thực ( , ), phương án được đưa ra là tính nghịch đảo của số chia, sau đó lần lượt nhân với số bị chia trong khi thực hiện đồng thời phép dịch kết quả. Bên cạnh đó, các vector được chia thành hai phần bằng nhau sẽ cho độ trễ lan truyền ít hơn đáng kể và thông lượng mạnh hơn. Đổi lại là cần sử dụng một số bộ đệm thời gian cũng như các đơn vị DSP cần cho phép nhân trong giới hạn có thể chấp nhận được. Toàn bộ bước thực hiện trên được thực hiện bởi khối Divider và chỉ mất 28 cycles cho mỗi vector (xem hình 11). Hình 10. Biểu đồ thời gian của khối SQRD. Hình 11. Kiến trúc khối Divider. 3.2. Kiến trúc FSD Sơ đồ thiết kế tổng thể của khối tách tín hiệu FSD được mô tả trong hình 12. Để so sánh chính xác hơn với các công trình nghiên cứu khác, chúng tôi không xét đến ma trận nhân sử dụng để tiền xử lý vector tín hiệu thu. Hình 12. Kiến trúc sơ đồ thiết kế tổng thể của khối FSD. Đối với các hệ thống 4 × 4 MIMO sử dụng điều chế 16- QAM cùng với phương pháp liệt kê trong hình 2, cần tính bốn thành phần khoảng cách Euclide (PED) để giải phương trình số (7). Bốn thành phần này được xử lý, tính toán bởi 4 khối PED tương ứng trong thiết kế ở hình 12. Đầu tiên, khối 46 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  9. Nghiên cứu khoa học công nghệ PED 4 sẽ tính 16 giá trị PED từ tập hợp các giá trị ký hiệu trên bản đồ chòm sao 16-QAM của lớp thứ 4. Từ mỗi ký hiệu sau đó sẽ bắt đầu một nhánh mở rộng đến lớp dưới cùng. Trong mỗi lớp tiếp theo, 16 giá trị ký hiệu có khoảng cách euclide từng phần nhỏ nhất tương ứng với mỗi nhánh sẽ được đề xuất. Trong suốt quá trình, khoảng cách euclide tích lũy của mỗi nhánh được lưu trữ trong bộ đệm riêng biệt và được đưa vào giai đoạn so sánh một khi việc liệt kê kết thúc. Sau đó, nhánh có khoảng cách euclide tích lũy nhỏ nhất sẽ có vector ký hiệu tương ứng được chọn làm kết quả cuối cùng. Vì Full-Search được áp dụng trong lớp trên cùng, nên các ký hiệu đầu ra của khối PED 4 chuyển đến cho khối PED 3 đã được xác định trước và có thể tập hợp lại thành một bảng. Điều này cho phép khối PED 3 có thể thực hiện hoàn toàn độc lập với khối PED 4. Tận dụng đặc điểm này, hai khối PED 3 và PED 4 được thiết kế để chạy song song nhằm giảm độ trễ của hệ thống và giảm số lượng các giai đoạn pipeline. Kiến trúc chi tiết của các khối PED được mô tả lần lượt trong các hình 13, hình 14, hình 15 và hình 16. Hình 13. Kiến trúc khối PED 4. Hình 14. Kiến trúc khối PED 3. Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 47
  10. Kỹ thuật điều khiển & Điện tử Hình 15. Kiến trúc khối PED 2. Hình 16. Kiến trúc khối PED 1. 48 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  11. Nghiên cứu khoa học công nghệ Trong khi tất cả các khối PED từ 3 đến 1 tương đương nhau (xem hình 14, hình 15 và hình 16), đều cần 16 bộ nhân phức để tính toán giá trị chuẩn như trong công thức (7), thì khối PED 4 chỉ yêu cầu 3 bộ nhân thực (xem hình 13) vì phương trình của nó có thể được đơn giản hóa theo kết quả nghiên cứu trong [23]. Cách tiếp cận này cũng làm giảm đáng kể chi phí phần cứng, nhưng không thể áp dụng cho các lớp khác do vấn đề cân bằng giữa tính hiệu quả với chi phí cho độ phức tạp phần cứng. Để giảm chi phí tài nguyên phần cứng, ta có thể tránh việc lặp lại phép nhân giữa thông tin tín hiệu và phần tử của ma trận trên mỗi nhánh bằng cách triển khai bảng tra cứu chứa tất cả các giá trị có thể xảy ra. Trên mỗi nhánh của lớp , kết quả được tính trước tương ứng có thể được trích xuất bằng cách sử dụng phép nhân với thông tin tín hiệu của lớp trước làm bộ chọn đầu vào. Từ đó, khối ̂ được sử dụng để ước lượng giá trị của ký hiệu hiện tại bằng cách làm tròn giá trị ký hiệu đến giá trị phức và và giá trị nguyên gần nhất trên bản đồ chòm sao tín hiệu. Kết quả được thể hiện như sau:  −  = ;   =     (11) Đối với phương pháp điều chế 16-QAM, tập các giá trị ký hiệu trên bản đồ chòm sao là {±1,±3}. Vì vậy, việc ước lượng có thể được thực hiện bằng cách sử dụng hai bộ so sánh ngưỡng có các giá trị biên thuộc {0,±2}. Bên cạnh đó, để tiết kiệm tài nguyên phần cứng cho việc thực hiện phép chia trong công thức (11), ta có thể thực hiện bằng cách nhân cả hai bên với . Do đó, các giá trị biên cuối cùng được sử dụng là {0, ±2 }. Cuối cùng, giá trị PED tính được bằng cách sử dụng để lấy chuẩn trên tổng kết tất cả các kết quả trước đó. Việc này cần sử dụng lượng tài nguyên phần cứng là 2 DSPs. Toàn bộ bước thực hiện trên của khối FSD cần 16 chu kỳ đồng hồ cho mỗi vector. Sơ đồ thiết kế pipeline các khối PED của module FSD đuợc thể hiện trong hình 17. Hình 17. Sơ đồ pipeline khối FSD. 4. KẾT QUẢ TRIỂN KHAI THIẾT KẾ Kết quả thực hiện của SQRD và FSD trên nền tảng Virtex 6 VLX75T speed grade-3 được thể hiện tương ứng trong bảng 1 và bảng 2. Trong thiết kế phần cứng trên nền tảng FPGA, thông lượng hệ thống được tính dựa trên công thức:  ×  TLHT  =    , (12) trong đó, là số bit của dữ liệu đầu vào, là tần số cực đại và là số chu kỳ đồng hồ tối thiểu giữa hai đầu vào liên tiếp. Kết quả triển khai thiết kế cho phần SQRD được tổng hợp trong bảng 1. Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 49
  12. Kỹ thuật điều khiển & Điện tử Bảng 1. So sánh kết quả triển khai thiết kế khối SQRD. Work [17] This work Max freq. 429.9 Mhz 449.9 Mhz Hardware usage 14184 slices 12117 slices 10948 LUTs 10093 LUTs 141 DSPs 151 DSPs QRDs throughput 53.73 112.48 (Milion matrices/s) Latency 269 cycles 212 cycles Theo [17], nhóm nghiên cứu của Nguyễn đề xuất một thiết kế có kết quả tổng thể tốt hơn so với tất cả các thiết khác được đề cập trong bài báo này. Do đó chúng tôi sẽ chỉ so sánh kết quả triển khai khối SQRD trong thiết kế của chúng tôi với thiết kế của Nguyễn. Như mô tả trong bảng 1, thiết kế mới mà chúng tôi đề xuất chỉ cần thêm 10 DSPs, trong khi chi phí tài nguyên phần cứng giảm xuống và hiệu suất hệ thống được cải thiện đáng kể. Sự gia tăng DSP này là kết quả khi triển khai kiến trúc xử lý song song trong một số phần của thiết kế. Cùng với lý do đó, số lượng LUT và slide cũng có thể tăng lên, tuy nhiên, bằng cách sử dụng phương pháp chia đôi vector dữ liệu, lượng tài nguyên phần cứng tiết kiệm được đáng kể hơn nhiều so với lượng tài nguyên phần cứng cần cho pipeline. Trong khi đó, không chỉ độ trễ input-output được giảm hơn 20% mà còn tần số cực đại cũng được tăng lên. Đồng thời thông lượng hệ thống có thể đạt tới khoảng 112 triệu matrices mỗi giây, gần như là gấp đôi so với thiết kế được so sánh. Vì các thiết kế khác nhau có thể sử dụng kích thước dữ liệu đầu vào khác nhau, nên việc so sánh thông lượng bằng / có thể chưa hoàn toàn chính xác. Do đó, đơn vị / được đưa vào trong bảng để có kết quả so sánh chính xác hơn. Kết quả triển khai thiết kế cho phần FSD và so sánh kết quả với các thiết kế tương tự được thể hiện trong bảng 2. Bảng 2. So sánh kết quả triển khai thiết kế khối FSD. Work [16] [18] This work Scheme 4 × 4 16-QAM FSD 4 × 4 16-QAM R/FSD 4 × 4 16-QAM FSD Platform Virtex 2 XC2VP70 Virtex 5 VSX240T Virtex 6 VLX75T Max freq. 150 Mhz / 120 MHz 265 Mhz / 175.6 MHz 302.7 Mhz Hardware 12721 slices/ 18631 slices - / 7865 slices 9778 slices usage 16119 LUTs/ 32030 LUTs 23728 LUTs / 22921 LUTs 20891 LUTs 160 DSPs/ 99 DSPs 204 DSPs / 99 DSPs 99 DSPs 82 BRAMs/ - Throughput 600 Mbps / 1.92 Gbps 513.5 Mbps / 2.81 Gbps 4.84 Gbps In-In delay 4 cycles / 1 cycles - 1 cycles Latency - 121 cycles 16 cycles In đậm là kết quả được tổng hợp lại trong cùng một nền tảng với các thiết kế được so sánh. 50 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  13. Nghiên cứu khoa học công nghệ Đánh giá tổng quát cho thấy, bộ tách tín hiệu mà chúng tôi đề xuất duy trì một sự cân bằng hợp lý trong việc sử dụng chi phí tài nguyên phần cứng để đạt được các thông số thiết kế rất vượt trội, đặc biệt là về thông lượng. So với thiết kế trong [16] và [18], mặc dù thiết kế chúng tôi đề xuất sử dụng số lượng slide nhiều hơn, nhưng số lượng DSP lại giảm xuống, kéo theo độ trễ giảm xuống và thông lượng hệ thống tăng lên. Bên cạnh đó, ngoài việc đánh đổi về sự gia tăng chi phí phần cứng đã nói, các kỹ thuật: triển khai song song khối PED 3 và PED 4, tối giản số bộ nhân thực trong khối PED 4, triển khai bảng tra cứu tránh việc lặp lại phép nhân giữa thông tin tín hiệu và phần tử của ma trận đều là những kỹ thuật thiết kế kiến trúc phần cứng góp phần quan trọng để thiết kế có được kết quả vượt trội. Cụ thể là thông lượng hệ thống tăng 228% so với thiết kế trong [16] và tăng 460% so với thiết kế trong [18] khi được tổng hợp trên cùng một nền tảng phần cứng. Bên cạnh đó, khi triển khai thiết kế của chúng tôi cho hệ thống HRSM 4 × 4 ăng ten điều chế 16-QAM trên nền tảng Virtex 6 VLX75T, kết quả đạt tần số cực đại là 302.7 Mhz, độ trễ 16 chu kỳ đồng hồ và thông lượng lên tới 4.84 Gbps. 5. KẾT LUẬN Trong bài báo này, chúng tôi trình bày một thiết kế kiến trúc phần cứng tối ưu full- pipelined có thông lượng cao cho bộ tách tín hiệu FSD trong hệ thống HRSM 4 × 4, điều chế 16-QAM. Kiến trúc phần cứng mà chúng tôi đề xuất có các thông số vượt trội hơn tất cả các đề xuất tương tự được nêu trong phần tài liệu. Đồng thời, thiết kế này có thể đạt được hiệu suất BER gần nhất với ML. Kiến trúc bộ tách tín hiệu được chúng tôi đề xuất phù hợp để ứng dụng cho các thế hệ hệ thống điều chế không gian tốc độ cao. Lời cảm ơn: Nhóm tác giả xin cảm ơn sự quan tâm, giúp đỡ, hướng dẫn tận tình của quý thầy cô Viện Điện tử - Viễn thông, Trường Đại học Bách Khoa Hà Nội. TÀI LIỆU THAM KHẢO [1]. G. J. Foschini and M. J. Gans, "On limits of wireless communications in a fading environment when using multiple antennas", Wireless Per. Commun., 6, pp. 311- 335, 1998. [2]. E. Telatar, "Capacity of multi-antenna Gaussian channels", European Trans. Telecommun., vol. 10, no. 6, pp.558-595, Nov./Dec. 1999. [3]. P. W. Wolniansky, G. J. Foschini, G. D. Golden and R. Valenzuela, "VBLAST: an architecture for realizing very high data rates over the richscattering wireless channel", Proc. URSI International Symposium on Signals, Systems, and Electronics, pp. 295-300, 1998. [4]. D. Wübben, J. Rinas, V. Kühn and K. D. Kammeyer, "Efficient algorithm for decoding Layered Space-Time Codes", Proc. ITG Conference on Source and Channel Coding, Berlin, Germany, January 2002. [5]. J. H. Y. Fan, R. D. Murch and W. H. Mow, "Near Maximum Likelihood Detection Schemes for Wireless MIMO Systems", IEEE Trans. Wireless Commun., vol. 3, no. 5, pp. 1427¨ ı¿ ½ 1430, Sep. 2004. [6]. B. Hassibi, "An efficient square-root algorithm for BLAST", Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol.2, pp. II737-II740, 2000. [7]. D. Wübben, R. Böhnke, V. Kühn and K. D. Kammeyer, "MMSE Extension of V- BLAST based on Sorted QR Decomposition", Proc. Veh. Technol. Conf., VTC- 2003, vol. 1, pp. 508-512, Oct. 2003. Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 51
  14. Kỹ thuật điều khiển & Điện tử [8]. Thu-Phuong Nguyen, Minh-Tuan Le, Vu-Duc Ngo, Xuan-Nam Tran, Hae-Wook Choi, “Spatial Modulation for High-Rate Transmission Systems”, in Vehicular Technology Conference (VTC Spring), IEEE, pp. 1-5,May 2014. [9]. R. Mesleh, H. Haas, C. Ahn and S. Yun, "Spatial modulation - a new low complexity spectral efficiency enhancing technique", Proc. First International Conf. Commun. Netw., Beijing, China, pp. 1-5, Oct. 2006. [10]. A.Younis, N. Serafimovski, R.Mesleh and H. Haas, "Generalised spatial modulation", Signals, Systems and Computers (ASILOMAR), 2010 Conference Record of the Forty Fourth Asilomar Conference on, pp.1498-1502, Nov. 2010. [11]. J. Fu, C. Hou, W. Xiang, L. Yan and Y. Hou, "Generalised spatial modulation with multiple active transmit antennas", GLOBECOM Workshops (GC Wkshps), 2010 IEEE, pp.839-844, Dec. 2010. [12]. E. Basar, Ü. AygölÜ, E.PanaYlrcl, and H. V. Poor, "Space-Time Block Coded Spatial Modulation", IEEE Trans. Commun., vol. 59, no. 3, pp.823-832, Mar. 2011. [13]. Dong Nguyen, Xuan-Nam Tran, Trung-Minh Do, Vu-Duc Ngo, and Minh-Tuan Le, “Low-Complexity Detectors for High-Rate Spatial Modulation", International Conf. on Advanced Technol. for Commun., ATC 2014 , Hanoi, Vietnam, pp. 652-656, Oct. 2014. [14]. M. Damen, H. Gamal, and G. Caire, "On maximum-likelihood detection and the search for the closest lattice point", IEEE Transactions on Information Theory , vol. 49, no. 10, pp. 2389 – 2402, October 2003. [15]. E. Agrell, T. Eriksson, A. Vardy and K. Zeger, "Closest point search in lattices", IEEE Transactions on Information Theory , vol. 48, no. 8, pp. 2201-2214, August 2002. [16]. L. G. Barbero and J. S. Thompson, "Rapid Prototyping of a Fixed-Throughput Sphere Decoder for MIMO Systems", IEEE International Conference on Communications , vol. 7, pp. 3082-3087, June 2006. [17]. Xuan-Nghia Nguyen, Van-Tu Nguyen, Minh-Tuan Le, Xuan-Nam Tran and Vu-Duc Ngo, "High Throughput Modified MMSE Hardware Detector for High-Rate Spatial Modulation System", IEEE Sixth International Conference on Communications and Electronics (ICCE) , Ha Long, Vietnam, July 2016. [18]. X. Chu and J. McAllister, "FPGA based soft-core SIMD processing: A MIMO- OFDM Fixed-Complexity Sphere Decoder case study", 2010 International Conference on Field-Programmable Technology , Beijing, China, Dec 2010. [19]. Kelvin Lee and Babak Daneshrad, "VLSI implementation of a quasi-ml, energy efficient fixed complexity sphere decoder for MIMO communication system", Proceedings of IEEE International Symposium on Circuits and Systems, Paris, France, May 2010. [20]. L. G. Barbero and J. S. Thompson, "A fixed-complexity MIMO detector based on the complex sphere decoder", IEEE 7th Workshop on Signal Processing Advances in Wireless Communications , Cannes, France, July 2006. [21]. C. P. Schnorr and M. Euchner, "Lattice basis reduction: Improved practical algorithms and solving subset sum problems", Math. Program. , vol. 66, no. 2, pp. 181191, 1994. [22]. C. Zheng, X. Chu, J. McAllister and R. Woods, "Real-Valued Fixed-Complexity Sphere Decoder for HighDimensional QAM-MIMO Systems", IEEE Transactions on Signal Processing , vol. 59, no. 9, pp. 4493-4499, 2011. 52 N. X. Nghĩa, …, N. V. Đức, “Thiết kế kiến trúc phần cứng … hệ thống MIMO-HRSM.”
  15. Nghiên cứu khoa học công nghệ [23]. M. S. Khairy, M. M. Abdallah and S. E. D. Habib, "Efficient FPGA Implementation of MIMO Decoder for Mobile WiMAX System", 2009 IEEE International Conference on Communications , Dresden, Germany, June 2009. ABSTRACT AN EFFICIENT MIMO DETECTOR ARCHITECTURE FOR THE HIGH RATE SPARTIAL MODULATION SYSTEM In this paper, a hardware architecture has been proposed to reduce the complexity of maximum logical receivers (ML: Maximum Likelihood) in the High Rate Spatial Modulation system (HRSM). By combining Sphere Decoding and Sorted QR Decomposition, we propose a hardware architecture of HRSM detector for 4x4 antenna system, 16QAM modulation. Implementation result shows that our design achieves higher throughput compare to other implementations, while still keep latency low and hardware usage acceptable. Keywords: MIMO; HRSM; FSD; VLSI. Nhận bài ngày 16 tháng 5 năm 2019 Hoàn thiện ngày 06 tháng 6 năm 2019 Chấp nhận đăng ngày 17 tháng 6 năm 2019 1 Địa chỉ: Trường Đại học Bách Khoa Hà Nội; 2 Tổng Công ty Viễn thông MobiFone. * Email: nghia.nx@mobifone.vn. Tạp chí Nghiên cứu KH&CN quân sự, Số 61, 6 - 2019 53
nguon tai.lieu . vn