Xem mẫu
- HộiHội
ThảoThảo Quốc
Quốc GiaGia 2015vềvềĐiện
2015 ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
và Công
CôngNghệ
NghệThông
ThôngTinTin
(ECIT 2015)
(ECIT 2015)
Kỹ Thuật Nén Tiếng Nói Số Ứng Dụng Trong Thông
Tin Vô Tuyến Sóng Ngắn
TS. Nguyễn Nam Hải
Học viện Kỹ thuật mật mã
Email: nam_haivn@yahoo.com
Abstract— Trong thông tin liên lạc tầm xa qua kênh sóng sở cho một số hệ thống bảo mật thoại. Ban đầu, LPC được sử
ngắn HF, có nhiều nguyên nhân như nhiễu tầng điện li, giao thoa dụng với tốc độ 2.400bps, sau đó các phiên bản 1.200bps,
sóng, tín hiệu đến qua nhiều đường… nên tiếng nói thu được tại 800bps và 600bps được đưa ra trong các hệ thống chuẩn hoặc
máy thu khó có thể luôn đảm bảo được chất lượng tốt. Trong khi hệ thống riêng.
đó việc truyền số liệu tin cậy có thể đạt được chất lượng tốt ngay
cả trong điều kiện rất xấu. Điều này đã mang lại cho kỹ thuật Bộ nén tiếng nói “vocoder” thực chất là sự thực hiện quá
thoại số cả một lĩnh vực ứng dụng rộng lớn. Việc ứng dụng kỹ trình nén và giải nén tiếng nói bằng kỹ thuật số. Bộ nén tiếng
thuật tiếng nói đã đươc số hóa trong thông tin liên lạc HF tạo nói 600bps thường sử dụng các kỹ thuật nén khác hơn đối với
điều kiện cho việc bảo mật tiếng nói đạt được độ bảo mật cao. bộ nén 2.400bps. Trong ứng dụng thực tế có một sự “thỏa
Trước đây, việc bảo mật thoại được thực hiện bằng kỹ thuật xáo hiệp” nhất định giữa các bộ nén với các tốc độ khác nhau. Với
trộn ở trường tương tự. Mặc dầu kỹ thuật xáo trộn tương tự tốc độ số liệu 2.400bps, mang nhiều thông tin, tiếng nói thu
mang lại chất lượng tiếng nói tốt nhưng nó rất dễ bị những người được có chất lượng sẽ tốt. Ngoài ra, tại tốc độ này, độ trẽ toàn
nghe lén giải mã. Trong khi đó, mã thoại số được mã hóa dưới bộ quá trình xử lí sẽ ngắn nên độ trễ tín hiệu giũa hai đầu Phát-
dạng số hoàn toàn và có độ bảo mật cao như đối với số liệu. Thu sẽ ngắn. Tuy nhiên, lí do vì sao tốc độ nén 600bps cực kì
Trong phạm vi bài báo này chúng tôi không bàn đến vấn đề bảo hữu dụng trong thông tin liên lạc HF, đặc biệt đối với dòng
mật tiếng nói mà chỉ tập trung hệ thống một số kỹ thuật nén tiếng thiết bị cơ động mang vai khi yêu cầu liên lạc là 24h/ngày, đó
nói phổ biến và triển khai thực tế một giải pháp nén tiếng Việt
là dòng số liệu 600bps có thể thu được qua kênh truyền với tỉ
600 bps Twelp ứng dụng truyền thoại trên kênh HF.
số Tín/Tạp nhỏ hơn 10dB so với dòng số liệu 2.400bps. Đây là
Từ khóa— Sóng ngắn, kỹ thuật tiếng nói, HF, bảo mật tiếng lần đầu tiên người ta nhận thấy tiêng nói số tin cây hơn tiếng
nói. nói tương tự nhiều lần. Thêm vào đó, trong trường hợp truyền
tiếng nói số, tín hiệu nhiễu và tín hiệu từ máy phá sóng có thể
I. GIỚI THIỆU sẽ bị tự động lọc bỏ nhờ có khả năng cắt bỏ của Modem đơn
tone nối tiếp sử dụng trong việc truyền số liệu. Với ưu điểm
Tiếng nói là phương tiện chủ yếu mà con người sử dụng để
này kỹ thuật tiếng nói số có giá trị thật sự cao không thể phủ
liên lạc và giao tiếp hằng ngày. Ngày nay khi các phương tiện
nhận được trong lĩnh vực thông tin liên lạc dành cho quân sự.
truyền thông phát triển và số người sử dụng các phương tiện
liên lạc tăng lên thì mã hoá tiếng nói được nghiên cứu và ứng Trong bài báo này sẽ trình bày việc lựa chọn phương pháp
dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi nén tiếng nói tối ưu đối với tiếng Việt và việc tích hợp bộ nén
qua mạng di dộng, qua mạng Internet, qua vệ tinh, v.v... tiếng nói được chọn vào trong một hệ thống thu phát qua kênh
sóng ngắn.
Trong thông tin liên lạc tầm xa qua kênh sóng ngắn HF, do
có rất nhiều nguyên nhân như nhiễu tầng điện li, giao thoa II. CÁC PHƯƠNG PHÁP NÉN TIẾNG NÓI
sóng, tín hiệu đến qua nhiều đường nên tiếng nói thu được tại
máy thu khó có thể luôn có chất lượng tốt. Trong khi đó việc Để nén tín hiệu tiếng nói người ta sử dụng hai phương pháp:
truyền số liệu tin cậy luôn đạt được thậm chí trong những điều - Phương pháp nén dựa trên dạng sóng
kiện cực kì xấu. Sự thật này đã mang lại cho kỹ thuật thoại số - Nén theo thông số và nén theo thông số hỗn hợp (hybrid)
cả một lĩnh vực ứng dụng rộng lớn. Đối với phương pháp nén dựa trên dạng sóng, tiếng nói được
nén bằng việc giảm thiểu độ dư giữa các mẫu tiếng nói.
Không những thế, việc ứng dụng kỹ thuật tiếng nói số trong Phương pháp này chỉ có thể nén tiếng nói trong khoảng
thông tin liên lạc HF đã hỗ trợ cho việc bảo mật tiếng nói đạt
64kbps đến 16kbps.
được cấp độ mã hóa cao. Trước đây, việc bảo mật thoại được
thực hiện bằng kỹ thuật xáo trộn ở trường tương tự. Mặc dầu Ngược lại với phương pháp nén tiếng nói dựa trên dạng sóng,
kỹ thuật xáo trộn tương tự mang lại chất lượng tiếng nói tốt phương pháp nén theo thông số dựa trên cách tiếng nói được
nhưng nó rất dễ bị những người nghe lén giải mã. Trong khi tạo ra như thế nào. Thay vì truyền các mẫu dạng sóng tín hiệu
đó, thoại số được mã hóa dưới dạng số hoàn toàn và nó có thể tiếng nói người ta sẽ chỉ truyền các thông số liên quan đến cơ
có độ bảo mật cao như đối với số liệu. chế tạo ra tiếng nói đến bên thu và tại bên thu tiếng nói sẽ
được từ mô hình tạo tiếng nói. Như vậy bằng phương pháp
Kỹ thuật tiếng nói số được đưa vào các hệ thống máy thu này người ta sẽ đạt được tỉ lệ nén rất cao. Mô hình nén tiếng
phát sóng ngắn vào đầu năm 1980 và liên tục phát triển cho đến nói đầu tiên LPC- Linear Prediction Coding - do Phòng thí
ngày nay. Trong những thập kỉ 80 và 90, kỹ thuật thoại số phổ nghiệm Bell Labs, Atal vào năm 1971. Mô hình này được thiết
biến nhất đó là Mã Dự đoán Tuyến tính (LPC). Biến thể chuẩn
kế nhằm mô phỏng cơ chế tạo tiếng nói con người và tỉ lệ nén
thực sự theo kỹ thuật này đó là LPC-10e và nó đã trở thành cơ
ISBN: 978-604-67-0635-9 384
384
- HộiHội
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
đạt được đến tận 800bps, tuy nhiên tốc độ thông dụng được MELP cơ bản dựa trên LPC10e nhưng có thêm 05 đặc điểm
khuyến cáo sử dụng là 1200bps - 4800bps. Tiếng nói tái tạo khác cùng với sự tích hợp bộ tiền xử lí (Pre-processor). Nhờ
theo mô hình LPC nghe tựa như tiếng người máy, tuy nhiên độ có bộ tiền xử lí nên mô hình MELP có thể ứng dụng tại cả ba
nghe hiểu rất cao. tốc độ 2400, 1200 & 600bps.
Với lý do là phương pháp nén dựa theo thông số khó có thể
đạt được chất lượng tiếng nói cao kể cả đối với âm vô thanh
và hữu thanh người ta đã đề xuất một phương pháp thứ ba tích
hợp các đặc trưng của phương pháp dạng sóng và nén theo
thông số. Phương pháp này giữ nguyên bản chất của phương
pháp theo thông số bao gồm bộ lọc thanh âm và bộ phân tích
tần số âm cơ bản và quyết định về âm vô thanh hoặc hữu
thanh. Thay vì sử dụng một chuỗi xung tuần hoàn để thể hiện
tín hiệu kích hoạt dành cho đoạn tiếng nói hữu thanh người ta
sử dụng tín hiệu giống dạng sóng dành cho các đoạn tiếng nói
vô thanh và hữu thanh.
Trong thông tin liên lạc sóng ngắn có băng thông hẹp (300 -
3000Hz), các phương pháp nén tiếng nói theo thông số và
phương pháp hỗn hợp được quan tâm phân tích khả năng ứng
dụng thực tế.
A. Mô hình LPC
Bộ nén tiếng nói (Vocoder) LPC10 đã từng được sử dụng rộng Hình 1. Mô hình hệ thống mã hóa MELP
rãi như là một phần của hệ thống bảo mật trong các thiết bị thu
phát sóng ngắn HF của NATO và quân sự Mỹ. Mô hình phổ Bộ nén tiếng nói MELP 600bps xử lí đoạn tiếng nói 25ms, bộ
biến nhất của LPC đó là LPC10e. Quá trình phân tích LPC10e đệm có thể chứa 5 đoạn và độ dài là 100ms. Thông số của
(phía bên phát) đưa ra các hệ số dự đoán, những hệ số này mô MELP 600bps được mã bao gồm 64 bit cho một đoạn 100ms
phỏng bộ lọc thanh quản của người như là một tập hợp tuyến hoặc tốc độ là 600bit/s. Bảng mã chi tiết của các thông số như
tính của các mẫu tiếng nói trước. Để có được chất lượng tốt sau:
hơn về lượng tử hóa, nội suy, dánh giá độ ổn định và sửa sai Aperiodic Flag: 0bit; Band-pass Voicing: 4bit; Energy: 11 bit;
người ta chuyển những hệ số dự đoán đó sang thành các hệ số Pitch: 7 bit; Spectrum: 10+10+9+9.
phản xạ. Quá trình xử lý thoại để truyền như trong hình 2.
Tiếng nói tổng hợp tại đầu ra của LPC10e là kết quả của phép
tích chập có khuyêchs đại của những hệ số dự đoán hoặc là
với chuỗi xung có chu kì tại tần số âm cơ bản ước lượng hoặc
là với chuỗi xung ngẫu nhiên thể hiện âm vô thanh.
Mô hình LPC10e ba gồm hai thông số xác định âm vô thanh
và âm hữu thanh có độ dài là 1/2 khung, âm cơ bản ước lượng
của khung 22,5ms, giá trị năng luuwongj của khung 22,5ms và
Hình 2. Quá trình xử lý thoại để truyền
phổ thời gian ngắn được đại diện bởi bộ lọc dự đoán bậc 10.
Ưu điểm của mô hình LPC10e là độ nghe hiểu rất cao tại tốc
Xét tín hiệu tiếng nói đầu vào trong một khung thời gian 22,5
độ 2400bps, tuy nhiên tiếng nói mang màu sắc tổng hợp,
ms sau khi qua bộ chuyển đổi AD, thì ta được 180 mẫu x 14
không tự nhiên. Ngoài ra, tiếng nói tổng hợp sẽ giảm chất
bit. Sau đó dữ liệu được cho qua bộ mã hóa Melp đầu ra bộ
lượng rất rõ rệt tại tốc độ thấp.
mã hóa còn lại là 54 bit. Ta thêm vào các bit chẵn lẻ và sau đó
Trong thực tế, để có thể truyền tại tốc độ 24000bps với độ tin
cho qua bộ mã hóa Reed-Solomon và sau đó thêm vào các bít
cậy có thể chấp nhận được thì kênh truyền HF phải rất tốt với
đồng bộ được 180 mẫu. Cuối cùng cho dữ liệu này qua bộ
tỉ lệ tín trên tạp rất cao (lớn hơn +12dB). Điều này đã hạn chế
chuyển đổi DAC và truyền lên băng cơ sở.
sự thành công của LPC10 vocoder đáng kể. Ngoài ra, kể cả
trong trường hợp truyền 2400bps tốt thì chất lượng tiếng nói
của LPC10 cũng chỉ đạt ở mức tối thiểu do nó rất nhậy cảm
với nhiễu.
B. Mô hình MELP
MELP được tổ chức nhà nước Mỹ DoD Digital Voice
Processing Consortium phát triển và trở thành một chuẩn cho Hình 3. Quá trình xử lý thoại khi nhận về
các ứng dụng trong kênh dải hẹp. Mô hình mới này thể hiện sự
nâng cấp rõ rệt đối với chất lượng tiếng nói và độ nghe hiểu.
385
385
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Tín hiệu từ băng cơ sở sau khi qua bộ chuyển đổi ADC thì
được là 180 mẫu. Sau đó cho qua bộ giải mã Reed-Solomon
thì còn lại 54 bit. Tiếp tục cho qua bộ giải mã MELP thu được
180 mẫu và sau đó cho qua bộ chuyển đổi DAC. Cuối cùng
tín hiệu tiếng nói được đưa ra LOA.
C. Mô hình TWELP
Nhằm nâng cao chất lượng tiếng nói sau giải nén tại các tốc độ
thấp, trong những năm gần đây các chuyên gia Nga đã phát
triển mô hình mới mang tên TWELP (Tri–Wave Excited
Linear Prediction). Mô hình này được phát triển dựa trên mô
hình LPC với một số thay đổi quan trọng như sau:
- Phương pháp ước lượng âm cơ bản rất tiên tiến và tin cậy. Hình 5. Độ nghe hiểu của hai phương pháp MELPe và TWELP
- Phân tích âm cơ bản đồng bộ.
Mô hình kích ba–sóng: Sóng kích thành phần hữu thanh; Sóng
kích thành phần vô thanh và sóng kích thành phần quá độ (âm
bật giữa hai nguyên âm)
Sơ đồ lượng tử hóa mới nhất như mô tả trong hình 1.
Hình 6. Chất lượng ngôn ngữ TWELP 1200 và MELPs 1200
Hình 4. Sơ đồ lượng tử hóa
III. ỨNG DỤNG MÔ HÌNH TWELP TRONG MÔI
TRƯỜNG THÔNG TIN LIÊN LẠC SÓNG NGẮN HF
Theo tiêu chí PESQ (sự đánh giá theo nhận thức về chất lượng
tiếng nói– Perceptual Evaluation of Speech quality) tại các tốc
độ 2400, 1200, 600bps bộ nén tiếng nói TWELP được đánh
giá là tốt hơn MELPe một cách rõ rệt. Trong danh sách thử
nghiệm đánh giá có cả tiếng châu Á đó là tiếng Trung quốc và
tiếng Nhật.
Hai biểu đồ trong hình 5 và 6 thể hiện kết quả đánh giá độ Số lượng ngôn ngữ
nghe hiểu PESQ của hai phương pháp MELPe và TWELP tại
tốc độ 12000bps & 600bps và biểu đồ trong hình 7 so sánh độ Hình 7. So sánh chất lượng ngôn ngữ TWELP 2400 với AMBE+
nghe hiểu PESQ của ba phương pháp AMBE+2 ở tốc độ 2450 24500 và MELPe 2400.
bps, MELPe tốc độ 2400 bps và TWELP tốc độ 2400 bps.
Với kết quả đánh giá qua ba sơ đồ, ta thấy đối với cả hai tốc IV. TÍCH HỢP BỘ NÉN TWELP TRONG HỆ THỐNG
độ phương pháp TWELP đều cho hệ số PESQ tốt hơn MELPe TRUYỀN QUA KÊNH SÓNG NGẮN VÀ ĐÁNH GIÁ
và phương pháp nén TWELP được xem xét ứng dụng trong dự
Bộ nén tiếng nói TWELP hai tốc độ 1200bps và 600bps được
án “tiếng nói số tốc độ thấp trong thông tin liên lạc qua kênh
thiết kế và tích hợp trong hệ thống như ở hình 8. Modem kỹ
sóng ngắn”.
thuật số điều chế /giải diều chế theo chuẩn BPSK
(Bidirectional Phase Shift Key). Bộ vi xử lý ARM
AT91SAM7S256 điều khiển dòng số liệu vào/ra giữa bộ nén
tiếng nói và modem truyền. Thiết bị thu phát được sử dụng là
máy IC 700PRO. Cự ly thử nghiệm khoảng 300Km giữa hai
386
386
- HộiHội
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
địa điểm Hà nội và Hà Tĩnh, tín hiệu được truyền qua sóng [3] Charles Brain and Andy Talbot- High-quality Voice Communications is
possible without exceeding SSB bandwidth or expensive broadcast
trời trên cự li này. studio equipment, QEX June 2000.
[4] Kihong Kim, the Attached Institute of ETRI, Youseong , Daejeon,
Korea and Jinkeun Hong, Baekseok University, Korea – Evaluation of
Transmission and Quality Performance of Digital Voice
Communications in an HF Network; 2009 IEEEE.
[5] ANDREAS SPANIAS, Speech coding: A tutorial review, Arizona State
University, USA - 1994.
[6] http://twelp.pro
[7] www.electronicsarena.co.uk
[8] Wai C. Chu, Speech Coding Algorithms- Foundation and Evolution of
Standardized Coders, John Wiley & Sons, 2003.
Hình 8. Sơ đồ hệ thống truyền tiếng nói số qua kênh sóng ngắn
Với phương thức đánh giá chất lượng tiếng nói trong thông tin
liên lạc vô tuyến:
****** = 6/6 Chất lượng tuyệt vời
***** = 5/6 Chất lượng rất tốt
**** = 4/6 Chất lượng tốt
*** = 3/6 Chấp nhận được
** = 2/6 Tạm được
* = 1/6 Kém
Thì chất lượng tiếng nói bên tại bên máy thu đối với hai tôc độ
1200bps và 600bps thể hiện trong bảng I.
BẢNG I. CHẤT LƯỢNG TIẾNG NÓI
Phương
Tốc Độ Nhận Giới hạn
thức Dải
độ nghe biết thấp nhất
điều thông
nén hiểu giọng nói SNR
chế
1200 BPSK 3kHz **** *** 4.0dB
600 BPSK 3 kHz *** ** 0.5dB
V. KẾT LUẬN
Việc phân tích, thực hiện và tích hợp bộ nén thoại TWELP
vào trong hệ thống thu phát sóng ngắn trình bày trong bài báo
này đã giải quyết được vấn đề nan giải nhất trong truyền thoại
số qua kênh sóng ngắn HF. Đó là thông tin tiếng nói có thể
truyền đi và hiểu được ngay cả khi chất lượng đường truyền
rất kém (tỷ lệ tín/tạp 0.5dB).
Cho đến ngày nay, trên thế giới, tiếng nói số trong thông tin
liên lạc sóng ngắn vẫn đang được sử dụng phổ biến tại tốc độ
1200bps. Với tốc độ này việc liên lạc khó có thể thực hiện
được trong những khoảng thời gian khi có nhiễu lớn và fading
liên tục đặc biệt là về đêm từ 22 giờ đến 5 giờ sáng.
Với tốc độ 600bps tiếng nói có thể truyền và nhận với độ nghe
hiểu được khi kênh truyền kém và việc liên lạc có thể được
duy trì trong phần lớn thời gian.
TÀI LIỆU THAM KHẢO
[1] Carl Kritzinger - Low Bit rate Speech Coding , April 2006. Thesis
presented in partial fulfiment of the requirement for the degree of
Master of Science in Engineering Science at the University of
Stellenbosch.
[2] Mark W. – a 600bps MELP Vocoder for use on HF channel, Harris
Corporation , RF Communications Division , 1680 University Avenue
Rochester , New York 14610.
387
387
nguon tai.lieu . vn