Xem mẫu

  1. HộiHội ThảoThảo Quốc Quốc GiaGia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Kỹ Thuật Nén Tiếng Nói Số Ứng Dụng Trong Thông Tin Vô Tuyến Sóng Ngắn TS. Nguyễn Nam Hải Học viện Kỹ thuật mật mã Email: nam_haivn@yahoo.com Abstract— Trong thông tin liên lạc tầm xa qua kênh sóng sở cho một số hệ thống bảo mật thoại. Ban đầu, LPC được sử ngắn HF, có nhiều nguyên nhân như nhiễu tầng điện li, giao thoa dụng với tốc độ 2.400bps, sau đó các phiên bản 1.200bps, sóng, tín hiệu đến qua nhiều đường… nên tiếng nói thu được tại 800bps và 600bps được đưa ra trong các hệ thống chuẩn hoặc máy thu khó có thể luôn đảm bảo được chất lượng tốt. Trong khi hệ thống riêng. đó việc truyền số liệu tin cậy có thể đạt được chất lượng tốt ngay cả trong điều kiện rất xấu. Điều này đã mang lại cho kỹ thuật Bộ nén tiếng nói “vocoder” thực chất là sự thực hiện quá thoại số cả một lĩnh vực ứng dụng rộng lớn. Việc ứng dụng kỹ trình nén và giải nén tiếng nói bằng kỹ thuật số. Bộ nén tiếng thuật tiếng nói đã đươc số hóa trong thông tin liên lạc HF tạo nói 600bps thường sử dụng các kỹ thuật nén khác hơn đối với điều kiện cho việc bảo mật tiếng nói đạt được độ bảo mật cao. bộ nén 2.400bps. Trong ứng dụng thực tế có một sự “thỏa Trước đây, việc bảo mật thoại được thực hiện bằng kỹ thuật xáo hiệp” nhất định giữa các bộ nén với các tốc độ khác nhau. Với trộn ở trường tương tự. Mặc dầu kỹ thuật xáo trộn tương tự tốc độ số liệu 2.400bps, mang nhiều thông tin, tiếng nói thu mang lại chất lượng tiếng nói tốt nhưng nó rất dễ bị những người được có chất lượng sẽ tốt. Ngoài ra, tại tốc độ này, độ trẽ toàn nghe lén giải mã. Trong khi đó, mã thoại số được mã hóa dưới bộ quá trình xử lí sẽ ngắn nên độ trễ tín hiệu giũa hai đầu Phát- dạng số hoàn toàn và có độ bảo mật cao như đối với số liệu. Thu sẽ ngắn. Tuy nhiên, lí do vì sao tốc độ nén 600bps cực kì Trong phạm vi bài báo này chúng tôi không bàn đến vấn đề bảo hữu dụng trong thông tin liên lạc HF, đặc biệt đối với dòng mật tiếng nói mà chỉ tập trung hệ thống một số kỹ thuật nén tiếng thiết bị cơ động mang vai khi yêu cầu liên lạc là 24h/ngày, đó nói phổ biến và triển khai thực tế một giải pháp nén tiếng Việt là dòng số liệu 600bps có thể thu được qua kênh truyền với tỉ 600 bps Twelp ứng dụng truyền thoại trên kênh HF. số Tín/Tạp nhỏ hơn 10dB so với dòng số liệu 2.400bps. Đây là Từ khóa— Sóng ngắn, kỹ thuật tiếng nói, HF, bảo mật tiếng lần đầu tiên người ta nhận thấy tiêng nói số tin cây hơn tiếng nói. nói tương tự nhiều lần. Thêm vào đó, trong trường hợp truyền tiếng nói số, tín hiệu nhiễu và tín hiệu từ máy phá sóng có thể I. GIỚI THIỆU sẽ bị tự động lọc bỏ nhờ có khả năng cắt bỏ của Modem đơn tone nối tiếp sử dụng trong việc truyền số liệu. Với ưu điểm Tiếng nói là phương tiện chủ yếu mà con người sử dụng để này kỹ thuật tiếng nói số có giá trị thật sự cao không thể phủ liên lạc và giao tiếp hằng ngày. Ngày nay khi các phương tiện nhận được trong lĩnh vực thông tin liên lạc dành cho quân sự. truyền thông phát triển và số người sử dụng các phương tiện liên lạc tăng lên thì mã hoá tiếng nói được nghiên cứu và ứng Trong bài báo này sẽ trình bày việc lựa chọn phương pháp dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi nén tiếng nói tối ưu đối với tiếng Việt và việc tích hợp bộ nén qua mạng di dộng, qua mạng Internet, qua vệ tinh, v.v... tiếng nói được chọn vào trong một hệ thống thu phát qua kênh sóng ngắn. Trong thông tin liên lạc tầm xa qua kênh sóng ngắn HF, do có rất nhiều nguyên nhân như nhiễu tầng điện li, giao thoa II. CÁC PHƯƠNG PHÁP NÉN TIẾNG NÓI sóng, tín hiệu đến qua nhiều đường nên tiếng nói thu được tại máy thu khó có thể luôn có chất lượng tốt. Trong khi đó việc Để nén tín hiệu tiếng nói người ta sử dụng hai phương pháp: truyền số liệu tin cậy luôn đạt được thậm chí trong những điều - Phương pháp nén dựa trên dạng sóng kiện cực kì xấu. Sự thật này đã mang lại cho kỹ thuật thoại số - Nén theo thông số và nén theo thông số hỗn hợp (hybrid) cả một lĩnh vực ứng dụng rộng lớn. Đối với phương pháp nén dựa trên dạng sóng, tiếng nói được nén bằng việc giảm thiểu độ dư giữa các mẫu tiếng nói. Không những thế, việc ứng dụng kỹ thuật tiếng nói số trong Phương pháp này chỉ có thể nén tiếng nói trong khoảng thông tin liên lạc HF đã hỗ trợ cho việc bảo mật tiếng nói đạt 64kbps đến 16kbps. được cấp độ mã hóa cao. Trước đây, việc bảo mật thoại được thực hiện bằng kỹ thuật xáo trộn ở trường tương tự. Mặc dầu Ngược lại với phương pháp nén tiếng nói dựa trên dạng sóng, kỹ thuật xáo trộn tương tự mang lại chất lượng tiếng nói tốt phương pháp nén theo thông số dựa trên cách tiếng nói được nhưng nó rất dễ bị những người nghe lén giải mã. Trong khi tạo ra như thế nào. Thay vì truyền các mẫu dạng sóng tín hiệu đó, thoại số được mã hóa dưới dạng số hoàn toàn và nó có thể tiếng nói người ta sẽ chỉ truyền các thông số liên quan đến cơ có độ bảo mật cao như đối với số liệu. chế tạo ra tiếng nói đến bên thu và tại bên thu tiếng nói sẽ được từ mô hình tạo tiếng nói. Như vậy bằng phương pháp Kỹ thuật tiếng nói số được đưa vào các hệ thống máy thu này người ta sẽ đạt được tỉ lệ nén rất cao. Mô hình nén tiếng phát sóng ngắn vào đầu năm 1980 và liên tục phát triển cho đến nói đầu tiên LPC- Linear Prediction Coding - do Phòng thí ngày nay. Trong những thập kỉ 80 và 90, kỹ thuật thoại số phổ nghiệm Bell Labs, Atal vào năm 1971. Mô hình này được thiết biến nhất đó là Mã Dự đoán Tuyến tính (LPC). Biến thể chuẩn kế nhằm mô phỏng cơ chế tạo tiếng nói con người và tỉ lệ nén thực sự theo kỹ thuật này đó là LPC-10e và nó đã trở thành cơ ISBN: 978-604-67-0635-9 384 384
  2. HộiHội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) đạt được đến tận 800bps, tuy nhiên tốc độ thông dụng được MELP cơ bản dựa trên LPC10e nhưng có thêm 05 đặc điểm khuyến cáo sử dụng là 1200bps - 4800bps. Tiếng nói tái tạo khác cùng với sự tích hợp bộ tiền xử lí (Pre-processor). Nhờ theo mô hình LPC nghe tựa như tiếng người máy, tuy nhiên độ có bộ tiền xử lí nên mô hình MELP có thể ứng dụng tại cả ba nghe hiểu rất cao. tốc độ 2400, 1200 & 600bps. Với lý do là phương pháp nén dựa theo thông số khó có thể đạt được chất lượng tiếng nói cao kể cả đối với âm vô thanh và hữu thanh người ta đã đề xuất một phương pháp thứ ba tích hợp các đặc trưng của phương pháp dạng sóng và nén theo thông số. Phương pháp này giữ nguyên bản chất của phương pháp theo thông số bao gồm bộ lọc thanh âm và bộ phân tích tần số âm cơ bản và quyết định về âm vô thanh hoặc hữu thanh. Thay vì sử dụng một chuỗi xung tuần hoàn để thể hiện tín hiệu kích hoạt dành cho đoạn tiếng nói hữu thanh người ta sử dụng tín hiệu giống dạng sóng dành cho các đoạn tiếng nói vô thanh và hữu thanh. Trong thông tin liên lạc sóng ngắn có băng thông hẹp (300 - 3000Hz), các phương pháp nén tiếng nói theo thông số và phương pháp hỗn hợp được quan tâm phân tích khả năng ứng dụng thực tế. A. Mô hình LPC Bộ nén tiếng nói (Vocoder) LPC10 đã từng được sử dụng rộng Hình 1. Mô hình hệ thống mã hóa MELP rãi như là một phần của hệ thống bảo mật trong các thiết bị thu phát sóng ngắn HF của NATO và quân sự Mỹ. Mô hình phổ Bộ nén tiếng nói MELP 600bps xử lí đoạn tiếng nói 25ms, bộ biến nhất của LPC đó là LPC10e. Quá trình phân tích LPC10e đệm có thể chứa 5 đoạn và độ dài là 100ms. Thông số của (phía bên phát) đưa ra các hệ số dự đoán, những hệ số này mô MELP 600bps được mã bao gồm 64 bit cho một đoạn 100ms phỏng bộ lọc thanh quản của người như là một tập hợp tuyến hoặc tốc độ là 600bit/s. Bảng mã chi tiết của các thông số như tính của các mẫu tiếng nói trước. Để có được chất lượng tốt sau: hơn về lượng tử hóa, nội suy, dánh giá độ ổn định và sửa sai Aperiodic Flag: 0bit; Band-pass Voicing: 4bit; Energy: 11 bit; người ta chuyển những hệ số dự đoán đó sang thành các hệ số Pitch: 7 bit; Spectrum: 10+10+9+9. phản xạ. Quá trình xử lý thoại để truyền như trong hình 2. Tiếng nói tổng hợp tại đầu ra của LPC10e là kết quả của phép tích chập có khuyêchs đại của những hệ số dự đoán hoặc là với chuỗi xung có chu kì tại tần số âm cơ bản ước lượng hoặc là với chuỗi xung ngẫu nhiên thể hiện âm vô thanh. Mô hình LPC10e ba gồm hai thông số xác định âm vô thanh và âm hữu thanh có độ dài là 1/2 khung, âm cơ bản ước lượng của khung 22,5ms, giá trị năng luuwongj của khung 22,5ms và Hình 2. Quá trình xử lý thoại để truyền phổ thời gian ngắn được đại diện bởi bộ lọc dự đoán bậc 10. Ưu điểm của mô hình LPC10e là độ nghe hiểu rất cao tại tốc Xét tín hiệu tiếng nói đầu vào trong một khung thời gian 22,5 độ 2400bps, tuy nhiên tiếng nói mang màu sắc tổng hợp, ms sau khi qua bộ chuyển đổi AD, thì ta được 180 mẫu x 14 không tự nhiên. Ngoài ra, tiếng nói tổng hợp sẽ giảm chất bit. Sau đó dữ liệu được cho qua bộ mã hóa Melp đầu ra bộ lượng rất rõ rệt tại tốc độ thấp. mã hóa còn lại là 54 bit. Ta thêm vào các bit chẵn lẻ và sau đó Trong thực tế, để có thể truyền tại tốc độ 24000bps với độ tin cho qua bộ mã hóa Reed-Solomon và sau đó thêm vào các bít cậy có thể chấp nhận được thì kênh truyền HF phải rất tốt với đồng bộ được 180 mẫu. Cuối cùng cho dữ liệu này qua bộ tỉ lệ tín trên tạp rất cao (lớn hơn +12dB). Điều này đã hạn chế chuyển đổi DAC và truyền lên băng cơ sở. sự thành công của LPC10 vocoder đáng kể. Ngoài ra, kể cả trong trường hợp truyền 2400bps tốt thì chất lượng tiếng nói của LPC10 cũng chỉ đạt ở mức tối thiểu do nó rất nhậy cảm với nhiễu. B. Mô hình MELP MELP được tổ chức nhà nước Mỹ DoD Digital Voice Processing Consortium phát triển và trở thành một chuẩn cho Hình 3. Quá trình xử lý thoại khi nhận về các ứng dụng trong kênh dải hẹp. Mô hình mới này thể hiện sự nâng cấp rõ rệt đối với chất lượng tiếng nói và độ nghe hiểu. 385 385
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Tín hiệu từ băng cơ sở sau khi qua bộ chuyển đổi ADC thì được là 180 mẫu. Sau đó cho qua bộ giải mã Reed-Solomon thì còn lại 54 bit. Tiếp tục cho qua bộ giải mã MELP thu được 180 mẫu và sau đó cho qua bộ chuyển đổi DAC. Cuối cùng tín hiệu tiếng nói được đưa ra LOA. C. Mô hình TWELP Nhằm nâng cao chất lượng tiếng nói sau giải nén tại các tốc độ thấp, trong những năm gần đây các chuyên gia Nga đã phát triển mô hình mới mang tên TWELP (Tri–Wave Excited Linear Prediction). Mô hình này được phát triển dựa trên mô hình LPC với một số thay đổi quan trọng như sau: - Phương pháp ước lượng âm cơ bản rất tiên tiến và tin cậy. Hình 5. Độ nghe hiểu của hai phương pháp MELPe và TWELP - Phân tích âm cơ bản đồng bộ. Mô hình kích ba–sóng: Sóng kích thành phần hữu thanh; Sóng kích thành phần vô thanh và sóng kích thành phần quá độ (âm bật giữa hai nguyên âm) Sơ đồ lượng tử hóa mới nhất như mô tả trong hình 1. Hình 6. Chất lượng ngôn ngữ TWELP 1200 và MELPs 1200 Hình 4. Sơ đồ lượng tử hóa III. ỨNG DỤNG MÔ HÌNH TWELP TRONG MÔI TRƯỜNG THÔNG TIN LIÊN LẠC SÓNG NGẮN HF Theo tiêu chí PESQ (sự đánh giá theo nhận thức về chất lượng tiếng nói– Perceptual Evaluation of Speech quality) tại các tốc độ 2400, 1200, 600bps bộ nén tiếng nói TWELP được đánh giá là tốt hơn MELPe một cách rõ rệt. Trong danh sách thử nghiệm đánh giá có cả tiếng châu Á đó là tiếng Trung quốc và tiếng Nhật. Hai biểu đồ trong hình 5 và 6 thể hiện kết quả đánh giá độ Số lượng ngôn ngữ  nghe hiểu PESQ của hai phương pháp MELPe và TWELP tại tốc độ 12000bps & 600bps và biểu đồ trong hình 7 so sánh độ Hình 7. So sánh chất lượng ngôn ngữ TWELP 2400 với AMBE+ nghe hiểu PESQ của ba phương pháp AMBE+2 ở tốc độ 2450 24500 và MELPe 2400. bps, MELPe tốc độ 2400 bps và TWELP tốc độ 2400 bps. Với kết quả đánh giá qua ba sơ đồ, ta thấy đối với cả hai tốc IV. TÍCH HỢP BỘ NÉN TWELP TRONG HỆ THỐNG độ phương pháp TWELP đều cho hệ số PESQ tốt hơn MELPe TRUYỀN QUA KÊNH SÓNG NGẮN VÀ ĐÁNH GIÁ và phương pháp nén TWELP được xem xét ứng dụng trong dự Bộ nén tiếng nói TWELP hai tốc độ 1200bps và 600bps được án “tiếng nói số tốc độ thấp trong thông tin liên lạc qua kênh thiết kế và tích hợp trong hệ thống như ở hình 8. Modem kỹ sóng ngắn”. thuật số điều chế /giải diều chế theo chuẩn BPSK (Bidirectional Phase Shift Key). Bộ vi xử lý ARM AT91SAM7S256 điều khiển dòng số liệu vào/ra giữa bộ nén tiếng nói và modem truyền. Thiết bị thu phát được sử dụng là máy IC 700PRO. Cự ly thử nghiệm khoảng 300Km giữa hai 386 386
  4. HộiHội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) địa điểm Hà nội và Hà Tĩnh, tín hiệu được truyền qua sóng [3] Charles Brain and Andy Talbot- High-quality Voice Communications is possible without exceeding SSB bandwidth or expensive broadcast trời trên cự li này. studio equipment, QEX June 2000. [4] Kihong Kim, the Attached Institute of ETRI, Youseong , Daejeon, Korea and Jinkeun Hong, Baekseok University, Korea – Evaluation of Transmission and Quality Performance of Digital Voice Communications in an HF Network; 2009 IEEEE. [5] ANDREAS SPANIAS, Speech coding: A tutorial review, Arizona State University, USA - 1994. [6] http://twelp.pro [7] www.electronicsarena.co.uk [8] Wai C. Chu, Speech Coding Algorithms- Foundation and Evolution of Standardized Coders, John Wiley & Sons, 2003. Hình 8. Sơ đồ hệ thống truyền tiếng nói số qua kênh sóng ngắn Với phương thức đánh giá chất lượng tiếng nói trong thông tin liên lạc vô tuyến: ****** = 6/6 Chất lượng tuyệt vời ***** = 5/6 Chất lượng rất tốt **** = 4/6 Chất lượng tốt *** = 3/6 Chấp nhận được ** = 2/6 Tạm được * = 1/6 Kém Thì chất lượng tiếng nói bên tại bên máy thu đối với hai tôc độ 1200bps và 600bps thể hiện trong bảng I. BẢNG I. CHẤT LƯỢNG TIẾNG NÓI Phương Tốc Độ Nhận Giới hạn thức Dải độ nghe biết thấp nhất điều thông nén hiểu giọng nói SNR chế 1200 BPSK 3kHz **** *** 4.0dB 600 BPSK 3 kHz *** ** 0.5dB V. KẾT LUẬN Việc phân tích, thực hiện và tích hợp bộ nén thoại TWELP vào trong hệ thống thu phát sóng ngắn trình bày trong bài báo này đã giải quyết được vấn đề nan giải nhất trong truyền thoại số qua kênh sóng ngắn HF. Đó là thông tin tiếng nói có thể truyền đi và hiểu được ngay cả khi chất lượng đường truyền rất kém (tỷ lệ tín/tạp 0.5dB). Cho đến ngày nay, trên thế giới, tiếng nói số trong thông tin liên lạc sóng ngắn vẫn đang được sử dụng phổ biến tại tốc độ 1200bps. Với tốc độ này việc liên lạc khó có thể thực hiện được trong những khoảng thời gian khi có nhiễu lớn và fading liên tục đặc biệt là về đêm từ 22 giờ đến 5 giờ sáng. Với tốc độ 600bps tiếng nói có thể truyền và nhận với độ nghe hiểu được khi kênh truyền kém và việc liên lạc có thể được duy trì trong phần lớn thời gian. TÀI LIỆU THAM KHẢO [1] Carl Kritzinger - Low Bit rate Speech Coding , April 2006. Thesis presented in partial fulfiment of the requirement for the degree of Master of Science in Engineering Science at the University of Stellenbosch. [2] Mark W. – a 600bps MELP Vocoder for use on HF channel, Harris Corporation , RF Communications Division , 1680 University Avenue Rochester , New York 14610. 387 387
nguon tai.lieu . vn