Xem mẫu

  1. TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lê Thị Hồng Thuy và tgk MỘT ƯỚC LƯỢNG CHUỖI TRỰC GIAO CHO BÀI TOÁN GIẢI CHẬP MẬT ĐỘ PHI THAM SỐ AN ORTHOGONAL SERIES ESTIMATOR FOR NONPARAMETRIC DENSITY ECONVOLUTION PROBLEM LÊ THỊ HỒNG THUY và CAO XUÂN PHƯƠNG TÓM TẮT: Cho X là một biến ngẫu nhiên liên tục với hàm mật độ f X bị chặn và có giá com-pắc trong [, ] . Trong bài viết, chúng tôi khảo sát bài toán ước lượng f X trên cơ sở một mẫu ngẫu nhiên từ phân phối của biến ngẫu nhiên Y được sinh ra từ mô hình Y  X   . Ở đây,  là một nhiễu ngẫu nhiên tuân theo một phân phối biết trước. Bằng cách áp dụng phương pháp ước lượng chuỗi trực giao, chúng tôi đề xuất một ước lượng phi tham số cho f X . Sau đó, chúng tôi thiết lập một số kết quả hội tụ của ước lượng tương ứng theo sai số bình phương tích phân trung bình dưới một số điều kiện nào đó đặt ra trên các phân phối của X và  . Từ khóa: bài toán giải chập mật độ; ước lượng chuỗi trực giao; sự bền vững; các cấp độ hội tụ. ABSTRACT: Let X be a continuous random variable with a density function f X blocked and has a compact supported on [, ] . In this study, we examine the estimation problem f X on the basis of a random sample from the distribution of random variables Y generated by the model Y  X   . Here  is a random variable compiled with a known distribution. By applying an orthogonal series estimation method, we propose a nonparametric estimator of f X . We then establish some convergence results of the respective estimates against the mean integral squared error under some certain conditions set on the distributions of X and  . Key words: density deconvolution problem; orthogonal series estimator; consistency; levels of convergence. 1. ĐẶT VẤN ĐỀ Y . Bài toán đặt ra là ước lượng f X ( x) , x  [, ] , Cho X , Y và  là các biến ngẫu nhiên liên tục, trên cơ sở các quan trắc ngẫu nhiên Y1, Y2 , , Yn cũng nhận các giá trị thực và liên hệ nhau thông qua đẳng thức Y  X   . Giả thiết các biến X và  là độc lập. như hàm mật độ f của . Bài toán này thuộc loại Gọi fY , f X và f lần lượt là hàm mật độ của Y , X các bài toán ngược trong thống kê. Giả thiết về sự độc lập của X và  dẫn đến và  , trong đó, giả thiết f X là hàm bị chặn và có giá phương trình fY  f X  f , trong đó hàm chứa trong đoạn [, ] . Thêm vào đó, giả thiết f  là tích chập của f X ( f X  f )( x) :  f X ( x  u ) f (u ) du được biết chính xác. Cho (Y1, , Yn ) là một mẫu và f . Như vậy, bài toán xác định f X chính là bài ngẫu nhiên kích thước n được chọn từ phân phối của toán giải phương trình tích chập trên, còn được gọi  ThS. Trường Đại học Văn Lang, thuy.lth@vlu.edu.vn  TS. Trường Đại học Tôn Đức Thắng, caoxuanphuong@tdtu.edu.vn, Mã số: TCKH23-01-2020 69
  2. TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 23, Tháng 9 – 2020 là bài toán giải chập mật độ. Phạm vi ứng dụng của cứu nào phát triển một phương pháp ước lượng bài toán này khá rộng, chẳng hạn trong thống kê y chuỗi trực giao cho f X mà có thể được áp dụng học [1, tr.1176-1185], kinh tế lượng [2], phân tích bất kể là  có không điểm trong R , thậm chí hồi quy [3, tr.145-168], thiên văn học [4, tr.483- 506]... Thập niên 80, thế kỷ XX được xem là giai không nhất thiết phải biết chính xác vị trí các đoạn mở đầu cho việc nghiên cứu bài toán này, các không điểm trong trường hợp  có không điểm.. nghiên cứu tiên phong tiêu biểu [5, tr.169-184], [6, 2. NỘI DUNG tr.1184-1186], [7, tr.3325-3342], [8, tr.1257-1272]. 2.1. Các ký hiệu Từ đó đến nay, bài toán này được nghiên cứu sâu Sau đây, chúng tôi giới thiệu một số ký hiệu sẽ rộng trên nhiều khía cạnh khác nhau, như sự bền được sử dụng trong bài báo này. Các ký hiệu N , Z vững, sự tối ưu về tốc độ hội tụ, sự lựa chọn các và R tương ứng biểu thị các tập hợp số nguyên tham số chỉnh hóa theo dữ liệu... Những tổng hợp dương, số nguyên và số thực. Với một tập con hữu tương đối đầy đủ về bài toán này có thể tìm thấy hạn A của Z , ký hiệu | A | biểu thị số phần tử của A trong bài viết của A. Meister [9]. kỳ vọng và phương sai của một biến ngẫu nhiên U Về cơ bản, phương pháp ước lượng nhân lần lượt được ký hiệu là E U và Var U . Ngoài ra, ký giải chập là cách tiếp cận phổ biến nhất cho ước hiệu U biểu thị hàm đặc trưng của U , tức là lượng f X . Phương pháp này được giới thiệu lần itU U (t ) : E( e ) với tR và i là đơn vị ảo. Với đầu tiên [5, tr.169-184] và được cải tiến trong nhiều nghiên cứu sau đó. Các ước lượng loại các tham số dương an và bn phụ thuộc vào cỡ mẫu nhân có hạn chế trong việc cài đặt trên máy tính n , ký hiệu an  O(bn ) có nghĩa rằng, tồn tại một vì cần dùng đến một phương pháp số thích hợp để hằng số dương C không phụ thuộc vào n sao cho tính xấp xỉ tích phân. Ngoài ra, nó cũng chỉ được an  Cbn với mọi n đủ lớn. Ngoài ra, ta viết sử dụng với điều kiện  (t )  0 với mọi tR, an khi an  O(bn ) và bn  O(an ) . bn trong đó,  là hàm đặc trưng của . Có nhiều phân phối thỏa mãn điều kiện này, chẳng hạn như 2.2. Ước lượng các phân phối chuẩn, Cauchy, Laplace... Tuy Trước tiên, nhắc lại rằng, L2 ([, ]) là nhiên, cũng có một vài phân phối thông dụng vi một không gian Hilbert với tích vô hướng phạm điều kiện này, điển hình là các phân phối  u , v :  u ( x )v ( x ) dx với mọi u, v  L2 ([, ]) đều và tam giác. Một vài nghiên cứu [10, 2023- 2053], [11, 201-231] đã phát triển phương pháp và được trang bị chuẩn u : u, u . Ngoài ra, sóng nhỏ (wavelet method) để xây dựng các ước nếu  k kZ là một cơ sở trực chuẩn của lượng chuỗi trực giao cho f X . Tuy nhiên, ứng 2 L ([, ]) thì với bất kỳ hàm u  L2 ([, ]) , ta dụng của những nghiên cứu này bị giới hạn trong điều kiện  không triệt tiêu trên R . Bài viết có biểu diễn u    k  u ,  k  k . [12] giới thiệu một ước lượng chuỗi trực giao cho Ta trở lại vấn đề ước lượng f X . Dưới giả thiết rằng, fX dưới giả thiết các không điểm (zeros) của 2 hàm f X bị chặn trên [, ] , ta có f X  L ([ , ]) . Vì   hàm  được biết chính xác và tuần hoàn. Nếu sự họ (2 ) 1/2 eikx : k  Z là một cơ sở trực chuẩn đầy đủ tuần hoàn này bị bỏ đi, phương pháp được đề nghị trong bài viết này cũng không thể áp dụng. trong không gian Hilbert L2 ([, ]) nên ta biểu diễn Cho đến nay, chúng tôi vẫn chưa thấy có nghiên f X ( x) (với x  [, ] ) dưới dạng: 70
  3. TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lê Thị Hồng Thuy và tgk  1 ikx 1 ikx 2 f X ( x)   2 f , e e Nn |  ( k ) | 2 k  X 2 2 E1; N , :  1 |  X (k ) | , 1  ikx 1  Y (  k ) ikx n n k  Nn max |  ( k ) |2 ;   n      X (  k )e   e (1) 2 2  k  2  k   (  k ) 1 Nn |  ( k ) | E2; N , :    , Nếu Z ( )   , trong đó Z ( ) : k  Z :  ( k )  0 n n n k  Nn max |  ( k ) |4 ;  2  n sử dụng các đẳng thức 2 ikx  ikx và E3; N :   X ( k ) fX , e   f X ( x )e dx   X ( k ) n |k | Nn Y   X  . Với mẫu ngẫu nhiên (Y1, , Yn ) , ta Chứng minh: Ta có: 2 1 ikY j 2  1 Nn  ( k )ˆ (  k )e ikx 1  sử dụng đại lượng ˆ Y (  k ) : n  nj 1 e để ước E fˆX ; N ,  f X E   Y    X (  k )e ikx   dx. n n  2 k  Nn max |  ( k ) |2 ;  2 k   n lượng Y ( k ) , với mỗi kZ. Trong (1), bằng Vì họ {eikx : k  Z} là trực giao và vì đẳng cách thay Y ( k ) bởi ˆ Y ( k ) , ta thu được một 2 2 ước lượng hình thức cho f X ( x) dưới dạng sau: thức EU a  EU  a  Var U , ta suy ra: 2 1  ˆ Y (  k ) ikx E fˆX ; N ,  f X 2  1 Nn  E  ( k ) ˆ Y (  k )   X (k )  1   X (k ) 2 f X ( x ) :  2  k   (  k ) e n n  2  k  Nn max |  ( k ) |2 ;    n 2  |k | Nn 2   ( k )ˆ (  k )  Tuy nhiên, ta thấy f X có thể không xác  1 Nn  E  Y    X (k ) định vì hai lý do sau và nhất thiết phải đề xuất    2  k  Nn  max |  ( k ) |2 ;  n      ( k )ˆ (  k )  1 một phiên bản hiệu chỉnh cho f X . Lý do đầu  1 Nn  Var   Y   2  X (k ) . 2  k  Nn    max |  ( k ) |2 ;  n   2 |k | Nn  tiên là vì lim 1 /  ( k )   . Ta có thể giải |k| Kết hợp đẳng thức này với các đánh giá quyết vấn đề này bằng cách chặt cụt chuỗi   ( k ) ˆ Y (  k )   ( k ) Eˆ Y (  k ) 2 |  ( k ) |  X (  k ) E   thành một tổng hữu hạn nhằm mục đích loại bỏ các giá trị | k | đủ lớn. Lý do thứ hai là nếu   max |  ( k ) |2 ;  n     max |  ( k ) |2 ;  n   2 max |  ( k ) | ;  n    ( k )ˆ (  k )  |  ( k ) |2 Var ˆ (  k ) |  ( k ) | 2 Z ( )   thì 1 /  (k ) với k  Z ( ) sẽ không Var   Y   Y  xác định. Ý tưởng để giải quyết vấn đề này là    max |  ( k ) |2 ;  n    max |  ( k ) | ;  n  4 2   4 2 n max |  ( k ) | ;  n  thay thế đại lượng  (k ) trong mẫu số bởi Ta nhận được kết luận của mệnh đề. một tham số dương phụ thuộc vào cỡ mẫu n Cho trước   0 và L  0 . Ta ký hiệu S  , L bất cứ khi nào  (k ) trở nên đủ gần 0 . Tổng là tập hợp tất cả các hàm mật độ f sao cho hàm đặc  trưng  f tương ứng, xác định bởi  f (t ) :  itx hợp từ các phân tích ở trên, chúng tôi đề nghị f ( x ) e dx ước lượng f X ( x) với x  [, ] bởi đại lượng: 2 2 ikx với tR, thỏa mãn  k   f ( k ) k  L . Với 1 Nn  ( k ) ˆ Y (  k ) e fˆX ; N , ( x ) :  (2) n n  2  k  Nn max |  ( k ) |2 ;   n  lớp S  , L , ta ký hiệu R[ fˆ X ; Nn ,n ; S, L ] : sup E fˆX ; N ,  f X f X S, L n n 2 , Trong đó, các tham số N n  N và n  (0, ) gọi là rủi ro tối đa của ước lượng fˆX ; N , trên phụ thuộc vào cỡ mẫu n và sẽ được chọn sau. n n 2.3. Sự hội tụ của ước lượng lớp S  , L . Sau đây, dưới các điều kiện ràng 2.3.1. Mệnh đề buộc nào đó cho  , chúng ta sẽ thiết lập một Xét ước lượng fˆX ; N , trong (2). Với bất số chặn trên về tốc độ hội tụ của n n kỳ N n  N và n  0 , ta có R[ fˆX ; N , ; S, L ] . Thật ra, ta đưa ra hai giả n n E fˆX ; N ,  f X 2  1 E1; N ,  1 E2; N ,  E 1 thiết liên quan đến  như sau: n n 2 n n 2 n n 2  3; Nn Trong đó: 71
  4. TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 23, Tháng 9 – 2020 (A.1): Tồn tại c1 ,   0 sao cho  / N 21 2  R[ fˆX ; N , ; S, L ]  O   n  n  Nn .  n n  (t )  c1 (1 | t |) với tR.  n  Chọn 1/(2 21) và n  N n2 2/(2 21) , (A.2): Tồn tại c2 , , , ,   0 và 0 sao cho Nn n n  (t )  c2 sin(t )   |t| (1 | t |) e với t  R. ta được R[ fˆX ; Nn ,n ; S  , L ]  O  n 2 /(221)  . 2.3.2. Định lý b) Giả sử f X  S, L . Ta có: Cho   0 và L  0. 1 Nn 1 2 Nn  1 E2; N ,      1/(2 21) , a) Dưới giả thiết (A.1), chọn N n n n n n k  Nn max |  ( k ) |2 ;  n n  n 2/(2 21) 2 2 và n n , ta được 2 2 E3; N  |k | N  X ( k ) k k  LN n .  2/(221)  . n n R[ fˆX ; N , ; S, L ]  O n Tiếp theo, ta tập trung vào việc đánh giá n n b) Cho giả thiết (A.2) được thỏa mãn. Nếu E1; N , . Với n  0 mà sẽ được chọn sau, đặt: n n 2/(8 4 463) 0 thì chọn N n n và  A1; N , : k  [  N n , N n ] n n  Z :|  ( k ) |   n , (8 44 21)/(8 4463) A2; N , : k  [  N n , N n ] Z :|  ( k ) |   n  . n n , ta  4/(84463)  . n n được R[ fˆX ; N ; S , L ]  O n n ,n Với mỗi k  A1; N , , tồn tại duy nhất số  n n Nếu 0 thì chọn n n , nguyên lk phụ thuộc vào k sao cho 1/  Nn (  ln n) với 0    1 và 0     / (2) , (2lk  1)  / (2)  k  (2lk  1)  / (2) , và do đó ta được R[ fˆX ; N , ; S, L ]  O (ln n) n n  2 /  .  k  lk  /    / (2) . Từ đó, ta có đánh giá: Chứng minh: a) Giả sử f X  S , L . Đặt  n   ( k )  c2 sin( k )  (1 | k |)  |k | e 2  AN , : {k  [  N n , N n ] :|  (k ) |  n } và xét 0  n  c12 / 4 .  l    N n n n  c2 sin   k  k  (1  N n ) e 2 2    Với bất kỳ k  AN , , ta có c1 (1 | k |)   n hay  n n  2  lk     N n  2 k    2 2  c2 Nn e . c1 /  n  (1 | k |) . Vì 0   n  c12 / 4 , ta suy ra k  1 ,    do đó c12 / n  4 | k |2 , tương đương 2  k  [c1 / (4  n )] 1/(2) : M n . Do vậy, k  [lk  /   Rn ; lk  /   Rn ] : I k ,n Tóm lại, Sử dụng quan hệ Nn /  1/  AN ,  {k  Z : k  M n }. n n với Rn : 2 /1 c21/ N n / e n . Với lưu ý này và giả thiết f X  S, L , ta có đánh giá: rằng lk  1 / 2  N n  /  , ta kết luận 2 2 E1; N ,   |  X (k ) |   |  X (k ) | n n kA   Nn ,n 2 k [c /(4 n )] 1 1/(2 ) A1; N ,  ( I k ,n Z). Đánhgiánàychothấy: n n   k [c2 /(4 n )]1/(2) 2 |  X (k ) | | k | 2 |k| 2    /  O n . lk 1/2 Nn/  1 A1; N ,   I k ,n Z n n lk 1/2 Nn/  Tiếp theo, ta có: 1 Nn 1 Nn 2  N 21    / 1e Nn /  1/   .  O  Nn n  1 2 E2; N ,     c1 (1 | k |)  O  n , n n n k  Nn |  ( k ) |2 n k  Nn   n    2 2 2 2 Bây giờ, ta có: E3; N  |k | N  X ( k ) k k  LN n . n n Kết hợp Mệnh đề 2.3.1 với các đánh giá trên của E1; N , , E2; N , và E3; N , ta suy ra n n n n n 72
  5. TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lê Thị Hồng Thuy và tgk 2 2 k  a   / 2 , và khi đó ta được |  ( k ) |  . 2 E1; N ,   1 |  X (k ) | 2 /  n n kA  2 1; Nn ,n max |  ( k ) | ;  n  R[ fˆX ; N , ; S, L ]  O (ln n) n n 2 2 Định lý đã được chứng minh. |  ( k ) |   1 |  X (k ) | 2 3. KẾT LUẬN n n  kA2; N , max |  ( k ) |2 ;   n  Bài viết đã khảo sát mô hình sai số đo cộng tính 2 (2 N n  1)  n   / 1 Nn /  1/  N n  n2   A1; N ,  4  O  Nn e n  4  . Y  X   và giới thiệu một ước lượng chuỗi trực giao n n n  n  phụ thuộc vào hai tham số chỉnh hóa cho hàm mật độ Kết hợp Mệnh đề 2.3.1 với các đánh giá của fX của X trên cơ sở mẫu ngẫu nhiên (Y1 , Y2 , , Yn ) E1; N , , E2; N ,  và E3; N ở trên, ta suy ra: n n n n n   /1 Nn / 1/ N n2n từ phân phối của Y . Uớc lượng này là vững theo trung Nn 2  R[ fˆX ; N , ; S, L ]  O  N n e n    Nn  . bình tương ứng với sai số bình phương tích phân trung n n 4  n nn  bình. Dưới một số điều kiện chính quy được giả định Khi   0, ta chọn n n  , Nn (  ln n) 1/  cho các hàm đặc trưng của X và  , một số tốc độ hội a tụ theo cỡ mẫu n đã được thiết lập. và n n với 0    1 , 0     / (2) và TÀI LIỆU THAM KHẢO [1] J. D. Tournier, F. Calamante, D. G. Gadian, A. Connelly (2004), Direct estimation of the fiber orientation density function from diffusion-weighted MRI data using spherical deconvolution, NeuroImage, 23. [2] J. L. Horowitz (1998), Semiparametric Methods in Econometrics, Springer-Berlin Heidelberg, New York. [3] J. L. Horowitz, M. Markatou (1996), Semiparametric estimation of regression models for panel data, The review of Economic Studies, 63(1). [4] N. Bissantz, L. Dumbgen, H. Holzmann, A. Munk (2007), Nonparametric confidence bands in deconvolution density estimation, Journal of the Royal Statistical Society-Series B (Statistical Methodology), 69(3). [5] L. Stefanski, R. Carroll (1990), Deconvoluting kernel density estimators, Statistics, 21(2). [6] R. Carroll, P. Hall (1988), Optimal rates of convergence for deconvolving a density, Journal of American Statistical Association, 83(404). [7] R. L. Taylor, M. H. Zhang (1990), On a strongly consistent nonparametric density estimator for the deconvolution problem, Communications in Statistics-Theory and Methods, 19(9). [8] J. Fan (1991), On the optimal rates of convergence for nonparametric deconvolution problems, The Annals of Statistics, 19(3). [9] A. Meister (2009), Deconvolution problems in nonparametric statistics, Springer-Verlag, Berlin. [10] M. Pensky, B. Vidakovic (1999), Adaptive wavelet estimator for nonparametric density deconvolution, The Annals of Statistics, 27(6). [11] K. Lounici, R. Nickl (2011), Global uniform risk bounds for wavelet deconvolution estimators, The Annals of Statistics, 39(1). [12] A. Meister (2008), Deconvolution from Fourier-oscillating error densities under decay and smoothness restrictions, Inverse Problems, 24. Ngày nhận bài: 05-2-2020. Ngày biên tập xong: 19-8-2020. Duyệt đăng: 24-9-2020 73
nguon tai.lieu . vn