Xem mẫu

  1. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Ứng dụng PCA trong nhận dạng cử chỉ tay ngôn ngữ tiếng Việt Nguyễn Thị Hương Thảo, Vũ Hữu Tiến, Nguyễn Ngọc Minh, Vũ Văn San Học Viện Công Nghệ Bưu Chính Viễn Thông Email: {thaonth, tienvh, minhnn, sanvv}@ptit.edu.vn Tóm tắt—Hiện nay, cử chỉ tay là một trong các mối quan dụng kỹ thuật PCA. tâm chính đối với người khiếm thính vì họ sử dụng ngôn Hệ thống nhận dạng cử chỉ tay có bốn giai đoạn: thu ngữ cử chỉ để giao tiếp với nhau và giao tiếp với người nhận dữ liệu, mô hình hóa cử chỉ, trích chọn đặc trưng bình thường. Đối với người bình thường nếu không biết và nhận dạng. Thu nhận dữ liệu có thể thực hiện bằng hoặc gặp khó khăn với ngôn ngữ cử chỉ của người khiếm thính thì cần phải có thông dịch viên hỗ trợ quá trình cách sử dụng găng tay. Găng tay dữ liệu sử dụng cảm giao tiếp. Do đó, một hệ thống nhận dạng ngôn ngữ cử biến (cơ hoặc quang) được gắn vào găng tay để chuyển chỉ bàn tay tự động là rất cần thiết để giúp đỡ những đổi cử chỉ ngón tay thành tín hiệu điện. Từ đó có thể xác người khiếm thính hòa nhập vào cuộc sống bình thường. định được vị trí tương ứng của các ngón tay. Cử chỉ tay Về mặt kỹ thuật, nhận dạng ngôn ngữ cử chỉ là một bài cũng có thể được thu nhận bằng camera/webcam/Kinect toán toàn diện vì phải có sự kết hợp của các giai đoạn 3D. Cách này có giá thành thấp và người sử dụng có thu nhận ảnh, xử lý ảnh, phân tích và nhận dạng ảnh. Bài báo này đề xuất phương pháp xử lý hình ảnh sau khi thu thể tạo ra các cử chỉ một cách dễ dàng. Trong một số nhận và áp dụng kỹ thuật phân tích thành phần chính các công trình nghiên cứu trước đây sử dụng ảnh tĩnh PCA (Principle Component Analysis) để nhận dạng cử chỉ để phân tích và nhận dạng, họ thường sử dụng camera dựa trên các hình ảnh sau khi xử lý đó. Các kết quả thực để bắt giữ hình ảnh. Tuy nhiên, phương pháp này không nghiệm cho thấy hệ thống đề xuất đã đạt được tỉ lệ nhận thích hợp trong thực tế. Đối với các ứng dụng thời gian dạng cao. thực thường sử dụng webcam để bắt giữ một chuỗi video Từ khóa—PCA, nhận dạng cử chỉ, VSL cử động của bàn tay. Trong phương pháp này, các khung hình được phân tích để tách ra ảnh cử chỉ bàn tay. Vấn I. GIỚI THIỆU đề chính trong phương pháp này là tìm ra khung hình Ngôn ngữ cử chỉ là loại ngôn ngữ sử dụng cử chỉ bàn nào chứa cử chỉ cuối cùng. tay, biểu cảm của khuôn mặt và chuyển động của cơ thể Sau giai đoạn thu nhận dữ liệu là mô hình hóa cử chỉ. để truyền đạt ý nghĩa giữa những người khiếm thính với Bàn tay cần được mô hình hoá để xử lý một cách chính nhau và với người bình thường. Ngôn ngữ cử chỉ tay xác. Các mô hình khác nhau được lựa chọn tùy theo cũng được sử dụng trong nhiều các ứng dụng khác như từng ứng dụng cụ thể. Giai đoạn này thực hiện phân tương tác người – máy, hiện thực ảo, trò chơi tương tác. vùng bàn tay và tiền xử lý. Phân vùng bàn tay thực hiện Vì vậy hiện nay nhận dạng ngôn ngữ cử chỉ là một lĩnh tách bàn tay khỏi bức ảnh và tiền xử lý là quá trình cải vực thu hút nhiều các nhà nghiên cứu tập trung tìm hiểu. thiện chất lượng bức ảnh và cắt ra đúng vùng liên quan Điều này giúp cho những người khiếm thính có cơ hội để xử lý tiếp theo. Quá trình phân vùng chính xác sẽ giao tiếp với người bình thường một cách dễ dàng hơn. giúp trích chọn đặc trưng hoàn hảo. Phương pháp trích Nhiều nghiên cứu trước đây đã thực hiện với các ngôn chọn đặc trưng được xem xét kỹ lưỡng tùy vào các ứng ngữ khác nhau như ngôn ngữ cử chỉ Mỹ Latin, ngôn ngữ dụng khác nhau. cử chỉ Ấn Độ, ngôn ngữ cử chỉ Anh. Tuy nhiên chưa có Giai đoạn cuối cùng của hệ thống nhận dạng cử chỉ tay nhiều bài báo đề cập đến ngôn ngữ cử chỉ Tiếng Việt là phân loại cử chỉ. Có rất nhiều phương pháp phân loại VSL (Vietnamese Sign Language). Bài báo này đề xuất như Mô hình Markov ẩn HMM, phân tích thành phần một hệ thống nhận dạng cử chỉ tay mà người sử dụng chính PCA, phân loại theo khoảng cách, mạng neural. không cần phải sử dụng thiết bị chuyên dụng nào như Nhận dạng cử chỉ tay gồm nhiều kỹ thuật khác nhau găng tay mà chỉ thực hiện cử chỉ bằng tay trần trước [1]. Các nhà nghiên cứu sử dụng các kỹ thuật khác nhau camera cố định sẵn. Hệ thống thực hiện nhận dạng các và đạt được độ chính xác khá cao. Phương pháp trong chữ cái Tiếng Việt qua cử chỉ bàn tay tĩnh bằng cách sử tài liệu [2] đề xuất hệ thống nhận dạng ngôn ngữ cử chỉ 136 ISBN: 978-604-67-0635-9 136
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hình 1. Sơ đồ hệ thống nhận dạng được đề xuất Hình 2. Bảng ký hiệu ngôn ngữ cử chỉ tiếng Việt Ấn Độ trong video trực tiếp sử dụng trị riêng và vector A. Thu nhận dữ liệu riêng để trích chọn đặc trưng. Jayashree R.Pansare và Giai đoạn đầu tiên của hệ thống là thu nhận dữ liệu. đồng nghiệp [3] đề xuất hệ thống nhận dạng cử chỉ tay Ảnh được thu nhận bằng camera của máy tính với độ tĩnh thời gian thực đối với ngôn ngữ cử chỉ Mỹ Latinh phân giải 5 Megapixel. Người sử dụng thực hiện các cử trên nền phức tạp. Hệ thống thực hiện tiền xử lý ảnh với chỉ bằng tay trần trước camera trong khoảng cách 1m. bộ lọc trung vị và các toán tử hình thái, trích chọn đặc Để chụp được ảnh tĩnh của cử chỉ, hệ thống sử dụng giải trưng sử dụng centroid và phân loại sử dụng khoảng pháp thông báo để người sử dụng giữ nguyên tư thế bàn cách Euclidean. S.Nagarajan và T.S.Subashini [4] giới tay trong khoảng 5ms. Trong thí nghiệm này, hệ thống thiệu hệ thống nhận dạng cử chỉ bàn tay tĩnh mô tả các được thử nghiệm với các ảnh cử chỉ tay mô tả 25 chữ chữ cái ngôn ngữ ký hiệu Mỹ. Đóng góp chính của bài cái tiếng Việt. Cơ sở dữ liệu gồm 250 ảnh tương ứng báo là sử dụng lược đồ xám hướng biên để trích chọn với 25 lớp chữ cái. Mỗi lớp chữ cái gồm 10 ảnh được đặc trưng và nhận dạng bằng SVM nhiều lớp tuy nhiên thực hiện bởi hai người khác nhau trong điều kiện ánh hệ thống chỉ thực hiện với nền đồng nhất. [5] đề xuất hệ sáng khác nhau trên nền trắng đơn giản. Tập cơ sở dữ thống nhận dạng ngôn ngữ Đài Loan với cả hai loại cử liệu của ngôn ngữ Tiếng Việt được cho trong hình 2. chỉ tay tĩnh và động sử dụng SVM và HMM, tuy nhiên hệ thống yêu cầu người sử dụng phải đeo găng tay màu B. Chuẩn hóa dữ liệu trong quá trình thu nhận ảnh. Bài báo này đề xuất hệ thống nhận dạng cử chỉ bàn Sơ đồ khối của tầng chuẩn hóa hình ảnh được mô tả tay dựa trên kỹ thuật PCA đối với ngôn ngữ tiếng Việt trong hình 3. Để có thể nhận dạng được hình ảnh, trước và đánh giá tính hiệu quả của các phương pháp khi sử giai đoạn nhận dạng, các hình ảnh phải được chuẩn hóa dụng khoảng cách Euclidean để phân loại. Trong quá để hệ thống có thể rút ra các đặc trưng của các ảnh. trình mô hình hóa cử chỉ, bài báo đề xuất phương pháp Trong hệ thống được đề xuất, ảnh chuẩn hóa là các ảnh tách bàn tay khỏi nền, giúp cho quá trình nhận dạng nhị phân có kích thước 100x100. được chính xác hơn. Để có thể phân vùng được cử chỉ tay, ảnh RGB đầu Bài báo được cấu trúc như sau. Phần II đề xuất hệ vào được chuyển thành ảnh YCrCb với mục đích sử dụng thống nhận dạng cử chỉ tay. Các kết quả thực nghiệm hai kênh màu Cr và Cb để chọn vùng da bàn tay. Với được mô tả và phân tích được mô tả phần III. Cuối cùng việc sử dụng hai kênh màu như vậy, ảnh được xử lý sẽ là kết luận được đưa ra trong phần IV. ít bị tác động với sự thay đổi của ánh sáng. Trong hệ thống được đề xuất, để chọn vùng da bàn tay, giá trị Cr được chọn trong khoảng từ 146 đến 165 và Cb được II. MÔ HÌNH HỆ THỐNG chọn trong khoảng từ 140 đến 195. Do quá trình tách ảnh bàn tay dựa trên giá trị ngưỡng Sơ đồ hệ thống đề xuất được mô tả trong hình 1. của Cr và Cb nên một số vùng trên ảnh bị sai lệch, tạo 137 137
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Vector phương sai của mỗi ảnh được tính như sau: Φi = Γi − Ψ (2) Bước 2: Tính ma trận hiệp phương sai Ma trận hiệp phương sai C của các ảnh trong cơ sở dữ liệu được tính như sau: M 1  C= Φn ΦTn = AAT (3) M n=1 trong đó A = [Φ1 Φ2 ...ΦM ] Hình 3. Các bước xử lý trong quá trình mô hình hóa hình ảnh cử chỉ Bước 3: Tính trị riêng và vector riêng Trong bài báo này, kích thước của ảnh là ra những vùng trống trên ảnh. Do đó ảnh sau khi tách 100X100(N = 100) và có 250 ảnh trong cơ sở dữ liệu được xử lý để loại bỏ vùng trống không mong muốn. (M = 250). Vì vậy, kích thước của ma trận hiệp phương Để đơn giản cho việc xử lý nhận dạng, ảnh YCrCb sai C là 1002 X1002 . Đây là ma trận có kích thước lớn được biến đổi sang ảnh nhị phân. Quá trình này giúp và vì vậy việc tính vector riêng và trị riêng rất phức tạp. cho việc xử lý giảm từ 3 ma trận Y, Cr, Cb xuống còn Để giảm khối lượng tính toán, [6] chứng minh rằng M một ma trận ảnh nhị phân. trị riêng của AT A tương ứng với M trị riêng lớn nhất Do việc chọn ngưỡng trong quá trình biến đổi nhị của AAT cùng với vector riêng tương ứng. M trị riêng phân, ảnh sẽ xuất hiện các vùng khuyết không mong của AAT có thể được tính như sau: muốn. Do vậy việc loại bỏ các vùng khuyết được tiến ui = Avi , i = 1, 2, ..., M (4) hành một lần nữa. Tuy nhiên, trong một số ảnh, việc loại bỏ này có thể làm mất nội dung của ảnh. Vì vậy, trong đó vi là vector riêng của AT A. thuật toán tìm vùng trống lớn nhất để giữ lại được sử Để đơn giản trong tính toán, chỉ có K(K < M ) dụng để không làm thay đổi hình dạng đối tượng trong vector riêng (tương ứng với K trị riêng lớn nhất) được ảnh. giữ lại. Trong bài báo này, chọn K = 30 để đảm bảo Cuối cùng, phép xử lý hình thái (phép đóng) được sử tính cân bằng giữa thời gian tính toán và độ chính xác dụng để hình ảnh đối tượng được hoàn chỉnh hơn. trong nhận dạng. C. Trích chọn đặc trưng và phân loại Bước 4: Trích chọn đặc trưng của ảnh Sau khi lựa chọn K vector riêng của ảnh trong cơ sở Trong giai đoạn nhận dạng sử dụng thuật toán PCA dữ liệu, phương sai của mỗi ảnh cử chỉ bàn tay trong để trích chọn đặc trưng của ảnh và phân loại ảnh đầu cơ sở dữ liệu được mô tả là tổ hợp tuyến tính của K vào. Cụ thể là các trị riêng và vector riêng được coi vector riêng lớn nhất. là đặc trưng của ảnh đầu vào. Đối với giai đoạn phân loại, khoảng cách Euclidean được sử dụng để so sánh K  đặc trưng của ảnh đầu vào với đặc trưng của các ảnh ˆi = Φ λj uj , i = 1, 2, ..., K (5) được lưu trữ trong cơ sở dữ liệu. Ảnh nào trong cơ sở j=1 dữ liệu có khoảng cách Euclidean ngắn nhất sẽ được coi là giống với bức ảnh đầu vào nhất. Các bước của giai trong đó λj = uTj Φj . đoạn nhận dạng được mô tả như sau: Mỗi ảnh cử chỉ bàn tay trong cơ sở dữ liệu được mô Bước 1: Tính vector phương sai của dữ liệu tả bằng một vector: Giả sử rằng có M ảnh trong cơ sở dữ liệu để huấn  i  λ1 luyện I1 , I2 , ..., IM . Kích thước của mỗi ảnh là N XN .  λi2  Để tính trị riêng, mỗi ảnh Ii kích thước N XN được Ωi =    ...  , i = 1, 2, ..., M (6) sắp xếp lại thành vector Γi kích thước 1XN 2 . Vector λiK trung bình của M ảnh được tính như sau: M trong đó Ωi là vector đặc trưng của ảnh cử chỉ bàn tay 1  i trong cơ sở dữ liệu. Ψ= Γi (1) M i=1 Bước 5: Phân loại 138 138
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bảng I Với ảnh cử chỉ bàn tay đầu vào, vector đặc trưng Ω BẢNG SO SÁNH KẾT QUẢ NHẬN DẠNG được tính toán như sau:   Tỷ lệ thành công (%) Tỷ lệ thành công (%) λ1 Ký tự (Phương pháp đề xuất) (Phương pháp trong tài liệu [2])  λ2  A 100 100 Ω=  ...  , λi = uTi Φ  (7) B 50 25 C 75 75 λK D 50 50 Đ 75 75 trong đó Φ là giá trị ảnh đầu vào trừ đi ảnh trung bình E 100 100 của cử chỉ bàn tay trong cơ sở dữ liệu. G 80 80 Sau khi tách vector đặc trưng của ảnh đầu vào, vector H 50 100 I 75 75 đặc trưng này được so với vector đặc trưng của ảnh trong K 100 100 cơ sở dữ liệu dựa vào khoảng cách Euclidean. L 100 100 Khoảng cách Euclidean được tính như sau: M 75 75 N 100 100 K    O 50 50 er = Ω − Ωk  = (λi − λki )2 (8) P 100 100 i=1 Q 100 100 R 75 100 Ảnh trong cơ sở dữ liệu với er tối thiểu là ảnh gần S 100 75 giống nhất với ảnh đầu vào. Ảnh giống nhất được coi T 50 50 U 100 100 là kết quả quá trình đối sánh của ảnh đầu vào. Vì vậy, V 75 75 ký tự tương ứng với ảnh kết quả đó được coi là kết quả X 100 75 của quá trình nhận dạng cử chỉ tay. Y 75 50 Dấu móc 75 75 III. MÔ PHỎNG VÀ PHÂN TÍCH KẾT QUẢ Dấu mũ 80 80 Tổng 80.4 79.4 Để đánh giá hiệu quả sử dụng thuật toán PCA trong việc nhận dạng ngôn ngữ chữ cái tiếng Việt, mô phỏng được thực hiện trên tập cơ sở dữ liệu 250 ảnh mô tả Kết quả mô phỏng cho thấy tỉ lệ nhận dạng thành công 25 chữ cái tiếng Việt. Tất cả các ảnh đều được chuẩn là 80.4 % . Kết quả cũng cho thấy một số các chữ cái bị hóa bằng cách cắt và định lại kích cỡ 100 x 100 pixel. nhận dạng sai vì chúng có ảnh cử chỉ bàn tay khá giống Hệ thống kiểm tra với 25 ký tự với mỗi lớp ký tự gồm nhau. Tuy nhiên, bằng việc chuẩn hóa ảnh hợp lý và sử 10 ảnh và thực hiện đánh giá dựa trên tỉ lệ nhận dạng dụng phương pháp PCA để nhận dạng, tỉ lệ thành công thành công. của hệ thống được đề xuất đạt được cao hơn so với một Hệ thống VSL được thực hiện trên phần mềm MAT- số phương pháp trước đó. LAB phiên bản 7.6, Windows 8.1, 2 GB RAM và webcam có độ phân giải 5 Megapixel. TÀI LIỆU THAM KHẢO Bảng 1 mô tả kết quả của hệ thống đề xuất khi nhận [1] A.R. Sarkar , G. Sanyal and S. Majumder, Hand Gesture Recog- dạng 25 chữ cái tiếng Việt với tỉ lệ thành công lên tới nition Systems: A Survey, International Journal of Computer Applications,vol 71,2013 80.4 %. Kết quả chỉ ra rằng tỉ lệ thành công của các [2] J. Singha and K. Das, Recognition of Indian Sign Language in chữ cái “B, D, H, O, T” thấp vì chúng có hình dạng Live Video, International Journal of Computer Applications, Vol khá giống nhau. Vì vậy hệ thống đôi khi nhận dạng 70, 2013. [3] J. R. Pansare, S. H. Gawande and M. Ingle, Real-Time Static Hand nhầm. Đối với các chữ cái như “A, E, K, L, N, P, Q, S, Gesture Recognition for American Sign Language (ASL) in Com- U, X” ảnh cử chỉ bàn tay có chất lượng tốt sau giai đoạn plex Background,Journal of Signal and Information Processing, tiền xử lý. Vì vậy hệ thống đạt được tỉ lệ nhận dạng cao 2012, vol 3, 364-367. [4] S. Nagarajan and T.S. Subashini, Static Hand Gesture Recognition đối với các chữ cái này. Ngoài ra, do đối tượng ảnh cử for Sign Language Alphabets using Edge Oriented Histogram and chỉ được tách ra đầy đủ và được chuẩn hóa tốt hơn nên Multi Class SVM, International Journal of Computer Applications, hệ thống được đề xuất đạt được tỷ lệ thành công cao vol82, 2013. [5] C. Huang and B. Tsai, A Vision-Based Taiwanese Sign Language hơn so với phương pháp trong tài liệu [2]. Recognition, 20th International Conference onPattern Recognition (ICPR), 2010. IV. KẾT LUẬN [6] M. Turk and A. Pentland Eigenfaces for recognition, Journal of Cognitive Neuroscience, vol.3, no.1, pp. 71-86, 1991. Trong bài báo này thực hiện đánh giá hệ thống nhận dạng ngôn ngữ cử chỉ tiếng Việt sử dụng kỹ thuật PCA. 139 139
nguon tai.lieu . vn