Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu

Bài viết đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với ứng dụng thực tế. Mời các bạn cùng tham khảo!

Thể loại Tài liệu miễn phí Điện - Điện tử

Số trang 5

Ngày tạo 4/8/2023 3:58:51 AM +00:00

Loại tệp PDF

Kích thước 0.63 M

Tên tệp

Tải Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ đ... (.pdf)

Xem mẫu

HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang Jean Meunier Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng. DIRO, Đại học Montreal, Canada. Email: {hoangvd.it, hhhung}@dut.udn.vn, sangnguyenhong@hotmail.com Email: meunier@iro.umontreal.ca Abstract—Ngôn ngữ ký hiệu là phương tiện giao tiếp được sử Sự ra đời của camera Kinect là một bước ngoặc lớn trong dụng phổ biến trong cộng đồng người khiếm thính. Ngôn ngữ ký xử lý ngôn ngữ cử chỉ. hiệu có những đặc trưng riêng với các quốc gia khác nhau, được biểu diễn thông qua các cử chỉ và hình dạng bàn tay, khuỷu tay, hay khuôn mặt. Trong bài báo này, chúng tôi đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với Hình 1. Camera đa năng Kinect ứng dụng thực tế. Năm 2010, Microsoft cho ra mắt phiên bản camera Kinect Keywords- Vietnamese sign language, Kinect, Dynamic Time XBOX (hình 1) với nhiều tính năng thú vị như: camera hồng Warping, Nearest Neighbor, so khớp mẫu, khung xương. ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,… Đặc biệt, ta có thể sử dụng những cảm biến của camera thông I. GIỚI THIỆU qua các API được hỗ trợ trong bộ SDK dành cho Kinect Ngày nay hệ thống thị giác máy tính được áp dụng nhiều XBOX. Với những ưu điểm vượt trội trong tiền xử lý dữ liệu, trong các lĩnh vực như: giám sát, điều khiển công nghiệp, giao nhiều bài báo khoa học sử dụng Kinect XBOX như một thiết bị tiếp người và máy, truyền thông, điều khiển rô bốt... Có hai xu thu nhận dữ liệu trong xử lý ngôn ngữ ký hiệu. hướng nghiên cứu chính về nhận dạng ngôn ngữ ký hiệu tùy Zahoor Zafrulla và các cộng sự [9] có thể coi là người cho thuộc vào loại cử chỉ tĩnh hay động. Các nghiên cứu về nhận đặt nền móng cho nhận dạng ngôn ngữ ký hiệu sử dụng Kinect. dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language Nhóm tác giả nhận thấy trò chơi giáo dục cho trẻ em khiếm - VSL) tĩnh [1]-[4] đã cho các kết quả khá cao, ví dụ ở nghiên thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả cứu nhận dạng VSL tĩnh được H.H.Hưng và cộng sự đưa ra nhận dạng đáng kể bằng cách sử dụng Kinect. Hệ thống mới vào năm 2012 [1], dữ liệu được thu nhận dưới dạng ảnh 2D giúp người dùng thỏa mái hơn khi không phải mang găng tay thông qua camera màu. Sau khi trích xuất đặc trưng dựa trên màu, cảm biến gia tốc và phải có dây nối trực tiếp với máy hình dạng và đường bao, mạng nơ-ron nhân tạo được sử dụng tính. Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử để thực hiện việc phân lớp. Việc thử nghiệm được thực hiện dụng máy ảnh có độ phân giải cao. trên bộ ký hiệu tương ứng với bảng chữ cái tiếng Việt (nhiều Tháng 6/2012 Capilla, D.M. [10] công bố dự án bao gồm ký tự hơn so với quốc tế) với độ chính xác lên đến 98%. một hệ thống tự động dịch ngôn ngữ ký hiệu kết nối với máy Trong các nghiên cứu về xử lý ngôn ngữ cử chỉ trước đây, tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính các nhà khoa học đã sử dụng các phương pháp thu nhận dữ liệu và người bình thường không hiểu ngôn ngữ ký hiệu. Hệ thống khác nhau để nhận dạng ngôn ngữ ký hiệu: Starner T. và cộng sử dụng Kinect XBOX 360TM do Microsoft phát triển để theo sự [6] sử dụng hai camera để thu ảnh được hai hình ảnh hai dõi cử chỉ của người khiếm thính (hình 2). chiều, tuy nhiên quá trình tiền xử lý phức tạp vì phải đồng bộ dữ liệu của hai camera. Imagawa và cộng sự [7] đã áp dụng kĩ thuật xử lý ảnh màu để phát hiện và theo vết bàn tay, Jung [8] sử dụng thiết bị thu nhận đo điện cơ đồ (EMG- Electromyography) để phân loại 6 cử chỉ tay ngôn ngữ ký hiệu tiếng Hàn Quốc. Bên cạnh đó, nhiều nghiên cứu sử dụng găng tay cảm biến, găng tay màu cũng được giới thiệu. Tất cả các phương pháp này đều tồn tại những ưu nhược điểm riêng: việc nhận dạng bằng camera 2D đơn giản về mặt thiết bị nhưng phức tạp ở khâu xử lý để cho ra dữ liệu chuẩn; các phương pháp điện cơ đồ, găng tay cảm biến và màu mang lại sự bất tiện và đòi hỏi chi phí thiết bị đáng kể trong ứng dụng thực tế. Hình 2. Hệ thống hỗ trợ người khiếm thính ISBN: 978-604-67-0635-9 222 222
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) Với phiên bản Kinect for Windows (Kinect v2), các thông II. PHƯƠNG PHÁP ĐỀ XUẤT số kỹ thuật của camera vượt trội hơn so với bản Microsoft XBOX: camera màu được nâng lên FullHD (1920 x 1080 @30 fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424) so với (320 x 240), bắt được 25 điểm khung xương so với 20 điểm, theo dõi cùng lúc 6 đối tượng là người thao tác trước thiết bị. Ngoài ra còn có rất nhiều nghiên cứu về nhận dạng ngôn ngữ ký hiệu sử dụng Kinect. Các báo cáo của Simon Lang [11] sử dụng Kinect để thu nhận dữ liệu 3D, áp dụng mô hình HMM để nhận dạng các ký hiệu với kết quả đạt 97.7%. Bài báo về theo dõi chuyển động tay của Li Yi [12] cho thấy Kinect thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì nó cung cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều camera cũng như định vị và trích xuất hiệu quả các bộ phận trên cơ thể người thu như: bàn tay, khủy tay, đầu, thân và chân. Một ưu điểm của Kinect là thiết bị độc lập với môi trường ánh sáng, có thể phát hiện chuyển động của cơ thể con người trong bóng tối. Kinect giúp giải quyết vấn đề thu nhận dữ liệu đầu vào không cần găng tay cảm biến, dây nối từ người thực hiện hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh nền và lọc nhiễu, làm mịn đối tượng. Giải pháp do chúng tôi đề xuất cũng sử dụng thông tin 3D do Kinect cung cấp để trích xuất đặc trưng biểu diễn cử chỉ. Ngôn ngữ ký hiệu tiếng Việt so với các ngôn ngữ ký hiệu trên thế giới có những đặc điểm chung: sử dụng chung ký hiệu của bảng chữ cái latinh, sử dụng chung bảng chữ số, sử dụng các hành động bàn tay kết hợp với hành động khuôn mặt, khẩu hình miệng, ngôn ngữ cơ thể để bày tỏ ý kiến, miêu tả đối tượng hoặc hành động. Ngoài ra, ngôn ngữ ký hiệu tiếng Việt (cử chỉ động) cũng có những đặc trưng khác biệt so với ngôn ngữ ký hiệu các nước khác: sử dụng các cách đánh dấu cho từ ngữ, sử dụng các cách đánh tay biểu diễn các phụ âm ghép, tùy thuộc vào văn hóa vùng miền. Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn tay tương ứng với bảng chữ cái và chữ số. Số lượng các ký hiệu này khá ít và thường được thống nhất trên toàn quốc. Các Hình 3. Sơ đồ hoạt động của hệ thống ký hiệu động trong VSL thường bao gồm nhiều cử chỉ phức tạp như chuyển động cánh tay, hình dạng bàn tay, hay hướng các A. Dữ liệu khung xương ngón tay, tùy thuộc vào quy ước của từng bộ cử chỉ. Tuy nhiên, Kinect v2 có thể nhận biết được 25 vị trí khớp trong khung thông tin về hành động của bàn tay và cánh tay thường được xương. Sau khi khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt, chú trọng hơn những yếu tố khác. Khác với bộ cử chỉ tĩnh chỉ chúng tôi kết luận rằng chuyển động của đôi tay là yếu tố quan gói gọn trong bảng chữ cái và chữ số, cử chỉ động biểu diễn từ trọng nhất, các thành phần khác của khuôn mặt như khẩu hình ngữ với số lượng và thể loại rất đa dạng và phong phú. Hiện miệng hay chuyển động mắt không được sử dụng. Do đó, nay, bộ từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ, chúng tôi chỉ sử dụng 4 điểm liên quan đến tay gồm 2 điểm bàn các từ lại có sự khác nhau đối với mỗi vùng miền. tay trái và phải, 2 điểm khuỷu tay trái và phải (hình 4). Nghiên cứu của chúng tôi tập trung vào các ký hiệu được quy ước trong bộ từ điển ngôn ngữ ký hiệu Việt Nam [5]. Cụ thể, các cử chỉ được xử lý theo thời gian thực, mỗi hành động được thu lại bằng camera Kinect v2. Các cử chỉ được biểu diễn bởi thông tin tọa độ các khớp liên quan đến tay trong hệ tọa độ cầu thay vì hệ tọa độ Descartes. Việc nhận dạng được thực hiện bởi thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ tương đồng DTW. Việc thử nghiệm được thực hiện trên 10 từ, trong đó mỗi từ bao gồm 30 mẫu, với 10 mẫu được sử dụng làm dữ liệu huấn luyện và 20 mẫu kiểm tra. Hình 4. Dữ liệu khung xương 223 223
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Dữ liệu khung xương được thu bởi Kinect với tốc độ 30 khung hình mỗi giây. Tuy vậy, hệ thống mà chúng tôi xây dựng chỉ chọn và xử lý 5 khung xương trong số đó. Do đó, việc thu nhận dữ liệu được thực hiện cứ sau mỗi 0.2 giây. Cụ thể, cứ thu được 6 khung hình thì hệ thống tiến hành tính khung xương trung bình và đưa vào mô-đun nhận dạng. Lưu ý rằng mỗi khung hình được thu nhận sẽ được kiểm tra có chứa các thành phần bàn tay, khuỷu tay và tâm cơ thể hay không. Nếu có điểm bất kỳ không được thu nhận, hệ thống sẽ tự động điền thông tin đó bằng dữ liệu từ khung hình trước.  n Jk J  k 1 (1) n B. Trích xuất đặc trưng Hình 6. Hệ tọa độ cầu Spherical Công việc chính ở giai đoạn này là chuyển thông tin khung xương ở hệ tọa độ Descartes sang hệ tọa độ cầu. Camera Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu Kinect v2 với cảm biến chiều sâu cho phép làm việc với dữ liệu Spherical, ta sử dụng các công thức sau: n chiều sâu của đối tượng. Do đó, ta có thể sử dụng dữ liệu 3D để  J i    Tx   J  i  y  Ty    J i   Tz  2  2 2 r (2) xử lý ngôn ngữ ký hiệu tiếng Việt. Thông tin về khung xương i 1 i x z đã đề cập ở trên có thể biểu diễn trong hệ tọa độ Cartesian với n   J  i  z  Tz   3 thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥). Tuy nhiên, phương pháp này bộc lộ nhược  i  arccos   (3)  ri  điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và i 1 khoảng cách của đối tượng với camera Kinect là không thay n   J  i  y  Ty   đổi. Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ   atan 2     J  i  x  Tx   i (4) quy chiếu của đối tượng: lấy tâm người làm gốc tọa độ, các dữ i 1   liệu về bàn tay và khuỷu tay được quy về theo hệ tọa độ này Trong đó, n là số điểm trong tập hợp J. (hình 5). Hình 7. Chia vùng chuẩn hóa dữ liệu góc kinh độ φ Hình 5. Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối Dữ liệu ban đầu đưa vào là dữ liệu số thực ở hệ tọa độ tượng [10] Descartes, hệ tọa độ sau khi chuyển đổi là hệ tọa độ cầu với Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa tâm là tâm cơ thể của đối tượng. Các góc θ và φ được chia độ cho không gian 3 chiều mà vị trí một điểm được xác định thành 12 góc nhỏ với mỗi góc 300 (hình 7). Bán kính r được bởi 3 số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc nhân với 10 và lấy phần nguyên (dữ liệu thô tính bằng đơn vị mét). Quá trình này giúp làm giảm sai số trong việc làm tròn nâng từ điểm đó từ một mặt phẳng cố định θ, và góc kinh độ của hình chiếu vuông góc của điểm đó lên mặt phẳng cố định giá trị. Như vậy sau quá trình chuẩn hóa dữ liệu, dữ liệu đưa vào bao gồm các giá trị nguyên. đó φ (hình 6). Sau khi thực hiện xong việc trích xuất đặc trưng, vector Dữ liệu cần xét trong bài báo là tập hợp các vector của bàn biểu diễn cử chỉ bao gồm 12 phần tử chứa dữ liệu của 4 điểm tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay khớp tại một thời điểm: phải (RE). Ta có tập hợp khung xương: J  rLE ,  LE ,  LE , rRE ,  RE ,  RE , rLH ,  LH ,  LH , rRH ,  RH ,  RH  (5) J LE, RE, LH , RH  Các thông tin tương ứng với hệ tọa độ cầu bao gồm C. Phân loại  Tập hợp khoảng cách r  rLE , rRE , rLH , rRH  Trong quá trình này, dữ liệu đầu vào được so sánh với các  Tập hợp góc nâng   LE ,  RE ,  LH ,  RH  ký hiệu sẵn có để chọn ra cử chỉ gần giống nhất. Ở đây, việc so  Tập hợp góc kinh độ   LE ,  RE , LH , RH  khớp có thể thực hiện cả khi không có sự trùng khớp về mặt 224 224
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) thời gian thực hiện cử chỉ. DTW được sử dụng để so khớp hai một mảng vector. Vấn đề đặt ra là: trong hai dữ liệu về bàn tay dữ liệu có sự sai khác nhau về thời gian. và cánh tay, dữ liệu nào đặc trưng hơn cho từ vựng của ngôn Thuật toán DTW được giới thiệu từ những năm 1960 [13], ngữ ký hiệu? Tại mỗi thời điểm, bàn tay di chuyển nhiều hơn đây là thuật toán so khớp sự giống nhau của 2 chuỗi mà không khuỷu tay. Đánh giá hai dữ liệu này qua thực nghiệm đã đưa ra phụ thuộc vào thời gian cũng như tốc độ của các chuỗi này. được kết luận: dữ liệu của bàn tay quan trọng hơn dữ liệu của Vào năm 1983, Joseph Kruskal và cộng sự [14] đã giới thiệu khuỷu tay. Do đó, chúng ta lấy trọng số 80% cánh tay và 20% một kỹ thuật mới cho phép tìm ra đường chuẩn hoá tối ưu dựa khuỷu tay. trên việc so sánh hai mẫu dữ liệu được vector hoá đặc trưng (tức là tính khoảng cách giữa chúng). Kỹ thuật này được gọi là III. KẾT QUẢ THỰC NGHIỆM time warping, có thể so khớp hai vector có đặc trưng khác nhau Phương pháp đề xuất được thử nghiệm với 10 từ trong bộ về thời gian và tốc độ. Kỹ thuật so khớp đồng bộ thời gian từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5]. Mỗi từ được lấy 30 bằng cách tính khoảng cách Euclidean hay Mahattan và so sánh mẫu gồm 20 mẫu kiểm tra và 10 mẫu huấn luyện, được thực điểm thứ i của một thời điểm ở chuỗi mẫu với điểm i đó trong hiện bởi 2 người và các vị trí có sự khác nhau so với thiết bị chuỗi đối chiếu có nhược điểm là kết quả so khớp thường thấp Kinect. Quá trình phân loại được thực hiện bằng thuật toán với 2 chuỗi không có nhiều tương đồng về thời gian (hình 8). DTW và Nearest Neighbor. Cấu hình hệ thống thử nghiệm: Windows 8 Professional, CPU Intel Core i5 2.5GHz, RAM 4G, Kinect v2 for Windows. Hệ thống hoạt động cho ra kết quả trong thời gian thực. Bảng 1.Kết quả nhận dạng ngôn ngữ ký hiệu tiếng Việt Từ Độ chính xác Buổi sáng 90% Hình 8. So khớp bằng phương pháp khoảng cách Euclidean Bàn hội nghị 85% Bánh chưng 95% Thuật toán DTW đưa ra kỹ thuật so sánh 2 chuỗi phi tuyến tính theo thời gian cho phép so khớp 2 chuỗi ngay cả khi chúng Cầu vượt 90% không đồng bộ về mặt thời gian cũng như tốc độ (hình 9). Giao thông 95% Ấm áp 90% Ăn mặc 80% Thành phố 95% Biểu quyết 100% Tình nguyện 100% IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Hình 9. So khớp với DTW Trong bài báo này chúng tôi đề xuất một giải pháp mới để nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động dựa trên bộ Trong hình trên, mỗi đường thẳng nối một điểm trên chuỗi dữ liệu khung xương thu nhận từ thiết bị Kinect. Đặc trưng thời gian này với các điểm tương đồng trên chuỗi thời gian kia. biểu diễn cử chỉ được trích xuất dựa trên việc chuyển đổi vị trí Các đường có giá trị giống nhau trên trục y, nhưng đã được các khớp tay trong hệ tọa độ Descartes sang hệ tọa độ cầu và tách ra để các đường thẳng đứng giữa chúng có thể dễ dàng đưa các giá trị thu được về tập số nguyên. Việc phân lớp được nhìn thấy. Nếu cả chuỗi thời gian trong hình giống hệt nhau thì thực hiện bởi kĩ thuật Nearest Neighbor, trong đó thuật toán tất cả các đường sẽ là thẳng đứng vì lúc này không cần phải DTW được dùng để đánh giá độ tương đồng của hai mẫu dữ dùng kỹ thuật “time warping” nữa. Khoảng cách đường là độ liệu có sự sai khác nhau về thời gian. Kết quả thu được khá khả đo sự khác nhau giữa hai chuỗi thời gian sau khi được chỉnh quan khi độ chính xác trung bình lên đến trên 92%. Ngoài ra, sửa so khớp với nhau, được tính bằng tổng các khoảng cách việc thực nghiệm cho thấy giải pháp đề xuất có thể xử lý trong giữa mỗi cặp điểm được nối với nhau bằng các đường thẳng thời gian thực với chi phí thấp. Trong các nghiên cứu tiếp theo, đứng trong hình trên. Như vậy, hai chuỗi thời gian mà giống chúng tôi sẽ phân tích thêm các thông tin về hình dạng bàn tay hệt nhau ngoại trừ việc kéo dãn cục bộ của các trục thời gian sẽ và biểu hiện khuôn mặt để nâng cao khả năng biểu diễn cử chỉ có khoảng cách DTW bằng 0. và tăng hiệu quả nhận dạng. Trong quá trình thu nhận cử chỉ chúng tôi sử dụng phương pháp phân lớp Nearest Neighbor được sử dụng để đưa ra kết V. LỜI CẢM ƠN quả so khớp là khoảng cách nhỏ nhất giữa dữ liệu đầu vào và Nghiên cứu này được hỗ trợ bởi Nguyễn Trọng Nguyên và các cụm dữ liệu đã huấn luyện. Đây là dữ liệu đầu vào để áp nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin, dụng cho phương pháp phân loại DTW. Dữ liệu đưa vào gồm 2 Trường Đại học Bách khoa, Đại học Đà Nẵng. phần chính là dữ liệu khuỷu tay và dữ liệu bàn tay trong cùng 225 225
HộiHội Thảo Thảo QuốcGia Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông (ECIT 2015) (ECIT 2015) VI. TÀI LIỆU THAM KHẢO Gesture Recognition, 1998. Proceedings. Third IEEE International Conference on. 1998. [1] Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng [8] Kyung Kwon, J., et al. EMG pattern classification using spectral Neuron nhân tạo. Tạp chí Khoa học và Công nghệ, Đại học Đà estimation and neural network. in SICE, 2007 Annual Nẵng, 2012. 12: p. 75-80. Conference. 2007. [2] Nguyen, T.-N., H.-H. Huynh, and J. Meunier, Static Hand [9] Zafrulla, Z., et al., American sign language recognition with the Gesture Recognition Using Artificial Neural Network. Journal kinect, in Proceedings of the 13th international conference on of Image and Graphics, 2013. 1(1). multimodal interfaces. 2011, ACM: Alicante, Spain. p. 279-286. [3] Nguyen, T.-N., et al. Geometry-based static hand gesture [10] Capilla, D.M., Sign Language Translator using Microsoft Kinect recognition using support vector machine. in Control XBOX 360 TM. Department of Electrical Engineering and Automation Robotics & Vision (ICARCV), 2014 13th Computer Science, University of Tennessee, 2012. International Conference on. 2014. IEEE. [11] Lang, S., M. Block, and R. Rojas. Sign language recognition [4] Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand using kinect. in Artificial Intelligence and Soft Computing. Gesture Recognition using Principal Component Analysis 2012. Springer. combined with Artificial Neural Network. Journal of [12] Li, Y. Hand gesture recognition using Kinect. in Software Automation and Control Engineering, 2015. Vol. 3, No. 1: p. 40- Engineering and Service Science (ICSESS), 2012 IEEE 3rd 45. International Conference on. 2012. IEEE. [5] VSDIC. Từ điển ngôn ngữ ký hiệu. 2014. [13] Bellman, R. and R. Kalaba, On adaptive control processes. [6] Starner, T., J. Weaver, and A. Pentland, Real-time american sign Automatic Control, IRE Transactions on, 1959. 4(2): p. 1-9. language recognition using desk and wearable computer based [14] Kruskal, J.B. and M. Liberman, The symmetric time-warping video. Pattern Analysis and Machine Intelligence, IEEE problem: from continuous to discrete. Time Warps, String Edits Transactions on, 1998. 20(12): p. 1371-1375. and Macromolecules: The Theory and Practice of Sequence [7] Imagawa, K., L. Shan, and S. Igi. Color-based hands tracking Comparison, 1983: p. 125-161. system for sign language recognition. in Automatic Face and 226 226

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học