Xem mẫu
- HộiHội
ThảoThảo Quốc
Quốc Gia
Gia 2015vềvềĐiện
2015 ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
và Công
CôngNghệ
NghệThông
ThôngTinTin
(ECIT 2015)
(ECIT 2015)
Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ
động dựa trên hệ tọa độ cầu
Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang Jean Meunier
Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng. DIRO, Đại học Montreal, Canada.
Email: {hoangvd.it, hhhung}@dut.udn.vn, sangnguyenhong@hotmail.com Email: meunier@iro.umontreal.ca
Abstract—Ngôn ngữ ký hiệu là phương tiện giao tiếp được sử Sự ra đời của camera Kinect là một bước ngoặc lớn trong
dụng phổ biến trong cộng đồng người khiếm thính. Ngôn ngữ ký xử lý ngôn ngữ cử chỉ.
hiệu có những đặc trưng riêng với các quốc gia khác nhau, được
biểu diễn thông qua các cử chỉ và hình dạng bàn tay, khuỷu tay,
hay khuôn mặt. Trong bài báo này, chúng tôi đề xuất phương
pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ
liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức
độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán
Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra
bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng
Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng
thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với Hình 1. Camera đa năng Kinect
ứng dụng thực tế.
Năm 2010, Microsoft cho ra mắt phiên bản camera Kinect
Keywords- Vietnamese sign language, Kinect, Dynamic Time XBOX (hình 1) với nhiều tính năng thú vị như: camera hồng
Warping, Nearest Neighbor, so khớp mẫu, khung xương. ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,…
Đặc biệt, ta có thể sử dụng những cảm biến của camera thông
I. GIỚI THIỆU
qua các API được hỗ trợ trong bộ SDK dành cho Kinect
Ngày nay hệ thống thị giác máy tính được áp dụng nhiều XBOX. Với những ưu điểm vượt trội trong tiền xử lý dữ liệu,
trong các lĩnh vực như: giám sát, điều khiển công nghiệp, giao nhiều bài báo khoa học sử dụng Kinect XBOX như một thiết bị
tiếp người và máy, truyền thông, điều khiển rô bốt... Có hai xu thu nhận dữ liệu trong xử lý ngôn ngữ ký hiệu.
hướng nghiên cứu chính về nhận dạng ngôn ngữ ký hiệu tùy Zahoor Zafrulla và các cộng sự [9] có thể coi là người cho
thuộc vào loại cử chỉ tĩnh hay động. Các nghiên cứu về nhận đặt nền móng cho nhận dạng ngôn ngữ ký hiệu sử dụng Kinect.
dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language Nhóm tác giả nhận thấy trò chơi giáo dục cho trẻ em khiếm
- VSL) tĩnh [1]-[4] đã cho các kết quả khá cao, ví dụ ở nghiên thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả
cứu nhận dạng VSL tĩnh được H.H.Hưng và cộng sự đưa ra nhận dạng đáng kể bằng cách sử dụng Kinect. Hệ thống mới
vào năm 2012 [1], dữ liệu được thu nhận dưới dạng ảnh 2D giúp người dùng thỏa mái hơn khi không phải mang găng tay
thông qua camera màu. Sau khi trích xuất đặc trưng dựa trên màu, cảm biến gia tốc và phải có dây nối trực tiếp với máy
hình dạng và đường bao, mạng nơ-ron nhân tạo được sử dụng tính. Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử
để thực hiện việc phân lớp. Việc thử nghiệm được thực hiện dụng máy ảnh có độ phân giải cao.
trên bộ ký hiệu tương ứng với bảng chữ cái tiếng Việt (nhiều Tháng 6/2012 Capilla, D.M. [10] công bố dự án bao gồm
ký tự hơn so với quốc tế) với độ chính xác lên đến 98%. một hệ thống tự động dịch ngôn ngữ ký hiệu kết nối với máy
Trong các nghiên cứu về xử lý ngôn ngữ cử chỉ trước đây, tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính
các nhà khoa học đã sử dụng các phương pháp thu nhận dữ liệu và người bình thường không hiểu ngôn ngữ ký hiệu. Hệ thống
khác nhau để nhận dạng ngôn ngữ ký hiệu: Starner T. và cộng sử dụng Kinect XBOX 360TM do Microsoft phát triển để theo
sự [6] sử dụng hai camera để thu ảnh được hai hình ảnh hai dõi cử chỉ của người khiếm thính (hình 2).
chiều, tuy nhiên quá trình tiền xử lý phức tạp vì phải đồng bộ
dữ liệu của hai camera. Imagawa và cộng sự [7] đã áp dụng kĩ
thuật xử lý ảnh màu để phát hiện và theo vết bàn tay, Jung [8]
sử dụng thiết bị thu nhận đo điện cơ đồ (EMG-
Electromyography) để phân loại 6 cử chỉ tay ngôn ngữ ký hiệu
tiếng Hàn Quốc. Bên cạnh đó, nhiều nghiên cứu sử dụng găng
tay cảm biến, găng tay màu cũng được giới thiệu. Tất cả các
phương pháp này đều tồn tại những ưu nhược điểm riêng: việc
nhận dạng bằng camera 2D đơn giản về mặt thiết bị nhưng
phức tạp ở khâu xử lý để cho ra dữ liệu chuẩn; các phương
pháp điện cơ đồ, găng tay cảm biến và màu mang lại sự bất tiện
và đòi hỏi chi phí thiết bị đáng kể trong ứng dụng thực tế. Hình 2. Hệ thống hỗ trợ người khiếm thính
ISBN: 978-604-67-0635-9 222
222
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
Với phiên bản Kinect for Windows (Kinect v2), các thông II. PHƯƠNG PHÁP ĐỀ XUẤT
số kỹ thuật của camera vượt trội hơn so với bản Microsoft
XBOX: camera màu được nâng lên FullHD (1920 x 1080 @30
fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424)
so với (320 x 240), bắt được 25 điểm khung xương so với 20
điểm, theo dõi cùng lúc 6 đối tượng là người thao tác trước
thiết bị.
Ngoài ra còn có rất nhiều nghiên cứu về nhận dạng ngôn
ngữ ký hiệu sử dụng Kinect. Các báo cáo của Simon Lang [11]
sử dụng Kinect để thu nhận dữ liệu 3D, áp dụng mô hình
HMM để nhận dạng các ký hiệu với kết quả đạt 97.7%. Bài báo
về theo dõi chuyển động tay của Li Yi [12] cho thấy Kinect
thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì nó cung
cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều
camera cũng như định vị và trích xuất hiệu quả các bộ phận
trên cơ thể người thu như: bàn tay, khủy tay, đầu, thân và chân.
Một ưu điểm của Kinect là thiết bị độc lập với môi trường ánh
sáng, có thể phát hiện chuyển động của cơ thể con người trong
bóng tối. Kinect giúp giải quyết vấn đề thu nhận dữ liệu đầu
vào không cần găng tay cảm biến, dây nối từ người thực hiện
hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh nền và
lọc nhiễu, làm mịn đối tượng. Giải pháp do chúng tôi đề xuất
cũng sử dụng thông tin 3D do Kinect cung cấp để trích xuất
đặc trưng biểu diễn cử chỉ.
Ngôn ngữ ký hiệu tiếng Việt so với các ngôn ngữ ký hiệu
trên thế giới có những đặc điểm chung: sử dụng chung ký hiệu
của bảng chữ cái latinh, sử dụng chung bảng chữ số, sử dụng
các hành động bàn tay kết hợp với hành động khuôn mặt, khẩu
hình miệng, ngôn ngữ cơ thể để bày tỏ ý kiến, miêu tả đối
tượng hoặc hành động. Ngoài ra, ngôn ngữ ký hiệu tiếng Việt
(cử chỉ động) cũng có những đặc trưng khác biệt so với ngôn
ngữ ký hiệu các nước khác: sử dụng các cách đánh dấu cho từ
ngữ, sử dụng các cách đánh tay biểu diễn các phụ âm ghép, tùy
thuộc vào văn hóa vùng miền.
Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn
tay tương ứng với bảng chữ cái và chữ số. Số lượng các ký
hiệu này khá ít và thường được thống nhất trên toàn quốc. Các Hình 3. Sơ đồ hoạt động của hệ thống
ký hiệu động trong VSL thường bao gồm nhiều cử chỉ phức tạp
như chuyển động cánh tay, hình dạng bàn tay, hay hướng các A. Dữ liệu khung xương
ngón tay, tùy thuộc vào quy ước của từng bộ cử chỉ. Tuy nhiên,
Kinect v2 có thể nhận biết được 25 vị trí khớp trong khung
thông tin về hành động của bàn tay và cánh tay thường được
xương. Sau khi khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt,
chú trọng hơn những yếu tố khác. Khác với bộ cử chỉ tĩnh chỉ
chúng tôi kết luận rằng chuyển động của đôi tay là yếu tố quan
gói gọn trong bảng chữ cái và chữ số, cử chỉ động biểu diễn từ
trọng nhất, các thành phần khác của khuôn mặt như khẩu hình
ngữ với số lượng và thể loại rất đa dạng và phong phú. Hiện
miệng hay chuyển động mắt không được sử dụng. Do đó,
nay, bộ từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ,
chúng tôi chỉ sử dụng 4 điểm liên quan đến tay gồm 2 điểm bàn
các từ lại có sự khác nhau đối với mỗi vùng miền.
tay trái và phải, 2 điểm khuỷu tay trái và phải (hình 4).
Nghiên cứu của chúng tôi tập trung vào các ký hiệu được
quy ước trong bộ từ điển ngôn ngữ ký hiệu Việt Nam [5]. Cụ
thể, các cử chỉ được xử lý theo thời gian thực, mỗi hành động
được thu lại bằng camera Kinect v2. Các cử chỉ được biểu diễn
bởi thông tin tọa độ các khớp liên quan đến tay trong hệ tọa độ
cầu thay vì hệ tọa độ Descartes. Việc nhận dạng được thực hiện
bởi thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ
tương đồng DTW. Việc thử nghiệm được thực hiện trên 10 từ,
trong đó mỗi từ bao gồm 30 mẫu, với 10 mẫu được sử dụng
làm dữ liệu huấn luyện và 20 mẫu kiểm tra.
Hình 4. Dữ liệu khung xương
223
223
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Dữ liệu khung xương được thu bởi Kinect với tốc độ 30
khung hình mỗi giây. Tuy vậy, hệ thống mà chúng tôi xây
dựng chỉ chọn và xử lý 5 khung xương trong số đó. Do đó, việc
thu nhận dữ liệu được thực hiện cứ sau mỗi 0.2 giây. Cụ thể, cứ
thu được 6 khung hình thì hệ thống tiến hành tính khung xương
trung bình và đưa vào mô-đun nhận dạng. Lưu ý rằng mỗi
khung hình được thu nhận sẽ được kiểm tra có chứa các thành
phần bàn tay, khuỷu tay và tâm cơ thể hay không. Nếu có điểm
bất kỳ không được thu nhận, hệ thống sẽ tự động điền thông tin
đó bằng dữ liệu từ khung hình trước.
n
Jk
J k 1 (1)
n
B. Trích xuất đặc trưng Hình 6. Hệ tọa độ cầu Spherical
Công việc chính ở giai đoạn này là chuyển thông tin khung
xương ở hệ tọa độ Descartes sang hệ tọa độ cầu. Camera Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu
Kinect v2 với cảm biến chiều sâu cho phép làm việc với dữ liệu Spherical, ta sử dụng các công thức sau:
n
chiều sâu của đối tượng. Do đó, ta có thể sử dụng dữ liệu 3D để
J i
Tx J i y Ty J i Tz
2
2 2
r (2)
xử lý ngôn ngữ ký hiệu tiếng Việt. Thông tin về khung xương i 1
i x z
đã đề cập ở trên có thể biểu diễn trong hệ tọa độ Cartesian với n
J i z Tz
3 thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥). Tuy nhiên, phương pháp này bộc lộ nhược i
arccos (3)
ri
điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và
i 1
khoảng cách của đối tượng với camera Kinect là không thay n J i y Ty
đổi. Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ atan 2
J i x Tx
i
(4)
quy chiếu của đối tượng: lấy tâm người làm gốc tọa độ, các dữ
i 1
liệu về bàn tay và khuỷu tay được quy về theo hệ tọa độ này Trong đó, n là số điểm trong tập hợp J.
(hình 5).
Hình 7. Chia vùng chuẩn hóa dữ liệu góc kinh độ φ
Hình 5. Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối Dữ liệu ban đầu đưa vào là dữ liệu số thực ở hệ tọa độ
tượng [10]
Descartes, hệ tọa độ sau khi chuyển đổi là hệ tọa độ cầu với
Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa tâm là tâm cơ thể của đối tượng. Các góc θ và φ được chia
độ cho không gian 3 chiều mà vị trí một điểm được xác định thành 12 góc nhỏ với mỗi góc 300 (hình 7). Bán kính r được
bởi 3 số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc nhân với 10 và lấy phần nguyên (dữ liệu thô tính bằng đơn vị
mét). Quá trình này giúp làm giảm sai số trong việc làm tròn
nâng từ điểm đó từ một mặt phẳng cố định θ, và góc kinh độ
của hình chiếu vuông góc của điểm đó lên mặt phẳng cố định giá trị. Như vậy sau quá trình chuẩn hóa dữ liệu, dữ liệu đưa
vào bao gồm các giá trị nguyên.
đó φ (hình 6).
Sau khi thực hiện xong việc trích xuất đặc trưng, vector
Dữ liệu cần xét trong bài báo là tập hợp các vector của bàn
biểu diễn cử chỉ bao gồm 12 phần tử chứa dữ liệu của 4 điểm
tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay
khớp tại một thời điểm:
phải (RE). Ta có tập hợp khung xương:
J rLE , LE , LE , rRE , RE , RE , rLH , LH , LH , rRH , RH , RH (5)
J LE, RE, LH , RH
Các thông tin tương ứng với hệ tọa độ cầu bao gồm C. Phân loại
Tập hợp khoảng cách r rLE , rRE , rLH , rRH Trong quá trình này, dữ liệu đầu vào được so sánh với các
Tập hợp góc nâng LE , RE , LH , RH ký hiệu sẵn có để chọn ra cử chỉ gần giống nhất. Ở đây, việc so
Tập hợp góc kinh độ LE , RE , LH , RH khớp có thể thực hiện cả khi không có sự trùng khớp về mặt
224
224
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
thời gian thực hiện cử chỉ. DTW được sử dụng để so khớp hai một mảng vector. Vấn đề đặt ra là: trong hai dữ liệu về bàn tay
dữ liệu có sự sai khác nhau về thời gian. và cánh tay, dữ liệu nào đặc trưng hơn cho từ vựng của ngôn
Thuật toán DTW được giới thiệu từ những năm 1960 [13], ngữ ký hiệu? Tại mỗi thời điểm, bàn tay di chuyển nhiều hơn
đây là thuật toán so khớp sự giống nhau của 2 chuỗi mà không khuỷu tay. Đánh giá hai dữ liệu này qua thực nghiệm đã đưa ra
phụ thuộc vào thời gian cũng như tốc độ của các chuỗi này. được kết luận: dữ liệu của bàn tay quan trọng hơn dữ liệu của
Vào năm 1983, Joseph Kruskal và cộng sự [14] đã giới thiệu khuỷu tay. Do đó, chúng ta lấy trọng số 80% cánh tay và 20%
một kỹ thuật mới cho phép tìm ra đường chuẩn hoá tối ưu dựa khuỷu tay.
trên việc so sánh hai mẫu dữ liệu được vector hoá đặc trưng
(tức là tính khoảng cách giữa chúng). Kỹ thuật này được gọi là III. KẾT QUẢ THỰC NGHIỆM
time warping, có thể so khớp hai vector có đặc trưng khác nhau Phương pháp đề xuất được thử nghiệm với 10 từ trong bộ
về thời gian và tốc độ. Kỹ thuật so khớp đồng bộ thời gian từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5]. Mỗi từ được lấy 30
bằng cách tính khoảng cách Euclidean hay Mahattan và so sánh mẫu gồm 20 mẫu kiểm tra và 10 mẫu huấn luyện, được thực
điểm thứ i của một thời điểm ở chuỗi mẫu với điểm i đó trong hiện bởi 2 người và các vị trí có sự khác nhau so với thiết bị
chuỗi đối chiếu có nhược điểm là kết quả so khớp thường thấp Kinect. Quá trình phân loại được thực hiện bằng thuật toán
với 2 chuỗi không có nhiều tương đồng về thời gian (hình 8). DTW và Nearest Neighbor. Cấu hình hệ thống thử nghiệm:
Windows 8 Professional, CPU Intel Core i5 2.5GHz, RAM 4G,
Kinect v2 for Windows. Hệ thống hoạt động cho ra kết quả
trong thời gian thực.
Bảng 1.Kết quả nhận dạng ngôn ngữ ký hiệu tiếng Việt
Từ Độ chính xác
Buổi sáng 90%
Hình 8. So khớp bằng phương pháp khoảng cách Euclidean Bàn hội nghị 85%
Bánh chưng 95%
Thuật toán DTW đưa ra kỹ thuật so sánh 2 chuỗi phi tuyến
tính theo thời gian cho phép so khớp 2 chuỗi ngay cả khi chúng Cầu vượt 90%
không đồng bộ về mặt thời gian cũng như tốc độ (hình 9). Giao thông 95%
Ấm áp 90%
Ăn mặc 80%
Thành phố 95%
Biểu quyết 100%
Tình nguyện 100%
IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Hình 9. So khớp với DTW Trong bài báo này chúng tôi đề xuất một giải pháp mới để
nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động dựa trên bộ
Trong hình trên, mỗi đường thẳng nối một điểm trên chuỗi dữ liệu khung xương thu nhận từ thiết bị Kinect. Đặc trưng
thời gian này với các điểm tương đồng trên chuỗi thời gian kia. biểu diễn cử chỉ được trích xuất dựa trên việc chuyển đổi vị trí
Các đường có giá trị giống nhau trên trục y, nhưng đã được các khớp tay trong hệ tọa độ Descartes sang hệ tọa độ cầu và
tách ra để các đường thẳng đứng giữa chúng có thể dễ dàng đưa các giá trị thu được về tập số nguyên. Việc phân lớp được
nhìn thấy. Nếu cả chuỗi thời gian trong hình giống hệt nhau thì thực hiện bởi kĩ thuật Nearest Neighbor, trong đó thuật toán
tất cả các đường sẽ là thẳng đứng vì lúc này không cần phải DTW được dùng để đánh giá độ tương đồng của hai mẫu dữ
dùng kỹ thuật “time warping” nữa. Khoảng cách đường là độ liệu có sự sai khác nhau về thời gian. Kết quả thu được khá khả
đo sự khác nhau giữa hai chuỗi thời gian sau khi được chỉnh quan khi độ chính xác trung bình lên đến trên 92%. Ngoài ra,
sửa so khớp với nhau, được tính bằng tổng các khoảng cách việc thực nghiệm cho thấy giải pháp đề xuất có thể xử lý trong
giữa mỗi cặp điểm được nối với nhau bằng các đường thẳng thời gian thực với chi phí thấp. Trong các nghiên cứu tiếp theo,
đứng trong hình trên. Như vậy, hai chuỗi thời gian mà giống chúng tôi sẽ phân tích thêm các thông tin về hình dạng bàn tay
hệt nhau ngoại trừ việc kéo dãn cục bộ của các trục thời gian sẽ và biểu hiện khuôn mặt để nâng cao khả năng biểu diễn cử chỉ
có khoảng cách DTW bằng 0. và tăng hiệu quả nhận dạng.
Trong quá trình thu nhận cử chỉ chúng tôi sử dụng phương
pháp phân lớp Nearest Neighbor được sử dụng để đưa ra kết V. LỜI CẢM ƠN
quả so khớp là khoảng cách nhỏ nhất giữa dữ liệu đầu vào và Nghiên cứu này được hỗ trợ bởi Nguyễn Trọng Nguyên và
các cụm dữ liệu đã huấn luyện. Đây là dữ liệu đầu vào để áp nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin,
dụng cho phương pháp phân loại DTW. Dữ liệu đưa vào gồm 2 Trường Đại học Bách khoa, Đại học Đà Nẵng.
phần chính là dữ liệu khuỷu tay và dữ liệu bàn tay trong cùng
225
225
- HộiHội Thảo
Thảo QuốcGia
Quốc Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
vàCông
CôngNghệ
NghệThông TinTin
Thông (ECIT 2015)
(ECIT 2015)
VI. TÀI LIỆU THAM KHẢO Gesture Recognition, 1998. Proceedings. Third IEEE
International Conference on. 1998.
[1] Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ
Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng [8] Kyung Kwon, J., et al. EMG pattern classification using spectral
Neuron nhân tạo. Tạp chí Khoa học và Công nghệ, Đại học Đà estimation and neural network. in SICE, 2007 Annual
Nẵng, 2012. 12: p. 75-80. Conference. 2007.
[2] Nguyen, T.-N., H.-H. Huynh, and J. Meunier, Static Hand [9] Zafrulla, Z., et al., American sign language recognition with the
Gesture Recognition Using Artificial Neural Network. Journal kinect, in Proceedings of the 13th international conference on
of Image and Graphics, 2013. 1(1). multimodal interfaces. 2011, ACM: Alicante, Spain. p. 279-286.
[3] Nguyen, T.-N., et al. Geometry-based static hand gesture [10] Capilla, D.M., Sign Language Translator using Microsoft Kinect
recognition using support vector machine. in Control XBOX 360 TM. Department of Electrical Engineering and
Automation Robotics & Vision (ICARCV), 2014 13th Computer Science, University of Tennessee, 2012.
International Conference on. 2014. IEEE. [11] Lang, S., M. Block, and R. Rojas. Sign language recognition
[4] Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand using kinect. in Artificial Intelligence and Soft Computing.
Gesture Recognition using Principal Component Analysis 2012. Springer.
combined with Artificial Neural Network. Journal of [12] Li, Y. Hand gesture recognition using Kinect. in Software
Automation and Control Engineering, 2015. Vol. 3, No. 1: p. 40- Engineering and Service Science (ICSESS), 2012 IEEE 3rd
45. International Conference on. 2012. IEEE.
[5] VSDIC. Từ điển ngôn ngữ ký hiệu. 2014. [13] Bellman, R. and R. Kalaba, On adaptive control processes.
[6] Starner, T., J. Weaver, and A. Pentland, Real-time american sign Automatic Control, IRE Transactions on, 1959. 4(2): p. 1-9.
language recognition using desk and wearable computer based [14] Kruskal, J.B. and M. Liberman, The symmetric time-warping
video. Pattern Analysis and Machine Intelligence, IEEE problem: from continuous to discrete. Time Warps, String Edits
Transactions on, 1998. 20(12): p. 1371-1375. and Macromolecules: The Theory and Practice of Sequence
[7] Imagawa, K., L. Shan, and S. Igi. Color-based hands tracking Comparison, 1983: p. 125-161.
system for sign language recognition. in Automatic Face and
226
226
nguon tai.lieu . vn