- Trang Chủ
- Tự động hoá
- Điều khiển chuyển động của cánh tay robot 6 DOF bằng giọng nói dựa trên phương pháp học sâu
Xem mẫu
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
ĐIỀU KHIỂN CHUYỂN ĐỘNG CỦA CÁNH
TAY ROBOT 6 DOF BẰNG GIỌNG NÓI
DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU
Dương Xuân Biên
Phòng Thí nghiệm Công nghệ Tiên tiến
Trung tâm Công nghệ, Học viện Kỹ thuật Quân sự
Email: duongxuanbien@lqdtu.edu.vn
Tóm tắt - Bài báo này trình bày bài toán điều khiển điều khiển các hệ thống phức tạp. Ngược lại, các hệ
chuyển động của cánh tay robot 6 bậc tự do bằng giọng điều khiển thông minh cho phép robot thực hiện nhiệm
nói dựa trên phương pháp học sâu (Deep Learning - DL). vụ với độ chính xác cao nhưng cấu trúc hệ điều khiển
Thuật toán nhận dạng giọng nói được thực hiện dựa trên phức tạp, chi phí cao.
việc chuyển đổi dữ liệu âm thanh thành văn bản thông
qua mô hình DL1. Thư viện dữ liệu học của mạng DL1
Xu hướng thiết kế hệ điều khiển trong những năm
được xây dựng trên cơ sở ngôn ngữ tiếng Việt và không gần đây hướng tới hệ điều khiển ngày càng thông
phụ thuộc vào việc kết nối Internet. Mô hình học máy minh, đáp ứng nhanh và linh hoạt trong thời gian thực
(Machine Learning - ML) được xây dựng để trích xuất với các yêu cầu điều khiển thay đổi liên tục, tương tác
thông tin điều khiển chuyển động của cánh tay robot từ với con người, độ chính xác cao. Robot được điều
văn bản đầu ra của mô hình DL1. Bộ dữ liệu vị trí khiển bằng giọng nói [11-21] thông qua mô đun nhận
chuyển động khả thi của robot trong không gian làm việc dạng giọng nói thông minh (sử dụng các mô hình trí
được xây dựng dựa trên việc mô hình hóa động học cánh tuệ nhân tạo như Machine Learning và Deep Learning),
tay robot 6DOF với hệ phương trình động học được xây hoặc được điều khiển thông qua kỹ thuật thị giác máy
dựng. Các kết quả mô hình hóa động học này và kết quả
đầu ra của mô hình ML được sử dụng để tính toán tín
tính hiện đại cũng là các giải pháp hiệu quả và có thể
hiệu điều khiển chuyển động cho cánh tay robot thông đáp ứng nhu cầu thực tế nêu trên.
qua mô hình DL2. Kết quả của nghiên cứu này có ý Hệ điều khiển bằng giọng nói cho robot được ứng
nghĩa quan trọng trong việc ứng dụng thuật toán điều dụng trong các lĩnh vực khác nhau như công nghiệp
khiển bằng giọng nói cho các hệ thống robot và các hệ sản xuất [13], sinh hoạt [17], y tế [19]. Điều khiển
thống tự động khác mà không yêu cầu phải kết nối mạng robot bằng giọng nói dựa trên thuật toán trí tuệ nhân
Internet. Mặt khác, hệ điều khiển bằng giọng nói có thể tạo đã được xem xét trong [11]. Thiết kế tai thông minh
kết hợp chặt chẽ với kỹ thuật thị giác máy tính để nâng cho robot nhằm xác định hướng âm thanh phát ra được
cao khả năng của hệ điều khiển. Điều này giúp robot thưc hiện trong [12]. Trong sản xuất công nghiệp, hệ
thông minh hơn, linh hoạt hơn và có thể mở rộng cho
nhiều ứng dụng khác nhau.
thống điều khiển giọng nói được đề xuất thiết kế phục
vụ điều khiển các máy gia công và robot [13]. Robot
Từ khóa - nhận dạng giọng nói, học sâu, học máy, phục vụ có thể tương tác với con người thông qua nhận
điều khiển, cánh tay robot. dạng cử chỉ và phản hồi bằng giọng nói được giới thiệu
trong [14], [15], [16]. Đề xuất thiết kế hệ điều khiển
I. ĐẶT VẤN ĐỀ giọng nói cho robot phục vụ trong nhà (Household
Robots) được thể hiện trong [17]. Kỹ thuật nhận dạng
Trong kỹ thuật robot, bài toán điều khiển luôn là giới tính thông qua giọng nói dựa trên thuật toán học
một trong các bài toán quan trọng nhất đảm bảo robot sâu được đề xuất trong [18]. Vấn đề thiết kế hệ điều
có thể thực hiện nhiệm vụ một cách chính xác nhất. Có khiển bằng giọng nói cho cánh tay giả robot (prosthetic
rất nhiều hệ điều khiển robot được phát triển từ trước robot arm) phục vụ trong ngành y tế được xem xét
đến nay, từ những hệ điều khiển cổ điển như PID [1], trong [19]. Robot được điều khiển bằng giọng nói
Sliding Mode Control [2], Backstepping [3], Robust thông qua giao tiếp ánh sáng nhìn thấy được trình bày
control [4], Fuzzy logic [5], đến những thuật toán điều trong [20]. Robot tự hành được điều khiển bằng giọng
khiển thông minh như Adaptive control [6], Neural nói thông qua công cụ ứng dụng Google Assistant trên
Network [7], Machine Learning [8], Reinforcement cơ sở kỹ thuật IoT được thể hiện trong [21].
Learning [9], Deep Learning [10]. Mỗi thuật toán đều Bài báo này tập trung vào việc xây dựng hệ điều
có những ưu điểm và hạn chế nhất định. Nếu như các khiển chuyển động của cánh tay robot 6DOF bằng
hệ điều khiển truyền thống được thiết kế khá đơn giản, giọng nói (tiếng Việt) mà không yêu cầu kết nối mạng
chi phí thấp thì khó đảm bảo độ chính xác cao trong
ISBN 978-604-80-5958-3 299
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
Internet. Giọng nói được nhận dạng dựa trên thuật toán B. Tiền xử lý giọng nói
học sâu (DL1). Dựa trên tín hiệu nhận được từ dữ liệu Vấn đề này được giải quyết thông qua các bước: lọc
đầu ra của mô hình DL1, mô hình ML được xây dựng nhiễu, tách từ, chuyển đổi dao động âm thanh thành
để trích xuất thông tin điều khiển và mã hóa chúng. Mô phổ tần số, biến đổi phổ tần số thành dữ liệu đầu vào
hình DL2 được thiết kế để tính toán giá trị tín hiệu điều cho mạng Nơ ron.
khiển 6 động cơ truyền động, tương ứng với chuyển Bài toán lọc nhiễu được xử lý thông qua một số
động của 6 khớp của robot. Các mô hình DL1, ML, phương pháp như giảm nhiễu dựa trên thiết kế phần
DL2 được xây dựng và kiểm tra bằng ngôn ngữ cứng của micro thu âm, lọc nhiễu bằng các phần tử
PYTHON và các thư viện hỗ trợ. Mô hình robot 6 bậc điện của mạch thu âm, lọc nhiễu bằng chương trình
tự do được chế tạo thực tế để thực nghiệm các mô hình. hiệu chỉnh. Trong phạm vi bài báo và điều kiện thực tế,
phương án sử dụng đầu thu âm để giảm nhiễu được sử
dụng.
II. NỘI DUNG NGHIÊN CỨU
Mỗi câu nói của con người gồm nhiều từ gộp lại.
A. Bài toán điều khiển cánh tay robot bằng giọng nói Việc đầu tiên là cần phân tích để tách các từ trong câu
nói. Trong thử nghiệm ban đầu thuật toán, câu nói:
Cánh tay robot nhận lệnh bằng giọng nói từ người “Bốn, năm, sáu” gồm ba từ “bốn”, “năm”, “sáu” được
điều khiển bằng modul nhận dạng giọng nói. Sau đó, hệ dùng để làm ví dụ minh họa. Ví dụ này sẽ được dùng
điều khiển tự động phân tích, tính toán và đưa ra tín
xuyên suốt trong toàn bộ phần 2. Câu nói thông qua
hiệu điều khiển các động cơ tại các khớp, robot thực
Micro và được ghi âm nhờ ứng dụng thông thường
hiện chuyển động theo yêu cầu (hình 1).
Void Recorder có sẵn trên hệ điều hành Windows
Microsoft. File âm thanh được đọc và ghi dữ liệu ngay
trên thư viện Scipy trong phần mềm lập trình
PYTHON. Giá trị biên độ dao động âm được chuẩn
Hình 1. Sơ đồ bài toán điều khiển cánh tay robot bằng giọng hóa nhằm chuẩn hóa dữ liệu đầu vào cho các bước sau,
nói đảm bảo hội tụ nhanh, tránh hiện tượng giá trị hàm lỗi
quá lớn dẫn tới không cập nhật thông số mạng và tránh
Cụ thể, module nhận dạng chuyển đổi từ giọng nói lỗi không hội tụ trong mô hình DL. Theo đó, đồ thị dao
của con người có chứa thông tin điều khiển thành văn động âm đã được chuẩn hóa của câu nói trên được thể
bản dưới định dạng văn bản trong chương trình. Các hiện trên hình 3. Dễ thấy, các vùng dao động âm được
thông tin điều khiển robot có trong giọng nói bao gồm phân biệt rõ ràng khi chưa nói và khi nói. 3 vùng có
các thông tin như: hướng chuyển động của robot (quay biên độ lớn vượt trội chính là 3 từ được nói, các vùng
bên trái hay quay bên phải), hành động robot cần thực khác có biên độ nhỏ và khá đều nhau là khoảng ngắt
hiện (hành động gắp hoặc thả), xác định vật thể tiếp giữa các từ, mô tả tạp âm từ môi trường xung quanh
nhận hành động (bánh xe, khay chứa, thùng, hộp, …), (có thể coi là tín hiệu nhiễu).
đặc điểm phân biệt các loại vật thể (màu sắc, hình
dạng, kích thước, …).
Hình 3. Đồ thị biên độ dao động âm đã được chuẩn hóa.
Căn cứ vào sự thay đổi của biên độ âm theo thời
gian, sử dụng phương pháp Gradient [24] xác định sự
thay đổi của biên độ dao động âm để tách các từ. Sau
Hình 2. Các bước thực hiện bài toán điều khiển robot bằng khi tách các từ trong câu, dao động âm chúng sẽ được
giọng nói phân tích năng lượng âm trong miền tần số thông qua
biến đổi Fourier. Giá trị năng lượng âm này sẽ được sử
Để giải quyết được mục tiêu điều khiển robot, ta dụng để chuyển đổi thành Input Tensor cho mô hình
xác định được đầu vào là giọng nói, đầu ra là tín hiệu DL. Âm thanh từ giọng nói con người thực chất là tổng
điều khiển các động cơ truyền động. Các bước thực hợp của rất nhiều tín hiệu hàm lượng giác với các tần
hiện bài toán điều khiển robot bằng giọng nói được mô số khác nhau. Hàm dao động âm f (t ) theo thời gian có
tả như hình 2.
thể mô tả thông qua phép biến đổi Fourier sau đây:
ISBN 978-604-80-5958-3 300
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
1 phi tuyến được sử dụng. Một số hàm phi tuyến có thể
f (t ) = a 0 + [an cos(n t)+bn sin(n t)] (1)
2 n =1
sử dụng như Sigmoid, Tanh, Relu [27]. Lớp đầu ra
được sử dụng hàm kích hoạt Softmax [27] để tính phân
Trong đó, a 0 là biên độ âm cơ bản, a n và bn là các phối xác suất trên các phân lớp. Để huấn luyện mạng
hằng số Fourier, n là hệ số tỉ lệ tần số, là vận tốc DL, các tiêu chí để xác định mô hình học đúng hay sai
và làm sao để nó có thể học được cần được nêu rõ. Vì
góc cơ bản của dao động âm. Từ Eq. (1), giá trị năng
vậy, phương pháp tính lỗi Sparse Categorical
lượng âm trong miền tần số có thể được xác định [20].
Crossentropy (SCC) được sử dụng [28]. Trong ví dụ, 3
Hình 4 mô tả năng lượng âm trong miền tần số của từ
nhãn giọng nói cần phân lớp là ‘bốn’, ‘năm’, ‘sáu’.
“Quay” (tiếng Việt).
Như vậy, đầu ra là một Tensor gồm 3 phần tử, mỗi
phần tử là đại diễn xác suất đúng của mỗi phân lớp
(hình 6a). Giả sử, kết quả đầu ra mà mô hình cần học
để đạt tới là Tensor (1) (chính là ô thứ 2 trên hình 6c)
và kết quả thực tế của mô hình được mô tả như hình 6b
(ô thứ 2 có xác suất 0.5 là lớn nhất). Thực chất, hàm
SCC tính lỗi như sau: Tensor (1) có nghĩa là index (chỉ
số) số 1 của Tensor đầu ra có xác suất bằng 1 còn xác
suất của các vị trí khác bằng 0. Nó tương đương với
Tensor ([0,1,0]) (hình 6c)
Hình 4. Đồ thị năng lượng âm của từ trong miền tần số
Năng lượng âm là đặc trưng cơ bản của âm thanh.
Giá trị này được dùng để chuyển đổi thành các dữ liệu Hình 6. (a) Tensor đầu ra; (b) xác suất trong mỗi phân lớp
đầu vào cho mô hình DL. Xem xét giá trị năng lượng Tensor đầu ra; (c) Xác suất mong đợi của mỗi phân lớp
của âm tại mỗi tần số cách nhau một khoảng 1(Hz ) ,
giới hạn tần số trong khoảng từ 0 2(KHz ) . Tensor Hàm tối ưu ADAM [29] được sử dụng để cập nhật
mạng DL. Hàm này là sự kế thừa, kết hợp của hai
input là véc tơ giá trị năng lượng âm theo thứ tự tăng phương pháp Momentum với RMSprop có tốc độ học
dần của tần số (hình 5a). Tensor input sau khi được tạo (Learning rate) thay đổi theo thời gian và có thể tìm ra
thường mang giá trị rất lớn. Để mô hình DL có thể học giá trị tối ưu toàn cục (Global Minimum) thay vì giá trị
được tốt hơn, mức dữ liệu trong các Tensor input cần tối ưu cục bộ (Local Minimum).
được chuẩn hóa bằng cách chia tất cả các thành phần Để đánh giá mô hình DL đã xây dựng, mạng được
cho một giá trị nhất định nào đó lớn hơn giá trị lớn nhất huấn luyện với số lượng 100 lần và kiểm tra kết quả
của năng lượng thu được. Tensor input cho mô hình huấn luyện dựa trên việc so sánh đồ thị năng lượng âm
DL sau khi chuẩn hóa có dạng như hình 5b. giữa giá trị mong muốn và giá trị thực tế. Mô hình DL
cho ví dụ minh họa ở trên được xây dựng thông qua
thư viện xây dựng kiến trúc NN Tensorflow trong
PYTHON (hình 7)
Hình 5. Input Tensor một chiều trước và sau chuẩn hóa ứng
với tần số tăng dần
C. Xây dựng mô hình DL
Sau khi xây dựng được các Tensor một chiều như Hình 7. Mô hình DL được xây dựng bằng thư viện
đã trình bày ở trên, mô hình DL được xây dựng với Tensorflow
nhiều đầu vào và nhiều đầu ra [26]. Số lượng các đầu
vào phụ thuộc vào số lượng các tham số trong véc tơ Hình 8, 9 và 10 thể hiện năng lượng âm giữa huấn
Tensor input. Lớp đầu ra của mạng DL là các nút mạng luyện và thực tế với các từ “Bốn”, “Năm”, “Sáu”.
khác nhau và mỗi nút này biểu thị cho một từ nhất
định. Các từ đầu ra có xác suất xuất hiện nằm trong
khoảng [0,1]. Từ nào có xác suất cao nhất sẽ được chọn
là kết quả của quá trình chuyển từ giọng nói sang văn
bản.
Các lớp ẩn bên trong mô hình DL có nhiệm vụ xác
định giá trị xác suất xuất hiện của các từ để cho ra kết
quả đầu ra chính xác. Các phần tử bên trong các Tensor Hình 8. Đồ thị năng lượng âm trong miền tần số của “Bốn”
đầu vào và đầu ra là các đại lượng vô hướng và có giá
trị liên tục nằm trong khoảng [0,1] nên hàm kích hoạt
ISBN 978-604-80-5958-3 301
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
xuất sẽ được mã hóa dưới dạng số và truyền tới mạch
điều khiển robot thông qua giao tiếp SERIAL.
E. Tính toán thông số điều khiển robot sử dụng mạng
DL
Dữ liệu cho mô hình mạng DL tính toán thông số là
các bộ số tọa độ trong không gian và bộ các thông số
Hình 9. Đồ thị năng lượng âm trong miền tần số của “Năm” góc quay tương ứng đã được thu thập và được đưa vào
mạng DL huấn luyện nhiều lần cho tới khi mô hình có
thể đưa ra các tín hiệu điều khiển cho robot chính xác,
đáp ứng được yêu cầu của bài toán. Sau khi đã huấn
luyện và đánh giá khả năng đáp ứng tốt, mô hình DL
được đưa vào sử dụng làm mô hình dự đoán các giá trị
góc quay của robot với các vị trí của vật thể trong
không gian làm việc của robot. Hình 12 mô tả toàn bộ
Hình 10. Đồ thị năng lượng âm trong miền tần số của “Sáu” quá trình nêu trên. Mô hình DL được xây dựng với đầu
vào là tín hiệu yêu cầu nhận được sau khi vecto hóa
Kết quả đánh giá giữa Tensor đầu ra dự đoán và văn bản và dữ liệu vị trí khả thi của robot trong không
Tensor đầu ra mong đợi được thể hiện trên hình 11. gian làm việc. Đầu ra của mô hình là giá trị góc khớp
Với từ “Bốn”, xác suất cùng rơi vào vị trí số 1 là cao tương ứng.
nhất, từ “Năm” có xác suất cùng rơi vào vị trí số 2 là
cao nhất, từ “Sáu” có xác suất cùng rơi cao nhất vào vị
trí số 3.
Hình 12. Quá trình xây dựng mạng DL
III. KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN
A. Mô hình thực nghiệm
Mô hình mô phỏng cánh tay robot được thể hiện
trên hình 13. Sơ đồ động học của cánh tay robot 6DOF
Hình 11. Kết quả so sánh Tensor đầu ra được mô tả trên hình 14. Hệ tọa độ cố định là
(OXYZ )0 . Các hệ tọa độ địa phương
Như vậy, mạng DL được xây dựng hoàn toàn có thể
đảm bảo nhiệm vụ nhận dạng giọng nói, chuyển đổi dữ (OXYZ )i ,(i = 1 6) được đặt tương ứng trên các
liệu nhận dạng sang văn bản có chứa thông tin đặc khâu. Các biến khớp i được ký hiệu là q i . Cánh tay
trưng. Giọng nói sau khi được tách thành những từ đơn
robot 6DOF thực được mô tả trên hình 15.
và được mô hình mạng DL phân lớp. Các từ này được
ghép lại với nhau để thành một câu duy nhất theo thời
gian.
D. Trích xuất thông tin điều khiển từ văn bản hoàn
chỉnh sử dụng mô hình ML, mã hóa thông tin
Dữ liệu đầu vào cho mô hình là đoạn văn bản hoàn
chỉnh sau module ghép từ, đầu ra của mô hình là các
thông tin điều khiển robot như hướng chuyển động,
dạng hành động (gắp, thả, ...), tên vật thể tiếp nhận
hành động, đặc điểm nhận dạng vật thể (màu sắc đỏ, Hình 13. Mô hình Hình 14. Mô hình Hình 15. Mô hình
vàng, xanh, ...). Để thực hiện được mục đích trên, một 3D của robot động học Robot thực
mô hình ML được xây dựng để tách các từ, cụm từ
tiếng việt có nghĩa. Trong đó, thuật toán TF-IDF được Các thông số động học của cánh tay robot 6DOF
sử dụng để trích các đặc trưng của văn bản, thuật toán được xác định theo quy tắc DH [25] và được thể hiện
Naive Bayes được dùng để thực hiện phân lớp các từ, trên Bảng 1. Các ma trận chuyển đổi thuần nhất
cụm từ đặc trưng của văn bản thuộc các lớp thông tin Hi ,(i = 1 6) trên các khâu dễ dàng được xác định
điều khiển. [25]. Vị trí và hướng của khâu 6 so với hệ tọa độ cố
Mô hình ML được xây dựng bằng ngôn ngữ định được thể hiện qua ma trận chuyển đổi thuần nhất
PYTHON kết hợp sử dụng các thư viện toán học
Sklearn, Pyvi. Các trường thông tin sau khi được trích D 6 . Ma trận này được tính toán như sau:
ISBN 978-604-80-5958-3 302
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
D6 = H1H2 H3 H4 H5 H6 (2) Mạng DL nhận dạng câu lệnh bằng giọng nói được
thiết kế gồm ba lớp ẩn với hàm kích hoạt Relu. Mỗi lớp
Định nghĩa q = [q1 q 2 q 3 q 4 q 5 q 6 ]T là véc có số nút tương ứng là 150, 100 và 50 nút. Số lượng
đầu ra là 18. Số đầu ra này đại diện cho 18 từ thông
T
dụng trong khuôn khổ câu lệnh điều khiển bằng giọng
tơ tọa độ suy rộng và x = x E yE z là véc tơ vị
E nói và được chia làm 5 nhóm (Bảng 2).
trí của điểm thao tác cuối. Hệ phương trình động học
được xác định: TABLE II. PHÂN LOẠI CÁC TỪ
Nhóm hành Nhóm Nhóm Nhóm đối Nhóm
x = f (q) (3) động hướng màu sắc tượng khác
Quay, chạy, Khay,
Xanh, đỏ, bên,
gắp, thả, lấy, Trái, phải hộp, bánh
TABLE I. CÁC THÔNG SỐ DH vàng màu
qua, sang xe
Parameters i di ai i
C. Kết quả xây dựng mô hình DL điều khiển robot
Link 1 q1 d0 + d1 0
2 Thông số mạng DL điều khiển robot được mô tả
trong hình 32 với 5 đầu ra tương ứng là 5 góc quay của
Link 2 q2 0 a2 0
các khớp robot. Mạng bao gồm 9 lớp ẩn với hàm kích
Link 3 q3 d3 0 hoạt Relu. Số nút mỗi lớp tương ứng trên hình 17.
2
Link 4 q4 d4 0 −
2
Link 5 q5 0 a5 −
2
Link 6 q6 0 0 0
Các thông số hình học cơ bản của robot:
d0 = 57mm, d1 = 36mm, a2 = 120mm, Hình 17. Mô hình mạng DL điều khiển robot
.
d3 = 90mm, d4 = 30mm, a 5 = 38mm
Kiểm tra trên dữ liệu kiểm tra với đầu vào là véc tơ
Giới hạn các biến khớp: −900 qi 900 . Các vị trí điểm thao tác cuối của robot là
T
động cơ truyền động là Servo MG995, mạch Arduino x = 0 20 0 (mm ) , đầu ra của dữ liệu kiểm tra
Nano, Camera Logitech B525-720p, Laptop Dell
Precision M680, Microphone Razer Seiren Mini. ứng với giá trị biến khớp
T
B. Kết quả xử lý lệnh điều khiển robot bằng giọng q = 90 50 105 90 79 (deg) . Giá trị góc khớp
nói thu được từ mô hình là véc tơ
Lệnh giọng nói trong bài toán điều khiển robot là: T
q real = 90.17 50.65 104.74 89.19 79.69 (deg)
“Quay bên phải, lấy bánh xe màu vàng”. Kết quả dao
động âm được thu và mô tả trên hình 16. Năng lượng . Như vậy, độ chính xác đạt 98,67% trên tập dữ liệu
âm trong miền tần số của các từ cũng được tách ra học. Kết quả học và kiểm tra lỗi tín hiệu điều khiển
tương tự như đã được trình ở Phần 2. động cơ được thể hiện trên hình 18.
Hình 18. Kết quả huấn luyện và dự đoán trên tập dữ liệu kiểm
tra
Mô hình thực tế được thiết kế, chế tạo và thể hiện
trong hình 19. Cần chú ý rằng, trong mô hình trên có sự
Hình 16. Đồ thị biên độ dao động âm đã chuẩn hóa tham gia của modul nhận dạng bằng hình ảnh (thị giác
máy tính) [22], [23]. Chỉ khi hệ điều khiển nhận dạng
được đối tượng cần tác động (bánh xe màu vàng) thì
ISBN 978-604-80-5958-3 303
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
hành động “gắp” mới được thực hiện. Tuy nhiên, chưa đề cập đến modul thị giác máy tính. Kết quả
modul này không được nhắc đến trong phạm vi bài viết nghiên cứu có ý nghĩa quan trọng trong việc nghiên
này. cứu, phát triển nâng cao các thuật toán thông minh kết
hợp giữa nhận dạng giọng nói, thị giác máy tính và tích
hợp các hệ thống IoT. Trong thực tế, nghiên cứu này có
thể làm nền tảng để phát triển các ứng dụng cho nhiều
loại robot khác nhau (robot nối tiếp, robot song song,
robot lai, mobile robot) phục vụ sản xuất công nghiệp
(robot hàn, robot in 3D, robot gia công cắt gọt), quân
sự, y tế, các ngành dịch vụ, sinh hoạt gia đình (robot
phẫu thuật, robot đàn hồi, robot mềm, robot phỏng sinh
học, uav, robot dưới nước, robot phục vụ trong gia
đình, nhà hàng, robot giống người).
Hình 19. Mô hình hệ thống thực nghiệm
TÀI LIỆU THAM KHẢO
Giá trị góc khớp để điều khiển robot đến vị trí có vật [1] S. Zhen, Z. Zhao, X. Liu, F. Chen, H. Zhao, Y. Chen, “A
Novel Practical Robust Control Inheriting PID for SCARA
thể (bánh xe màu vàng) được thể hiện trên hình 20. Robot”, IEEE Access, 8, pp. 227409 - 227419, 2020.
[2] D. Nicolis, F. Allevi, P. Rocco, “Operational Space Model
Predictive Sliding Mode Control for Redundant
Manipulators”, IEEE Transaction on Robotics, pp. 1-8, 2020.
[3] C. Pezzato, R. Ferrari, C. H. Corbato, “A Novel Adaptive
Controller for Robot Manipulators, Based on Active
Inference”, IEEE Robotics and Automation Letters, 5 (2), pp.
2973-2980, 2020.
[4] M. T. Ziabari, A. R. Sahab, V. Afsar, “Stability in A Flexible
Manipulator Using Optimal Nonlinear Controller”, Journal of
Basic and Applied Scientific Research, 3(2), pp. 323-329,
2013.
[5] T. Zebin, M. S. Alam, “Dynamic modeling and fuzzy logic
control of a two-link flexible manipulator using genetic
optimization techniques”, Journal of Computers, 7(3), 578-
585, 2012.
[6] C. Hwang, W. Yu, “Tracking and Cooperative Designs of
Robot Manipulators Using Adaptive Fixed-Time Fault-
Hình 20. Giá trị các biến khớp nhận được theo lệnh điều Tolerant Constraint Control”, IEEE Access, 8, pp. 56415-
khiển bằng giọng nói 56428, 2020.
[7] M. Hwang, B. Thananjeyan, S. Paradis, D. Seita, J. Ichnowski,
D. Fer, T. Low, K. Goldberg, “Efficiently Calibrating Cable-
IV. KẾT LUẬN Driven Surgical Robots with RGBD Fiducial Sensing and
Hệ điều khiển bằng giọng nói cho cánh tay robot Recurrent Neural Networks”, IEEE Robotics and Automation
Letters, 5(4), pp. 5937 - 5944, 2020.
6DOF đã được xây dựng và kiểm chứng bằng mô hình
[8] H. Huang, C. Chuang, “Artificial Bee Colony Optimization
thực nghiệm. Theo đó, module nhận dạng giọng nói Algorithm Incorporated with Fuzzy Theory for Real-Time
thông qua xây dựng mô hình mạng DL1 với thư viện Machine Learning Control of Articulated Robotic
dữ liệu bằng tiếng Việt đã được hoàn thành. Dao động Manipulators”, IEEE Access, 8, pp. 192481-192492, 2020.
âm thanh của giọng nói đã được chuyển đổi thành văn [9] R. Liu, Q. Zhang, Y. Chen, J. Wang, L. Yang, “A Biologically
Constrained Cerebellar Model with Reinforcement Learning
bản. Mô hình ML được xây dựng để trích xuất thông for Robotic Limb Control”, IEEE Access, 8, pp. 222199-
tin điều khiển từ văn bản hoàn chỉnh và mã hóa chúng. 222210, 2020.
Việc tính toán tín hiệu điều khiển truyền tới các động [10] J. Luo, E. Solowjow, C. Wen, J. A. Ojea, A. M. Agogino,
cơ truyền động của robot được thực hiện bởi mô hình “Deep Reinforcement Learning for Robotic Assembly of
DL2. Hơn nữa, kết quả của việc mô hình hóa động học Mixed Deformable and Rigid Objects”, International
Conference on Intelligent Robots and Systems (IROS), pp.
là tập dữ liệu vị trí chuyển động khả thi của cánh tay 2062-2069, Madrid, Spain, October 1-5, 2018.
robot trong không gian làm viêc được sử dụng làm thư [11] D. P. Mital, G. W. Leng, “A Voice-activated Robot with
viện huấn luyện của mô hình DL2. Hệ thống điều khiển Artificial Intelligence”, Robotics and Autonomous Systems, 4,
bằng giọng nói cho cánh tay robot hoàn toàn không phụ pp. 339-344, 1989.
thuộc vào việc kết nối mạng Internet. Kết quả của các [12] S. Hwang, Y. Park, Y. S. Park, “Sound direction estimation
using an artificial ear for robots”, Robotics and Autonomous
thực nghiệm trên mô hình thực tế cho thấy tính đúng Systems, 59, pp. 208-217, 2011.
đắn và tin cậy của các thuật toán. Tuy nhiên, nghiên [13] Rogowski, “Industrial oriented voice control system”,
cứu này vẫn chưa xem xét việc đánh giá độ chính xác Robotics and Computer-Integrated Manufacturing, 28, pp.
chuyển động của cánh tay robot do sai số chế tạo, tốc 303-315, 2012.
độ xử lý của hệ thống điều khiển trong thời gian thực,
ISBN 978-604-80-5958-3 304
- Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)
[14] V. Alvarez-Santos, R. Iglesias, X.M. Pardo, C.V. Regueiro, A. Technology and Application Approaches (IoT-T&A 2019),
Canedo-Rodriguez, “Gesture-based interaction with voice 160, pp. 712-717, November 4-7, Coimbra, Portugal, 2019.
feedback for a tour-guide robot”, J. Vis. Commun. Image R, [22] B. İşçimen, H. Atasoy, Y. Kutlu, S. Yıldırım, E. Yıldırım,
25, pp. 499-509, 2014. “Smart Robot Arm Motion Using Computer Vision”,
[15] S. S. Turakne, P. Loni, “Intelligent Interactive Robot with ELEKTRONIKA IR ELEKTROTECHNIKA, 21(6), pp. 3-7,
Gesture Recognition and Voice Feedback”, International 2015.
Journal of Engineering Research & Technology, 5(4), pp. 276- [23] X. Chen, X. Huang, Y. Wang, X. Gao, “Combination of
280, 2016. Augmented Reality-Based Brain-Computer Interface and
[16] M. Meghana, Ch. U. Kumari, J. S. Priya, P. Mrinal, K. A. V. Computer Vision for High-Level Control of a Robotic Arm”,
Sai, S. P. Reddy, K. Vikranth, T. S. Kumar, A. K. Panigrahy, IEEE Transactions on Neural Systems and Rehabilitation
“Hand gesture recognition and voice-controlled robot”, Engineering, DOI 10.1109/TNSRE.2020.3038209, 2020.
Materials Today: Proceedings, [24] Garzelli, L. Capobianco, F. Nencini, “Fusion of multispectral
https://doi.org/10.1016/j.matpr.2020.06.553, 2020. and panchromatic images as an optimization problem”, Book:
[17] M. F. Rafael, D. S. Manuel, “Design in Robotics Based in the Image Fusion Algorithms and Applications, Academic Press,
Voice of the Customer of Household Robots”, Robotics and pp. 223-250, 2008.
Autonomous Systems, 79, pp. 99-107, 2016. [25] M. W. Spong, S. Hutchinson, M. Vidyasagar, “Robot
[18] M. Buyukyilmaz, A. O. Cibikdiken, “Voice Gender modeling and Control”, First edition, New York, USA, 2001.
Recognition Using Deep Learning”, Advances in Computer [26] https://www.securityinfowatch.com/video-surveillance/video-
Science Research, 58, pp. 409-411, 2017. analytics/article/21069937/deep-learning-to-the-rescue
[19] K. Gundogdu, S. Bayrakdar, I. Yucedag, “Developing and (Access in Oct 14, 2021).
Modeling of Voice Control System for Prosthetic Robot Arm [27] https://www.programmersought.com/article/10025152444/
in Medical Systems”, Journal of King Saud University - (Access in Oct 14, 2021).
Computer and Information Sciences, 30(2), pp. 198-205, 2018.
[28] https://www.Tensorflow.org/api_docs/python/tf/keras/losses/s
[20] V. P. Saradi, P. Kailasapathi, “Voice-based motion control of a parse_categorical_crossentropy (Access in Oct 14, 2021).
robotic vehicle through visible light communication”,
Computers and Electrical Engineering, 76, pp. 154-167, 2019. [29] https://www.programmersought.com/article/33553292079/
(Access in Oct 14, 2021).
[21] S. Sachdeva, J. Macwana, C. Patela, N. Doshia, “Voice-
Controlled Autonomous Vehicle Using IoT”, 3rd International
Workshop on Recent Advances on the Internet of Things:
ISBN 978-604-80-5958-3 305
nguon tai.lieu . vn