Xem mẫu

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) ĐIỀU KHIỂN CHUYỂN ĐỘNG CỦA CÁNH TAY ROBOT 6 DOF BẰNG GIỌNG NÓI DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU Dương Xuân Biên Phòng Thí nghiệm Công nghệ Tiên tiến Trung tâm Công nghệ, Học viện Kỹ thuật Quân sự Email: duongxuanbien@lqdtu.edu.vn Tóm tắt - Bài báo này trình bày bài toán điều khiển điều khiển các hệ thống phức tạp. Ngược lại, các hệ chuyển động của cánh tay robot 6 bậc tự do bằng giọng điều khiển thông minh cho phép robot thực hiện nhiệm nói dựa trên phương pháp học sâu (Deep Learning - DL). vụ với độ chính xác cao nhưng cấu trúc hệ điều khiển Thuật toán nhận dạng giọng nói được thực hiện dựa trên phức tạp, chi phí cao. việc chuyển đổi dữ liệu âm thanh thành văn bản thông qua mô hình DL1. Thư viện dữ liệu học của mạng DL1 Xu hướng thiết kế hệ điều khiển trong những năm được xây dựng trên cơ sở ngôn ngữ tiếng Việt và không gần đây hướng tới hệ điều khiển ngày càng thông phụ thuộc vào việc kết nối Internet. Mô hình học máy minh, đáp ứng nhanh và linh hoạt trong thời gian thực (Machine Learning - ML) được xây dựng để trích xuất với các yêu cầu điều khiển thay đổi liên tục, tương tác thông tin điều khiển chuyển động của cánh tay robot từ với con người, độ chính xác cao. Robot được điều văn bản đầu ra của mô hình DL1. Bộ dữ liệu vị trí khiển bằng giọng nói [11-21] thông qua mô đun nhận chuyển động khả thi của robot trong không gian làm việc dạng giọng nói thông minh (sử dụng các mô hình trí được xây dựng dựa trên việc mô hình hóa động học cánh tuệ nhân tạo như Machine Learning và Deep Learning), tay robot 6DOF với hệ phương trình động học được xây hoặc được điều khiển thông qua kỹ thuật thị giác máy dựng. Các kết quả mô hình hóa động học này và kết quả đầu ra của mô hình ML được sử dụng để tính toán tín tính hiện đại cũng là các giải pháp hiệu quả và có thể hiệu điều khiển chuyển động cho cánh tay robot thông đáp ứng nhu cầu thực tế nêu trên. qua mô hình DL2. Kết quả của nghiên cứu này có ý Hệ điều khiển bằng giọng nói cho robot được ứng nghĩa quan trọng trong việc ứng dụng thuật toán điều dụng trong các lĩnh vực khác nhau như công nghiệp khiển bằng giọng nói cho các hệ thống robot và các hệ sản xuất [13], sinh hoạt [17], y tế [19]. Điều khiển thống tự động khác mà không yêu cầu phải kết nối mạng robot bằng giọng nói dựa trên thuật toán trí tuệ nhân Internet. Mặt khác, hệ điều khiển bằng giọng nói có thể tạo đã được xem xét trong [11]. Thiết kế tai thông minh kết hợp chặt chẽ với kỹ thuật thị giác máy tính để nâng cho robot nhằm xác định hướng âm thanh phát ra được cao khả năng của hệ điều khiển. Điều này giúp robot thưc hiện trong [12]. Trong sản xuất công nghiệp, hệ thông minh hơn, linh hoạt hơn và có thể mở rộng cho nhiều ứng dụng khác nhau. thống điều khiển giọng nói được đề xuất thiết kế phục vụ điều khiển các máy gia công và robot [13]. Robot Từ khóa - nhận dạng giọng nói, học sâu, học máy, phục vụ có thể tương tác với con người thông qua nhận điều khiển, cánh tay robot. dạng cử chỉ và phản hồi bằng giọng nói được giới thiệu trong [14], [15], [16]. Đề xuất thiết kế hệ điều khiển I. ĐẶT VẤN ĐỀ giọng nói cho robot phục vụ trong nhà (Household Robots) được thể hiện trong [17]. Kỹ thuật nhận dạng Trong kỹ thuật robot, bài toán điều khiển luôn là giới tính thông qua giọng nói dựa trên thuật toán học một trong các bài toán quan trọng nhất đảm bảo robot sâu được đề xuất trong [18]. Vấn đề thiết kế hệ điều có thể thực hiện nhiệm vụ một cách chính xác nhất. Có khiển bằng giọng nói cho cánh tay giả robot (prosthetic rất nhiều hệ điều khiển robot được phát triển từ trước robot arm) phục vụ trong ngành y tế được xem xét đến nay, từ những hệ điều khiển cổ điển như PID [1], trong [19]. Robot được điều khiển bằng giọng nói Sliding Mode Control [2], Backstepping [3], Robust thông qua giao tiếp ánh sáng nhìn thấy được trình bày control [4], Fuzzy logic [5], đến những thuật toán điều trong [20]. Robot tự hành được điều khiển bằng giọng khiển thông minh như Adaptive control [6], Neural nói thông qua công cụ ứng dụng Google Assistant trên Network [7], Machine Learning [8], Reinforcement cơ sở kỹ thuật IoT được thể hiện trong [21]. Learning [9], Deep Learning [10]. Mỗi thuật toán đều Bài báo này tập trung vào việc xây dựng hệ điều có những ưu điểm và hạn chế nhất định. Nếu như các khiển chuyển động của cánh tay robot 6DOF bằng hệ điều khiển truyền thống được thiết kế khá đơn giản, giọng nói (tiếng Việt) mà không yêu cầu kết nối mạng chi phí thấp thì khó đảm bảo độ chính xác cao trong ISBN 978-604-80-5958-3 299
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Internet. Giọng nói được nhận dạng dựa trên thuật toán B. Tiền xử lý giọng nói học sâu (DL1). Dựa trên tín hiệu nhận được từ dữ liệu Vấn đề này được giải quyết thông qua các bước: lọc đầu ra của mô hình DL1, mô hình ML được xây dựng nhiễu, tách từ, chuyển đổi dao động âm thanh thành để trích xuất thông tin điều khiển và mã hóa chúng. Mô phổ tần số, biến đổi phổ tần số thành dữ liệu đầu vào hình DL2 được thiết kế để tính toán giá trị tín hiệu điều cho mạng Nơ ron. khiển 6 động cơ truyền động, tương ứng với chuyển Bài toán lọc nhiễu được xử lý thông qua một số động của 6 khớp của robot. Các mô hình DL1, ML, phương pháp như giảm nhiễu dựa trên thiết kế phần DL2 được xây dựng và kiểm tra bằng ngôn ngữ cứng của micro thu âm, lọc nhiễu bằng các phần tử PYTHON và các thư viện hỗ trợ. Mô hình robot 6 bậc điện của mạch thu âm, lọc nhiễu bằng chương trình tự do được chế tạo thực tế để thực nghiệm các mô hình. hiệu chỉnh. Trong phạm vi bài báo và điều kiện thực tế, phương án sử dụng đầu thu âm để giảm nhiễu được sử dụng. II. NỘI DUNG NGHIÊN CỨU Mỗi câu nói của con người gồm nhiều từ gộp lại. A. Bài toán điều khiển cánh tay robot bằng giọng nói Việc đầu tiên là cần phân tích để tách các từ trong câu nói. Trong thử nghiệm ban đầu thuật toán, câu nói: Cánh tay robot nhận lệnh bằng giọng nói từ người “Bốn, năm, sáu” gồm ba từ “bốn”, “năm”, “sáu” được điều khiển bằng modul nhận dạng giọng nói. Sau đó, hệ dùng để làm ví dụ minh họa. Ví dụ này sẽ được dùng điều khiển tự động phân tích, tính toán và đưa ra tín xuyên suốt trong toàn bộ phần 2. Câu nói thông qua hiệu điều khiển các động cơ tại các khớp, robot thực Micro và được ghi âm nhờ ứng dụng thông thường hiện chuyển động theo yêu cầu (hình 1). Void Recorder có sẵn trên hệ điều hành Windows Microsoft. File âm thanh được đọc và ghi dữ liệu ngay trên thư viện Scipy trong phần mềm lập trình PYTHON. Giá trị biên độ dao động âm được chuẩn Hình 1. Sơ đồ bài toán điều khiển cánh tay robot bằng giọng hóa nhằm chuẩn hóa dữ liệu đầu vào cho các bước sau, nói đảm bảo hội tụ nhanh, tránh hiện tượng giá trị hàm lỗi quá lớn dẫn tới không cập nhật thông số mạng và tránh Cụ thể, module nhận dạng chuyển đổi từ giọng nói lỗi không hội tụ trong mô hình DL. Theo đó, đồ thị dao của con người có chứa thông tin điều khiển thành văn động âm đã được chuẩn hóa của câu nói trên được thể bản dưới định dạng văn bản trong chương trình. Các hiện trên hình 3. Dễ thấy, các vùng dao động âm được thông tin điều khiển robot có trong giọng nói bao gồm phân biệt rõ ràng khi chưa nói và khi nói. 3 vùng có các thông tin như: hướng chuyển động của robot (quay biên độ lớn vượt trội chính là 3 từ được nói, các vùng bên trái hay quay bên phải), hành động robot cần thực khác có biên độ nhỏ và khá đều nhau là khoảng ngắt hiện (hành động gắp hoặc thả), xác định vật thể tiếp giữa các từ, mô tả tạp âm từ môi trường xung quanh nhận hành động (bánh xe, khay chứa, thùng, hộp, …), (có thể coi là tín hiệu nhiễu). đặc điểm phân biệt các loại vật thể (màu sắc, hình dạng, kích thước, …). Hình 3. Đồ thị biên độ dao động âm đã được chuẩn hóa. Căn cứ vào sự thay đổi của biên độ âm theo thời gian, sử dụng phương pháp Gradient [24] xác định sự thay đổi của biên độ dao động âm để tách các từ. Sau Hình 2. Các bước thực hiện bài toán điều khiển robot bằng khi tách các từ trong câu, dao động âm chúng sẽ được giọng nói phân tích năng lượng âm trong miền tần số thông qua biến đổi Fourier. Giá trị năng lượng âm này sẽ được sử Để giải quyết được mục tiêu điều khiển robot, ta dụng để chuyển đổi thành Input Tensor cho mô hình xác định được đầu vào là giọng nói, đầu ra là tín hiệu DL. Âm thanh từ giọng nói con người thực chất là tổng điều khiển các động cơ truyền động. Các bước thực hợp của rất nhiều tín hiệu hàm lượng giác với các tần hiện bài toán điều khiển robot bằng giọng nói được mô số khác nhau. Hàm dao động âm f (t ) theo thời gian có tả như hình 2. thể mô tả thông qua phép biến đổi Fourier sau đây: ISBN 978-604-80-5958-3 300
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) 1  phi tuyến được sử dụng. Một số hàm phi tuyến có thể f (t ) = a 0 +  [an cos(n t)+bn sin(n t)] (1) 2 n =1 sử dụng như Sigmoid, Tanh, Relu [27]. Lớp đầu ra được sử dụng hàm kích hoạt Softmax [27] để tính phân Trong đó, a 0 là biên độ âm cơ bản, a n và bn là các phối xác suất trên các phân lớp. Để huấn luyện mạng hằng số Fourier, n là hệ số tỉ lệ tần số,  là vận tốc DL, các tiêu chí để xác định mô hình học đúng hay sai và làm sao để nó có thể học được cần được nêu rõ. Vì góc cơ bản của dao động âm. Từ Eq. (1), giá trị năng vậy, phương pháp tính lỗi Sparse Categorical lượng âm trong miền tần số có thể được xác định [20]. Crossentropy (SCC) được sử dụng [28]. Trong ví dụ, 3 Hình 4 mô tả năng lượng âm trong miền tần số của từ nhãn giọng nói cần phân lớp là ‘bốn’, ‘năm’, ‘sáu’. “Quay” (tiếng Việt). Như vậy, đầu ra là một Tensor gồm 3 phần tử, mỗi phần tử là đại diễn xác suất đúng của mỗi phân lớp (hình 6a). Giả sử, kết quả đầu ra mà mô hình cần học để đạt tới là Tensor (1) (chính là ô thứ 2 trên hình 6c) và kết quả thực tế của mô hình được mô tả như hình 6b (ô thứ 2 có xác suất 0.5 là lớn nhất). Thực chất, hàm SCC tính lỗi như sau: Tensor (1) có nghĩa là index (chỉ số) số 1 của Tensor đầu ra có xác suất bằng 1 còn xác suất của các vị trí khác bằng 0. Nó tương đương với Tensor ([0,1,0]) (hình 6c) Hình 4. Đồ thị năng lượng âm của từ trong miền tần số Năng lượng âm là đặc trưng cơ bản của âm thanh. Giá trị này được dùng để chuyển đổi thành các dữ liệu Hình 6. (a) Tensor đầu ra; (b) xác suất trong mỗi phân lớp đầu vào cho mô hình DL. Xem xét giá trị năng lượng Tensor đầu ra; (c) Xác suất mong đợi của mỗi phân lớp của âm tại mỗi tần số cách nhau một khoảng 1(Hz ) , giới hạn tần số trong khoảng từ 0  2(KHz ) . Tensor Hàm tối ưu ADAM [29] được sử dụng để cập nhật mạng DL. Hàm này là sự kế thừa, kết hợp của hai input là véc tơ giá trị năng lượng âm theo thứ tự tăng phương pháp Momentum với RMSprop có tốc độ học dần của tần số (hình 5a). Tensor input sau khi được tạo (Learning rate) thay đổi theo thời gian và có thể tìm ra thường mang giá trị rất lớn. Để mô hình DL có thể học giá trị tối ưu toàn cục (Global Minimum) thay vì giá trị được tốt hơn, mức dữ liệu trong các Tensor input cần tối ưu cục bộ (Local Minimum). được chuẩn hóa bằng cách chia tất cả các thành phần Để đánh giá mô hình DL đã xây dựng, mạng được cho một giá trị nhất định nào đó lớn hơn giá trị lớn nhất huấn luyện với số lượng 100 lần và kiểm tra kết quả của năng lượng thu được. Tensor input cho mô hình huấn luyện dựa trên việc so sánh đồ thị năng lượng âm DL sau khi chuẩn hóa có dạng như hình 5b. giữa giá trị mong muốn và giá trị thực tế. Mô hình DL cho ví dụ minh họa ở trên được xây dựng thông qua thư viện xây dựng kiến trúc NN Tensorflow trong PYTHON (hình 7) Hình 5. Input Tensor một chiều trước và sau chuẩn hóa ứng với tần số tăng dần C. Xây dựng mô hình DL Sau khi xây dựng được các Tensor một chiều như Hình 7. Mô hình DL được xây dựng bằng thư viện đã trình bày ở trên, mô hình DL được xây dựng với Tensorflow nhiều đầu vào và nhiều đầu ra [26]. Số lượng các đầu vào phụ thuộc vào số lượng các tham số trong véc tơ Hình 8, 9 và 10 thể hiện năng lượng âm giữa huấn Tensor input. Lớp đầu ra của mạng DL là các nút mạng luyện và thực tế với các từ “Bốn”, “Năm”, “Sáu”. khác nhau và mỗi nút này biểu thị cho một từ nhất định. Các từ đầu ra có xác suất xuất hiện nằm trong khoảng [0,1]. Từ nào có xác suất cao nhất sẽ được chọn là kết quả của quá trình chuyển từ giọng nói sang văn bản. Các lớp ẩn bên trong mô hình DL có nhiệm vụ xác định giá trị xác suất xuất hiện của các từ để cho ra kết quả đầu ra chính xác. Các phần tử bên trong các Tensor Hình 8. Đồ thị năng lượng âm trong miền tần số của “Bốn” đầu vào và đầu ra là các đại lượng vô hướng và có giá trị liên tục nằm trong khoảng [0,1] nên hàm kích hoạt ISBN 978-604-80-5958-3 301
  4. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) xuất sẽ được mã hóa dưới dạng số và truyền tới mạch điều khiển robot thông qua giao tiếp SERIAL. E. Tính toán thông số điều khiển robot sử dụng mạng DL Dữ liệu cho mô hình mạng DL tính toán thông số là các bộ số tọa độ trong không gian và bộ các thông số Hình 9. Đồ thị năng lượng âm trong miền tần số của “Năm” góc quay tương ứng đã được thu thập và được đưa vào mạng DL huấn luyện nhiều lần cho tới khi mô hình có thể đưa ra các tín hiệu điều khiển cho robot chính xác, đáp ứng được yêu cầu của bài toán. Sau khi đã huấn luyện và đánh giá khả năng đáp ứng tốt, mô hình DL được đưa vào sử dụng làm mô hình dự đoán các giá trị góc quay của robot với các vị trí của vật thể trong không gian làm việc của robot. Hình 12 mô tả toàn bộ Hình 10. Đồ thị năng lượng âm trong miền tần số của “Sáu” quá trình nêu trên. Mô hình DL được xây dựng với đầu vào là tín hiệu yêu cầu nhận được sau khi vecto hóa Kết quả đánh giá giữa Tensor đầu ra dự đoán và văn bản và dữ liệu vị trí khả thi của robot trong không Tensor đầu ra mong đợi được thể hiện trên hình 11. gian làm việc. Đầu ra của mô hình là giá trị góc khớp Với từ “Bốn”, xác suất cùng rơi vào vị trí số 1 là cao tương ứng. nhất, từ “Năm” có xác suất cùng rơi vào vị trí số 2 là cao nhất, từ “Sáu” có xác suất cùng rơi cao nhất vào vị trí số 3. Hình 12. Quá trình xây dựng mạng DL III. KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN A. Mô hình thực nghiệm Mô hình mô phỏng cánh tay robot được thể hiện trên hình 13. Sơ đồ động học của cánh tay robot 6DOF Hình 11. Kết quả so sánh Tensor đầu ra được mô tả trên hình 14. Hệ tọa độ cố định là (OXYZ )0 . Các hệ tọa độ địa phương Như vậy, mạng DL được xây dựng hoàn toàn có thể đảm bảo nhiệm vụ nhận dạng giọng nói, chuyển đổi dữ (OXYZ )i ,(i = 1  6) được đặt tương ứng trên các liệu nhận dạng sang văn bản có chứa thông tin đặc khâu. Các biến khớp i được ký hiệu là q i . Cánh tay trưng. Giọng nói sau khi được tách thành những từ đơn robot 6DOF thực được mô tả trên hình 15. và được mô hình mạng DL phân lớp. Các từ này được ghép lại với nhau để thành một câu duy nhất theo thời gian. D. Trích xuất thông tin điều khiển từ văn bản hoàn chỉnh sử dụng mô hình ML, mã hóa thông tin Dữ liệu đầu vào cho mô hình là đoạn văn bản hoàn chỉnh sau module ghép từ, đầu ra của mô hình là các thông tin điều khiển robot như hướng chuyển động, dạng hành động (gắp, thả, ...), tên vật thể tiếp nhận hành động, đặc điểm nhận dạng vật thể (màu sắc đỏ, Hình 13. Mô hình Hình 14. Mô hình Hình 15. Mô hình vàng, xanh, ...). Để thực hiện được mục đích trên, một 3D của robot động học Robot thực mô hình ML được xây dựng để tách các từ, cụm từ tiếng việt có nghĩa. Trong đó, thuật toán TF-IDF được Các thông số động học của cánh tay robot 6DOF sử dụng để trích các đặc trưng của văn bản, thuật toán được xác định theo quy tắc DH [25] và được thể hiện Naive Bayes được dùng để thực hiện phân lớp các từ, trên Bảng 1. Các ma trận chuyển đổi thuần nhất cụm từ đặc trưng của văn bản thuộc các lớp thông tin Hi ,(i = 1  6) trên các khâu dễ dàng được xác định điều khiển. [25]. Vị trí và hướng của khâu 6 so với hệ tọa độ cố Mô hình ML được xây dựng bằng ngôn ngữ định được thể hiện qua ma trận chuyển đổi thuần nhất PYTHON kết hợp sử dụng các thư viện toán học Sklearn, Pyvi. Các trường thông tin sau khi được trích D 6 . Ma trận này được tính toán như sau: ISBN 978-604-80-5958-3 302
  5. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) D6 = H1H2 H3 H4 H5 H6 (2) Mạng DL nhận dạng câu lệnh bằng giọng nói được thiết kế gồm ba lớp ẩn với hàm kích hoạt Relu. Mỗi lớp Định nghĩa q = [q1 q 2 q 3 q 4 q 5 q 6 ]T là véc có số nút tương ứng là 150, 100 và 50 nút. Số lượng đầu ra là 18. Số đầu ra này đại diện cho 18 từ thông T dụng trong khuôn khổ câu lệnh điều khiển bằng giọng tơ tọa độ suy rộng và x = x E yE z  là véc tơ vị  E  nói và được chia làm 5 nhóm (Bảng 2). trí của điểm thao tác cuối. Hệ phương trình động học được xác định: TABLE II. PHÂN LOẠI CÁC TỪ Nhóm hành Nhóm Nhóm Nhóm đối Nhóm x = f (q) (3) động hướng màu sắc tượng khác Quay, chạy, Khay, Xanh, đỏ, bên, gắp, thả, lấy, Trái, phải hộp, bánh TABLE I. CÁC THÔNG SỐ DH vàng màu qua, sang xe Parameters i di ai i C. Kết quả xây dựng mô hình DL điều khiển robot Link 1 q1 d0 + d1 0  2 Thông số mạng DL điều khiển robot được mô tả trong hình 32 với 5 đầu ra tương ứng là 5 góc quay của Link 2 q2 0 a2 0 các khớp robot. Mạng bao gồm 9 lớp ẩn với hàm kích Link 3 q3 d3 0  hoạt Relu. Số nút mỗi lớp tương ứng trên hình 17. 2 Link 4 q4 d4 0 − 2 Link 5 q5 0 a5 − 2 Link 6 q6 0 0 0 Các thông số hình học cơ bản của robot: d0 = 57mm, d1 = 36mm, a2 = 120mm, Hình 17. Mô hình mạng DL điều khiển robot . d3 = 90mm, d4 = 30mm, a 5 = 38mm Kiểm tra trên dữ liệu kiểm tra với đầu vào là véc tơ Giới hạn các biến khớp: −900  qi  900 . Các vị trí điểm thao tác cuối của robot là T động cơ truyền động là Servo MG995, mạch Arduino x = 0 20 0  (mm ) , đầu ra của dữ liệu kiểm tra   Nano, Camera Logitech B525-720p, Laptop Dell Precision M680, Microphone Razer Seiren Mini. ứng với giá trị biến khớp T B. Kết quả xử lý lệnh điều khiển robot bằng giọng q = 90 50 105 90 79  (deg) . Giá trị góc khớp   nói thu được từ mô hình là véc tơ Lệnh giọng nói trong bài toán điều khiển robot là: T q real = 90.17 50.65 104.74 89.19 79.69  (deg) “Quay bên phải, lấy bánh xe màu vàng”. Kết quả dao   động âm được thu và mô tả trên hình 16. Năng lượng . Như vậy, độ chính xác đạt 98,67% trên tập dữ liệu âm trong miền tần số của các từ cũng được tách ra học. Kết quả học và kiểm tra lỗi tín hiệu điều khiển tương tự như đã được trình ở Phần 2. động cơ được thể hiện trên hình 18. Hình 18. Kết quả huấn luyện và dự đoán trên tập dữ liệu kiểm tra Mô hình thực tế được thiết kế, chế tạo và thể hiện trong hình 19. Cần chú ý rằng, trong mô hình trên có sự Hình 16. Đồ thị biên độ dao động âm đã chuẩn hóa tham gia của modul nhận dạng bằng hình ảnh (thị giác máy tính) [22], [23]. Chỉ khi hệ điều khiển nhận dạng được đối tượng cần tác động (bánh xe màu vàng) thì ISBN 978-604-80-5958-3 303
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) hành động “gắp” mới được thực hiện. Tuy nhiên, chưa đề cập đến modul thị giác máy tính. Kết quả modul này không được nhắc đến trong phạm vi bài viết nghiên cứu có ý nghĩa quan trọng trong việc nghiên này. cứu, phát triển nâng cao các thuật toán thông minh kết hợp giữa nhận dạng giọng nói, thị giác máy tính và tích hợp các hệ thống IoT. Trong thực tế, nghiên cứu này có thể làm nền tảng để phát triển các ứng dụng cho nhiều loại robot khác nhau (robot nối tiếp, robot song song, robot lai, mobile robot) phục vụ sản xuất công nghiệp (robot hàn, robot in 3D, robot gia công cắt gọt), quân sự, y tế, các ngành dịch vụ, sinh hoạt gia đình (robot phẫu thuật, robot đàn hồi, robot mềm, robot phỏng sinh học, uav, robot dưới nước, robot phục vụ trong gia đình, nhà hàng, robot giống người). Hình 19. Mô hình hệ thống thực nghiệm TÀI LIỆU THAM KHẢO Giá trị góc khớp để điều khiển robot đến vị trí có vật [1] S. Zhen, Z. Zhao, X. Liu, F. Chen, H. Zhao, Y. Chen, “A Novel Practical Robust Control Inheriting PID for SCARA thể (bánh xe màu vàng) được thể hiện trên hình 20. Robot”, IEEE Access, 8, pp. 227409 - 227419, 2020. [2] D. Nicolis, F. Allevi, P. Rocco, “Operational Space Model Predictive Sliding Mode Control for Redundant Manipulators”, IEEE Transaction on Robotics, pp. 1-8, 2020. [3] C. Pezzato, R. Ferrari, C. H. Corbato, “A Novel Adaptive Controller for Robot Manipulators, Based on Active Inference”, IEEE Robotics and Automation Letters, 5 (2), pp. 2973-2980, 2020. [4] M. T. Ziabari, A. R. Sahab, V. Afsar, “Stability in A Flexible Manipulator Using Optimal Nonlinear Controller”, Journal of Basic and Applied Scientific Research, 3(2), pp. 323-329, 2013. [5] T. Zebin, M. S. Alam, “Dynamic modeling and fuzzy logic control of a two-link flexible manipulator using genetic optimization techniques”, Journal of Computers, 7(3), 578- 585, 2012. [6] C. Hwang, W. Yu, “Tracking and Cooperative Designs of Robot Manipulators Using Adaptive Fixed-Time Fault- Hình 20. Giá trị các biến khớp nhận được theo lệnh điều Tolerant Constraint Control”, IEEE Access, 8, pp. 56415- khiển bằng giọng nói 56428, 2020. [7] M. Hwang, B. Thananjeyan, S. Paradis, D. Seita, J. Ichnowski, D. Fer, T. Low, K. Goldberg, “Efficiently Calibrating Cable- IV. KẾT LUẬN Driven Surgical Robots with RGBD Fiducial Sensing and Hệ điều khiển bằng giọng nói cho cánh tay robot Recurrent Neural Networks”, IEEE Robotics and Automation Letters, 5(4), pp. 5937 - 5944, 2020. 6DOF đã được xây dựng và kiểm chứng bằng mô hình [8] H. Huang, C. Chuang, “Artificial Bee Colony Optimization thực nghiệm. Theo đó, module nhận dạng giọng nói Algorithm Incorporated with Fuzzy Theory for Real-Time thông qua xây dựng mô hình mạng DL1 với thư viện Machine Learning Control of Articulated Robotic dữ liệu bằng tiếng Việt đã được hoàn thành. Dao động Manipulators”, IEEE Access, 8, pp. 192481-192492, 2020. âm thanh của giọng nói đã được chuyển đổi thành văn [9] R. Liu, Q. Zhang, Y. Chen, J. Wang, L. Yang, “A Biologically Constrained Cerebellar Model with Reinforcement Learning bản. Mô hình ML được xây dựng để trích xuất thông for Robotic Limb Control”, IEEE Access, 8, pp. 222199- tin điều khiển từ văn bản hoàn chỉnh và mã hóa chúng. 222210, 2020. Việc tính toán tín hiệu điều khiển truyền tới các động [10] J. Luo, E. Solowjow, C. Wen, J. A. Ojea, A. M. Agogino, cơ truyền động của robot được thực hiện bởi mô hình “Deep Reinforcement Learning for Robotic Assembly of DL2. Hơn nữa, kết quả của việc mô hình hóa động học Mixed Deformable and Rigid Objects”, International Conference on Intelligent Robots and Systems (IROS), pp. là tập dữ liệu vị trí chuyển động khả thi của cánh tay 2062-2069, Madrid, Spain, October 1-5, 2018. robot trong không gian làm viêc được sử dụng làm thư [11] D. P. Mital, G. W. Leng, “A Voice-activated Robot with viện huấn luyện của mô hình DL2. Hệ thống điều khiển Artificial Intelligence”, Robotics and Autonomous Systems, 4, bằng giọng nói cho cánh tay robot hoàn toàn không phụ pp. 339-344, 1989. thuộc vào việc kết nối mạng Internet. Kết quả của các [12] S. Hwang, Y. Park, Y. S. Park, “Sound direction estimation using an artificial ear for robots”, Robotics and Autonomous thực nghiệm trên mô hình thực tế cho thấy tính đúng Systems, 59, pp. 208-217, 2011. đắn và tin cậy của các thuật toán. Tuy nhiên, nghiên [13] Rogowski, “Industrial oriented voice control system”, cứu này vẫn chưa xem xét việc đánh giá độ chính xác Robotics and Computer-Integrated Manufacturing, 28, pp. chuyển động của cánh tay robot do sai số chế tạo, tốc 303-315, 2012. độ xử lý của hệ thống điều khiển trong thời gian thực, ISBN 978-604-80-5958-3 304
  7. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) [14] V. Alvarez-Santos, R. Iglesias, X.M. Pardo, C.V. Regueiro, A. Technology and Application Approaches (IoT-T&A 2019), Canedo-Rodriguez, “Gesture-based interaction with voice 160, pp. 712-717, November 4-7, Coimbra, Portugal, 2019. feedback for a tour-guide robot”, J. Vis. Commun. Image R, [22] B. İşçimen, H. Atasoy, Y. Kutlu, S. Yıldırım, E. Yıldırım, 25, pp. 499-509, 2014. “Smart Robot Arm Motion Using Computer Vision”, [15] S. S. Turakne, P. Loni, “Intelligent Interactive Robot with ELEKTRONIKA IR ELEKTROTECHNIKA, 21(6), pp. 3-7, Gesture Recognition and Voice Feedback”, International 2015. Journal of Engineering Research & Technology, 5(4), pp. 276- [23] X. Chen, X. Huang, Y. Wang, X. Gao, “Combination of 280, 2016. Augmented Reality-Based Brain-Computer Interface and [16] M. Meghana, Ch. U. Kumari, J. S. Priya, P. Mrinal, K. A. V. Computer Vision for High-Level Control of a Robotic Arm”, Sai, S. P. Reddy, K. Vikranth, T. S. Kumar, A. K. Panigrahy, IEEE Transactions on Neural Systems and Rehabilitation “Hand gesture recognition and voice-controlled robot”, Engineering, DOI 10.1109/TNSRE.2020.3038209, 2020. Materials Today: Proceedings, [24] Garzelli, L. Capobianco, F. Nencini, “Fusion of multispectral https://doi.org/10.1016/j.matpr.2020.06.553, 2020. and panchromatic images as an optimization problem”, Book: [17] M. F. Rafael, D. S. Manuel, “Design in Robotics Based in the Image Fusion Algorithms and Applications, Academic Press, Voice of the Customer of Household Robots”, Robotics and pp. 223-250, 2008. Autonomous Systems, 79, pp. 99-107, 2016. [25] M. W. Spong, S. Hutchinson, M. Vidyasagar, “Robot [18] M. Buyukyilmaz, A. O. Cibikdiken, “Voice Gender modeling and Control”, First edition, New York, USA, 2001. Recognition Using Deep Learning”, Advances in Computer [26] https://www.securityinfowatch.com/video-surveillance/video- Science Research, 58, pp. 409-411, 2017. analytics/article/21069937/deep-learning-to-the-rescue [19] K. Gundogdu, S. Bayrakdar, I. Yucedag, “Developing and (Access in Oct 14, 2021). Modeling of Voice Control System for Prosthetic Robot Arm [27] https://www.programmersought.com/article/10025152444/ in Medical Systems”, Journal of King Saud University - (Access in Oct 14, 2021). Computer and Information Sciences, 30(2), pp. 198-205, 2018. [28] https://www.Tensorflow.org/api_docs/python/tf/keras/losses/s [20] V. P. Saradi, P. Kailasapathi, “Voice-based motion control of a parse_categorical_crossentropy (Access in Oct 14, 2021). robotic vehicle through visible light communication”, Computers and Electrical Engineering, 76, pp. 154-167, 2019. [29] https://www.programmersought.com/article/33553292079/ (Access in Oct 14, 2021). [21] S. Sachdeva, J. Macwana, C. Patela, N. Doshia, “Voice- Controlled Autonomous Vehicle Using IoT”, 3rd International Workshop on Recent Advances on the Internet of Things: ISBN 978-604-80-5958-3 305
nguon tai.lieu . vn