Xem mẫu

  1. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) MÔ HÌNH TRỌNG SỐ KẾT HỢP CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TÍNH TRONG NHẬN DẠNG HÀNH ĐỘNG NGƯỜI Nguyễn Năng Hùng Vân, Phạm Minh Tuấn, Ung Nho Dãi Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng Email : nguyenvan@dut.udn.vn, pmtuan@dut.udn.vn, dai.n.ung@gmail.com Tóm tắt – Nhận dạng hành động người (tiếng Anh: Discriminant Analysis - Multi-class LDA) [5] nhằm Human Activity Recognition - HAR) là một lĩnh vực nâng cao kết quả khi nhận dạng hành động người. Điểm nghiên cứu quan trọng về thị giác máy tính. Khó khăn lớn chung của hai phương pháp này là làm giảm số lượng nhất đối với hệ thống HAR là dữ liệu từ camera thông thuộc tính của dữ liệu nhận dạng trước khi xây dựng mô dụng là chỉ quay được ở một hướng, dẫn đến sự thiếu hụt hình huấn luyện đồng thời tăng hiệu quả nhận dạng. Mỗi dữ liệu và dẫn đến kết quả nhận dạng thấp. Bài báo này, phương pháp trích chọn đặc tính khác nhau sẽ cho một tập trung vào nghiên cứu và xây dựng mô hình mới về kết quả nhận dạng khác nhau. Bài báo này sử dụng nhận dạng hành động người, trong đó trọng tâm là phương pháp trọng số để kết hợp các phương pháp trích phương pháp trích chọn đặc tính PCA, LDA nhằm giảm chọn đặc tính nhằm nâng cao hiệu quả nhận dạng. số chiều và độ lớn của dữ liệu, góp phần nâng cao độ chính xác khi nhận dạng. Trước tiên, từ dữ liệu chuyển động 3D, Nội dung của bài báo trình bày các nghiên cứu liên chúng tôi tiến hành tiền xử lý và trích chọn đặc tính của quan gồm phương pháp trích chọn đặc tính PCA, LDA các đối tượng. Tiếp đến, xây dựng các mô hình nhận dạng và phương pháp máy vectơ hỗ trợ (Support Vector ứng với mỗi phương pháp trích chọn đặc tính, sử dụng mô Machine – SVM). Sau đó bài báo trình bày phương pháp hình SVM để huấn luyện. Cuối cùng, sử dụng phương đề xuất. Cuối cùng trình bày kết quả thực nghiệm và các pháp trọng số để kết hợp kết quả của các mô hình nhận đánh giá dựa trên dữ liệu của CMU Mocap [2]. dạng và đưa ra kết quả cuối cùng. Bài báo tiến hành thực nghiệm trên dữ liệu CMU Mocap và cho thấy tỷ lệ nhận II. NGHIÊN CỨU LIÊN QUAN dạng của phương pháp đề xuất cao hơn so với những phương pháp trước đây. Trong phần này, bài báo trình bày những vấn đề liên Từ khóa - Nhận dạng hành động người; Phương pháp quan đến nghiên cứu như PCA, Multi-class LDA và phân tích thành phần chính; Phân tích biệt thức tuyến tính; phương pháp nhận dạng sử dụng SVM. Máy vector hỗ trợ. A. Phương pháp phân tích thành phần chính - PCA I. GIỚI THIỆU Phương pháp phân tích thành phần chính [4] Từ những năm 80 của thế kỷ trước, nhận dạng hành (Principal Components Analysis - PCA) là một thuật động người đã nhận được sự quan tâm, nghiên cứu của toán thống kê sử dụng phép biến đổi trực giao để biến các nhà khoa học trên khắp thế giới. Các kết quả nghiên đổi một tập hợp dữ liệu từ một không gian nhiều chiều cứu này được ứng dụng rộng rãi trong nhiều lĩnh vực sang một không gian mới ít chiều hơn. Phép biến đổi khác nhau như hệ thống an ninh, y học, giao thông và này dựa trên việc tìm trục của không gian mới sao cho giao tiếp giữa người và máy [1]. phương pháp dữ liệu chiếu lên trục đó là lớn nhất. Trong những năm gần đây, những nghiên cứu trong Thay vì giữ lại các trục tọa độ của không gian cũ, lĩnh vực nhận dạng hành động người chủ yếu tập trung PCA xây dựng một không gian mới ít chiều hơn, nhưng vào nghiên cứu và nhận dạng từ những video được quay lại có khả năng biểu diễn dữ liệu tốt tương đương không bởi các camera thông dụng. Khó khăn lớn nhất đối với gian cũ, mà vẫn đảm bảo phương sai của dữ liệu trên dữ liệu từ camera thông dụng là chỉ quay được ở một mỗi chiều mới là lớn nhất. Hình 1 là một minh họa kết hướng, dẫn đến sự thiếu hụt dữ liệu, nếu kết hợp nhiều quả của việc xây dựng không gian mới của PCA. camera thì vẫn không đảm bảo thu được toàn bộ hoạt động, đồng thời giảm hiệu năng của quá trình nhận dạng. y Nhằm khắc phục những khó khăn trên, trong những a năm gần đây đã có một số nghiên cứu về phương pháp thu thập dữ liệu 3D hay sử dụng các hệ thống chụp chuyển động dựa vào “marker” như Motion Capture [2] hoặc là sử dụng stereo camera chụp chuyển động 2D từ x nhiều hướng khác nhau để dựng thành mô hình 3D, gần b y đây nhất là dùng các thiết bị cảm biến chiều sâu chuyên dụng như Microsoft Kinect [3]. z a) Không gian dữ liệu ban đầu b) Không gian dữ liệu mới Từ dữ liệu 3D thu được, bài báo trình bày một số Hình 1. Minh họa PCA phương pháp trích chọn đặc tính như phân tích thành phần chính (Principal Components Analysis - PCA) [4] và phân tích biệt thức đa lớp (Multi-class Linear ISBN: 978-604-67-0635-9 119 119
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Giải sử cho tập dữ liệu huấn luyện 𝐗𝐗 = {𝑥𝑥𝑖𝑖 |𝑥𝑥𝑖𝑖 ∈ B. Phân tích biệt thức tuyến tính đa lớp – multi-class 𝑹𝑹𝑑𝑑 }, i ∈ {1 … n}. Với 𝒙𝒙𝒊𝒊 là vectơ thuộc không gian 𝑑𝑑 LDA chiều, 𝑛𝑛 là số lượng vectơ trong tập 𝐗𝐗. Phân tích biệt thức tuyến tính đa lớp (Multi-class Bước 1: Tiền xử lí Linear Discriminant Analysis – multi-class LDA) là phương pháp phân tích biệt thức tuyến tính trong bài Có hai cách tiền xử lí thường được dùng cho PCA là toán phân loại đa lớp được xây dựng bằng việc cải tiến Centered PCA và Normed PCA [4]. phương pháp phân tich biệt thức tuyến tính hai lớp - Centered PCA là phương pháp mang trọng tâm của (Liner Discriminant Analysis – LDA) [5]. Multi-class tất cả các vectơ về tọa độ gốc: LDA tìm trục vectơ 𝒖𝒖 sao cho tất cả các dữ liệu khi chiếu trên trục 𝒖𝒖 đó có độ phân ly lớn nhất. ̂ = {𝑥𝑥̂𝑖𝑖 }, 𝐗𝐗 Cho tập dữ liệu huấn luyện có gán nhãn: 𝑥𝑥̂𝑖𝑖 = 𝑥𝑥𝑖𝑖 − µ trong đó µ là trọng tâm của tất cả các vectơ trong tập 𝐗𝐗, 𝐗𝐗 𝐗 𝐗𝐗𝐗𝐗𝑖𝑖 , 𝑦𝑦𝑖𝑖𝑖 )|𝒙𝒙𝒊𝒊 ∈ 𝑹𝑹𝑑𝑑 , y ∈ {1 … 𝑙𝑙}}; i ∈ {1 … n} được tính bởi công thức: Với 𝒙𝒙𝑖𝑖 là vectơ thứ 𝑖𝑖 của tập huấn luyện thuộc không 𝑛𝑛 1 gian 𝑑𝑑 chiều, 𝑦𝑦𝑖𝑖 là nhãn của 𝒙𝒙𝑖𝑖 . Khi đó, độ phân ly của µ = ∑ 𝑥𝑥𝑗𝑗 dữ liệu huấn luyện khi chiếu trên trục vectơ 𝒖𝒖 được biểu 𝑛𝑛 𝑗𝑗𝑗𝑗 diễn như sau: - Normed PCA là phương pháp mang trọng tâm tất cả vectơ về tọa độ gốc, đồng thời chuẩn hóa dữ liệu về 𝒖𝒖T Sb 𝒖𝒖 độ lệch chuẩn là 1: 𝒖𝒖Sw 𝒖𝒖 trong đó, Sb là ma trận phân tán liên hợp (within class ̃ = {𝑥𝑥̃𝑖𝑖 } 𝐗𝐗 scatter matrix), được tính bởi công thức: trong đó 𝒙𝒙̃𝒊𝒊 là vectơ n chiều (𝑥𝑥̃ 𝑖𝑖1 … , 𝑥𝑥 ̃𝑖𝑖𝑖𝑖 … , 𝑥𝑥 ̃𝑖𝑖𝑖𝑖 ), 𝑥𝑥 ̃𝑖𝑖𝑖𝑖 𝑙𝑙 được tính bởi: 𝑥𝑥𝑖𝑖𝑖𝑖 − µ Sb = ∑ 𝑛𝑛𝑐𝑐 (𝜇𝜇𝑐𝑐 − 𝜇𝜇)(𝜇𝜇𝑐𝑐 − 𝜇𝜇)T ∈ 𝑹𝑹𝑑𝑑×𝑑𝑑 𝑥𝑥̃ 𝑖𝑖𝑖𝑖 = 𝑐𝑐=1 𝜎𝜎𝑘𝑘 trong đó, 𝜇𝜇𝑐𝑐 là trọng tâm của lớp 𝑐𝑐 và 𝑛𝑛𝑐𝑐 số lượng vectơ với có trong lớp 𝑐𝑐. 𝜇𝜇 và 𝑛𝑛 là trọng tâm và số lượng của tất 𝑛𝑛 1 cả dữ liệu có trong tập huấn luyện. 𝜇𝜇𝑘𝑘 = ∑ 𝑥𝑥𝑗𝑗𝑗𝑗 𝑛𝑛 1 𝑗𝑗𝑗𝑗 𝜇𝜇𝑐𝑐 = ∑ 𝒙𝒙𝑖𝑖 𝑛𝑛 𝑛𝑛𝑐𝑐 𝑦𝑦𝑖𝑖 =𝑐𝑐 1 𝑛𝑛 𝜎𝜎𝑘𝑘 = √ ∑(𝑥𝑥𝑗𝑗𝑗𝑗 − 𝜇𝜇𝑘𝑘 )2 1 𝑛𝑛 𝑛 𝑛 𝜇𝜇 = ∑ 𝒙𝒙𝑖𝑖 𝑗𝑗𝑗𝑗 𝑛𝑛 𝑖𝑖=1 trong đó 𝜎𝜎𝑗𝑗 là phương sai của cột thứ 𝑗𝑗 trong X. và Sb là ma trận phân tán nội lớp (within - class scatter Trong bài báo này, phương pháp Centered PCA matrix), được tính bởi: được sử dụng để trích chọn đặc tính trong nhận dạng. 𝑛𝑛 T Bước 2: Xây dựng không gian mới Sb = ∑(𝒙𝒙𝑖𝑖 − 𝜇𝜇𝑦𝑦𝑖𝑖 )(𝒙𝒙𝑖𝑖 − 𝜇𝜇𝑦𝑦𝑖𝑖 ) ∈ 𝑹𝑹𝑑𝑑×𝑑𝑑 Tính ma trận hiệp phương sai (covariance) của các 𝑖𝑖=1 ̂, Gọi 𝐗𝐗 ∗ = [𝑥𝑥𝑥1 … 𝑥𝑥𝑥𝑛𝑛 ] ∈ 𝑅𝑅𝑛𝑛𝑛𝑛𝑛 là ma trong đó 𝜇𝜇𝑦𝑦𝑖𝑖 là là trọng tâm của lớp có nhãn là 𝑦𝑦𝑖𝑖 . thuộc tính trong 𝐗𝐗 trận chứa tất cả các vectơ huấn luyện. Khi đó vectơ 𝒖𝒖 được xác định bởi, ∗ ∗𝐓𝐓 𝐕𝐕 𝐕𝐕𝐕𝐕 𝐗𝐗 𝒖𝒖T Sb 𝒖𝒖 Do là tích của ma trận 𝐗𝐗 ∗ với một chuyển vị của nó ̂ = argmax 𝒖𝒖 𝒖𝒖 𝒖𝒖T Sw 𝒖𝒖 nên 𝐕𝐕 𝐕𝐕𝐕𝐕𝑑𝑑𝑑𝑑𝑑𝑑𝑑 là ma trận có kích thước 𝑑𝑑 𝑑 𝑑𝑑. Bài toán Ta có thể tìm được vectơ 𝒘𝒘 bằng cách giải bài toán xây dựng không gian mới được thực hiện bằng cách giải tìm giá trị riêng tổng quát sau: bài toán tìm giá trị riêng sau, với 𝒖𝒖 là các vectơ riêng của 𝐕𝐕: Sb 𝒖𝒖 𝒖𝒖𝒖w 𝒖𝒖 Việc chuyển dữ liệu từ không gian ban đầu sang 𝐕𝐕𝐕𝐕𝐕 𝐕𝐕𝐕 không gian mới tương tự như phương pháp PCA. Bước 3: Chuyển dữ liệu từ không gian ban đầu sang không gian mới C. Máy Vector hỗ trợ Thông thường không gian mới không được xây Máy vectơ hỗ trợ (Support Vector Machine – SVM) dựng bằng tất cả các 𝑑𝑑 vectơ riêng trong 𝑅𝑅𝑑𝑑 , mà thông [6] làm một giải thuật học máy dựa trên lý thuyết học thường chỉ sử dụng 𝑘𝑘 vectơ riêng đầu tiên. thống kê. Giả sử cho trước n điểm trong không gian 𝑑𝑑 chiều (mỗi điểm thuộc vào một lớp kí hiệu là +1 hoặc - Gọi ma trận 𝐔𝐔𝑃𝑃𝑃𝑃𝑃𝑃 = [ 𝒖𝒖1 ,𝒖𝒖2 … 𝒖𝒖𝑘𝑘 ] ∈ 𝑹𝑹𝑑𝑑×𝑘𝑘 . Khi 1, mục đích của giải thuật SVM là tìm một siêu phẳng đó tọa độ các điểm trong hệ tọa độ mới là: (hyperplane) phân hoạch tối ưu cho phép chia các điểm 𝐓𝐓 này thành hai phần sao cho các điểm cùng một lớp nằm 𝐅𝐅 = 𝐔𝐔𝑃𝑃𝑃𝑃𝑃𝑃 𝐗𝐗 ∗ ∈ 𝑹𝑹𝑛𝑛×𝑘𝑘 . về một phía với siêu phẳng này. 120 120
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Xét tập dữ liệu mẫu có thể tách rời tuyến tính {(𝒙𝒙1 , 𝑦𝑦1 ), (𝒙𝒙2 , 𝑦𝑦2 ), … , (𝒙𝒙𝑛𝑛 , 𝑦𝑦𝑛𝑛 )} với 𝒙𝒙𝑖𝑖 ∈ 𝑹𝑹𝑑𝑑 và 𝑦𝑦𝑖𝑖 ∈ {−1, 1}. Siêu phẳng phân tập dữ liệu này thành hai lớp là siêu phẳng có thể tách rời dữ liệu thành hai lớp riêng biệt với lề (margin) lớn nhất. Tức là, cần tìm siêu phẳng phân tách dữ liệu H: 𝒘𝒘 ∙ 𝒙𝒙 + b = 0 và hai siêu phẳng H1, H2 song song với H và có cùng khoảng cách đến H. Với điều kiện không có phần tử nào của tập mẫu nằm giữa H1 và H2, khi đó: 𝒘𝒘 ∙ 𝒙𝒙 + b ≥ 1 y=1 { 𝒘𝒘 ∙ 𝒙𝒙 + b ≤ 1 y = −1 Kết hợp hai điều kiện trên ta có 𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦 𝑦 𝑦𝑦 𝑦 𝑦 𝑦𝑦. Hình 3. Mô hình đề xuất nhận dạng hành động Khoảng cách (còn gọi là “lề”) của giữa 2 siêu phẳng A. Quá trình tiền xử lý H1 và H2 đến H là ‖w‖. Bài toán đặt ra là tìm siêu phẳng Mô hình bộ xương 3D của con người có một số Hsao cho lề lớn nhất, tức là cần tìm min‖w‖ với ràng 𝑤𝑤𝑤𝑤𝑤 lượng lớn các đoạn xương, kết hợp với độ tự do của mỗi buộc 𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦 𝑦 𝑦𝑦 𝑦 𝑦 𝑦𝑦. Bài toán này có thể chuyển khớp sẽ làm tăng số chiều của thuộc tính. Hơn nữa, mỗi 1 sang bài toán tương đương dễ giải hơn là min ‖w‖2 hành động của người có thời gian dài ngắn khác nhau 𝑤𝑤𝑤𝑤𝑤 2 nên quá trình tiền xử lý này giải quyết hai vấn đề: với ràng buộc 𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦 𝑦 𝑦𝑦 𝑦 𝑦 𝑦𝑦. Lời giải cho bài toán tối ưu này là cực tiểu hóa hàm Lagrange:  Giảm số chiều của thuộc tính bằng cách giảm số 𝑛𝑛 lượng các xương được lựa chọn trong quá trình 1 trích chọn đặc tính. Bài báo này tham khảo L(𝒘𝒘, 𝑏𝑏, 𝛼𝛼) = ‖𝒘𝒘‖2 − ∑ 𝛼𝛼𝑖𝑖 [𝑦𝑦𝑖𝑖 (𝒘𝒘 ∙ 𝒙𝒙𝑖𝑖 + 𝑏𝑏) − 1] 2 phương pháp của K. Adistambha [7] trong việc 𝑖𝑖=1 lựa chọn một nhóm các xương có thể thay thế Trong đó 𝛼𝛼 là các hệ số Lagrange, 𝛼𝛼 𝛼 𝛼. Sau đó cho toàn bộ xương trong quá trình nhận dạng mà người ta chuyển thành bài toán đối ngẫu là cực đại hóa vẫn đảm bảo độ chính xác của mô hình. hàm W(𝛼𝛼):  Chuẩn hóa thời gian quan trắc dữ liệu của hành max W(𝛼𝛼) = max (minL(𝒘𝒘, 𝑏𝑏, 𝛼𝛼)) động của người. Bài báo này chọn phương pháp 𝛼𝛼 𝛼𝛼 𝒘𝒘,𝑏𝑏 đơn giản nhất là sử dụng thời gian của hành động Giải bài toán trên ta được 𝒘𝒘𝒘𝒘𝒘 và 𝛼𝛼. Việc phân lớp ngắn nhất. chỉ là việc kiểm tra hàm dấu sign(𝒘𝒘 𝒘𝒘𝒘 + b). Hình 2 là một minh họa siêu phẳng với lề cực đại trong không gian B. Trích chọn đặc tính hai chiều. Các phần tử nằm trên lề gọi là vectơ hỗ trợ. Mục đích chính là tìm vectơ biểu diễn dữ liệu với số chiều nhỏ hơn dữ liệu ban đầu nhưng vẫn đảm bảo được hiệu quả nhận dạng hành động người. Bài báo này sử dụng 3 phương pháp trong quá trình trích chọn đặc tính.  Phương pháp trích chọn đặc tính thủ công [7] bằng cách thực hiện lựa chọn một số nhóm xương từ tất cả các xương quan trắc được. Việc xây dựng vectơ thuộc tính là quá trình tạo vectơ từ các góc quay của các xương so với khớp quay của chúng. Nếu sử dụng 11 xương, mỗi xương đều có thể quay tự do theo 3 hướng thì số chiều của vectơ sẽ là 11 × 3 × frame. Trong đó frame là số số lượng quan trắc được trong một hành động.  Phương pháp sử dụng PCA. Sử dụng tất cả các Hình 2. Siêu phẳng với lề cực đại trong không gian 2D xương quan trắc được, tạo tất cả vectơ thuộc tính cho tất cả các hành động người. Sau đó, giải bài III. PHƯƠNG PHÁP ĐỀ XUẤT toán tìm vectơ riêng và không gian mới từ các vectơ riêng có giá trị riêng lớn. Bài báo này kết hợp các phương pháp trích chọn đặc tính sử dụng phương pháp trọng số nhằm nâng cao hiệu  Phương pháp sử dụng mutli-class LDA. Tương quả nhận dạng. Giải pháp đề xuất được tổng quát theo tự như cách sử dụng tất cả các xương đối với Hình 3 bao gồm các khối chức năng chính: Tiền xử lý, phương pháp PCA trích chọn đặc tính, học máy sử dụng SVM và phương C. Phương pháp trọng số pháp trọng số. Mỗi phương pháp trích chọn đặc tính cho một kết quả khác nhau và có những ưu điểm cũng như nhược điểm khác nhau. Kết hợp các phương pháp trích chọn này sẽ có thể khắc phục những nhược điểm của từng 121 121
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) phương pháp. Mỗi phương pháp trích chọn đặc tính điểm. Bài báo này, chỉ sử dụng các góc quay của thường có tỷ lệ nhận dạng khác nhau nên bài báo này đề các xương được lưu trữ trong cấu trúc AMC. sử dụng tỷ lệ nhận dạng trong việc xác định trọng số gán nhãn trong phương pháp đề xuất. Cụ thể là, bài báo đề Hình 4 là một biễu diễn của cấu trúc ASF. Bài báo xuất việc xác định trọng số và cách gán nhãn cho hành này sử dụng dữ liệu gồm 29 xương thể hiện như Hình động cần nhận dạng như sau: 4. Hình 5 là một ví dụ về hình ảnh 3D của xương người được dựng lại từ cấu trúc AMC. Giả sử ta có 𝑏𝑏 phương pháp trích chọn đặc tính và 𝑐𝑐 loại hành động khác nhau (cụ thể trong bài báo này 𝑏𝑏 = 3, 𝑐𝑐 = 4). Các phương pháp được đánh số thứ tự từ 1 đến 𝑏𝑏; các loại hành động được gán nhãn từ 1 đến 𝑐𝑐. Gọi 𝑓𝑓𝑖𝑖 là nhãn của hành động nhận dạng được từ mô hình sử dụng phương pháp trích chọn đặc tính 𝑖𝑖, 𝜔𝜔𝑖𝑖 là tỷ lệ nhận dạng của phương pháp trích chọn đặc tính 𝑖𝑖, 𝑖𝑖 𝑖 𝑖𝑖𝑖 𝑖 𝑖𝑖𝑖, 𝑓𝑓𝑖𝑖 ∈ {1.. 𝑚𝑚𝑚. Gọi 𝑝𝑝𝑗𝑗 là trọng số để gán nhãn 𝑗𝑗 cho hành động cần nhận dạng, 𝑗𝑗 𝑗𝑗𝑗𝑗𝑗𝑗𝑗𝑗. Khi đó 𝑝𝑝𝑗𝑗 đươc xác định bởi công thức sau: 𝑝𝑝𝑗𝑗 = ∑ 𝜔𝜔𝑖𝑖 𝑓𝑓𝑖𝑖 =𝑗𝑗 Nhãn 𝑓𝑓̂ cần tìm được xác định như sau: 𝑓𝑓̂ = argmax(𝑝𝑝𝑗𝑗 ) 𝑗𝑗 IV. KẾT QUẢ THỰC NGHIỆM Hình 4. Mô hình bộ xương [7] Bài báo này sử dụng dữ liệu 3D của CMU Mocap trong việc kiểm chứng kết quả nhận dạng. Quá trình thực nghiệm được chia làm hai giai đoạn. Giai đoạn thứ nhất là tiến hành xây dựng mô hình nhận dạng với dữ liệu đầu vào ứng với các phương pháp trích chọn đặc tính khác nhau. Giai đoạn tiếp theo sẽ kết hợp các phương pháp trích chọn đặc tính sử dụng tỉ lệ nhận dạng thu được ở giai đoạn thứ nhất. A. Dữ liệu 3D của CMU Mocap Để theo dõi chuyển động của các đối tượng, Đại học Hình 5. Xương người 3D được dựng lại từ AMC Carnegie Mellon (CMU) [2] đã xây dựng một phòng thí nghiệm gồm 12 camera hồng ngoại MX-40 lắp đặt xung B. Kết quả thực nghiệm quanh một không gian hình chữ nhật có kích thước Để tiến hành thực nghiệm bài báo chọn bốn hành 3m×8m. Một người mang bộ áo liền quần có gắn các động là: chạy (run), đi (walk), nhảy (jump) và khiêu vũ marker bên trên và di chuyển tự do trong vùng ghi hình. (dance). Dữ liệu được chia ngẫu nhiên thành ba nhóm Các camera sẽ định vị marker bằng sóng hồng ngoại. khác nhau như Bảng 1. Dữ liệu huấn luyện gồm 165 Tín hiệu thu được từ hệ thống camera được xử lý và cho lượt hành động dùng trong việc xây dựng mô hình với ra kết quả cuối cùng là dữ liệu dạng mô hình hóa 3D của PCA, multi-class LDA và SVM. Dữ liệu kiểm định gồm cơ thể người. Một số cấu trúc định dạng khác nhau được 163 lượt hành động dùng trong việc tìm tỷ lệ nhận dạng sử dụng như asf/amc, vsk/v, c3d, bvh, txt. của từ phương pháp trích chọn đặc tính và dữ liệu kiểm Bài báo này sử dụng dữ liệu định dạng bởi cấu trúc thử gồm 163 lượt hành động dùng để thử nghiệm kết ASF (Acclaim Skeleton File) và AMC (Acclaim Motion quả cuối cùng của phương pháp đề xuất. Capture). BẢNG 1. THỐNG KÊ SỐ LƯỢNG DỮ LIỆU  ASF mô tả sự gắn kết giữa các xương trong cơ thể và độ tự do (degrees of freedom - dof) của Hành động run walk jump dance Tổng các khớp. ASF chính là trạng thái ban đầu của dữ Dữ liệu huấn luyện 24 75 43 23 165 liệu chuyển động và chứa các thông tin về chiều dài, hướng, độ tự do của mỗi xương. Dữ liệu kiểm định 24 75 42 22 163 Dữ liệu kiểm thử 24 75 42 22 163  AMC chứa các thông tin có thể thay đổi trong hệ thống các khớp xương. Dữ liệu hành động thay Tổng 72 225 127 67 491 đổi theo thời gian nên AMC được tạo thành bởi nhiều frame, mỗi frame thể hiện dữ liệu gồm vị 1) Kết quả nhận dạng sử dụng phương pháp thủ trí và các góc quay của các xương cho một thời công 122 122
  5. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bài báo sử dụng phương pháp thủ công bằng cách lựa BẢNG 4. KẾT QUẢ CHI TIẾT KHI SỬ DỤNG TẤT CẢ 29 XƯƠNG chọn các nhóm xương tham khảo từ kết quả nghiên cứu Hành động run walk jump dance của K. Adistambha [7]. Việc phân chia các nhóm dựa trên nguyên tắc nhóm sau là nhóm trước thêm vào một run 78,3% 21,7% 0,0% 0,0% số xương khác, chi tiết ở Hình 4: walk 0,0% 98,7% 1,3% 0,0%  Nhóm 3 xương: root, lowerback, upperback. jump 0,0% 19,0% 81,0% 0,0%  Nhóm 4 xương = nhóm 3 + thorax. dance 0,0% 50,0% 9,0% 41,0%  Nhóm 7 xương = nhóm 4 + lowerneck, Tuy kết quả nhận dạng trung bình của phương pháp upperneck, head. sử dụng 11 xương khá cao nhưng đối với các loại hành động phức tạp như “dance”, đặc tính của dữ liệu không  Nhóm 11 xương = nhóm 7 + left and right thể hiện rõ trong không gian hiện tại, dẫn tới tỉ lệ nhận clavicle, left and right humerus. dạng đúng rất thấp (36.4%). Các đặc tính của hành động  Nhóm 13 xương = nhóm 11+ left and right phức tạp này sẽ thể hiện rõ hơn nếu áp dụng các phương femur. pháp biến đổi để tìm ra một không gian mới, mà ở đó độ biến thiên của dữ liệu là cao nhất.  Nhóm 17 xương = nhóm 13 + left and right radius, left and right tibia. 2) Kết quả nhận dạng sử dụng PCA Đối với phương pháp PCA, thông số cần xác định là  Nhóm 23 xương = nhóm 17 + left and right wrist, số lượng các vectơ riêng (chính là số chiều trong không left and right hand, left and right foot. gian mới) để mô hình nhận dạng có độ chích xác cao Việc thực nghiệm cũng theo thứ tự này, có nghĩa là nhất. Hình 6 biểu diễn sự biến thiên của tỉ lệ nhận dạng bắt đầu với nhóm có ít xương nhất, sau đó thêm các khi số chiều thay đổi sử dụng PCA. xương vào để sinh ra nhóm mới, cuối cùng tìm ra mô 100.00% hình SVM có kết quả khả quan nhất, chi tiết tại Bảng 2. 80.00% BẢNG 2. KẾT QUẢ THỰC NGHIỆM VỚI PHƯƠNG PHÁP THỦ CÔNG 60.00% Số xương run walk jump dance Tỷ lệ 40.00% 3 0,0% 93,3% 14,3% 18,2% 49,4% 20.00% 4 0,0% 93,3% 14,3% 13,6% 48,8% 0.00% 7 0,0% 94,7% 30,9% 13,6% 53,7% 1 5 8 10 13 17 20 23 37 49 53 69 163 13 0,0% 96,0% 28,5% 18,2% 54,3% Hình 6. Sự biến thiên của tỉ lệ nhận dạng PCA 23 78,3% 98,7% 81,0% 31,9% 82,1% Với số chiều tăng dần, độ chính xác tăng theo hình 11 78,3% 98,7% 81,0% 36,4% 82,7% răng cưa đến một giá trị ngưỡng (90.1% với số chiều Tất cả (29) 78,3% 98,7% 81,0% 41,0% 83,3% bằng 49), sau đó bắt đầu giảm và dần trở thành đường thẳng khi số chiều lớn. Bảng 5 là kết quả nhận dạng chi Bảng 3 và 4 là kết quả nhận dạng chi tiết khi sử dụng tiết với số chiều bằng 49 trong PCA. Ta thấy so với 11 xương và tất cả 29 xương. Tỷ lệ thu được khi thực phương pháp thủ công, tỷ lệ nhận dạng đúng của hành nghiệm 11 xương trung bình là 82,7% tương đối cao và động “dance” tăng đáng kể. chỉ thấp hơn một ít so với việc sử dụng tất cả 29 xương là 83.3%. Vì vậy có thể sử dụng nhóm dữ liệu gồm 11 BẢNG 5. KẾT QUẢ NHẬN DẠNG CHI TIẾT VỚI SỐ CHIỀU BẰNG 49 xương như một phương pháp lựa chọn đặc tính trong TRONG PCA việc xây dựng phương pháp trọng số trong mô hình đề xuất nhận dạng hành động người. Hành động run walk jump dance run 78,3% 17,4% 4,3% 0,0% BẢNG 3. KẾT QUẢ CHI TIẾT KHI SỬ DỤNG 11 XƯƠNG walk 0,0% 98,7% 0,0% 1,3% Hành động run walk jump dance jump 0,0% 14,3% 85,7% 0,0% run 78,3% 8,7% 13,0% 0,0% dance 0,0% 9,1% 9,1% 81,8% walk 0,0% 98,7% 1,3% 0,0% 3) Kết quả nhận dạng sử dụng multi-class LDA jump 0,0% 19,0% 81,0% 0,0% Tương tự như PCA, phương pháp multi-class LDA dance 4,5% 45,5% 13,6% 36,4% cũng cần xác định số chiều dữ liệu sau trích chọn để mô hình nhận dạng xây dựng được có độ chính xác cao nhất. Hình 7 biểu diễn sự biến thiên của tỉ lệ nhận dạng khi số chiều thay đổi sử dụng multi-class LDA. So với PCA, tỷ lệ nhận dạng của phương pháp multi-class LDA dễ tăng với số chiều nhỏ và dễ học quá (over fitting) khi số chiều được lựa chọn là lớn. 123 123
  6. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) 100.00% Khi kết hợp các phương pháp trích chọn đặc tính, tỉ lệ nhận dạng có tăng lên. Tỉ lệ nhận dạng của mô hình 80.00% kết hợp là 90.7% cao hơn 0.6% so với phương pháp trích 60.00% chọn đặc tính tốt nhất (90.1%). 40.00% BẢNG 8. KẾT QUẢ NHẬN DẠNG CHI TIẾT CỦA MÔ HÌNH ĐỀ XUẤT 20.00% Hành động run walk jump dance 0.00% run 78,3% 17,4% 4,3% 0,0% 1 3 5 35 117 125 138 145 152 161 163 walk 0,0% 100% 0,0% 0,0% Hình 7. Sự biến thiên của tỉ lệ nhận dạng multi-class LDA jump 0,0% 14,3% 85,7% 0,0% Với số chiều là 138, phương pháp multi-class LDA dance 0,0% 9,1% 9,1% 81,8% đạt được kết quả nhận dạng cao nhất là 86%. Bảng 6 là kết quả nhận dạng chi tiết với số chiều bằng 138 trong D. Đánh giá kết quả multi-class LDA. Với bài toán nhận dạng hành động trong không gian 3D, với phương pháp trích chọn đặc tính thủ công có thể BẢNG 6. KẾT QUẢ NHẬN DẠNG CHI TIẾT VỚI SỐ CHIỀU BẰNG 138 TRONG MULTI-CLASS LDA sử dụng nhóm có 11 xương để xây dựng mô hình huấn luyện và nhận dạng. Hành động run walk jump dance Từ kết quả thực nghiệm với hai phương pháp trích run 78,3% 13,0% 4,3% 4,4% chọn đặc tính PCA, multi-class LDA, ta thấy với cùng walk 0,0% 86,7% 10,7% 2,6% tập dữ liệu huấn luyện và kiểm định thì độ chính xác cao nhất của PCA là 90.1%, độ chính xác cao nhất của multi- jump 0,0% 7,1% 92,9% 0,0% class là 86.0%. PCA cho kết quả tốt hơn multi-class dance 9,1% 4,5% 9,1% 77,3% LDA. C. Phương pháp trọng số Ngoài ra, nếu sử dụng phương pháp trọng số kết hợp các phương pháp trích chọn đặc tính khác nhau thì độ Với kết quả của giai đoạn thực nghiệm trên, bài báo chính xác của mô hình nhận dạng sẽ được cải thiện thu được tỷ lệ nhận dạng của các phương pháp trích (90.7% so với phương pháp tốt nhất là 90.1%). chọn đặc tính cho mô hình phương pháp trọng số biễu diễn ở Bảng 7. V. KẾT LUẬN BẢNG 7. TỶ LỆ NHẬN DẠNG THU ĐƯỢC Nhận dạng hành động người được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau của cuộc sống. Kết hợp Phương pháp Tham số Tỷ lệ nhận dạng hai phương pháp nghiên cứu lý thuyết và thực nghiệm, bài báo đã trình bày về nhận dạng hành động người Lựa chọn thủ công 11 83,3% trong không gian 3D. Bài báo đã trình bày các phương PCA 49 90,1% pháp trích chọn đặc tính PCA, multi-class LDA và Multi-class LDA 138 86,0% phương pháp phân nhận dạng sử dụng SVM. Bên cạnh Giai đoạn thực nghiệm tiếp theo sử dụng phương đó, bài báo đã nghiên cứu và đề xuất mô hình trọng số pháp trọng số kết hợp các mô hình nhận dạng được xây kết hợp các phương pháp trích chọn đặc tính khác nhau dựng từ các phương pháp trích chọn đặc tính với nhau với độ chính xác cao. Kết quả thực nghiệm cho thấy mô trong giai đoạn thứ nhât. Cuối cùng, bài báo sử dụng dữ hình đề xuất cho kết quả nhận dạng tốt hơn so với mô liệu kiểm thử để kiểm tra tỷ lệ nhận dạng. Hình 8 biễu hình truyền thống. Kết quả nghiên cứu có ý nghĩa khoa diển tỷ lệ nhận dạng thành công của mô hình đề xuất học và xã hội cao, góp phần mở ra hướng nghiên cứu (“Kết hợp”) so với các phương pháp trích chọn đặc tính mới về nhận dạng hành động con người. độc lập. Bảng 8 là kết quả nhận dạng chi tiết của mô TÀI LIỆU THAM KHẢO hình đề xuất. [1] TS. Nguyễn Văn Giáp, KS. Trần Việt Hồng “Kỹ thuật nhận dạng Tiếng nói và ứng dụng trong điều khiển” Trường Đại học 100.00% Bách Khoa TPHCM. 95.00% [2] CMU Graphics Lab Motion Capture Database. Carnegie 90.00% Mellon University, Pennsylvania, United States. Trang web: http://mocap.cs.cmu.edu/ 85.00% [3] Trần Việt Đức – Trương Minh Hiếu “Nghiên cứu và ứng dụng 80.00% Kinect vào việc trình chiếu tài liệu” Trường Đại học Lạc Hồng. 75.00% [4] I.T. Jolliffe, “Principal Component Analysis”, 2nd Edn., New 70.00% York: Springer-Verlag 2002. Run Walk Jump Dance Accuracy [5] Alan J.I, “Linear Discriminant Analysis”, Springer 2012. [6] Steinwart, Ingo, Christmann, Andreas, "Support Vector Thủ công PCA LDA Kết hợp Machines", Springer 2008. [7] Adistambha K, Ritz C. H, Burnett I. S, “Motion Classification Hình 8. Thống kê kết quả giữa các phương pháp Using Dynamic Time Warping”, ICPR 2008, IEEE. 124 124
nguon tai.lieu . vn