Xem mẫu

  1. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Ứng dụng cây quyết định để xây dựng mô hình phối hợp nâng cao chất lượng nhận dạng tín hiệu điện tim Decision tree application to build a coordinated model to improve the quality of ECG signal recognition Đỗ Văn Đỉnh, Phạm Văn Kiên Email: dodinh75@gmail.com Trường Đại học Sao Đỏ Ngày nhận bài: 9/10/2019 Ngày nhận bài sửa sau phản biện: 23/12/2019 Ngày chấp nhận đăng: 31/12/2019 Tóm tắt Nội dung chính của bài báo này là đề xuất giải pháp nâng cao chất lượng (độ chính xác) nhận dạng tín hiệu điện tim ECG (ElectroCardioGraphy), dựa trên việc sử dụng cây quyết định nhị phân (Binary Decision Tree) để phối hợp nhiều mô hình nhận dạng đơn là các mạng nơron kinh điển MLP (Multi Layer Perceptron), mạng nơron logic mờ TSK (Takaga-Sugeno-Kang), máy học vectơ hỗ trợ SVM (Support Vectơ Machines) và rừng ngẫu nhiên RF (Random Forest). Sử dụng các hàm cơ sở Hermite (Hermite Basis Functions) để khai triển phức bộ QRS và hai đặc tính về thời gian là khoảng cách giữa hai đỉnh R liên tiếp (R-R), giá trị trung bình của 10 khoảng cách R-R cuối cùng. Các thuật toán đã được triển khai thử nghiệm trên các bộ mẫu số liệu kinh điển của quốc tế cơ sở dữ liệu MIT-BIH (Massachusetts Institute of Technology, Boston’s Beth Israel Hospital) và cơ sở dữ liệu MGH từ trang web http://physionet.org. Từ khóa: Mạng nơron; MLP; TSK; SVM; hệ thống tích hợp; cây quyết định; chức năng cơ sở Hermite; tín hiệu điện tâm đồ (ECG); IC FPAA; IC ARM. Abstract The paper presents a solution to improve the accuracy of arrhythmia recognition based on the integration of multiple classifiers using the binary decision tree. The solution uses as the single classifiers the classical MLP (Multi Layer Perceptron), neuro-fuzzy TSK network (Takaga-Sugeno-Kang), SVM (Support Vectơ Machines) and RF (Random Forest). The Hermite basis functions were used to generate the feature vectơs together with 2 time-based features: the last R-R period and the average of last 10 R-R periods. The proposed solution was tested with ECG signals taken from 2 databases MIT-BIH (Massachusetts Institute of Technology, Boston’s Beth Israel Hospital) and MGH available at http://physionet.org. Keywords: Neural network; MLP; TSK; SVM; Integrated System; Decision Tree; Hermite Basis Functions; Electrocardiogram (ECG) Signals; IC FPAA; IC ARM. CÁC CHỮ VIẾT TẮT IC Intergrated Circuit MIT-BIH MIT-BIH Arrhythmia Database ARM Advanced RISC Machine MGH/MF MGH/MF Waveform Database DT Decision Tree MLP Multi Layer Perceptron Network ECG ElectroCardioGram PC Personal Computer FN False Negative QRS QRS Complex FP False Positive RF Random Forest FPAA Field Programable Analog Arrays SD Secure Digital SVD Singular Value Decomposition Người phản biện: 1. PGS.TS. Trần Vệ Quốc SVM Support Vectơ Machines 2. PGS.TS. Bạch Long Giang Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019 27
  2. NGHIÊN CỨU KHOA HỌC 1. ĐẶT VẤN ĐẾ - Cần xây dựng phương pháp tổng hợp phù hợp, nếu phối hợp không tốt thì sẽ làm kết quả kém đi. Tín hiệu điện tim ECG có độ biến đổi rất mạnh cả về hình dáng, biên độ ở các trường hợp bệnh lý. y1 Mô hình Tín hiệu cũng dễ bị ảnh hưởng bởi nhiễu từ bên nhận dạng đơn 1 ngoài, tình trạng sức khỏe hay tâm lý của bệnh nhân. Nên nhận dạng ECG là một trong những bài Mô hình y2 Hệ thống z toán khó. Thực tế hiện nay có nhu cầu về thiết bị nhận dạng đơn 2 tổng hợp đo điện tim thông minh có chức năng nhận dạng kết quả tự động các trường hợp bệnh lý, yêu cầu giải pháp nhận dạng cần có độ chính xác cao và phân biệt ECG yM Mô hình được nhiều loại bệnh để có thể áp dụng cho nhiều nhận dạng đơn M đối tượng bệnh nhân,… Hình 1. Sơ đồ chung của mô hình phối hợp Xuất phát từ những nhu cầu thực tế trên, mục tiêu đặt ra của bài báo này là đề xuất một giải pháp để Sơ đồ khối tổng quát của giải pháp phối hợp được nâng cao chất lượng nhận dạng tín hiệu điện tim trình bày như trên hình 1, trong đó các hệ thống (giảm số mẫu nhận dạng sai). nhận dạng đơn sẽ xử lý cùng một tín hiệu đầu vào từ đối tượng (nhưng theo các cách khác nhau) và Hiện nay, đã có rất nhiều các giải pháp khác nhau đầu ra của các hệ thống nhận dạng đơn sẽ tạo để nâng cao chất lượng nhận dạng tín hiệu điện thành đầu vào của khối tổng hợp, kết quả của khối tim ECG được các tác giả trong nước và quốc tế tổng hợp cũng sẽ là kết quả nhận dạng cuối cùng. nghiên cứu và công bố, như từ khâu thu thập, tiền xử lý, trích chọn đặc tính hay khối nhận dạng (phi Từ mục đích đặt ra ở trên, qua tìm hiểu, phân tích tuyến). Đa số các giải pháp đều ở dạng “mô hình những ưu điểm của các giải pháp nâng cao chất đơn”, một số ít các giải pháp ở dạng “mô hình phối lượng nhận dạng tín hiệu điện tim ECG, bài báo hợp”. Như trong nghiên cứu [1], tác giả kết hợp lựa chọn theo hướng nghiên cứu thứ hai, tức là sử hai mô hình đơn là SVM và PSO (Particles Swarm dụng mô hình phối hợp song song nhiều mô hình Optimization) kết quả thử nghiệm trên bộ cơ sở dữ nhận dạng đơn. liệu L MIT-BIH có độ chính xác tăng khoảng 4% so Một số phương pháp tổng hợp kết quả đã được với khi sử dụng SVM đơn lẻ, hay như trong công các tác giả khác áp dụng như [5, 6]: trình [4] tác giả kết hợp mạng logic mờ Fuzzy KNN (Fuzzy K Nearest Neighbors) và mạng MLP cho - Biểu quyết theo đa số (Majority voting). kết quả có độ chính xác được cải thiện từ 97,3% - Biểu quyết có trọng số (Weighted voting). lên 98%. - Tổng hợp theo xác suất điều kiện Bayes,… Xu thế đang phát triển hiện nay là sử dụng các Bài báo này đã đề xuất sử dụng Cây quyết định mô hình phối hợp để nhận dạng, nhất là các bài nhị phân (Binary Decision Tree) làm khối tổng toán đòi hỏi độ nhận dạng có chính xác cao như hợp kết quả và các mô hình nhận dạng đơn được nhận dạng tín hiệu điện tim ECG, mô hình sử dụng sử dụng là: mạng nơron kinh điển MLP, mạng nhiều mô hình nhận dạng đơn để đưa ra các kết nơron logic mờ TSK, máy vectơ hỗ trợ SVM và luận (có thể khác biệt) sau đó thêm một khâu xử rừng ngẫu nhiên RF. Các mô hình đơn này được lý nữa để tổng hợp lại các kết quả từ các mô hình lựa chọn do đây là các kết quả đã được công bố nhận dạng đơn để đưa ra kết luận cuối cùng, một trên các tạp chí và hội thảo quốc tế nên đảm bảo số ưu điểm của giải pháp “mô hình phối hợp”: được sự khách quan và tính chính xác [7], đồng thời cũng là những kết quả đươc thực hiện trên - Mỗi “mô hình đơn” được coi như một chuyên gia cùng một bộ số liệu đầu vào nên việc so sánh sẽ độc lập, việc phối hợp nhiều chuyên gia sẽ cho kết thuận tiện và có tính thuyết phục, trong đó phương quả đáng tin cậy hơn. pháp rừng ngẫu nhiên RF được nhóm tác giả xây - Sử dụng các đánh giá từ nhiều góc độ, từ nhiều dựng thêm ở trong bài báo này. phương pháp khác nhau nên thông tin có thể Theo hình 2, giả thiết mỗi khối nhận dạng đơn Ci phong phú hơn dẫn tới chất lượng quyết định sẽ sẽ tạo ra đầu ra kết quả tương ứng yi (i = 1,2,...,M) cao hơn. nó là một giá trị chứa mã nhận dạng. Khi đó đầu Tuy nhiên, mô hình này cũng có một số nhược vào của cây quyết định sẽ là vectơ tổng hợp điểm như: x = [yi, yi,...yM]. Đầu ra của Cây quyết định z sẽ là - Hệ thống sẽ cồng kềnh, phức tạp hơn. kết luận cuối cùng về nhịp tim đang xử lý. 28 Tạp chí Nghiên cứu khoa học,Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019
  3. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA y1 3. CÁC MÔ HÌNH NHẬN DẠNG ĐƠN C1 3.1. Mạng nơron MLP Tổng hợp Thu thập y2 Trích chọn kết quả = z Mạng MLP là mạng nơron phổ biến, nó là một và tiền C2 đặc tính Cây quyết xử lý mạng truyền thẳng với các phần tử cơ bản gọi là định .. ECG nơron. Trong bài báo sử dụng mạng MLP với một . yM lớp ẩn có cấu trúc như hình 5. Nhiệm vụ đặt ra CM là phải xác định cấu trúc cố định cho mạng MLP: Hình 2. Mô hình kết hợp sử dụng cây quyết định số lớp ẩn, hàm truyền đạt của mỗi lớp, số lượng 2. CÂY QUYẾT ĐỊNH nơron trên mỗi lớp, trọng số ghép nối giữa nơron trong mô hình MLP có thể được điều chỉnh lại cho Cây quyết định DT (Decision Tree) là một mô hình phù hợp trong quá trình học để xuất các tín hiệu phân loại dữ liệu kinh điển đã được sử dụng rất đầu ra mong muốn. Thuật toán của quá trình học rộng rãi trong nhiều ứng dụng thực tế. Cây thường được mô tả ở dạng cấu trúc phân tầng như trên được sử dụng cho mô hình MLP trong bài báo này hình 3. Cây gồm một tập hợp các nút và nhánh với đã được đề xuất bởi Levenberg và Marquardt [9]. các điều kiện sau: - Tồn tại một nút được gọi là nút gốc. - Nút chứa điều kiện phân nhánh. - Ở nút lá (không có nhánh con) thì kết quả nhận dạng sẽ là kết quả chung của lá. Cây quyết định có các nút điều kiện đơn giản nhưng do phối hợp nhiều nút nên ta có được hàm phân chia có độ phi tuyến cao phù hợp với các bài toán phân loại phức tạp, nhưng việc xây dựng các điều kiện nút vẫn tương đối đơn giản (bài báo sử dụng thuật toán ID3 để xây dựng cây). ĐốiĐối tượng tượng nhận dạng nhận dạng Input Hidden Output layer layer layer X=? Hình 5. Mạng MLP với một lớp ẩn X=A X=C X=B 3.2. Mạng nơron mờ TSK AA BB CC Mô hình nhận dạng đơn thứ hai được sử dụng trong bài báo là mạng Takagi-Sugeno-Kang (TSK). Hình 3. Ví dụ về cấu trúc của cây quyết định Mạng TSK đã được trình bày khá chi tiết trong [9] nên trong bài báo này sẽ không trình bày lại nữa, Trong bài báo sử dụng cây nhị phân (bậc 2) để bài báo sử dụng mô hình TSK có cấu trúc như đơn giản hóa việc mô tả các thuật toán, điều này trong nghiên cứu [7, 8]. không làm giảm tính tổng quát của cây do một cây bậc bất kỳ đều có thể chuyển về một cây nhị phân 3.3. Mô hình phân loại SVM tương đương như trong hình 4. Mô hình nhận dạng đơn thứ ba dùng trong bài Đối tượng nhận Đối tượng nhận dạng dạng Đối tượng Đối tượng nhận nhận dạng dạng báo này là SVM (Support Vectơ Machine) hay còn X=? X=A gọi là máy vectơ hỗ trợ. Mặc dù mô hình SVM X=A X≠ A chỉ phân chia dữ liệu thành hai lớp, tuy nhiên việc X=A X=C X=B phân loại đối với nhiều lớp hơn cũng không hề AA BB CC AA X=B phức tạp, có thể áp dụng phương pháp một chọi X=B X≠ B một, hay một chọi tất cả như trong nghiên cứu [5]. BB CC Phương pháp hiệu quả hơn là phương pháp một chọi một, ở phương pháp này nhiều mạng SVM được xây dựng để phân loại trong tất cả các tổ Hình 4. Phương pháp chuyển một nút bậc cao (hình hợp của hai lớp dữ liệu. Với N lớp, chúng ta phải trái) thành một nút nhị phân (bậc 2) (hình phải) xây dựng mạng SVM đơn lẻ. Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019 29
  4. NGHIÊN CỨU KHOA HỌC 3.4. Rừng ngẫu nhiên RF càng lớn, hay nói cách khác hàm sẽ chứa nhiều thành phần bậc càng cao. Đồng thời dáng điệu Mô hình nhận dạng đơn cuối cùng dùng trong bài của các hàm cũng khá tương đồng với hình dạng báo này là mô hình rừng ngẫu nhiên RF (Random các thành phần cơ bản trong tín hiệu ECG. Đây Forest) được phát triển từ L. Breiman (2001) [3], chính là cơ sở của việc sử dụng hàm Hermite để cấu trúc cơ bản của mô hình RF là tập hợp số phân tích tín hiệu điện tim ECG. lượng lớn N các cây quyết định không cắt tỉa, cấu trúc của mỗi cây quyết định được huấn luyện ngẫu nhiên từ một tập dữ liệu mẫu biết trước. Các bước tạo cấu trúc của RF: - Đầu vào là tập dữ liệu dùng để huấn luyện. - Mỗi mô hình RF là tập hợp N cây quyết định với N được lựa chọn trước. - Cấu trúc của mỗi cây quyết định được huấn luyện bởi một tập mẫu lấy ngẫu nhiên trong bộ mẫu chung. - Các cây quyết định đơn không cần sử dụng các thuật toán cắt tỉa để giảm nút lá hoặc để giảm số tầng của cây. Hình 6. Đồ thị của hàm Hermite bậc n: - Khâu tổng hợp các kết quả nhận dạng từ N cây a) n=0; b) n=1; c) n=3; d) n=10 quyết định phổ biến sử dụng phương pháp bỏ phiếu theo đa số để đưa ra kết quả cuối cùng cho RF. Để biểu diễn tín hiệu điện tim s(t) theo N hàm Hermite đầu tiên như trong công thức (3), ta sử Như vậy đối với một mẫu dữ liệu mới đưa vào để dụng phân tích theo các giá trị kỳ dị SVD (Singular kiểm tra, trước tiên nó được đưa qua N cây quyết định để phân loại, mỗi cây sẽ có 1 kết quả riêng Value Decomposition) để tìm nghiệm tối ưu của hệ (có thể giống hoặc khác nhau) và N kết quả này phương trình bậc nhất có số phương trình nhiều sẽ đưa vào khâu tổng hợp để xử lý và đưa ra kết hơn số ẩn, chi tiết có thể tìm hiểu trong [7, 8]. quả cuối cùng. N−1 s(t) ≈ ∑ ci ⋅ψi (t) (3) 4. TRÍCH CHỌN ĐẶC TÍNH VÀ CƠ SỞ DỮ LIỆU i=0 TÍN HIỆU ĐIỆN TIM ECG 4.1. Trích chọn đặc tính tín hiệu điện tim Bài báo sử dụng các hàm cơ sở Hermite (Hermite Basis Functions) để khai triển các phức bộ QRS nhằm lấy các hệ số khai triển làm vectơ đặc trưng của tín hiệu. Ngoài ra ta còn sử dụng thêm hai (a) (b) đặc tính về thời gian: khoảng cách giữa hai đỉnh R liên tiếp, giá trị trung bình của 10 khoảng cách R-R cuối cùng. Hàm Hermite có công thức như sau: # %! 𝜓𝜓! (𝑥𝑥) = (√𝜋𝜋 ⋅ 2! ⋅ 𝑛𝑛!)"$ 𝑒𝑒 " $ 𝐻𝐻! (𝑥𝑥) (1) (c) (d) Với H n ( x) là đa thức Hermite được định nghĩa ở dạng đệ quy: Hình 7. Xấp xỉ tín hiệu ECG bằng N hàm Hermite đầu tiên: a) N=5; b) N=10; c) N=12; d) N=16 𝐻𝐻!"# (𝑥𝑥) = 2𝑥𝑥 ⋅ 𝐻𝐻! (𝑥𝑥) − 2𝑛𝑛 ⋅ 𝐻𝐻!$# (𝑥𝑥) (2) Từ hình 7 ta có thể nhận thấy tín hiệu ECG và nhất Cho n ≥ 1 với H 0 ( x) ∫ 1; H1 ( x) = 2 x. là đoạn phức bộ QRS đã được xấp xỉ rất tốt khi sử dụng 16 hàm Hermite cơ sở đầu tiên, sai số tại Quan sát trên hình 6 ta có thể bậc của hàm các đỉnh Q, R và S nhỏ, trong hình 8 ta thấy ngay Hermite càng cao thì tốc độ biến thiên của hàm cả với các trường hợp bệnh lý, tín hiệu biến thiên 30 Tạp chí Nghiên cứu khoa học,Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019
  5. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA mạnh thì việc khai triển tới 16 hàm Hermite cơ sở Bảng 2. Bảng phân chia số lượng mẫu học và mẫu đầu tiên vẫn khá tốt. kiểm tra của 2 loại nhịp Tổng số Số mẫu Số mẫu Loại nhịp mẫu học kiểm tra Normal 2000 1065 935 Abnormal 4643 2546 2133 Tổng 6643 3611 3068 b) Cơ sở dữ liệu MGH Bộ cơ sở dữ liệu thứ hai là MGH [11], bộ CSDL này gồm có 250 bản ghi của tín hiệu ECG, thu thập từ 250 bệnh nhân tim mạch tại các phòng chăm sóc đặc biệt, phòng mổ, phòng thí nghiệm thông tim,... tại Bệnh viện Đa khoa Massachusetts. Bài báo lựa chọn sử dụng các mẫu tín hiệu ECG Hình 8. Hình ảnh xấp xỉ tín hiệu ECG bằng 16 hàm của 20 bản ghi có mã số là: 029, 030, 058, 105, Hermite đầu tiên đối với một số loại nhịp tim khác 106, 107, 108, 110, 111, 114, 117, 119, 121, 123, 124, 125, 128, 131, 137, 142, lấy ra tổng 4500 Tập hợp 16 các giá trị này được sử dụng để tạo mẫu với 3 loại nhịp: bình thường (N - Normal thành vectơ đặc tính của tín hiệu điện tim. Ngoài sinus rhythm), nhịp ngoại tâm thu thất (V - ra sử dụng thêm hai đặc tính về thời gian: khoảng Premature ventricular contraction) và loạn nhịp cách giữa hai đỉnh R liên tiếp R-R, giá trị trung bình của 10 khoảng cách R-R cuối cùng. Như vậy, trên thất (S - Supraventricular premature beat). Số vectơ đặc tính có 18 giá trị. lượng chi tiết số mẫu sử dụng được thống kê chi tiết trong bảng 3 và bảng 4 dưới đây. 4.2. Cơ sở dữ liệu của tín hiệu điện tim ECG Bảng 3. Bảng phân chia số lượng mẫu học và mẫu a) Cơ sở dữ liệu MIT-BIH kiểm tra của 3 loại nhịp Bộ cơ sở dữ liệu tín hiệu điện tim ECG đầu tiên sử Loại Tổng số Số mẫu Số mẫu dụng trong bài báo là bộ cơ sở dữ liệu về chứng nhịp mẫu học kiểm tra loạn nhịp tim nổi tiếng MITBIH [2], lựa chọn lấy N 3000 1997 1003 các bản ghi của 19 bệnh nhân (mã số trong cơ sở S 750 502 248 dữ liệu là 100, 105, 106, 109, 111, 114, 116, 118, V 750 501 249 119, 124, 200, 202, 207, 208, 209, 212, 214, 221 Tổng 4500 3000 1500 và 222), phân loại 6 kiểu rối loạn nhịp tim được Bảng 4. Bảng phân chia số lượng mẫu học và mẫu xem xét là: block nhánh trái (L), block nhánh phải kiểm tra của 2 loại nhịp (R), ngoại tâm thu nhĩ (A), ngoại tâm thu thất (V), rung thất (I) và tâm thất lỗi nhịp (E) và 1 kiểu nhịp Tổng số Số mẫu Số mẫu Loại nhịp mẫu học kiểm tra bình thường (N). Số lượng chi tiết mẫu lấy từ bản Normal 3000 1997 1003 ghi của 19 bệnh nhân được thống kê chi tiết trong Abnormal 1500 1003 497 bảng 1 và bảng 2 dưới đây: Tổng 4500 3000 1500 Bảng 1. Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 7 loại rối loạn nhịp tim từ CSDL 5. KẾT QUẢ TÍNH TOÁN MIT-BIH 5.1. Kết quả thử nghiệm trên bộ cơ sở dữ liệu Loại Tổng số Số mẫu Số mẫu MIT-BIH nhịp mẫu học kiểm tra a) Nhận dạng 7 loại nhịp tim N 2000 1065 935 L 1200 639 561 Với bốn mô hình nhận dạng đơn MLP, SVM, TSK, R 1000 515 485 RF trong bài báo, các thông số của các mô hình A 902 504 398 này được huấn luyện độc lập trên cùng một bộ dữ V 964 549 451 liệu học, có kết quả như sau: I 472 271 201 - Đầu tiên, với cấu trúc của mô hình MLP có 1 E 105 68 37 lớp ẩn, với 20 nơron, trong đó có 7 nơron đầu ra Tổng 6643 3611 3068 (tương ứng với 7 loại rối loạn nhịp tim). Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019 31
  6. NGHIÊN CỨU KHOA HỌC - Còn đối với các thông số của mô hình SVM: với Số mẫu nhận dạng sai 7 lớp và theo phương pháp 1 chọi 1 để tìm ra lớp chiến thắng trong mô hình SVM. Cho bộ mẫu có 7 lớp nên nhóm tác giả phải xây dựng 21 mạng SVM đơn lẻ cho từng cặp tổ hợp 2 loại tín hiệu một lúc. - Cấu trúc của mạng TSK có 21 luật suy luận và 7 kết quả đầu ra. - Cuối cùng mô hình RF có 100 cây quyết định, mỗi cây có tối đa 9 tầng, tổng hợp kết quả theo phương pháp bỏ phiếu theo đám đông. Hình 9. Đồ thị cột thể hiện số mẫu nhận dạng sai Tất cả kết quả đầu ra từ các mô hình nhận dạng của các mô hình nhận dạng - bộ cơ sở dữ liệu đơn trên sẽ được đẩy vào đầu vào cho Cây quyết MIT-BIH - phân loại 7 loại nhịp tim định DT, và sẽ có thêm một quá trình học nữa để b) Nhận dạng hai loại nhịp tim bình thường và xây dựng các thông số cho Cây quyết định DT, kết bất thường quả cuối cùng của quá trình nhận dạng tín hiệu Thực hiện tương tự như đối với khi các mô hình điện tim ECG là đầu ra của Cây quyết định DT. nhận dạng 7 loại nhịp tim ở mục (a), ta xây 4 mô Đối với 4 mô hình nhận dạng đơn trên ta sẽ thử hình nhận dạng đơn MLP, SVM, TSK, RF và có kết nghiệm các trường hợp tổng hợp kết quả từ 3 mô quả như sau: hình (có 4 khả năng phối hợp là MLP-TSK-SVM; MLP-TSK-RF; MLP-RF-SVM và RF-TSK-SVM) và - Đầu tiên, với cấu trúc của mô hình MLP có 1 có 1 mô hình phối hợp cả 4 mô hình đơn MLP- lớp ẩn, với 20 nơron, trong đó có 2 nơron đầu ra SVM-TSK-R. Sử dụng chung một bộ dữ liệu mẫu (tương ứng với hai loại nhịp tim bình thường và để kiểm tra mô hình nhận dạng. Kết quả kiểm tra bất thường). này sẽ được sử dụng để so sánh với kết quả của - Còn đối với các thông số của mô hình SVM chỉ các nghiên cứu trước. Trong bảng 5 và hình 9 thể cần xây dựng với 1 lớp và theo phương pháp 1 hiện kết quả sai số kiểm tra của 4 mô hình nhận chọi 1 để phân loại hai loại nhịp tim bình thường dạng cơ sở MLP, TSK, SVM, RF và 4 mô hình và bất thường. phối hợp. Tất cả các mạng mô hình phân loại đầu tiên sẽ được huấn luyện trên cùng một bộ dữ liệu - Cấu trúc của mạng TSK có 18 luật suy luận và 2 học và sau đó được kiểm tra trên một bộ dữ liệu kết quả đầu ra. kiểm tra khác. - Cuối cùng mô hình RF có 100 cây quyết định, Bảng 5. Kết quả nhận dạng 7 loại nhịp (CSDL mỗi cây có 9 tầng, tổng hợp kết quả theo phương MIT-BIH) bằng các mô hình đơn và các mô hình pháp bỏ phiếu theo đám đông. kết hợp Bảng 6. Kết quả nhận dạng hai loại nhịp (CSDL MIT- Hệ thống phân loại Sai số Sai số (%) BIH) bằng các mô hình đơn và các mô hình kết hợp MLP 110 3,59 TSK 100 3,26 Hệ thống phân loại Sai số Sai số (%) SVM 60 1,96 MLP 39 1,27 RF 70 2,28 TSK 41 1,34 MLP-TSK-SVM 38 1,24 SVM 26 0,85 MLP-TSK-RF 43 1,40 RF 37 1,21 MLP-RF-SVM 40 1,30 Tích hợp MLP-TSK-SVM 21 0,68 RF-TSK-SVM 39 1,27 Tích hợp MLP-TSK-RF 22 0,72 MLP-TSK-SVM-RF 37 1,21 Tích hợp MLP-RF-SVM 23 0,75 Từ bảng 5 ta có thể thấy kết quả của các mô hình Tích hợp RF-TSK-SVM 16 0,52 phối hợp sử dụng cây quyết định DT đã được cải Tích hợp MLP-TSK-SVM-RF 15 0,49 thiện hơn so với kết quả của các mô hình nhận dạng đơn. Chất lượng của mô hình phối hợp phụ Từ bảng 6 ta có thể thấy đối với trường hợp phân thuộc vào chất lượng của từng mô hình nhận dạng loại hai loại nhịp tim bình thường và bất thường, ta đơn và số lượng mô hình đơn, thông thường số cũng thu được kết quả của các mô hình phối hợp lượng mô hình nhận dạng đơn càng lớn thì cho ra sử dụng cây quyết định DT cao hơn đáng kể so kết quả tổng hợp càng tin cậy hơn. với kết quả của các mô hình nhận dạng đơn. 32 Tạp chí Nghiên cứu khoa học,Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019
  7. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Tích hợp MLP-TSK-SVM 17 1,13 Số mẫu nhận dạng sai Tích hợp MLP-TSK-RF 20 1,33 Tích hợp MLP-RF-SVM 19 1,27 Tích hợp RF-TSK-SVM 18 1,20 Tích hợp MLP-TSK-SVM-RF 15 1,00 Số mẫu nhận dạng sai Hình 10. Đồ thị cột thể hiện số mẫu nhận dạng sai của các mô hình nhận dạng - bộ CSDL MIT-BIH - phân loại hai loại nhịp tim bình thường và bất thường 5.2. Kết quả thử nghiệm trên bộ CSDL MGH Để đánh giá thêm độ chính xác và tin cậy của mô hình nhận dạng phối hợp bằng Cây quyết định DT, Hình 12. Đồ thị cột thể hiện số mẫu nhận dạng sai của các mô hình nhận dạng - bộ CSDL MGH - phân bài báo thử nghiệm thêm với bộ CSDL MGH, và loại hai loại nhịp tim bình thường và bất thường thu được các kết quả như trong bảng 7 và bảng 8. Bảng 7. Kết quả nhận dạng ba loại nhịp (CSDL 5.3. Đánh giá kết quả MGH/MF) bằng các mô hình đơn và các mô hình Từ các kết quả thử nghiệm trên, ta có một số đánh kết hợp giá như sau: Hệ thống phân loại Sai số Sai số (%) - Qua các kết quả thử nghiệm trên bộ cơ sở dữ liệu MLP 66 4,40 MIT-BIH và MGH/MF (là được các nhóm nghiên TSK 73 4,87 cứu quốc tế thường dùng để tham chiếu), bài báo SVM 32 2,13 đã minh chứng được giải pháp kết hợp song song RF 96 6,40 nhiều mô hình nhận dạng cơ sở bằng Cây quyết Tích hợp MLP-TSK-SVM 25 1,67 định DT đã tiếp tục nâng cao chất lượng kết quả Tích hợp MLP-TSK-RF 30 2,00 nhận dạng tín hiệu điện tim ECG. Sai số kiểm tra Tích hợp MLP-RF-SVM 25 1,67 (số mẫu nhận dạng sai) của các mô hình kết hợp Tích hợp RF-TSK-SVM 25 1,67 đều thấp hơn so với các mô hình nhận dạng cơ sở. Tích hợp MLP-TSK-SVM-RF 21 1,40 - Riêng có một trường hợp bằng nhau - trong bảng 8, sai số của mô hình SVM và mô hình kết Số mẫu nhận dạng sai hợp MLP-TSK-RF có số mẫu nhận dạng sai là 20. 6. KẾT LUẬN Bài báo đã đề xuất được giải pháp nâng cao chất lượng nhận dạng tín hiệu điện tim ECG dựa trên việc sử dụng cây quyết định DT để phối hợp nhiều mô hình nhận dạng đơn. Các thuật toán đã phần nào được triển khai thử nghiệm trên các bộ mẫu số liệu kinh điển của quốc tế là MIT-BIH và MGH/ Hình 11. Đồ thị cột thế hiện số mẫu nhận dạng sai của MF đã được các nhóm nghiên cứu quốc tế thường các mô hình nhận dạng - bộ CSDL MGH - phân loại dùng để tham chiếu. ba loại nhịp tim Bảng 8. Kết quả nhận dạng hai loại nhịp (CSDL MGH/MF) TÀI LIỆU THAM KHẢO Hệ thống phân loại Sai số Sai số (%) [1] Bazi F. and Melgani Y. (2008), Classification of MLP 37 2,47 electrocardiogram signals with support vectơ TSK 62 4,13 machines and particle swarm optimization, SVM 20 1,33 IEEE Transactions on Information Technology RF 78 5,20 in Biomedicine, vol. 12(5), pp. 667- 677. Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019 33
  8. NGHIÊN CỨU KHOA HỌC [2] G. và R. Mark Moody, (2001), The impact of [7] Trần Hoài Linh, Phạm Văn Nam, Vương Hoàng the MIT-BIH Arrhythmia Database, IEEE Eng. Nam (2014), Multiple neural network integration in Medicine and Biology 20(3): 45-50. using a binary decision tree to improve the [3] L. Breiman (2001), Random forests. Machine ECG signal recognition accuracy, International Learning, Vol. 45, pp.5-32. Journal of Applied Mathematics and Computer Science. Volume 24, Issue 3, pp. 647-655. [4] O. Castillo, E. Ramírez, J. Soria (2010), Hybrid System for Cardiac Arrhythmia Classification [8] Trần Hoài Linh, Phạm Văn Nam, Nguyễn with Fuzzy K-Nearest Neighbors and Multi- Đức Thảo (2015), A hardware implementation Layer Perceptrons combined by a Fuzzy of intelligent ECG classifier, COMPEL: The Inference System, 2010 International Joint International Journal for Computation and Conference on Neural Networks (IJCNN), pp. Mathematics in Electrical and Electronic 1-6. Engineering, vol. 34, Iss: 3, pp. 905-919. [5] S.Osowski, L.Tran Hoai, T. Markiewicz (2006), [9] Trần Hoài Linh (2014), Mạng nơron và ứng Ensemble of neural networks for improved dụng trong xử lý tín hiệu. Nhà xuất bản Bách recognition and classification of arrhythmia. Khoa Hà Nội. Metrology for a Sustainable Development [10] S.Osowski, T. Markiewicz, L. Tran Hoai (2008), September, Rio de Janeiro, Brazil, pp. 17-22. Recognition and classification system of [6] S.Osowski, T. Markiewicz, L. Tran Hoai (2008), arrhythmia using ensemble of neural networks, Recognition and classification system of Article in Measurement, Vol. 41, pp. 610-617. arrhythmia using ensemble of neural networks, [11] http://www.physionet.org Article in Measurement, Vol. 41, pp. 610-617. THÔNG TIN TÁC GIẢ Đỗ Văn Đỉnh - Tóm tắt quá trình đào tạo, nghiên cứu (thời điểm tốt nghiệp và chương trình đào tạo, nghiên cứu): + Năm 1998: Tốt nghiệp Đại học chuyên ngành Tự động hóa, Trường Đại học Bách khoa Hà Nội + Năm 2005: Tốt nghiệp Thạc sĩ chuyên ngành Tự động hóa, Trường Đại học Bách khoa Hà Nội + Năm 2018: Tốt nghiệp Tiến sĩ chuyên ngành Điều khiển và Tự động hóa, Trường Đại học Bách khoa Hà Nội - Công việc hiện tại: Giảng viên, cán bộ phòng Khoa học công nghệ và hợp tác quốc tế, Trường Đại học Sao Đỏ - Các nghiên cứu chính là ứng dụng trí tuệ nhân tạo trong các giải pháp đo lường, điều khiển và tự động hóa, các thiết bị đo thông minh - Email: dodinh75@gmail.com - Điện thoại: 0982586160 Phạm Văn Kiên - Tóm tắt quá trình đào tạo, nghiên cứu (thời điểm tốt nghiệp và chương trình đào tạo, nghiên cứu): + Năm 2002: Tốt nghiệp Đại học chuyên ngành Sư phạm kỹ thuật Tin học, Trường Đại học Bách khoa Hà Nội + Năm 2007: Tốt nghiệp Thạc sĩ chuyên ngành Giáo dục nghề nghiệp, Trường Đại học Bách khoa Hà Nội liên kết với trường TU Dresden (Đức) - Công việc hiện tại: Giảng viên, Phó Trưởng Khoa, Trưởng Bộ môn Công nghệ thông tin, Khoa Điện tử - Tin học, Trường Đại học Sao Đỏ - Các nghiên cứu chính: Giải pháp phần mềm, kỹ thuật nhận dạng, trí tuệ nhân tạo - Điện thoại: 0986362233 34 Tạp chí Nghiên cứu khoa học,Trường Đại học Sao Đỏ, ISSN 1859-4190 Số 4 (67).2019
nguon tai.lieu . vn