Xem mẫu

  1. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA TẠP CHÍ NGHIÊN CỨU KHOA HỌC TRONG SỐ NÀY ĐẠI HỌC SAO ĐỎ Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Ứng dụng sác xuất thống kê trong hỗ trợ phân 5 Đỗ Văn Đỉnh loại bệnh ung thư máu Phan Văn Phùng Nguyễn Hữu Quảng Nghiên cứu và phát triển mô hình vật lý của pin 12 Lưu Thị Huế mặt trời Vũ Hoàng Giang Phạm Đức Khẩn Phương pháp DEC-SVM phân lớp dữ liệu mất 17 Phạm Thị Hường cân bằng Phạm Văn Kiên Đỗ Ngọc Quỳnh Phân loại web đồi trụy dựa vào văn bản và 26 Phạm Thị Hường hình ảnh Nguyễn Văn Thanh Thiết kế bộ điều khiển thích nghi trượt bền vững 35 Vũ Thị Yến sử dụng mạng nơron cho robot công nghiệp Nguyễn Hữu Quảng Lê Đức Thân LIÊN NGÀNH CƠ KHÍ - ĐỘNG LỰC Mô phỏng trường nhiệt khi hàn liên kết ống chữ 42 Ngô Hữu Mạnh K bằng phương pháp phần tử hữu hạn Mạc Văn Giang Nghiên cứu thực nghiệm đặc tính tăng tốc của 48 Vũ Thành Trung ô tô Ngô Thị Mỹ Bình Nghiên cứu, thí nghiệm mô hình thiết bị triệt 52 Lưu Quang Hưng tiêu dao động gây ra bởi dẫn xuất của dòng xoáy Nguyễn Đức Hải đối với đường ống biển Nguyễn Ngọc Đàm NGÀNH KINH TẾ Lao động - việc làm và vấn đề phát triển nông 59 Mạc Thị Liên thôn mới tại Việt Nam hiện nay Định hướng đào tạo nhân lực ngành Kế toán 67 Đinh Thị Kim Thiết trong bối cảnh cuộc Cách mạng công nghiệp 4.0 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 1
  2. TẠP CHÍ NGHIÊN CỨU KHOA HỌC NGHIÊN CỨU KHOA HỌC TRONG SỐ NÀY ĐẠI HỌC SAO ĐỎ Số 4(63).2018 LIÊN NGÀNH HÓA HỌC - CÔNG NGHỆ THỰC PHẨM Nghiên cứu cơ chế phản ứng của gốc etinyl 75 Vũ Hoàng Phương (C2H) với phân tử silan (SiH4) Lê Văn Thủy Nghiên cứu động học, các mô hình đẳng 82 Lê Văn Thủy nhiệt và tối ưu hóa quá trình hấp thụ ion chì Vũ Hoàng Phường bằng chitosan Ảnh hưởng của nanosilica và tác nhân liên kết 90 Hoàng Thị Hòa bis (3-trietoxysilyl propyl) tetrasulphit (Si69) tới Tăng Thị Phụng tính chất của cao su EPDM/silica nanocompozit LIÊN NGÀNH KHOA HỌC TRÁI ĐẤT - MỎ Nâng cao hiệu quả đào tạo hướng dẫn viên du 98 Nguyễn Thị Sao lịch tại Trường Đại học Sao Đỏ Trần Thị Mai Hương Thực trạng và giải pháp nâng cao chất lượng đào 105 Phạm Thị Huyền Trang tạo tiếng Anh tại Trường Đại học Sao Đỏ Đặng Thị Minh Phương LIÊN NGÀNH TRIẾT HỌC - XÃ HỘI HỌC - CHÍNH TRỊ HỌC Sử dụng sơ đồ tư duy trong giảng dạy học phần 112 Phạm Thị Hồng Hoa Những nguyên lý cơ bản của chủ nghĩa Mác - Nguyễn Thị Hiền Lênin ở Trường Đại học Sao Đỏ Tư tưởng Hồ Chí Minh về xây dựng lực lượng 121 Đặng Thị Dung dân quân du kích và vận dụng của Đảng bộ tỉnh Hải Dương trong kháng chiến toàn quốc chống thực dân Pháp (1946-1954) 2 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  3. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA SCIENTIFIC JOURNAL CONTENTS SAO DO UNIVERSITY No 4(63).2018 TITLE FOR ELECTRICITY - ELECTRONICS - AUTOMATION Application of probability statistics for 5 Do Van Dinh classification of leukemia cancer Phan Van Phung Nguyen Huu Quang Research and development for the 12 Luu Thi Hue photovoltaic emulator Vu Hoang Giang Pham Duc Khan Imbalanced data classification based on 17 Pham Thi Huong DEC-SVM Pham Van Kien Do Ngoc Quynh Pornographic web classification based on text 26 Pham Thi Huong and images Nguyen Van Thanh Design a robust adaptive sliding mode 35 Vu Thi Yen controller using neural network for industrial Nguyen Huu Quang robot manipulator Le Duc Than TITLE FOR MECHANICAL AND DRIVING POWER ENGINEERING Simulation of temperature field welding of K 42 Ngo Huu Manh pipe joint by finite element method Mac Van Giang Experimental research on the acceleration 48 Vu Thanh Trung characteristics of vehicles Ngo Thi My Binh Experiment research model test on vortex 52 Luu Quang Hung induced vibration VIV suppression device of Nguyen Duc Hai marine risers Nguyen Ngoc Dam TITLE FOR ECONOMICS Current situation of labor - employment and 59 Mac Thi Lien new rural development issue in Vietnam Human resource training in the context of 67 Dinh Thi Kim Thiet Industrial Revolution 4.0 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 3
  4. NGHIÊN CỨU KHOA HỌC SCIENTIFIC JOURNAL CONTENTS SAO DO UNIVERSITY No 4(63).2018 TITLE FOR CHEMISTRY AND FOOD TECHNOLOGY Study mechanism on the reaction of ethynyl 75 Vu Hoang Phuong radical (C2H) with silane molecular (SiH4) Le Van Thuy Study kinetic, isotherm models and optimize 82 Le Van Thuy the adsorption process lead ion by chitosan Vu Hoang Phuong Effects of nano-SiO2 and modified agent bis 90 Hoang Thi Hoa (3-triethoxysilyl propyl) tetrasulfide (Si69) on Tang Thi Phung properties of EPDM/silica nanocomposites TITLE FOR EARTH SCIENCES - MINING To improve efficiency of training tour guide at 98 Nguyen Thi Sao Sao Do University Tran Thi Mai Huong The situation and solutions to improve English 105 Pham Thi Huyen Trang training quality at Sao Do University Dang Thi Minh Phuong TITLE FOR PHILOSOPHY - SOCIOLOGY - POLITICAL SCIENCE Using mind map in teaching principles of Marxist 112 Pham Thi Hong Hoa and Lennist course section in Sao Do University Nguyen Thi Hien Ho Chi Minh’s congress on the development of 121 Dang Thi Dung the multi personal and military population of the Hai Duong province in the longterm foreign war (1946-1954) 4 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  5. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Ứng dụng sác xuất thống kê trong hỗ trợ phân loại bệnh ung thư máu Application of probability statistics for classification of leukemia cancer Đỗ Văn Đỉnh, Phan Văn Phùng, Nguyễn Hữu Quảng Email: dodinh75@gmail.com Trường Đại học Sao Đỏ Ngày nhận bài: 16/3/2018 Ngày nhận bài sửa sau phản biện: 15/7/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Cùng một bệnh ung thư máu nhưng có nhiều loại khác nhau như bạch cầu lymphô mãn tính, bạch cầu dòng tủy mãn tính, bạch cầu lymphô cấp tính và bạch cầu dòng tủy cấp tính với những biểu hiện gen của bệnh khác nhau dẫn đến điều trị khác nhau. Cùng với các kết quả xét nghiệm và sinh thiết thì việc phân tích những dữ liệu biểu hiện gen của bệnh thu thập được sẽ góp phần hỗ trợ các bác sĩ chẩn đoán chính xác đó là bệnh gì và có thể đưa ra phác đồ điều trị phù hợp cho từng loại bệnh. Bài báo này sẽ giới thiệu phương pháp ứng dụng xác suất thống kê đánh giá sự khác biệt giữa các biểu hiện gen của từng trường hợp khác nhau trong bệnh ung thư máu nói chung. Đây là phương pháp đơn giản nhưng hiệu quả góp phần nâng cao hiệu quả điều trị bệnh hơn. Từ khóa: Ung thư máu; thống kê; AML; ALL. Abstract In a process of treatment, we have to evaluate the effectiveness of cancer treatment. In leukemia cancer, we have four types such as chronic lymphocytic leukemia, chronic myeloid leukemia, acute lymphocytic leukemia and acute myeloid leukemia with different gene expression of the disease lead to different treatment. Along with the results of the tests and biopsies, the analysis of the gene expression data of disease will help doctors to diagnose the disease exactly and can provide a treatment regimen. There are many methods to evaluate the difference in group data. This article will introduce a statistical probabilistic approach that assesses the difference between the different present of the same type of leukemia, which contributes to the treatment of the disease more effectively. Keywords: Leukemia cancer; statistics; AML; ALL. 1. GIỚI THIỆU hưởng và thường tiến triển chậm. Tuổi thường mắc bệnh là trên 55 tuổi. Hầu như không gặp Sự thay đổi hoặc đột biến trong một phần ADN ở trẻ em; (2) Bệnh bạch cầu dòng tủy mãn tính của một gen có thể là biểu hiện của một bệnh (CML): các tế bào dòng tủy bị ảnh hưởng và giai nào đó. Nhưng rất khó khăn để tiến hành một đoạn đầu thường tiến triển chậm, phần lớn gặp xét nghiệm để phát hiện ra những đột biến xảy ra bởi vì các gen lớn xuất hiện ở rất nhiều vùng nơi ở người lớn; (3) Bệnh bạch cầu lymphô cấp tính mà các đột biến có thể xảy ra. Cho tới nay vẫn (ALL): là thể phát triển ác tính của các tế bào dòng chưa có nhà khoa học nào chỉ ra được nguyên lymphô và tiến triển rất nhanh, thường gặp nhất ở nhân gây ra bệnh ung thư máu, song nghi vấn trẻ em, người lớn đôi khi cũng có thể bị mắc; (4) hiện vẫn đang tập trung ở một số nguyên nhân Bệnh bạch cầu dòng tủy cấp tính (AML): các tế như: Nhiễm phóng xạ, ô nhiễm môi trường, yếu bào dòng tủy bị ảnh hưởng và tiến triển nhanh, có tố gen di truyền,… Bệnh ung thư máu [1] được thể xảy ra ở cả người lớn và trẻ em. Hiện phương phân thành bốn loại bệnh chính là (1) bạch cầu pháp điều trị ung thư máu đang được áp dụng lymphô mãn tính (CLL): các tế bào lymphô bị ảnh tại các nước: hóa trị, liệu pháp sinh học trị liệu, ghép tủy/cấy tế bào gốc, hóa trị và xạ trị, uống thuốc. Các bác sĩ có thể kết hợp hai phương pháp Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn điều trị trở lên. Xác định rõ loại bệnh sẽ giúp xác 2. PGS. TS. Nguyễn Long Giang định phác đồ điều trị hiệu quả hơn. Bài báo này sử Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 5
  6. NGHIÊN CỨU KHOA HỌC dụng phương pháp thống kê T-test để phân loại hai trong số bốn loại biểu hiện thường gặp trong bệnh ung thư máu [2]. Bộ cơ sở dữ liệu được sử dụng nghiên cứu bệnh ung thư máu được thu thập từ thí nghiệm microarray. Có nhiều phương pháp phân tích gen nhưng microarray là phương pháp phân tích hiện đại và mang lại hiệu quả cao với khả năng lai trên hàng chục nghìn lỗ gen và cho kết quả của chục hàng nghìn gen một lúc. Cùng với T-test, phân tích dữ liệu sẽ nhanh hơn. Việc sử dụng cơ sở dữ liệu gen để phát hiện ra đường dẫn truyền tín hiệu tế bào và gen sinh ung đã mang lại những hiểu biết mới về ung thư và cơ chế sinh ung. Với những hiểu biết này, một hệ thống những Hình 1. Gen chip của Affymetrix [8] cơ sở logic cho một liệu pháp điều trị mới đã được hình thành, đó là liệu pháp nhắm trúng đích. Đây Trên bề mặt, mỗi chip chứa hàng ngàn ngắn, tổng cũng là một trọng tâm chính của nghiên cứu bệnh hợp, trình tự ADN sợi đơn, cùng thêm đến các gen ung thư hiện nay và là hy vọng cho điều trị ung thư bình thường, và các biến thể (đột biến) của gen đó trong tương lai. đã được tìm thấy trong các cộng đồng người [7]. 2. PHƯƠNG PHÁP NGHIÊN CỨU Khi tiến hành thí nghiệm lai trên các gen chip ta sẽ thu được bộ cơ sở dữ liệu gen cần phân tích của 2.1. Công nghệ microarray và bộ cơ sở dữ một loại bệnh hay bệnh một số bệnh nhân nào đó. liệu gen Bản chất của dữ liệu thô từ các thí nghiệm Microarray là tấm kính hoặc silicon, hay màng microarray là các ảnh được lưu dưới dạng file ảnh nylon mang ma trận hai chiều của các gen. Công TIFF. Những ảnh này phải được đánh giá bằng nghệ ADN microarray là một công cụ được sử phần mềm phân tích ảnh để xác định các lỗ liên dụng để xác định xem các ADN từ một cá nhân cụ quan đến từng thành phần trên mảng và các phép thể chứa một đột biến ở các gen như BRCA1 và đo cường độ huỳnh quang của từng lỗ trong một BRCA2 trong ung thư vú. ADN microarray (thông kênh cũng như cường độ nền. Một số đánh giá thường được biết đến với tên gọi ADN chip hay khác như giá trị trung bình, điểm trung tâm, độ chip sinh học) là một tập hợp các điểm ADN siêu lệch tiêu chuẩn của cường độ các điểm ảnh đỏ nhỏ được gắn trên một giá thể rắn. Các nhà khoa và xanh… thu nhận được từ những phần mềm học sử dụng ADN microarray để đo một cách chuyên biệt sử dụng cho phân tích ảnh. đồng thời mức độ biểu hiện của lượng lớn gen hoặc các vùng đa gen của hệ gen. Mỗi điểm ADN chứa hàng picomoles (10-12 moles) của một trình tự gen đặc hiệu, được biết đến như các mẫu dò (probes hoặc reporters hay oligos). Chúng có thể là một đoạn ngắn của một gen hoặc một yếu tố ADN khác, được sử dụng để lai với một ADNc hoặc ARNc (hay ARN anti-sense) (được gọi là đích) dưới điều kiện nghiêm ngặt. Sự lai mẫu dò – đích thường được phát hiện và định lượng bởi các chất đánh dấu huỳnh quang (fluorophore- labeled), bạc (silver-labeled) hoặc sự phát quang bằng phản ứng hóa học (chemiluminescence- Hình 2. Ba mức xử lý dữ liệu trong các thí labeled) để xác định mức độ lặp lại của các trình nghiệm microarray tự acid nucleic trong đích. Một số công ty sản xuất Để nhận được ma trận biểu diễn giá trị đo mức microarray sử dụng phương pháp tương tự như biểu hiện gen cuối cùng, tất cả các đánh giá chất những người sử dụng để làm cho vi mạch máy lượng liên quan đến từng gen trong cùng một tính. Một gen chip microarray có kích thước rất mảng hoặc các mảng giống nhau phải được kết nhỏ như minh họa trên hình 1. Đây cũng là loại hợp với nhau và ma trận tổng phải được bình chip được sử dụng phân tích sự khác biệt về bệnh thường hóa để các mảng khác nhau có thể so ung thư máu được thử nghiệm kết quả trong phần sánh được với nhau như được minh họa trên thực nghiệm của bài báo. hình 2 [9]. 6 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  7. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA 2.2. Phương pháp T-test dạng có thể so sánh với dữ liệu khác. Giá trị t thực hiện kiểm định t, cho phép tính khả năng hai nhóm Như đã giới thiệu, ung thư máu có nhiều loại khác nhau một cách có ý nghĩa thống kê. nhưng trong phạm vi bài báo này, ta chỉ xét trên hai loại ung thư máu là AML và ALL. Câu hỏi đặt ra µ1 − µ2 là liệu cùng một loại gen biểu hiện ung thư máu thì t= (2) ở hai loại ung thư máu khác nhau có biểu hiện sự s khác biệt không? Và liệu dựa vào biểu hiện gen trong đó: ta có thể phân tách được các loại ung thư máu không? Kết quả ta mong muốn rút ra được là có t là giá trị thống kê; sự khác biệt hay không ở biểu hiện gen của cùng s là độ lệch chuẩn; một gen ở bệnh nhân của hai loại bệnh này. µi là giá trị trung bình dữ liệu từng nhóm. Để thực hiện phân loại hai bộ dữ liệu, bài báo sử dụng phương pháp thống kê T-test [4]. Một T-test Quan sát công thức trên ta nhận thấy giá trị của là một bài kiểm tra thống kê mà các thí nghiệm đặt t chính là tỉ số của tín hiệu và nhiễu, giá trị t càng ra một giả thuyết (hay H 0), có nghĩa là người thí lớn thì càng có ý nghĩa thống kê. nghiệm giả định không có sự khác biệt đáng kể - Bước thứ 5 là xác định bậc tự do của mẫu: Khi giữa hai nhóm. Trong nhiều trường hợp không chỉ dùng giá trị thống kê t, bậc tự do được xác định muốn biết các nhóm được cho rằng có sự khác dựa trên kích cỡ mẫu. Cộng số quan sát của mỗi biệt, thì sự khác biệt đó là xảy ra ngẫu nhiên hay nhóm và sau đó trừ đi hai. Ví dụ với df = 8 bậc tự đó là một sự khác biệt thực sự. Khi đó phải tính do thì có 5 quan sát ở nhóm thứ nhất và 5 quan toán thêm giá trị p - xác suất xảy ra ngẫu nhiên. sát ở nhóm thứ hai. Các giá trị nhỏ hơn giá trị p, có nhiều hơn giá trị khác nhau có ý nghĩa giữa hai nhóm [4]. - Bước cuối cùng là dùng bảng t để đánh giá mức ý nghĩa. Bảng giá trị thống kê t (hình 3) và bậc tự do. Để thực hiện đánh giá T-test, ta phải thực hiện những bước sau: - Xác định giả thuyết: Giả thuyết là một tuyên bố về số liệu thực nghiệm và sự khác biệt có thể xuất hiện trong tổng thể. Mọi thực nghiệm đều có một giả thuyết không và một giả thuyết nghịch. Nói một cách tổng quát, ta sẽ so sánh hai nhóm để thấy được liệu chúng giống hay khác nhau [5]. - Chọn mức ý nghĩa nhằm xác định độ khác biệt để có thể được xem là có ý nghĩa của dữ liệu: Mức ý nghĩa (còn được gọi là alpha) là ngưỡng mà bạn chọn để quyết định ý nghĩa. Nếu giá trị p nhỏ hơn hay bằng mức ý nghĩa cho trước, số liệu Hình 3. Ví dụ của bảng phân bố được coi là có ý nghĩa thống kê [10]. Tìm dòng chứa bậc tự do của dữ liệu và giá trị p - Xác định công thức độ lệch chuẩn. Độ lệch tương ứng với giá trị thống kê t mà bạn có. Cộng chuẩn này sẽ đo lường mức phân tán của dữ liệu. số quan sát của mỗi nhóm và sau đó trừ đi hai. Đây là thông tin về tính đồng nhất của mỗi điểm Cuối cùng ta dùng bảng t để đánh giá mức ý nghĩa. dữ liệu trong mẫu. 2.3. Ứng dụng T-test phân tích hai mẫu ∑(x − µ) 2 i (1) Để chạy một T-test trong Matlab đầu tiên phải xác s= N −1 định. Nếu một biến nào đó có sẵn trong danh sách (từ Excel, từ một ví dụ) nó có thể lấy ra bằng cách trong đó: cắt và dán các hàm. s là độ lệch chuẩn; - File Word: copy dữ liệu vào Matlab và thiết lập nó vào một biến. xi là đại diện mỗi giá trị; - File Text: sử dụng các câu lệnh trong Matlab (dữ µ là giá trị trung bình dữ liệu từng nhóm; liệu và file Matlab ở trong cùng một folder): load N là tổng số quan sát. filename.txt - Sau đó tính giá trị thống kê t của dữ liệu. Giá - File Excel: sử dụng câu lệnh num = trị thống kê t cho phép chuyển dữ liệu thành một xlsread(filename) Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 7
  8. NGHIÊN CỨU KHOA HỌC Theo lý thuyết các thiết lập cơ bản của một T-test 3.1. Cơ sở dữ liệu là một giá trị giả định (định nghĩa là “H” trong Hai bộ cơ sở dữ liệu về bệnh ung thư máu được Matlab). Giá trị giả định này không có nghĩa là sử dụng ở đây được lấy từ bộ cơ sở dữ liệu không có sự khác biệt giữa các nhóm. Nếu viết được lưu trong bộ cơ sở của St.Jude Children’s H = ttest (a, [giá trị giả định]) và ấn trả về, Matlab Research Hospital. Hai bộ số liệu này là của 44 sẽ trả về giá trị 0 hoặc 1; 1 nghĩa là giá trị giả bệnh nhân mắc bệnh bạch cầu cấp dòng lymphô định không chính xác và các sự khác biệt giữa hai (ALL) và 44 bệnh nhân mắc bạch cầu cấp dòng nhóm; 0 nghĩa là giá trị giả định chính xác: không tủy (AML), mẫu của 88 bệnh nhân này được lấy có sự khác biệt nào đáng kể. tại thời điểm chẩn đoán và thu được trên chip Affymetrix Hgu6800. Kết quả thu được là mức Đối với các mẫu không cùng loại ta sử dụng T-test biểu hiện của 12627 gen. Bộ số liệu ALL được 2 mẫu. minh họa trên hình 4. Và bộ số liệu AML được 3. KẾT QUẢ THỰC NGHIỆM minh họa trên hình 5 [3]. Hình 4. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân ALL Hình 5. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân AML 8 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  9. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Hai bộ số liệu trên bao gồm: ta có một nhóm 1 gồm bệnh nhân A, B, C và một nhóm 2 gồm bệnh nhân X, Y, Z thì hai nhóm độc - Cột thứ nhất là Probe set, là các hố gen hay là lập nhau. Nhưng nếu hai nhóm có chung 1 bệnh cái đầu dò, đây là các lỗ (hay giếng được gắn sẵn nhân thì hai nhóm không độc lập nhau. trên các giá microarray). Có tất cả 12627 lỗ gen ứng với 12627 gen khác nhau; - Biến so sánh phải tuân theo phân phối chuẩn Gaussian. - Cột thứ hai là gen được gắn trên các đầu dò của microarray; - Phương sai của hai nhóm bằng nhau hoặc gần bằng nhau. - Cột thứ ba trở đi là các biểu hiện gen ứng với từng gen của từng bệnh nhân đã được mã hóa - Các đối tượng phải được chọn ngẫu nhiên. thành số. Với 44 cột tương ứng với 44 bệnh nhân Kiểm định T hai mẫu để trả lời câu hỏi hai mẫu khác nhau. có cùng một luật phân phối, hay cụ thể hơn là Cả hai bộ số liệu đều được thể hiện cùng số lượng hai mẫu có thật sự có cùng trị số trung bình hay gen và gen trên các hố gen đều giống nhau. Tất không. Do đó, nhiệm vụ ở đây là phân tích bộ số cả các gen trong bộ số liệu này là tất cả các gen liệu này để xác định là có hay không sự khác được phát hiện ra trong mẫu xét nghiệm, bao gồm biệt biểu hiện của một gen ở hai bệnh ung thư cả gen biểu hiện ung thư máu và gen không biểu khác nhau hay không. Kết luận rút ra được sẽ hiện của ung thư máu. Ta chỉ thực hiện phân tích có ý nghĩa lâm sàng chẩn đoán bệnh và đưa ra một số gen có biểu hiện ung thư máu, trong 12627 được các khuyến cáo cho bác sĩ trong quá trình gen trong bộ số liệu, ta tìm và chọn ra khoảng 40 chữa bệnh cho bệnh nhân. gen để thực hiện nghiên cứu và phân tích số liệu. Để đơn giản và dễ dàng thao tác, nhóm tác giả Ung thư máu có nhiều loại nhưng trong phạm vi đã thực hiện xây dựng giao diện người dùng với bài báo này, ta chỉ xét trên hai loại ung thư máu là bộ cơ sở dữ liệu tích hợp các gen ung thư máu AML và ALL. Câu hỏi đặt ra là liệu cùng một loại chung. Điều này giúp dễ dàng thực hiện phân tích gen biểu hiện ung thư máu thì ở hai loại ung thư và đánh giá kết quả phân tích cũng như xử lý cơ máu khác nhau chúng có biểu hiện sự khác biệt sở dữ liệu. Trong giao diện này có ba phần chính: không? Và liệu dựa vào biểu hiện gen ta có thể GENE, DATA, RESULT. phân tách được các loại ung thư máu không?. Kết quả ta mong muốn rút ra được là có sự khác biệt hay không ở biểu hiện gen của cùng một gen ở bệnh nhân của hai loại bệnh này. 3.2. Kết quả Áp dụng lý thuyết thống kê vào hai bộ số liệu ung thư máu, kiểm định T-test hai nhóm [5] được định nghĩa bằng công thức sau: x1 − x2 t= (3) Hình 6. Giao diện kiểm tra biểu hiện gen của  s12 s22  bệnh ung thư máu  +   n1 n2  Từ bộ cơ sở dữ liệu nhận được mô tả trong phần trên ta lựa chọn một số gen đưa vào chương trình. trong đó: Các gen biểu hiện ung thư máu đã được sàng lọc từ 12627 gen là các gen sau đây: x1 và x2 là trung bình của hai nhóm; - Gene Mouse interleukin 2 (IL-2); s1 và s2 là độ lệch chuẩn của hai nhóm; - Gene Human metallothionein-I-A; n1 và n2 là số lượng mẫu của hai nhóm. - Gene Homo sapiens BRCA1-associated Trước khi thực hiện phương pháp kiểm định T ta protein 2 (BRAP2); phải tiến hành kiểm tra bộ số liệu yêu cầu đáp ứng những điều kiện hay giả định sau: - Gene Human homeobox protein Cdx2; - Hai nhóm so sánh phải hoàn toàn độc lập nhau. - Gene Human class I homeoprotein (HOXA9); Khi nói đến độc lập ở đây là nói đến hai nhóm - Gene H.sapiens MTCP1 gene; không có tương quan đến nhau. Độc lập có nghĩa là không có liên hệ với nhau. Ví dụ ở đây - Gene Homo sapiens Notch3 (NOTCH3); Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 9
  10. NGHIÊN CỨU KHOA HỌC - Gene Human aryl hydrocarbon receptor Nhưng khi thử nghiệm với gen Gene Human nuclear translocator (ARNT)... metallothionein-I-A, kết quả cho ra là: “Có sự khác biệt về biểu hiện gen giữa hai bệnh” và “Có ý nghĩa chẩn đoán bệnh”. Có nghĩa là biểu hiện của gen này có sự khác biệt giữa hai bệnh AML và ALL, kết quả này có thể giúp bác sĩ sàng lọc được hai bệnh ung thư máu này và giúp bác sĩ có những quyết định đúng đắn trong liệu pháp điều trị bệnh, chỉ cần điều trị vào những gen biểu hiện sự khác nhau giữa hai loại bệnh thì sẽ mang lại hiệu quả cao hơn khi điều trị vào tất cả các gen biểu hiện ung thư máu. Hình 7. Thông tin của gen được hiển thị Những gen mang lại kết quả có sự khác biệt là: Sau khi chọn được gen chuyển sang phần DATA, ta chỉ cần chọn Begin và End (vị trí của gen ta - Gene Human class I homeoprotein (HOXA9); chọn trong bộ cơ sở dữ liệu) tương ứng của gen - Gene Human metallothionein-I-A; như thông tin đã được hiển thị ở phần gen, sau đó ấn vào nút check, chương trình xử lý sẽ làm việc - Gene Homo sapiens Notch3 (NOTCH3). và kết quả sẽ được hiển thị ra ở phần RESULT. Một số gen biểu hiện cho bệnh ung thư máu như: Mouse interleukin 2 (IL-2) gene, Human metallothionein-I-A gene (I-A), Human class I homeoprotein (HOXA9) mRNA, Homo sapiens Notch3 (NOTCH3) mRNA… Những gen này đều là biểu hiện của bệnh ung thư máu, nhưng với mỗi một loại ung thư máu khác nhau thì sẽ có những biểu hiện gen khác nhau. Với các gen khác khi kết quả phân tích cho ra kết quả là “khác biệt” có nghĩa là gen đang được phân tích có khả năng sẽ Hình 8. Thao tác chọn vị trí của gen trong bộ cơ phân tách được hai loại bệnh AML và ALL, kết quả sở dữ liệu là “không khác biệt” có nghĩa là gen đang được phân tích không có khả năng phân tách được hai loại bệnh trên, có thể là dùng để phân tách các loại bệnh khác của ung thư máu. Với trường hợp kết quả là khác biệt, kết quả này có thể cho bác sĩ một Hình 9. Kết quả của việc chạy chương trình kiểm khuyến nghị là loại gen này có thể dùng để chữa tra biểu hiện của gen Mouse interleukin 2 (IL-2) trị bệnh, với trường hợp kết quả là “không khác gen của bệnh ung thư máu biệt” thì có thể cho bác sĩ khuyến nghị là bệnh nhân có thể không mắc AML hoặc ALL mà có thể Khi đưa vào kiểm tra, kết quả cho thấy gen Mouse dùng thêm các xét nghiệm khác để kết luận được interleukin 2 (IL-2) hiển thị là không có sự khác bệnh ung thư máu chính xác của bệnh nhân. biệt về biểu hiện gen giữa hai bệnh có nghĩa là gen không có tác dụng để phân tách được hai bệnh AML và ALL mặc dù gen này là một gen biểu hiện của ung thư máu. Hình 11. Kết quả phân tích không có sự khác biệt về biểu hiện gen giữa hai bệnh Vậy, không phải tất cả 12627 gen đều có biểu Hình 10. Kết quả phân tích có sự khác biệt về hiện mà chỉ biểu hiện ở một số gen nhất định. Đây biểu hiện gen giữa hai bệnh là những gen đặc trưng chỉ có trong ung thư máu. 10 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  11. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Cũng nhờ dựa vào việc phân tích những gen này [2]. Henrik R. Wulff, Bjorn Andersen, Preben Brandenhoff, có biểu hiện hay không có biểu hiện ta cũng có Flemming Buttler (1987). Statistics in Medicine. thể phân biệt được hai nhóm ung thư máu khác nhau là AML và ALL. Kết quả này sẽ góp phần [3]. T. Golub, D. Slonim, P. Tamayo, et al (1999). hỗ trợ cho bác sĩ trong việc chẩn đoán được Molecular classification of cancer: Class discovery chính xác loại bệnh ung thư máu riêng biệt nào and class prediction by gene expression. và từ đó có những phác đồ điều trị đúng đắn Bioinformatics & Computational Biology, 286 cho bệnh nhân. (1999), 531–537. 4. KẾT LUẬN [4]. J. Clerk Maxwell (1892). A Treatise on Electricity Bài báo đã đưa ra hướng nghiên cứu và xây dựng được chương trình xử lý và phân tích dữ liệu and Magnetism, 3rd ed., vol. 2. Oxford: Clarendon, đánh giá phân loại bệnh ung thư máu và giao diện pp.68–73. người dùng giúp đỡ bác sĩ trong việc phân loại [5]. John M. Cimbala (2014). Hypothesis Testing. bệnh ung thư máu. Chương trình đều được xây dựng và thực hiện trên phần mềm Matlab. Kết quả Penn State University. của chương trình phân loại bệnh ung thư máu đã [6]. John M. Cimbala (2010). Two Samples có thể đưa ra các khuyến nghị cho bác sĩ trong việc chẩn đoán được chính xác loại bệnh ung thư Hypothesis Testing. máu riêng biệt nào và từ đó có những phác đồ [7]. Microarray Bioinformatics. Dov Stekel, Cambridge điều trị đúng đắn cho bệnh nhân. Đặc biệt, kết quả University, 2003. nghiên cứu là bước khởi đầu cho việc chữa trị ung thư bằng phương pháp liệu pháp gen, có thể áp [8]. https://c1.staticflickr.com/3/2527/3764113525_ dụng cho rất nhiều các bệnh viện trên mọi miền Tổ d86f0edaa6_b.jpg. quốc đưa việc chữa trị ung thư ở nước ta lên một bước phát triển mới, nâng cao chất lượng cuộc [9]. Brazma, A., et al. (2001). Minimum information sống cho nhân dân. about a microarray experiment (MIAME) - toward standards for microarray data. Nature TÀI LIỆU THAM KHẢO Genetics, Vol. 29: p. 365-371. [1]. Bộ Y tế (2015). Hướng dẫn chẩn đoán và điều trị [10]. http://www.stat.yale.edu/Courses/1997-98/101/ một số bệnh lý huyết học. 22/4/2015. sigtest.htm. Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 11
  12. NGHIÊN CỨU KHOA HỌC Nghiên cứu và phát triển mô hình vật lý của pin mặt trời Research and development for the photovoltaic emulator 1 1 2 Lưu Thị Huế , Vũ Hoàng Giang , Phạm Đức Khẩn Email: phamduckhan@gmail.com 1 Trường Đại học Điện lực Hà Nội 2 Trường Đại học Sao Đỏ Ngày nhận bài: 4/9/2018 Ngày nhận bài sửa sau phản biện: 26/12/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Nghiên cứu khảo sát hoạt động của hệ thống năng lượng mặt trời đòi hỏi việc thực hiện nhiều thí nghiệm khác nhau liên quan đến đặc tính của pin mặt trời trong các điều kiện môi trường khác nhau. Hơn nữa, thí nghiệm ngoài trời khó khăn và chi phí cho hệ thống thí nghiệm thường lớn. Bài báo giới thiệu kết quả nghiên cứu phát triển mô hình vật lý của pin mặt trời bằng cách kết hợp một cách hợp lý các phần tử nguồn điện áp phụ thuộc, điôt và các điện trở. Mô hình tổng quát của pin mặt trời được mô phỏng trên phần mềm Proteus để đánh giá sơ bộ về đặc tính của một pin mặt trời công nghiệp. Sau đó, được thực hiện thí nghiệm với công suất bé. Kết quả thí nghiệm đã xác nhận tính khả thi, từ đó đề xuất phát triển bộ mô phỏng vật lý với công suất lớn hơn nhằm phục vụ cho việc khảo sát hoạt động của các môđun pin mặt trời công suất lớn. Từ khóa: Bộ mô phỏng; cường độ bức xạ mặt trời; đặc tính của pin mặt trời; mô phỏng; phần mềm Proteus. Abstract Investigation of photovoltaic (PV) system requires the implementation of various tests related to the PV characteristic in the conditions that input factors including insolation and operating temperature vary. Additionally, the difficulty of conducting outdoor tests and high-cost investment are usually the challenge of installing the system. The paper introduces the development PV emulator by appropriately combining dependent voltage source, diode and resistors. Generized model of PV is simulated in Proteus software in order to obtain the characteristic of an industrial PV. Following that, the experiment with low-rated emulator is carried out. Experiment results confirm the feasibility, and indicate the issues that need to be solved for constructing larger emulator. Keywords: Emulator; insolation; PV characteristic; simulation; proteus software. 1. GIỚI THIỆU CHUNG đầu tư, giảm chi phí vận hành... Về nguyên lý hoạt Sự phát triển của công nghệ phát điện bằng năng động, công suất phát ra của nguồn điện mặt trời lượng mặt trời đã trở nên khá phổ biến trên toàn phụ thuộc vào cường độ bức xạ mặt trời tại nơi thế giới thể hiện ở sự gia tăng về số lượng và lắp đặt thường biến thiên và không ổn định theo công suất phát của các hệ thống điện mặt trời. thời gian. Ở Việt Nam, các dự án nguồn điện sản xuất từ Để phục vụ cho nghiên cứu, khảo sát hệ thống pin năng lượng tái tạo trong đó có năng lượng mặt trời được khuyến khích phát triển và đã được đề mặt trời, nhiều bộ mô phỏng đã được xây dựng. cập tới trong Quy hoạch điện VII (điều chỉnh) với Ưu điểm chính của các bộ mô phỏng là có thể mục tiêu đạt công suất khoảng 12000 MW vào thay thế các tấm pin mặt trời thực tế trong nghiên năm 2030 [1]. cứu học tập về lĩnh vực liên quan và vượt qua Trong quá trình phát triển, công nghệ phát điện được hạn chế của hệ thống thí nghiệm với pin mặt bằng năng lượng mặt trời gặp phải một số vấn trời thực bao gồm: đề kỹ thuật cần cải thiện bao gồm yêu cầu nâng - Giá trị cường độ bức xạ mặt trời không phải luôn cao hiệu suất của hệ thống, giảm thiểu giá thành sẵn có ở mọi thời điểm. Người phản biện: 1. PGS.TS. Trần Vệ Quốc - Cường độ bức xạ mặt trời phụ thuộc nhiều vào 2. TS. Nguyễn Trọng Các điều kiện thời tiết. 12 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  13. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA - Thí nghiệm ngoài trời gặp nhiều khó khăn và Sơ đồ mạch điện của pin mặt trời được thể hiện khó lặp lại thí nghiệm với cùng điều kiện khí hậu. trên hình 2 [8, 9]. - Chi phí trang bị và lắp đặt hệ thống pin mặt trời thực. Thực tế các bộ mô phỏng đã được thương mại hóa thành sản phẩm hoàn chỉnh của nhiều hãng trên thế giới như: N8937APV Photovoltaic Array Simulator của Keysight technologies [2], Hình 2. Sơ đồ mạch tương đương của pin mặt trời SAS12010 Solar Array Simulator của Aplab [3], hay Chroma’s 62000H-S series Solar Array Trong đó thành phần chính của điện trở nối tiếp Rs Simulator của Chroma [4]. Các bộ mô phỏng công nghiệp thường được trang bị bộ điều khiển lập là điện trở của vật liệu bán dẫn, điện trở tiếp xúc, trình cho phép mô phỏng được các đặc tính đầu và các điện trở khác trên đường truyền công suất. ra vôn-ampe của pin mặt trời trong các điều kiện nhiệt độ, cường độ bức xạ mặt trời khác nhau. I I Nhược điểm chính của các bộ mô phỏng là có Chiều tăng Chiều giảm chi phí cao và đôi khi hạn chế về mở rộng ứng của Rs của Rp dụng. Vì vậy trong lĩnh vực nghiên cứu, sự phát triển các bộ mô phỏng trong phòng thí nghiệm đã thu hút được sự chú ý của nhiều nhà nghiên cứu. Yêu cầu của các bộ mô phỏng là có thể điều chỉnh V V được trong quá trình sử dụng, hơn nữa cần đáp ứng các yêu cầu về gọn nhẹ và chi phí thấp [5-10]. Hình 3. Sự ảnh hưởng của điện trở đến đặc tính Với mục tiêu phát triển hệ thống thí nghiệm cho vôn-ampe của pin mặt trời các môđun pin mặt trời, nghiên cứu này thực hiện tổng hợp và phân tích mô hình, mô phỏng Điện trở song song Rp là do sự không hoàn hảo đối tượng trên phần mềm và thực hiện một số thí của tiếp giáp p-n của pin và phần lân cận [8]. Sự nghiệm ở công suất thấp nhằm hướng đến việc dịch chuyển của đặc tính điển hình vôn-ampe (V-I) xây dựng một mô hình vật lý có công suất phù hợp của PV theo các điện trở được thể hiện trên hình 3. phục vụ cho nghiên cứu môđun pin mặt trời trong Quan hệ đặc tính V-I của PV tương ứng với mô phòng thí nghiệm. hình tổng quát trên hình 1 được biểu diễn bởi Bài báo được bố cục như sau. Mục 2 tổng hợp mô phương trình sau: hình tổng quát của pin mặt trời. Tiếp theo, mục 3 I = I ph − I s e ( q V + IRs ) / ( kTC A ) giới thiệu kết quả mô phỏng pin mặt trời trên phần − 1 − (V + IRs ) / R p (1) (1)   mềm Proteus. Quá trình xây dựng mô hình vật lý công suất bé và các thử nghiệm đặc tính liên quan trong đó: Iph là dòng quang điện; Is là dòng điện tối được trình bày trong mục 4. Cuối cùng các kết bão hòa của tế bào quang điện (ứng với khi tế bào luận và kiến nghị được đưa ra trong mục 5. quang điện được che tối, không nhận được photon); 2.MÔ HÌNH CỦA PIN MẶT TRỜI q là điện tích của một electron, q = 1,6.10-19 C; k là Mô hình nguyên lý cấu tạo của pin mặt trời như hằng số Boltzmann, k = 1,38.10-23 J/K; TC là nhiệt trên hình 1 [10]. độ làm việc của PV; A là hằng số lý tưởng; Rp là điện trở song song; Rs là điện trở nối tiếp trong sơ đồ tương đương của PV. Biểu thức xác định dòng điện quang điện và dòng điện bão hòa của tế bào quang điện được giới thiệu chi tiết trong nhiều tài liệu tham khảo, ví dụ xem [6, 7]. Trong ứng dụng thực tế, các pin mặt trời thường được nối song song, nối tiếp để tạo thành môđun hay dàn pin mặt trời để nâng cao công suất và đáp ứng yêu cầu về giá trị của điện áp và dòng điện. Khi đó mô hình của pin mặt trời có thể được thiết lập có dạng tương tự phương trình (1) với hiệu chỉnh số pin mặt trời nối song song (Np) và nối tiếp Hình 1. Sơ đồ nguyên lý cấu tạo của pin mặt trời (Ns) như sau: Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 13
  14. NGHIÊN CỨU KHOA HỌC (2) Mô hình của pin mặt trời ở hình 1 được lựa chọn trong nghiên cứu vì có đặc điểm đơn giản nhưng vẫn thể hiện được đặc tính I-V và P-V của pin mặt trời. Thực tế cho thấy rất nhiều nghiên cứu đến thời điểm hiện tại dựa vào mô hình này làm mô hình cơ sở [7]. Nội dung tiếp theo của bài báo giới thiệu trình tự thực hiện tiến tới xây dựng mô hình Hình 5. Các đường đặc tính V-I của pin mặt trời vật lý sử dụng trong phòng thí nghiệm với các cường độ bức xạ khác nhau 3. MÔ PHỎNG PIN MẶT TRỜI TRÊN PHẦN Hình 5 thể hiện kết quả mô phỏng họ đặc tính của MỀM PROTEUS PV (từ IPV1 đến IPV2) tương ứng với cường độ bức xạ khác nhau. Trước khi xây dựng mô hình vật lý của pin mặt trời thì việc mô phỏng mô hình lựa chọn, và kiểm Từ kết quả mô phỏng đặc tính của pin mặt trời tra các đặc tính của nó là rất cần thiết. Đây là cơ bằng phần mềm Proteus như là một bước chuẩn sở để xây dựng mạch in, mạch thực cho mô hình. bị để thiết kế mô hình vật lý của pin bằng thực Trong bài báo này tác giả sử dụng phần mềm nghiệm sẽ được trình bày trong mục 4. Protues để mô phỏng. 4. MÔ HÌNH VẬT LÝ CỦA PIN MẶT TRỜI VÀ Phần mềm Proteus miễn phí được sử dụng làm KẾT QUẢ THÍ NGHIỆM công cụ mô phỏng trong nghiên cứu này. Đây là 4.1. Giới thiệu mô hình vật lý phần mềm dễ sử dụng, trực quan và rất thuận tiện trong thiết kế ban đầu để chế tạo mạch in cho các Dựa vào sơ đồ trong hình 2, mô hình vật lý của bộ mô phỏng. pin mặt trời được xây dựng trên cơ sở kết hợp nguồn Iph và một điôt mắc song song. Thành phần Sơ đồ mô phỏng của pin mặt trời được thể hiện chính của dòng điện đầu ra là dòng quang điện, trên hình 4, trong đó: trong khi đó dòng qua điôt có giá trị nhỏ và có thể Nguồn điện áp một chiều V18 kết hợp biến trở tạo ra nhờ đặc tính vốn có của điôt. Trong thực RV4 để mô phỏng nguồn dòng điện Iph và điện trở tế, để tạo ra nguồn dòng điện thường gặp nhiều song song Rp trong mô hình trên hình 2. Mô tả chi khó khăn hơn (do yêu cầu phải kết hợp nhiều linh tiết của sự thay thế này được nêu trong mục 4.1. kiện điện tử công suất) so với nguồn điện áp phổ biến (có thể sẵn có hoặc tạo ra được bằng một số Ngoài ra trong sơ đồ sử dụng điôt D1, điện trở linh kiện đơn giản). Mặt khác trên cơ sở lý thuyết R54 mô phỏng cho Rs, và các điện trở từ R1 đến mạch điện, nguồn dòng điện Iph mắc song song R10 kết hợp với công tắc SW2 để thay đổi điểm với điện trở Rp có thể thay thế tương đương bằng làm việc V-I đầu ra của pin (dòng điện và điện áp một nguồn áp Eph nối nối tiếp với điện trở Rp: Eph được đo tương ứng bằng các khối ampe kế và = Rp.Iph, như đã được minh họa trong mô phỏng vôn kế một chiều). ở mục 3. Để xác nhận đặc tính của mô hình, thí nghiệm được tiến hành với sơ đồ nối mạch đơn giản như trên hình 6. Hình 4. Sơ đồ mô phỏng pin mặt trời trên phần mềm Proteus Hình 6. Sơ đồ nguyên lý mạch thí nghiệm 14 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  15. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA trong đó: Rp = 217 W, Rs = 0,22 W, R1 =1027 W, E = 12 V, R2 được thay đổi để tạo ra điện áp đầu (3) ra thay đổi trong hai trường hợp: Eph = 24 V và Thông số thu được trong hai thí nghiệm như sau: Eph = 18 V. Eph = 24 V: A = 5,887; Is = 0,0006416 A; 4.2. Kết quả thí nghiệm Eph = 18 V: A = 5,991; Is = 0,0005547 A. Sơ đồ mạch thí nghiệm trên hình 7 được xây dựng dựa vào sơ đồ nguyên lý ở hình 6. 4.3. Đề xuất nâng cao công suất của mô hình Thí nghiệm ở mục 4.1 được tiến hành với công suất bé trên cơ sở các linh kiện hiện có và điện áp nguồn hạn chế. Mô hình mạch thu được có thể dùng để mô phỏng cho một pin mặt trời điển hình. Để nâng cao công suất của mô hình và đáp ứng các yêu cầu trong thí nghiệm, bên cạnh việc sử dụng các biến trở có công suất phù hợp, cần nâng cao công suất của nguồn điện áp một chiều và Hình 7. Sơ đồ mạch thí nghiệm điện áp của nguồn có thể điều khiển được. Mạch tăng áp có sơ đồ như hình 9 đáp ứng được yêu Tiến hành điều chỉnh điểm làm việc của pin bằng cầu trên. thay đổi điện trở R2 với các tham số trong bảng 3 sẽ thu được kết quả là các đường đặc tính V-I, 1 16 R1 P-V của một bộ pin như hình 8. 2 15 Q1 R4 D1 D3 + C3 3 14 R2 4 TL494 13 R5 Ct 5 12 + C4 D4 Rt 6 11 D2 Q2 7 10 - 8 9 12V C2 + + - Hình 10. Sơ đồ nguyên lý mạch tăng áp Trong sơ đồ hình 10, TL494 làm chức năng tạo xung đóng cắt có thời gian chết để điều khiển các van Q1 và Q2 đóng cắt. Do có thể điều khiển Hình 8. Kết quả thí nghiệm đặc tính I-V (trái) và được thời gian đóng cắt của Q1 và Q2, vì vậy điện P-V (phải) áp đầu ra được tăng lên và điều khiển được. Công thức tính cho nguồn: (4) Vout điện áp đầu ra; Vin điện áp đầu vào; n2 cuộn dây thứ cấp của máy biến áp xung; n1 cuộn dây sơ cấp của máy biến áp xung; f tần số đóng cắt; TonQ1 thời gian mở van Q1; Ton,Q2 thời gian mở van Q2. Hình 9. Đặc tính xấp xỉ của pin mặt trời Để thay đổi điện áp đầu ra Vout bằng điều khiển độ Có thể nhận thấy từ kết quả thực nghiệm hình rộng của xung PWM kích mở cho Q1 và Q2, chỉ 9 và kết quả mô phỏng hình 5 giống nhau các cần thay đổi điện áp đặt vào chân 3. đặc tính tạo ra có dạng của đặc tính pin mặt trời thường gặp. Hơn nữa việc đóng cắt liên tục hai van bán dẫn Q1 Áp dụng thuật toán tìm đường cong dựa vào dữ và Q2, vì vậy luôn xuất hiện dòng điện liên tục trên liệu cho trước (“fitting curve”) của Matlab có thể tải, do đó nguồn cho hiệu suất cao. Hình 10 là kết xác định được phương trình đặc tính có dạng: quả thử nghiệm mạch tăng áp. Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 15
  16. NGHIÊN CỨU KHOA HỌC 5. KẾT LUẬN Như vậy, bộ mô phỏng của pin mặt trời đã đáp ứng được yêu cầu: tạo ra các đường đặc tính giống với các đường đặc tính của các loại pin thường gặp ở điều kiện môi trường bất kỳ. Mô hình đơn giản dễ thực hiện, chi phí thấp. Trên cơ sở thực hiện mô hình ở công suất thấp và kết quả mô phỏng trên phần mềm ở công suất cao. Chính là cơ sở để xây dựng mô hình với công suất cao hơn phù hợp với môđun pin mặt trời công nghiệp. Hình 11. Mạch tăng áp Hình 11 minh họa giá trị đo của mạch tăng áp sử TÀI LIỆU THAM KHẢO dụng mạch có điều khiển bằng điều biên độ rộng [1]. http://www.evn.com.vn. xung dùng TL494 của hãng Texas Instruments, [4] để nâng điện áp từ 12 V lên khoảng 380 V. Ngoài [2]. Hoàng Dương Hùng (2014). Năng lượng mặt trời ra các bộ biến đổi tăng áp DC-DC cũng có thể lý thuyết và ứng dụng. Nhà xuất bản ĐH Bách được sử dụng để nâng điện áp nguồn nhưng đòi khoa Đà Nẵng. hỏi thiết kế mạch và bộ điều khiển tương ứng. [3]. H. Abidi, A.B.B. Abdelghani and D. & Montesinos- Hình 12 và hình 13 là minh chứng sơ đồ và kết Miracle (2012). MPPT algorithm and photovoltaic quả mô phỏng của một pin mặt trời công nghiệp array emulator using DC/DC converters. In 16th có các thông số xem trong bảng 2 với nguồn vào IEEE Mediterranean Electrotechnical Conference. Vout được lấy từ đầu ra của bộ tăng áp. [4]. R.G. Wandhare and V. & Agarwal (2011). A low cost, light weight and accurate photovoltaic emulator. In 37th IEEE Photovoltaic Specialists Conference. [5]. F.J. Viglus and M.M. & Casaro (2016). Photovoltaic array emulation using a three-phase DC-DC converter with galvanic isolation. In 12th IEEE International Conference on Industry Applications. [6]. Ö. Özden, Y. Duru, S. Zengin and M. & Boztepe (2016). Design and implementation of programmable PV simulator. In International Symposium on Fundamentals of Electrical Engineering. [7]. E. Golubovic, A. Sabanovic and B.C. & Üstündağ (2015). Internet of things inspired photovoltaic emulator design for smart grid Hình 12. Sơ đồ mô phỏng pin mặt trời applications. In 3rd International Istanbul Smart Grid Congress and Fair. [8]. J. Gonzalez-Llorente, A. Rambal-Vecino, L.A. Garcia-Rodriguez, J.C. Balda and E.I. & Ortiz- Rivera (2016). Simple and efficient low power photovoltaic emulator for evaluation of power conditioning systems. In IEEE Applied Power Electronics Conference and Exposition. [9]. H.-L. Tsai, C.-S. Tu and Y.-J. Su (2008). Development of generalized photovoltaic model using MATLAB/SIMULINK. In Proceedings of the world congress on Engineering and computer science. Hình 13. Đường đặc tính của pin mặt trời [10]. https://computergotx.com. 16 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  17. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng Imbalanced data classification based on DEC-SVM 1 1 2 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: ngocquynh.ydhn@gmail.com 1 Trường Đại học Sao Đỏ 2 Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận bài sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Trong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng. Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM. Abstract In this article, authors study the DEC-SVM algorithm that modulates data by adding elements to the minority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidence show that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets. Keywords: Clustering; classification; imbalanced data; SVM. 1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân lớp chuẩn thường có xu hướng thiên vị đối với lớp Ngày nay, khi vấn đề khai thác và xử lý thông tin đa số và bỏ qua lớp thiểu số (xử lý chúng như là ngày càng được chú trọng, kỹ thuật phân lớp dữ nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phân liệu đã góp phần hữu hiệu giúp con người khai lớp truyền thống chưa thể xây dựng được một bộ thác một cách có hiệu quả khối dữ liệu mà họ phân lớp tốt. Việc phân loại sai các mẫu thuộc lớp đang nắm giữ. Tuy nhiên, dữ liệu thu thập được thiểu số có thể gây nên những tổn thất lớn đối với trong thực tế ngày càng xuất hiện nhiều các bộ các lĩnh vực thực tế. Để giải quyết vấn đề về phân dữ liệu mất cân bằng, nghĩa là trong tập dữ liệu lớp đối với các bộ dữ liệu mất cân bằng, hiện nay có sự chênh lệch lớn về số lượng các phần tử có nhiều phương pháp khác nhau, trong đó, có hai giữa các lớp. Các bộ dữ liệu trong nhiều ứng dụng hướng tiếp cận chính: tiếp cận ở mức độ dữ liệu thực tế như phát hiện các giao dịch gian lận, phát và hướng tiếp cận ở mức độ thuật toán. hiện xâm nhập mạng, dự đoán rủi ro trong quản lý, chẩn đoán y khoa,…, đều là các bộ dữ liệu mất Trong [12], tác giả cải tiến thuật toán sinh thêm cân bằng mà trong đó, lớp người ta cần quan tâm mẫu nhân tạo lớp thiểu số (SMOTE) bằng cách lại chiếm tỉ lệ rất nhỏ so với lớp còn lại. kết hợp thuật toán nhúng tuyến tính cục bộ (locally linear embedding - LLE). Thuật toán LLE ánh xạ Sự chênh lệch về số lượng giữa lớp đa số và lớp dữ liệu có số chiều cao vào một không gian với số thiểu số làm cho việc phân lớp đúng các mẫu chiều thấp hơn. Sau đó, các mẫu nhân tạo sinh thuộc lớp thiểu số bị giảm hiệu quả. Tỷ lệ mất ra sẽ được ánh xạ trở lại không gian mẫu ban cân bằng của tập dữ liệu càng cao thì việc phát đầu thông qua LLE. Từ bộ dữ liệu đã điều chỉnh, hiện đúng các mẫu của lớp thiểu số càng khó thực nghiệm trên 3 bộ dữ liệu với ba kỹ thuật phân khăn. Trong các ứng dụng thực tế, tỷ lệ mất cân lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVM bằng có thể là 1:100, 1:1000, thậm chí có thể hơn có độ chính xác theo tiêu chí AUC cao nhất với [11]. Vì thế, phân lớp dữ liệu mất cân bằng đã và trung bình là 76.5%. Trong [13], tác giả trình bày đang là bài toán được các nhà khoa học đặc biệt giải thuật GSVM -RU (Granular Support Vector quan tâm. Machines Repetitive Undersampling) sử dụng SVM cho việc lấy mẫu. Với những mẫu quan trọng Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn trong quá trình phân lớp, giảm thiểu mất thông tin 2. TS. Trần Trọng Hiếu các mẫu đa số khi loại bỏ và tối đa mẫu thiểu số Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17
  18. NGHIÊN CỨU KHOA HỌC khi làm sạch dữ liệu trong quá trình lấy mẫu để nhân tạo. Sinh ngẫu nhiên các phần tử ở lớp thiểu chỉ giữ lại các mẫu cần thiết và các mẫu khác có số là phương pháp đơn giản nhất nhằm cân bằng thể được loại bỏ một cách an toàn mà không ảnh phân lớp thông qua việc nhân bản ngẫu nhiên các hưởng đến phân loại. Việc trích chọn vectơ ít hơn, mẫu lớp thiểu số. Ý tưởng là lựa chọn ngẫu nhiên do đó tăng tốc độ dự đoán. Kết quả thực nghiệm các mẫu thuộc lớp thiểu số và nhân bản chúng với các đánh giá G-Mean (85.2%), AUC (92.4%), tạo ra mẫu mới giống hệt chúng. Hình 1 minh họa F-Measure (66.5%). Trong [14], tác giả đề xuất phương pháp sinh thêm phần tử cho lớp thiểu số. phương pháp Bagging of Extrapolation Borderline- SMOTE SVMs (BEBS) sử dụng phương pháp lấy mẫu thích nghi Extrapolation Borderline-SMOTE và tập hợp bootstrapping vào tập dữ liệu không cân bằng ban đầu. Khi sử dụng SVM, ranh giới quyết định nghiêng về phía các mẫu thiểu số và có thể được thay đổi dựa vào các mẫu nhân bản. Kết quả thực nghiệm đánh giá dựa trên tiêu chí G-Mean đạt 76.2%. Hình 1. Sinh ngẫu nhiên phần tử lớp thiểu số Tuy nhiên, với đặc thù của các tập dữ liệu hầu hết Phương pháp sinh thêm mẫu nhân tạo lớp thiểu không giống nhau, không có giải pháp nào là hữu số SMOTE (Synthetic Minority Over-sampling hiệu cho mọi tập dữ liệu. Trong bài báo này, chúng Technique) như sau: Với mỗi mẫu thuộc lớp thiểu tôi đề xuất thuật toán DEC-SVM để phân lớp dữ số, tìm láng giềng gần nhất của nó trong lớp thiểu liệu. Cụ thể, nghiên cứu thuật toán điều chỉnh dữ số, lựa chọn ngẫu nhiên các láng giềng gần nhất liệu cho bài toán phân lớp dữ liệu mất cân bằng (hoặc tất cả láng giềng) tùy theo số lượng mẫu – thuật toán DEC (a novel Differential Evolution cần sinh thêm. Mẫu nhân tạo sẽ được sinh ra theo Clustering hybrid resampling) được công bố vào cách sau: lấy độ lệch giữa vector thuộc tính của năm 2010 của nhóm tác giả Leichen Chen, Zhihua mẫu đang xét và láng giềng của nó nhân với một Cai, Lu Chen và Qiong Gu [1]. Thuật toán này là số ngẫu nhiên trong khoảng (0, 1) rồi cộng kết quả sự kết hợp giữa phương pháp sinh thêm phần tử cho lớp thiểu số và sử dụng kỹ thuật phân cụm, thu được với vector thuộc tính của mẫu đang xét. K-means để loại bỏ bớt phần tử dư thừa, nhiễu Kết quả cuối cùng chính là vector thuộc tính của trong dữ liệu. Với mỗi mẫu thuộc lớp thiểu số, tạo mẫu nhân tạo, nhãn của mẫu nhân tạo sẽ được ra một mẫu đột biến từ hai trong số những láng gán là nhãn của lớp thiểu số [9] và được minh họa giềng gần nó nhất, sau đó sử dụng thuật toán di trong hình 2. truyền để sinh thêm phần tử cho lớp thiểu số từ mẫu thiểu số ban đầu và mẫu đột biến mới tạo ra. Sau khi điều chỉnh dữ liệu bằng thuật toán DEC, chúng tôi sử dụng kỹ thuật SVM để phân lớp cho tập dữ liệu huấn luyện mới để tạo ra mô hình phân Hình 2. Minh họa sinh thêm phần tử nhân tạo lớp. Kết quả cho thấy, khi sử dụng DEC-SVM thì bằng thuật toán SMOTE hiệu quả phân lớp các bộ dữ liệu mất cân bằng cao hơn. Giả mã của thuật toán SMOTE [9]: 2. PHƯƠNG PHÁP DEC-SVM CHO BÀI TOÁN SMOTE (N, T, k) PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Input: Số mẫu lớp thiểu số T; tổng số SMOTE 2.1. Hướng tiếp cận ở mức độ dữ liệu N%, số láng giềng gần nhất k. Tiếp cận ở mức độ dữ liệu mục đích là điều chỉnh Output: (N/100)*T mẫu thiểu số nhân tạo tỉ lệ mất cân bằng giữa hai lớp trong bộ dữ liệu, cụ thể sử dụng các hình thức lấy mẫu: sinh thêm các 1. (Nếu N nhỏ hơn 100%, chọn ngẫu nhiên các phần tử lớp thiểu số (sinh ngẫu nhiên, sinh thêm mẫu lớp thiểu số mà chỉ một phần trăm của chúng phần tử nhân tạo,…), loại bỏ các phần tử lớp đa sẽ được SMOTE) số, hoặc kết hợp cả hai phương pháp trên. 2. IF N< 100 2.1.1. Sinh thêm phần tử lớp thiểu số 3. Then chọn ngẫu nhiên T mẫu lớp thiểu số Có nhiều phương pháp sinh thêm phần tử cho lớp 4. T = (N/100)*T thiểu số như: sinh ngẫu nhiên phần tử lớp thiểu số, lựa chọn phần tử lớp thiểu số, sinh thêm mẫu 5. N = 100 18 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
  19. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA 6. Endif 3. For attr←1 to numattrs 7. N = (int) (N/100) (Số luợng SMOTE được giả 4. Tính dif=Sample[nnarray[n,n]][attr]-Sample[i][attr] định là bội số của 100) 5. Tính gap = một số ngẫu nhiên giữa 0 và 1 8. k = số láng giềng gần nhất 6. Synthentic[newindex][attr]=Sample[i][ attr]+gap*dif 9. numattrs = số thuộc tính 7. Endfor 10. sample [ ][ ]: mảng các mẫu thiểu số ban đầu 8. ++ 11. newindex: chỉ số của mẫu nhân tạo được tạo 9. N=N-1 ra, khởi tạo là 0 10. Endwhile 12. synthetic [ ][ ]: mảng các mẫu nhân tạo 11. Return (kết thúc hàm Populate) (tính k láng giềng gần nhất cho mỗi mẫu lớp thiểu số.) Ngoài ra còn có một số thuật toán được cải tiến 13. For to T từ thuật toán SMOTE như: Borderline-SMOTE [6], Safe-level SMOTE [3] cũng đem lại những hiệu 14. Tính k láng giềng gần nhất cho i và lưu vào quả nhất định hỗ trợ quá trình phân lớp cho các bộ mảng nnarray. dữ liệu mất cân bằng. 15. Populate (N, i, nnarray) 2.1.2. Loại bỏ phần tử lớp đa số 16. Endfor Là phương pháp điều chỉnh phân bố dữ liệu bằng Populate (N, i, nnarray) (hàm sinh các mẫu nhân tạo) cách giảm bớt số lượng phần tử lớp đa số. Loại Input: Số mẫu cần sinh thêm N, mỗi mẫu lớp bỏ một cách ngẫu nhiên các mẫu thuộc lớp đa số thiểu số i, mảng các láng giềng gần nhất nnarray. là đơn giản nhất. Phương pháp này thực hiện loại Output: Vector thuộc tính của mẫu nhân tạo bỏ ngẫu nhiên phần tử thuộc lớp đa số trong tập huấn luyện (hình 3a) cho tới khi có được tỷ lệ phù 1. While N≠0 hợp giữa hai lớp. Với lý do này, số lượng phần tử 2. Chọn ngẫu nhiên một số nn giữa 1 và k trong tập huấn luyện giảm đáng kể (hình 3b). M M u thi u s (a) (b ) Hình 3. Minh họa loại bỏ phần tử lớp đa số Tuy nhiên, việc loại bỏ mẫu có thể sẽ làm hao mới. Hay đối với phương pháp phân lớp SVM, có hụt thông tin và có khả năng làm mất đi những thể sử dụng hằng số phạt khác nhau cho các lớp mẫu mang thông tin quan trọng cho quá trình hoặc điều chỉnh ranh giới lớp dựa trên ý tưởng xây dựng mô hình phân lớp. Khắc phục hạn chế liên hết hạt nhân [11]. của phương pháp trên, một số phương pháp loại bỏ mẫu theo mục tiêu được đề xuất như: Tomek Đối với phương pháp phân lớp K-NN, có thể đề links, One-side Selection, Neighborhood Cleaning xuất một hàm khoảng cách có trọng số. Ý tưởng Rule [7]. này nhằm bù cho sự mất cân bằng trong mẫu huấn luyện mà không làm thay đổi sự phân lớp. 2.2. Hướng tiếp cận ở mức độ thuật toán 2.3. Thuật toán DEC-SVM cho bài toán phân Tiếp cận ở mức độ thuật toán nghĩa là điều chỉnh lớp dữ liệu mất cân bằng các thuật toán phân lớp để tăng cường độ chính Phương pháp sinh thêm phần tử nhân tạo cho xác khi phân lớp đối với dữ liệu mất cân bằng. lớp thiểu số là phương pháp hiệu quả cho các bài Chiến lược chung để đối phó với vấn đề mất cân toán phân lớp dữ liệu mất cân bằng. Tuy nhiên, bằng trong các bộ dữ liệu là lựa chọn một khuynh trong nhiều trường hợp, việc sinh thêm mẫu có hướng quy nạp thích hợp. thể sẽ tạo ra những mẫu dư thừa hoặc nhiễu làm Ví dụ như đối với phương pháp cây quyết định, ảnh hưởng tới hiệu quả phân lớp. Thuật toán cách tiếp cận có thể là điều chỉnh dự đoán xác DEC-SVM dựa trên việc tạo ra phần tử nhân tạo xuất ở lá, hoặc phát triển phương pháp cắt tỉa trên lớp thiểu số nhằm giảm tỷ lệ mất cân bằng, Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 19
  20. NGHIÊN CỨU KHOA HỌC sau đó sử dụng kỹ thuật phân cụm cho tập dữ liệu xi,j nếu rand(j)>CR và j ≠ rand(s) (2) để loại bỏ những mẫu dư thừa hoặc nhiễu. Bằng xnew,j= xmu,j nếu rand(j) ≤ CR hoặc j=rand(s) cách lấy mẫu kết hợp với làm sạch dữ liệu, các mẫu hữu ích vẫn được giữ lại và nâng cao hiệu trong đó: xi,j là thuộc tính thứ j của mẫu thứ i; quả phân lớp. CR là hằng số crossover được lựa chọn ngẫu 2.3.1. Điều chỉnh dữ liệu bằng thuật toán DE nhiên trong [0, 1] và được xác định trước bởi người dùng; Với thuật toán SMOTE, mẫu mới sẽ được sinh ra rand(j) là giá trị được lựa chọn ngẫu nhiên trong từ một mẫu positive (mẫu lớp thiểu số) ban đầu và khoảng [0, 1]. một trong những láng giềng của nó. Với nền tảng là thuật toán MOTE, tuy nhiên, trong thuật toán Giá trị của biến rand(s) là chỉ số của các thuộc tính được lấy một cách ngẫu nhiên, đảm bảo rằng mẫu DE, từ hai trong số các láng giềng gần nhất của mới sinh ra sẽ có ít nhất một thuộc tính từ mẫu một mẫu positive sẽ tạo ra một mẫu “đột biến”, và đột biến. mẫu mới được sinh ra bằng cách lai ghép chéo Số mẫu nhân tạo được tạo ra đúng bằng số mẫu mẫu đột biến này và mẫu positive ban đầu. positive ban đầu, và các mẫu nhân tạo này được 2.3.1.1. Đột biến gán nhãn là positive. Tùy thuộc vào số lượng mẫu positive cần lấy, lặp lại các bước đột biến và Trong tập dữ liệu huấn luyện, đầu tiên chọn ngẫu crossover cho dữ liệu huấn luyện. nhiên một mẫu positive và tìm k láng giềng gần nhất của nó, sau đó chọn ngẫu nhiên hai láng 2.3.2. Kỹ thuật làm sạch dữ liệu sử dụng giềng trong láng giềng đó: x n1 và x n 2 . Một phân cụm mẫu đột biến x mu sẽ được tạo ra bằng cách Sau khi thực hiện thuật toán DE, dữ liệu thu được đã được cải thiện hơn về tỉ lệ giữa hai lớp. Tuy sử dụng công thức (1) với rand(0,1) là nhiên, không loại trừ khả năng sinh ra những mẫu hằng số ngẫu nhiên trong khoảng [0,1]: dư thừa hoặc nhiễu. Để khắc phục, ta sẽ sử dụng x m u = x i + r a nd(0,1) × (x n 1 -x n 2 ) (1) kỹ thuật phân cụm để phân cụm cho tập dữ liệu 2.3.1.2. Crossover với mục đích loại bỏ những mẫu không cần thiết. Qua bước đột biến, ta tạo ra số lượng mẫu đột Chẳng hạn ta thu được các cụm và giả sử được đặt tên là A, B, C, D, E, F như hình 4. Trong đó, biến đúng bằng số lượng mẫu positive ban đầu một số cụm chứa tất cả các mẫu có cùng nhãn trong tập dữ liệu huấn luyện. Ở bước này, ta sẽ sử lớp (các cụm C, D, E và F), những cụm khác chứa dụng các mẫu đột biến cùng với các mẫu positive các mẫu có nhãn lớp khác nhau (cụm A và B), dự ban đầu để tạo ra mẫu nhân tạo mới. Cụ thể, các đoán rằng có thể siêu phẳng của SVM [2, 8] sẽ đi mẫu mới sẽ được hình thành dựa theo (2): qua các cụm này. Hình 4. Minh họa phân cụm tập dữ liệu mất cân bằng Nếu như tất cả các mẫu trong một cụm đều có có chứa tất cả các mẫu negative, ta làm như sau: cùng một nhãn lớp (tức là hoặc cùng là positive ‒ Xác định ngưỡng tương đồng trong (0,1] hoặc cùng là negative), ta sẽ tiến hành loại bỏ những mẫu dư thừa hoặc nhiễu. Giả sử với cụm F ‒ Tính theo công thức (3): 20 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
nguon tai.lieu . vn