Xem mẫu
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
TẠP CHÍ
NGHIÊN CỨU KHOA HỌC TRONG SỐ NÀY
ĐẠI HỌC SAO ĐỎ Số 4(63).2018
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Ứng dụng sác xuất thống kê trong hỗ trợ phân 5 Đỗ Văn Đỉnh
loại bệnh ung thư máu Phan Văn Phùng
Nguyễn Hữu Quảng
Nghiên cứu và phát triển mô hình vật lý của pin 12 Lưu Thị Huế
mặt trời Vũ Hoàng Giang
Phạm Đức Khẩn
Phương pháp DEC-SVM phân lớp dữ liệu mất 17 Phạm Thị Hường
cân bằng Phạm Văn Kiên
Đỗ Ngọc Quỳnh
Phân loại web đồi trụy dựa vào văn bản và 26 Phạm Thị Hường
hình ảnh Nguyễn Văn Thanh
Thiết kế bộ điều khiển thích nghi trượt bền vững 35 Vũ Thị Yến
sử dụng mạng nơron cho robot công nghiệp Nguyễn Hữu Quảng
Lê Đức Thân
LIÊN NGÀNH CƠ KHÍ - ĐỘNG LỰC
Mô phỏng trường nhiệt khi hàn liên kết ống chữ 42 Ngô Hữu Mạnh
K bằng phương pháp phần tử hữu hạn Mạc Văn Giang
Nghiên cứu thực nghiệm đặc tính tăng tốc của 48 Vũ Thành Trung
ô tô Ngô Thị Mỹ Bình
Nghiên cứu, thí nghiệm mô hình thiết bị triệt 52 Lưu Quang Hưng
tiêu dao động gây ra bởi dẫn xuất của dòng xoáy Nguyễn Đức Hải
đối với đường ống biển Nguyễn Ngọc Đàm
NGÀNH KINH TẾ
Lao động - việc làm và vấn đề phát triển nông 59 Mạc Thị Liên
thôn mới tại Việt Nam hiện nay
Định hướng đào tạo nhân lực ngành Kế toán 67 Đinh Thị Kim Thiết
trong bối cảnh cuộc Cách mạng công nghiệp 4.0
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 1
- TẠP CHÍ
NGHIÊN CỨU KHOA HỌC
NGHIÊN CỨU KHOA HỌC TRONG SỐ NÀY
ĐẠI HỌC SAO ĐỎ Số 4(63).2018
LIÊN NGÀNH HÓA HỌC - CÔNG NGHỆ THỰC PHẨM
Nghiên cứu cơ chế phản ứng của gốc etinyl 75 Vũ Hoàng Phương
(C2H) với phân tử silan (SiH4) Lê Văn Thủy
Nghiên cứu động học, các mô hình đẳng 82 Lê Văn Thủy
nhiệt và tối ưu hóa quá trình hấp thụ ion chì Vũ Hoàng Phường
bằng chitosan
Ảnh hưởng của nanosilica và tác nhân liên kết 90 Hoàng Thị Hòa
bis (3-trietoxysilyl propyl) tetrasulphit (Si69) tới Tăng Thị Phụng
tính chất của cao su EPDM/silica nanocompozit
LIÊN NGÀNH KHOA HỌC TRÁI ĐẤT - MỎ
Nâng cao hiệu quả đào tạo hướng dẫn viên du 98 Nguyễn Thị Sao
lịch tại Trường Đại học Sao Đỏ Trần Thị Mai Hương
Thực trạng và giải pháp nâng cao chất lượng đào 105 Phạm Thị Huyền Trang
tạo tiếng Anh tại Trường Đại học Sao Đỏ Đặng Thị Minh Phương
LIÊN NGÀNH TRIẾT HỌC - XÃ HỘI HỌC - CHÍNH TRỊ HỌC
Sử dụng sơ đồ tư duy trong giảng dạy học phần 112 Phạm Thị Hồng Hoa
Những nguyên lý cơ bản của chủ nghĩa Mác - Nguyễn Thị Hiền
Lênin ở Trường Đại học Sao Đỏ
Tư tưởng Hồ Chí Minh về xây dựng lực lượng 121 Đặng Thị Dung
dân quân du kích và vận dụng của Đảng bộ tỉnh
Hải Dương trong kháng chiến toàn quốc chống
thực dân Pháp (1946-1954)
2 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
SCIENTIFIC JOURNAL CONTENTS
SAO DO UNIVERSITY No 4(63).2018
TITLE FOR ELECTRICITY - ELECTRONICS - AUTOMATION
Application of probability statistics for 5 Do Van Dinh
classification of leukemia cancer Phan Van Phung
Nguyen Huu Quang
Research and development for the 12 Luu Thi Hue
photovoltaic emulator Vu Hoang Giang
Pham Duc Khan
Imbalanced data classification based on 17 Pham Thi Huong
DEC-SVM Pham Van Kien
Do Ngoc Quynh
Pornographic web classification based on text 26 Pham Thi Huong
and images Nguyen Van Thanh
Design a robust adaptive sliding mode 35 Vu Thi Yen
controller using neural network for industrial Nguyen Huu Quang
robot manipulator Le Duc Than
TITLE FOR MECHANICAL AND DRIVING POWER ENGINEERING
Simulation of temperature field welding of K 42 Ngo Huu Manh
pipe joint by finite element method Mac Van Giang
Experimental research on the acceleration 48 Vu Thanh Trung
characteristics of vehicles Ngo Thi My Binh
Experiment research model test on vortex 52 Luu Quang Hung
induced vibration VIV suppression device of Nguyen Duc Hai
marine risers Nguyen Ngoc Dam
TITLE FOR ECONOMICS
Current situation of labor - employment and 59 Mac Thi Lien
new rural development issue in Vietnam
Human resource training in the context of 67 Dinh Thi Kim Thiet
Industrial Revolution 4.0
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 3
- NGHIÊN CỨU KHOA HỌC
SCIENTIFIC JOURNAL
CONTENTS
SAO DO UNIVERSITY No 4(63).2018
TITLE FOR CHEMISTRY AND FOOD TECHNOLOGY
Study mechanism on the reaction of ethynyl 75 Vu Hoang Phuong
radical (C2H) with silane molecular (SiH4) Le Van Thuy
Study kinetic, isotherm models and optimize 82 Le Van Thuy
the adsorption process lead ion by chitosan Vu Hoang Phuong
Effects of nano-SiO2 and modified agent bis 90 Hoang Thi Hoa
(3-triethoxysilyl propyl) tetrasulfide (Si69) on Tang Thi Phung
properties of EPDM/silica nanocomposites
TITLE FOR EARTH SCIENCES - MINING
To improve efficiency of training tour guide at 98 Nguyen Thi Sao
Sao Do University Tran Thi Mai Huong
The situation and solutions to improve English 105 Pham Thi Huyen Trang
training quality at Sao Do University Dang Thi Minh Phuong
TITLE FOR PHILOSOPHY - SOCIOLOGY - POLITICAL SCIENCE
Using mind map in teaching principles of Marxist 112 Pham Thi Hong Hoa
and Lennist course section in Sao Do University Nguyen Thi Hien
Ho Chi Minh’s congress on the development of 121 Dang Thi Dung
the multi personal and military population of the
Hai Duong province in the longterm foreign war
(1946-1954)
4 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Ứng dụng sác xuất thống kê trong hỗ trợ phân loại
bệnh ung thư máu
Application of probability statistics for classification
of leukemia cancer
Đỗ Văn Đỉnh, Phan Văn Phùng, Nguyễn Hữu Quảng
Email: dodinh75@gmail.com
Trường Đại học Sao Đỏ
Ngày nhận bài: 16/3/2018
Ngày nhận bài sửa sau phản biện: 15/7/2018
Ngày chấp nhận đăng: 27/12/2018
Tóm tắt
Cùng một bệnh ung thư máu nhưng có nhiều loại khác nhau như bạch cầu lymphô mãn tính, bạch cầu
dòng tủy mãn tính, bạch cầu lymphô cấp tính và bạch cầu dòng tủy cấp tính với những biểu hiện gen
của bệnh khác nhau dẫn đến điều trị khác nhau. Cùng với các kết quả xét nghiệm và sinh thiết thì việc
phân tích những dữ liệu biểu hiện gen của bệnh thu thập được sẽ góp phần hỗ trợ các bác sĩ chẩn đoán
chính xác đó là bệnh gì và có thể đưa ra phác đồ điều trị phù hợp cho từng loại bệnh. Bài báo này sẽ
giới thiệu phương pháp ứng dụng xác suất thống kê đánh giá sự khác biệt giữa các biểu hiện gen của
từng trường hợp khác nhau trong bệnh ung thư máu nói chung. Đây là phương pháp đơn giản nhưng
hiệu quả góp phần nâng cao hiệu quả điều trị bệnh hơn.
Từ khóa: Ung thư máu; thống kê; AML; ALL.
Abstract
In a process of treatment, we have to evaluate the effectiveness of cancer treatment. In leukemia
cancer, we have four types such as chronic lymphocytic leukemia, chronic myeloid leukemia, acute
lymphocytic leukemia and acute myeloid leukemia with different gene expression of the disease lead to
different treatment. Along with the results of the tests and biopsies, the analysis of the gene expression
data of disease will help doctors to diagnose the disease exactly and can provide a treatment regimen.
There are many methods to evaluate the difference in group data. This article will introduce a statistical
probabilistic approach that assesses the difference between the different present of the same type of
leukemia, which contributes to the treatment of the disease more effectively.
Keywords: Leukemia cancer; statistics; AML; ALL.
1. GIỚI THIỆU hưởng và thường tiến triển chậm. Tuổi thường
mắc bệnh là trên 55 tuổi. Hầu như không gặp
Sự thay đổi hoặc đột biến trong một phần ADN
ở trẻ em; (2) Bệnh bạch cầu dòng tủy mãn tính
của một gen có thể là biểu hiện của một bệnh
(CML): các tế bào dòng tủy bị ảnh hưởng và giai
nào đó. Nhưng rất khó khăn để tiến hành một
đoạn đầu thường tiến triển chậm, phần lớn gặp
xét nghiệm để phát hiện ra những đột biến xảy ra
bởi vì các gen lớn xuất hiện ở rất nhiều vùng nơi ở người lớn; (3) Bệnh bạch cầu lymphô cấp tính
mà các đột biến có thể xảy ra. Cho tới nay vẫn (ALL): là thể phát triển ác tính của các tế bào dòng
chưa có nhà khoa học nào chỉ ra được nguyên lymphô và tiến triển rất nhanh, thường gặp nhất ở
nhân gây ra bệnh ung thư máu, song nghi vấn trẻ em, người lớn đôi khi cũng có thể bị mắc; (4)
hiện vẫn đang tập trung ở một số nguyên nhân Bệnh bạch cầu dòng tủy cấp tính (AML): các tế
như: Nhiễm phóng xạ, ô nhiễm môi trường, yếu bào dòng tủy bị ảnh hưởng và tiến triển nhanh, có
tố gen di truyền,… Bệnh ung thư máu [1] được thể xảy ra ở cả người lớn và trẻ em. Hiện phương
phân thành bốn loại bệnh chính là (1) bạch cầu pháp điều trị ung thư máu đang được áp dụng
lymphô mãn tính (CLL): các tế bào lymphô bị ảnh tại các nước: hóa trị, liệu pháp sinh học trị liệu,
ghép tủy/cấy tế bào gốc, hóa trị và xạ trị, uống
thuốc. Các bác sĩ có thể kết hợp hai phương pháp
Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn điều trị trở lên. Xác định rõ loại bệnh sẽ giúp xác
2. PGS. TS. Nguyễn Long Giang định phác đồ điều trị hiệu quả hơn. Bài báo này sử
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 5
- NGHIÊN CỨU KHOA HỌC
dụng phương pháp thống kê T-test để phân loại
hai trong số bốn loại biểu hiện thường gặp trong
bệnh ung thư máu [2]. Bộ cơ sở dữ liệu được sử
dụng nghiên cứu bệnh ung thư máu được thu thập
từ thí nghiệm microarray. Có nhiều phương pháp
phân tích gen nhưng microarray là phương pháp
phân tích hiện đại và mang lại hiệu quả cao với
khả năng lai trên hàng chục nghìn lỗ gen và cho
kết quả của chục hàng nghìn gen một lúc. Cùng
với T-test, phân tích dữ liệu sẽ nhanh hơn. Việc sử
dụng cơ sở dữ liệu gen để phát hiện ra đường dẫn
truyền tín hiệu tế bào và gen sinh ung đã mang lại
những hiểu biết mới về ung thư và cơ chế sinh
ung. Với những hiểu biết này, một hệ thống những Hình 1. Gen chip của Affymetrix [8]
cơ sở logic cho một liệu pháp điều trị mới đã được
hình thành, đó là liệu pháp nhắm trúng đích. Đây Trên bề mặt, mỗi chip chứa hàng ngàn ngắn, tổng
cũng là một trọng tâm chính của nghiên cứu bệnh hợp, trình tự ADN sợi đơn, cùng thêm đến các gen
ung thư hiện nay và là hy vọng cho điều trị ung thư bình thường, và các biến thể (đột biến) của gen đó
trong tương lai. đã được tìm thấy trong các cộng đồng người [7].
2. PHƯƠNG PHÁP NGHIÊN CỨU Khi tiến hành thí nghiệm lai trên các gen chip ta sẽ
thu được bộ cơ sở dữ liệu gen cần phân tích của
2.1. Công nghệ microarray và bộ cơ sở dữ một loại bệnh hay bệnh một số bệnh nhân nào đó.
liệu gen
Bản chất của dữ liệu thô từ các thí nghiệm
Microarray là tấm kính hoặc silicon, hay màng microarray là các ảnh được lưu dưới dạng file ảnh
nylon mang ma trận hai chiều của các gen. Công TIFF. Những ảnh này phải được đánh giá bằng
nghệ ADN microarray là một công cụ được sử phần mềm phân tích ảnh để xác định các lỗ liên
dụng để xác định xem các ADN từ một cá nhân cụ quan đến từng thành phần trên mảng và các phép
thể chứa một đột biến ở các gen như BRCA1 và đo cường độ huỳnh quang của từng lỗ trong một
BRCA2 trong ung thư vú. ADN microarray (thông kênh cũng như cường độ nền. Một số đánh giá
thường được biết đến với tên gọi ADN chip hay khác như giá trị trung bình, điểm trung tâm, độ
chip sinh học) là một tập hợp các điểm ADN siêu lệch tiêu chuẩn của cường độ các điểm ảnh đỏ
nhỏ được gắn trên một giá thể rắn. Các nhà khoa và xanh… thu nhận được từ những phần mềm
học sử dụng ADN microarray để đo một cách chuyên biệt sử dụng cho phân tích ảnh.
đồng thời mức độ biểu hiện của lượng lớn gen
hoặc các vùng đa gen của hệ gen. Mỗi điểm ADN
chứa hàng picomoles (10-12 moles) của một trình
tự gen đặc hiệu, được biết đến như các mẫu dò
(probes hoặc reporters hay oligos). Chúng có thể
là một đoạn ngắn của một gen hoặc một yếu tố
ADN khác, được sử dụng để lai với một ADNc
hoặc ARNc (hay ARN anti-sense) (được gọi là
đích) dưới điều kiện nghiêm ngặt. Sự lai mẫu
dò – đích thường được phát hiện và định lượng
bởi các chất đánh dấu huỳnh quang (fluorophore-
labeled), bạc (silver-labeled) hoặc sự phát quang
bằng phản ứng hóa học (chemiluminescence- Hình 2. Ba mức xử lý dữ liệu trong các thí
labeled) để xác định mức độ lặp lại của các trình nghiệm microarray
tự acid nucleic trong đích. Một số công ty sản xuất Để nhận được ma trận biểu diễn giá trị đo mức
microarray sử dụng phương pháp tương tự như biểu hiện gen cuối cùng, tất cả các đánh giá chất
những người sử dụng để làm cho vi mạch máy lượng liên quan đến từng gen trong cùng một
tính. Một gen chip microarray có kích thước rất mảng hoặc các mảng giống nhau phải được kết
nhỏ như minh họa trên hình 1. Đây cũng là loại hợp với nhau và ma trận tổng phải được bình
chip được sử dụng phân tích sự khác biệt về bệnh thường hóa để các mảng khác nhau có thể so
ung thư máu được thử nghiệm kết quả trong phần sánh được với nhau như được minh họa trên
thực nghiệm của bài báo. hình 2 [9].
6 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
2.2. Phương pháp T-test dạng có thể so sánh với dữ liệu khác. Giá trị t thực
hiện kiểm định t, cho phép tính khả năng hai nhóm
Như đã giới thiệu, ung thư máu có nhiều loại
khác nhau một cách có ý nghĩa thống kê.
nhưng trong phạm vi bài báo này, ta chỉ xét trên
hai loại ung thư máu là AML và ALL. Câu hỏi đặt ra µ1 − µ2
là liệu cùng một loại gen biểu hiện ung thư máu thì t= (2)
ở hai loại ung thư máu khác nhau có biểu hiện sự s
khác biệt không? Và liệu dựa vào biểu hiện gen
trong đó:
ta có thể phân tách được các loại ung thư máu
không? Kết quả ta mong muốn rút ra được là có t là giá trị thống kê;
sự khác biệt hay không ở biểu hiện gen của cùng s là độ lệch chuẩn;
một gen ở bệnh nhân của hai loại bệnh này.
µi là giá trị trung bình dữ liệu từng nhóm.
Để thực hiện phân loại hai bộ dữ liệu, bài báo sử
dụng phương pháp thống kê T-test [4]. Một T-test Quan sát công thức trên ta nhận thấy giá trị của
là một bài kiểm tra thống kê mà các thí nghiệm đặt t chính là tỉ số của tín hiệu và nhiễu, giá trị t càng
ra một giả thuyết (hay H 0), có nghĩa là người thí lớn thì càng có ý nghĩa thống kê.
nghiệm giả định không có sự khác biệt đáng kể - Bước thứ 5 là xác định bậc tự do của mẫu: Khi
giữa hai nhóm. Trong nhiều trường hợp không chỉ dùng giá trị thống kê t, bậc tự do được xác định
muốn biết các nhóm được cho rằng có sự khác dựa trên kích cỡ mẫu. Cộng số quan sát của mỗi
biệt, thì sự khác biệt đó là xảy ra ngẫu nhiên hay nhóm và sau đó trừ đi hai. Ví dụ với df = 8 bậc tự
đó là một sự khác biệt thực sự. Khi đó phải tính do thì có 5 quan sát ở nhóm thứ nhất và 5 quan
toán thêm giá trị p - xác suất xảy ra ngẫu nhiên. sát ở nhóm thứ hai.
Các giá trị nhỏ hơn giá trị p, có nhiều hơn giá trị
khác nhau có ý nghĩa giữa hai nhóm [4]. - Bước cuối cùng là dùng bảng t để đánh giá mức
ý nghĩa. Bảng giá trị thống kê t (hình 3) và bậc tự do.
Để thực hiện đánh giá T-test, ta phải thực hiện
những bước sau:
- Xác định giả thuyết: Giả thuyết là một tuyên bố
về số liệu thực nghiệm và sự khác biệt có thể xuất
hiện trong tổng thể. Mọi thực nghiệm đều có một
giả thuyết không và một giả thuyết nghịch. Nói một
cách tổng quát, ta sẽ so sánh hai nhóm để thấy
được liệu chúng giống hay khác nhau [5].
- Chọn mức ý nghĩa nhằm xác định độ khác biệt
để có thể được xem là có ý nghĩa của dữ liệu:
Mức ý nghĩa (còn được gọi là alpha) là ngưỡng
mà bạn chọn để quyết định ý nghĩa. Nếu giá trị p
nhỏ hơn hay bằng mức ý nghĩa cho trước, số liệu Hình 3. Ví dụ của bảng phân bố
được coi là có ý nghĩa thống kê [10].
Tìm dòng chứa bậc tự do của dữ liệu và giá trị p
- Xác định công thức độ lệch chuẩn. Độ lệch tương ứng với giá trị thống kê t mà bạn có. Cộng
chuẩn này sẽ đo lường mức phân tán của dữ liệu. số quan sát của mỗi nhóm và sau đó trừ đi hai.
Đây là thông tin về tính đồng nhất của mỗi điểm Cuối cùng ta dùng bảng t để đánh giá mức ý nghĩa.
dữ liệu trong mẫu.
2.3. Ứng dụng T-test phân tích hai mẫu
∑(x − µ)
2
i (1) Để chạy một T-test trong Matlab đầu tiên phải xác
s=
N −1 định. Nếu một biến nào đó có sẵn trong danh sách
(từ Excel, từ một ví dụ) nó có thể lấy ra bằng cách
trong đó: cắt và dán các hàm.
s là độ lệch chuẩn; - File Word: copy dữ liệu vào Matlab và thiết lập
nó vào một biến.
xi là đại diện mỗi giá trị;
- File Text: sử dụng các câu lệnh trong Matlab (dữ
µ là giá trị trung bình dữ liệu từng nhóm;
liệu và file Matlab ở trong cùng một folder): load
N là tổng số quan sát. filename.txt
- Sau đó tính giá trị thống kê t của dữ liệu. Giá - File Excel: sử dụng câu lệnh num =
trị thống kê t cho phép chuyển dữ liệu thành một xlsread(filename)
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 7
- NGHIÊN CỨU KHOA HỌC
Theo lý thuyết các thiết lập cơ bản của một T-test 3.1. Cơ sở dữ liệu
là một giá trị giả định (định nghĩa là “H” trong
Hai bộ cơ sở dữ liệu về bệnh ung thư máu được
Matlab). Giá trị giả định này không có nghĩa là sử dụng ở đây được lấy từ bộ cơ sở dữ liệu
không có sự khác biệt giữa các nhóm. Nếu viết được lưu trong bộ cơ sở của St.Jude Children’s
H = ttest (a, [giá trị giả định]) và ấn trả về, Matlab Research Hospital. Hai bộ số liệu này là của 44
sẽ trả về giá trị 0 hoặc 1; 1 nghĩa là giá trị giả bệnh nhân mắc bệnh bạch cầu cấp dòng lymphô
định không chính xác và các sự khác biệt giữa hai (ALL) và 44 bệnh nhân mắc bạch cầu cấp dòng
nhóm; 0 nghĩa là giá trị giả định chính xác: không tủy (AML), mẫu của 88 bệnh nhân này được lấy
có sự khác biệt nào đáng kể. tại thời điểm chẩn đoán và thu được trên chip
Affymetrix Hgu6800. Kết quả thu được là mức
Đối với các mẫu không cùng loại ta sử dụng T-test
biểu hiện của 12627 gen. Bộ số liệu ALL được
2 mẫu.
minh họa trên hình 4. Và bộ số liệu AML được
3. KẾT QUẢ THỰC NGHIỆM minh họa trên hình 5 [3].
Hình 4. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân ALL
Hình 5. Trích 8 bệnh nhân (cột C đến J) và 30 gen đầu tiên trong bộ số liệu của bệnh nhân AML
8 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Hai bộ số liệu trên bao gồm: ta có một nhóm 1 gồm bệnh nhân A, B, C và một
nhóm 2 gồm bệnh nhân X, Y, Z thì hai nhóm độc
- Cột thứ nhất là Probe set, là các hố gen hay là
lập nhau. Nhưng nếu hai nhóm có chung 1 bệnh
cái đầu dò, đây là các lỗ (hay giếng được gắn sẵn
nhân thì hai nhóm không độc lập nhau.
trên các giá microarray). Có tất cả 12627 lỗ gen
ứng với 12627 gen khác nhau; - Biến so sánh phải tuân theo phân phối
chuẩn Gaussian.
- Cột thứ hai là gen được gắn trên các đầu dò
của microarray; - Phương sai của hai nhóm bằng nhau hoặc gần
bằng nhau.
- Cột thứ ba trở đi là các biểu hiện gen ứng với
từng gen của từng bệnh nhân đã được mã hóa - Các đối tượng phải được chọn ngẫu nhiên.
thành số. Với 44 cột tương ứng với 44 bệnh nhân
Kiểm định T hai mẫu để trả lời câu hỏi hai mẫu
khác nhau.
có cùng một luật phân phối, hay cụ thể hơn là
Cả hai bộ số liệu đều được thể hiện cùng số lượng hai mẫu có thật sự có cùng trị số trung bình hay
gen và gen trên các hố gen đều giống nhau. Tất không. Do đó, nhiệm vụ ở đây là phân tích bộ số
cả các gen trong bộ số liệu này là tất cả các gen liệu này để xác định là có hay không sự khác
được phát hiện ra trong mẫu xét nghiệm, bao gồm biệt biểu hiện của một gen ở hai bệnh ung thư
cả gen biểu hiện ung thư máu và gen không biểu khác nhau hay không. Kết luận rút ra được sẽ
hiện của ung thư máu. Ta chỉ thực hiện phân tích có ý nghĩa lâm sàng chẩn đoán bệnh và đưa ra
một số gen có biểu hiện ung thư máu, trong 12627 được các khuyến cáo cho bác sĩ trong quá trình
gen trong bộ số liệu, ta tìm và chọn ra khoảng 40 chữa bệnh cho bệnh nhân.
gen để thực hiện nghiên cứu và phân tích số liệu.
Để đơn giản và dễ dàng thao tác, nhóm tác giả
Ung thư máu có nhiều loại nhưng trong phạm vi đã thực hiện xây dựng giao diện người dùng với
bài báo này, ta chỉ xét trên hai loại ung thư máu là bộ cơ sở dữ liệu tích hợp các gen ung thư máu
AML và ALL. Câu hỏi đặt ra là liệu cùng một loại chung. Điều này giúp dễ dàng thực hiện phân tích
gen biểu hiện ung thư máu thì ở hai loại ung thư và đánh giá kết quả phân tích cũng như xử lý cơ
máu khác nhau chúng có biểu hiện sự khác biệt sở dữ liệu. Trong giao diện này có ba phần chính:
không? Và liệu dựa vào biểu hiện gen ta có thể GENE, DATA, RESULT.
phân tách được các loại ung thư máu không?.
Kết quả ta mong muốn rút ra được là có sự khác
biệt hay không ở biểu hiện gen của cùng một gen
ở bệnh nhân của hai loại bệnh này.
3.2. Kết quả
Áp dụng lý thuyết thống kê vào hai bộ số liệu ung
thư máu, kiểm định T-test hai nhóm [5] được định
nghĩa bằng công thức sau:
x1 − x2
t= (3) Hình 6. Giao diện kiểm tra biểu hiện gen của
s12 s22 bệnh ung thư máu
+
n1 n2 Từ bộ cơ sở dữ liệu nhận được mô tả trong phần
trên ta lựa chọn một số gen đưa vào chương trình.
trong đó: Các gen biểu hiện ung thư máu đã được sàng lọc
từ 12627 gen là các gen sau đây:
x1 và x2 là trung bình của hai nhóm;
- Gene Mouse interleukin 2 (IL-2);
s1 và s2 là độ lệch chuẩn của hai nhóm;
- Gene Human metallothionein-I-A;
n1 và n2 là số lượng mẫu của hai nhóm.
- Gene Homo sapiens BRCA1-associated
Trước khi thực hiện phương pháp kiểm định T ta
protein 2 (BRAP2);
phải tiến hành kiểm tra bộ số liệu yêu cầu đáp ứng
những điều kiện hay giả định sau: - Gene Human homeobox protein Cdx2;
- Hai nhóm so sánh phải hoàn toàn độc lập nhau. - Gene Human class I homeoprotein (HOXA9);
Khi nói đến độc lập ở đây là nói đến hai nhóm
- Gene H.sapiens MTCP1 gene;
không có tương quan đến nhau. Độc lập có
nghĩa là không có liên hệ với nhau. Ví dụ ở đây - Gene Homo sapiens Notch3 (NOTCH3);
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 9
- NGHIÊN CỨU KHOA HỌC
- Gene Human aryl hydrocarbon receptor Nhưng khi thử nghiệm với gen Gene Human
nuclear translocator (ARNT)... metallothionein-I-A, kết quả cho ra là: “Có sự
khác biệt về biểu hiện gen giữa hai bệnh” và “Có
ý nghĩa chẩn đoán bệnh”. Có nghĩa là biểu hiện
của gen này có sự khác biệt giữa hai bệnh AML
và ALL, kết quả này có thể giúp bác sĩ sàng lọc
được hai bệnh ung thư máu này và giúp bác sĩ có
những quyết định đúng đắn trong liệu pháp điều
trị bệnh, chỉ cần điều trị vào những gen biểu hiện
sự khác nhau giữa hai loại bệnh thì sẽ mang lại
hiệu quả cao hơn khi điều trị vào tất cả các gen
biểu hiện ung thư máu.
Hình 7. Thông tin của gen được hiển thị
Những gen mang lại kết quả có sự khác biệt là:
Sau khi chọn được gen chuyển sang phần DATA,
ta chỉ cần chọn Begin và End (vị trí của gen ta - Gene Human class I homeoprotein (HOXA9);
chọn trong bộ cơ sở dữ liệu) tương ứng của gen
- Gene Human metallothionein-I-A;
như thông tin đã được hiển thị ở phần gen, sau đó
ấn vào nút check, chương trình xử lý sẽ làm việc - Gene Homo sapiens Notch3 (NOTCH3).
và kết quả sẽ được hiển thị ra ở phần RESULT.
Một số gen biểu hiện cho bệnh ung thư máu
như: Mouse interleukin 2 (IL-2) gene, Human
metallothionein-I-A gene (I-A), Human class I
homeoprotein (HOXA9) mRNA, Homo sapiens
Notch3 (NOTCH3) mRNA… Những gen này đều
là biểu hiện của bệnh ung thư máu, nhưng với mỗi
một loại ung thư máu khác nhau thì sẽ có những
biểu hiện gen khác nhau. Với các gen khác khi
kết quả phân tích cho ra kết quả là “khác biệt” có
nghĩa là gen đang được phân tích có khả năng sẽ
Hình 8. Thao tác chọn vị trí của gen trong bộ cơ phân tách được hai loại bệnh AML và ALL, kết quả
sở dữ liệu là “không khác biệt” có nghĩa là gen đang được
phân tích không có khả năng phân tách được hai
loại bệnh trên, có thể là dùng để phân tách các loại
bệnh khác của ung thư máu. Với trường hợp kết
quả là khác biệt, kết quả này có thể cho bác sĩ một
Hình 9. Kết quả của việc chạy chương trình kiểm khuyến nghị là loại gen này có thể dùng để chữa
tra biểu hiện của gen Mouse interleukin 2 (IL-2) trị bệnh, với trường hợp kết quả là “không khác
gen của bệnh ung thư máu biệt” thì có thể cho bác sĩ khuyến nghị là bệnh
nhân có thể không mắc AML hoặc ALL mà có thể
Khi đưa vào kiểm tra, kết quả cho thấy gen Mouse
dùng thêm các xét nghiệm khác để kết luận được
interleukin 2 (IL-2) hiển thị là không có sự khác
bệnh ung thư máu chính xác của bệnh nhân.
biệt về biểu hiện gen giữa hai bệnh có nghĩa là
gen không có tác dụng để phân tách được hai
bệnh AML và ALL mặc dù gen này là một gen biểu
hiện của ung thư máu.
Hình 11. Kết quả phân tích không có sự khác biệt
về biểu hiện gen giữa hai bệnh
Vậy, không phải tất cả 12627 gen đều có biểu
Hình 10. Kết quả phân tích có sự khác biệt về hiện mà chỉ biểu hiện ở một số gen nhất định. Đây
biểu hiện gen giữa hai bệnh là những gen đặc trưng chỉ có trong ung thư máu.
10 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Cũng nhờ dựa vào việc phân tích những gen này [2]. Henrik R. Wulff, Bjorn Andersen, Preben Brandenhoff,
có biểu hiện hay không có biểu hiện ta cũng có Flemming Buttler (1987). Statistics in Medicine.
thể phân biệt được hai nhóm ung thư máu khác
nhau là AML và ALL. Kết quả này sẽ góp phần [3]. T. Golub, D. Slonim, P. Tamayo, et al (1999).
hỗ trợ cho bác sĩ trong việc chẩn đoán được Molecular classification of cancer: Class discovery
chính xác loại bệnh ung thư máu riêng biệt nào and class prediction by gene expression.
và từ đó có những phác đồ điều trị đúng đắn
Bioinformatics & Computational Biology, 286
cho bệnh nhân.
(1999), 531–537.
4. KẾT LUẬN
[4]. J. Clerk Maxwell (1892). A Treatise on Electricity
Bài báo đã đưa ra hướng nghiên cứu và xây dựng
được chương trình xử lý và phân tích dữ liệu and Magnetism, 3rd ed., vol. 2. Oxford: Clarendon,
đánh giá phân loại bệnh ung thư máu và giao diện pp.68–73.
người dùng giúp đỡ bác sĩ trong việc phân loại
[5]. John M. Cimbala (2014). Hypothesis Testing.
bệnh ung thư máu. Chương trình đều được xây
dựng và thực hiện trên phần mềm Matlab. Kết quả Penn State University.
của chương trình phân loại bệnh ung thư máu đã
[6]. John M. Cimbala (2010). Two Samples
có thể đưa ra các khuyến nghị cho bác sĩ trong
việc chẩn đoán được chính xác loại bệnh ung thư Hypothesis Testing.
máu riêng biệt nào và từ đó có những phác đồ [7]. Microarray Bioinformatics. Dov Stekel, Cambridge
điều trị đúng đắn cho bệnh nhân. Đặc biệt, kết quả
University, 2003.
nghiên cứu là bước khởi đầu cho việc chữa trị ung
thư bằng phương pháp liệu pháp gen, có thể áp [8]. https://c1.staticflickr.com/3/2527/3764113525_
dụng cho rất nhiều các bệnh viện trên mọi miền Tổ d86f0edaa6_b.jpg.
quốc đưa việc chữa trị ung thư ở nước ta lên một
bước phát triển mới, nâng cao chất lượng cuộc [9]. Brazma, A., et al. (2001). Minimum information
sống cho nhân dân. about a microarray experiment (MIAME) -
toward standards for microarray data. Nature
TÀI LIỆU THAM KHẢO Genetics, Vol. 29: p. 365-371.
[1]. Bộ Y tế (2015). Hướng dẫn chẩn đoán và điều trị [10]. http://www.stat.yale.edu/Courses/1997-98/101/
một số bệnh lý huyết học. 22/4/2015. sigtest.htm.
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 11
- NGHIÊN CỨU KHOA HỌC
Nghiên cứu và phát triển mô hình vật lý của pin mặt trời
Research and development for the photovoltaic emulator
1 1 2
Lưu Thị Huế , Vũ Hoàng Giang , Phạm Đức Khẩn
Email: phamduckhan@gmail.com
1
Trường Đại học Điện lực Hà Nội
2
Trường Đại học Sao Đỏ
Ngày nhận bài: 4/9/2018
Ngày nhận bài sửa sau phản biện: 26/12/2018
Ngày chấp nhận đăng: 27/12/2018
Tóm tắt
Nghiên cứu khảo sát hoạt động của hệ thống năng lượng mặt trời đòi hỏi việc thực hiện nhiều thí
nghiệm khác nhau liên quan đến đặc tính của pin mặt trời trong các điều kiện môi trường khác nhau.
Hơn nữa, thí nghiệm ngoài trời khó khăn và chi phí cho hệ thống thí nghiệm thường lớn. Bài báo giới
thiệu kết quả nghiên cứu phát triển mô hình vật lý của pin mặt trời bằng cách kết hợp một cách hợp lý
các phần tử nguồn điện áp phụ thuộc, điôt và các điện trở. Mô hình tổng quát của pin mặt trời được mô
phỏng trên phần mềm Proteus để đánh giá sơ bộ về đặc tính của một pin mặt trời công nghiệp. Sau đó,
được thực hiện thí nghiệm với công suất bé. Kết quả thí nghiệm đã xác nhận tính khả thi, từ đó đề xuất
phát triển bộ mô phỏng vật lý với công suất lớn hơn nhằm phục vụ cho việc khảo sát hoạt động của các
môđun pin mặt trời công suất lớn.
Từ khóa: Bộ mô phỏng; cường độ bức xạ mặt trời; đặc tính của pin mặt trời; mô phỏng; phần
mềm Proteus.
Abstract
Investigation of photovoltaic (PV) system requires the implementation of various tests related to the PV
characteristic in the conditions that input factors including insolation and operating temperature vary.
Additionally, the difficulty of conducting outdoor tests and high-cost investment are usually the challenge
of installing the system. The paper introduces the development PV emulator by appropriately combining
dependent voltage source, diode and resistors. Generized model of PV is simulated in Proteus software
in order to obtain the characteristic of an industrial PV. Following that, the experiment with low-rated
emulator is carried out. Experiment results confirm the feasibility, and indicate the issues that need to be
solved for constructing larger emulator.
Keywords: Emulator; insolation; PV characteristic; simulation; proteus software.
1. GIỚI THIỆU CHUNG đầu tư, giảm chi phí vận hành... Về nguyên lý hoạt
Sự phát triển của công nghệ phát điện bằng năng động, công suất phát ra của nguồn điện mặt trời
lượng mặt trời đã trở nên khá phổ biến trên toàn phụ thuộc vào cường độ bức xạ mặt trời tại nơi
thế giới thể hiện ở sự gia tăng về số lượng và lắp đặt thường biến thiên và không ổn định theo
công suất phát của các hệ thống điện mặt trời. thời gian.
Ở Việt Nam, các dự án nguồn điện sản xuất từ
Để phục vụ cho nghiên cứu, khảo sát hệ thống pin
năng lượng tái tạo trong đó có năng lượng mặt
trời được khuyến khích phát triển và đã được đề mặt trời, nhiều bộ mô phỏng đã được xây dựng.
cập tới trong Quy hoạch điện VII (điều chỉnh) với Ưu điểm chính của các bộ mô phỏng là có thể
mục tiêu đạt công suất khoảng 12000 MW vào thay thế các tấm pin mặt trời thực tế trong nghiên
năm 2030 [1]. cứu học tập về lĩnh vực liên quan và vượt qua
Trong quá trình phát triển, công nghệ phát điện được hạn chế của hệ thống thí nghiệm với pin mặt
bằng năng lượng mặt trời gặp phải một số vấn trời thực bao gồm:
đề kỹ thuật cần cải thiện bao gồm yêu cầu nâng - Giá trị cường độ bức xạ mặt trời không phải luôn
cao hiệu suất của hệ thống, giảm thiểu giá thành
sẵn có ở mọi thời điểm.
Người phản biện: 1. PGS.TS. Trần Vệ Quốc - Cường độ bức xạ mặt trời phụ thuộc nhiều vào
2. TS. Nguyễn Trọng Các điều kiện thời tiết.
12 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
- Thí nghiệm ngoài trời gặp nhiều khó khăn và Sơ đồ mạch điện của pin mặt trời được thể hiện
khó lặp lại thí nghiệm với cùng điều kiện khí hậu. trên hình 2 [8, 9].
- Chi phí trang bị và lắp đặt hệ thống pin mặt
trời thực.
Thực tế các bộ mô phỏng đã được thương
mại hóa thành sản phẩm hoàn chỉnh của nhiều
hãng trên thế giới như: N8937APV Photovoltaic
Array Simulator của Keysight technologies [2],
Hình 2. Sơ đồ mạch tương đương của pin mặt trời
SAS12010 Solar Array Simulator của Aplab
[3], hay Chroma’s 62000H-S series Solar Array
Trong đó thành phần chính của điện trở nối tiếp Rs
Simulator của Chroma [4]. Các bộ mô phỏng công
nghiệp thường được trang bị bộ điều khiển lập là điện trở của vật liệu bán dẫn, điện trở tiếp xúc,
trình cho phép mô phỏng được các đặc tính đầu và các điện trở khác trên đường truyền công suất.
ra vôn-ampe của pin mặt trời trong các điều kiện
nhiệt độ, cường độ bức xạ mặt trời khác nhau. I I
Nhược điểm chính của các bộ mô phỏng là có Chiều tăng Chiều giảm
chi phí cao và đôi khi hạn chế về mở rộng ứng của Rs của Rp
dụng. Vì vậy trong lĩnh vực nghiên cứu, sự phát
triển các bộ mô phỏng trong phòng thí nghiệm đã
thu hút được sự chú ý của nhiều nhà nghiên cứu.
Yêu cầu của các bộ mô phỏng là có thể điều chỉnh V V
được trong quá trình sử dụng, hơn nữa cần đáp
ứng các yêu cầu về gọn nhẹ và chi phí thấp [5-10]. Hình 3. Sự ảnh hưởng của điện trở đến đặc tính
Với mục tiêu phát triển hệ thống thí nghiệm cho vôn-ampe của pin mặt trời
các môđun pin mặt trời, nghiên cứu này thực
hiện tổng hợp và phân tích mô hình, mô phỏng Điện trở song song Rp là do sự không hoàn hảo
đối tượng trên phần mềm và thực hiện một số thí của tiếp giáp p-n của pin và phần lân cận [8]. Sự
nghiệm ở công suất thấp nhằm hướng đến việc dịch chuyển của đặc tính điển hình vôn-ampe (V-I)
xây dựng một mô hình vật lý có công suất phù hợp của PV theo các điện trở được thể hiện trên hình 3.
phục vụ cho nghiên cứu môđun pin mặt trời trong
Quan hệ đặc tính V-I của PV tương ứng với mô
phòng thí nghiệm.
hình tổng quát trên hình 1 được biểu diễn bởi
Bài báo được bố cục như sau. Mục 2 tổng hợp mô phương trình sau:
hình tổng quát của pin mặt trời. Tiếp theo, mục 3
I = I ph − I s e (
q V + IRs ) / ( kTC A )
giới thiệu kết quả mô phỏng pin mặt trời trên phần − 1 − (V + IRs ) / R p (1)
(1)
mềm Proteus. Quá trình xây dựng mô hình vật lý
công suất bé và các thử nghiệm đặc tính liên quan trong đó: Iph là dòng quang điện; Is là dòng điện tối
được trình bày trong mục 4. Cuối cùng các kết
bão hòa của tế bào quang điện (ứng với khi tế bào
luận và kiến nghị được đưa ra trong mục 5.
quang điện được che tối, không nhận được photon);
2.MÔ HÌNH CỦA PIN MẶT TRỜI q là điện tích của một electron, q = 1,6.10-19 C; k là
Mô hình nguyên lý cấu tạo của pin mặt trời như hằng số Boltzmann, k = 1,38.10-23 J/K; TC là nhiệt
trên hình 1 [10]. độ làm việc của PV; A là hằng số lý tưởng; Rp là
điện trở song song; Rs là điện trở nối tiếp trong sơ
đồ tương đương của PV. Biểu thức xác định dòng
điện quang điện và dòng điện bão hòa của tế bào
quang điện được giới thiệu chi tiết trong nhiều tài
liệu tham khảo, ví dụ xem [6, 7].
Trong ứng dụng thực tế, các pin mặt trời thường
được nối song song, nối tiếp để tạo thành môđun
hay dàn pin mặt trời để nâng cao công suất và đáp
ứng yêu cầu về giá trị của điện áp và dòng điện.
Khi đó mô hình của pin mặt trời có thể được thiết
lập có dạng tương tự phương trình (1) với hiệu
chỉnh số pin mặt trời nối song song (Np) và nối tiếp
Hình 1. Sơ đồ nguyên lý cấu tạo của pin mặt trời (Ns) như sau:
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 13
- NGHIÊN CỨU KHOA HỌC
(2)
Mô hình của pin mặt trời ở hình 1 được lựa chọn
trong nghiên cứu vì có đặc điểm đơn giản nhưng
vẫn thể hiện được đặc tính I-V và P-V của pin mặt
trời. Thực tế cho thấy rất nhiều nghiên cứu đến
thời điểm hiện tại dựa vào mô hình này làm mô
hình cơ sở [7]. Nội dung tiếp theo của bài báo giới
thiệu trình tự thực hiện tiến tới xây dựng mô hình Hình 5. Các đường đặc tính V-I của pin mặt trời
vật lý sử dụng trong phòng thí nghiệm với các cường độ bức xạ khác nhau
3. MÔ PHỎNG PIN MẶT TRỜI TRÊN PHẦN Hình 5 thể hiện kết quả mô phỏng họ đặc tính của
MỀM PROTEUS PV (từ IPV1 đến IPV2) tương ứng với cường độ
bức xạ khác nhau.
Trước khi xây dựng mô hình vật lý của pin mặt
trời thì việc mô phỏng mô hình lựa chọn, và kiểm Từ kết quả mô phỏng đặc tính của pin mặt trời
tra các đặc tính của nó là rất cần thiết. Đây là cơ bằng phần mềm Proteus như là một bước chuẩn
sở để xây dựng mạch in, mạch thực cho mô hình. bị để thiết kế mô hình vật lý của pin bằng thực
Trong bài báo này tác giả sử dụng phần mềm nghiệm sẽ được trình bày trong mục 4.
Protues để mô phỏng. 4. MÔ HÌNH VẬT LÝ CỦA PIN MẶT TRỜI VÀ
Phần mềm Proteus miễn phí được sử dụng làm KẾT QUẢ THÍ NGHIỆM
công cụ mô phỏng trong nghiên cứu này. Đây là 4.1. Giới thiệu mô hình vật lý
phần mềm dễ sử dụng, trực quan và rất thuận tiện
trong thiết kế ban đầu để chế tạo mạch in cho các Dựa vào sơ đồ trong hình 2, mô hình vật lý của
bộ mô phỏng. pin mặt trời được xây dựng trên cơ sở kết hợp
nguồn Iph và một điôt mắc song song. Thành phần
Sơ đồ mô phỏng của pin mặt trời được thể hiện
chính của dòng điện đầu ra là dòng quang điện,
trên hình 4, trong đó:
trong khi đó dòng qua điôt có giá trị nhỏ và có thể
Nguồn điện áp một chiều V18 kết hợp biến trở tạo ra nhờ đặc tính vốn có của điôt. Trong thực
RV4 để mô phỏng nguồn dòng điện Iph và điện trở tế, để tạo ra nguồn dòng điện thường gặp nhiều
song song Rp trong mô hình trên hình 2. Mô tả chi khó khăn hơn (do yêu cầu phải kết hợp nhiều linh
tiết của sự thay thế này được nêu trong mục 4.1. kiện điện tử công suất) so với nguồn điện áp phổ
biến (có thể sẵn có hoặc tạo ra được bằng một số
Ngoài ra trong sơ đồ sử dụng điôt D1, điện trở
linh kiện đơn giản). Mặt khác trên cơ sở lý thuyết
R54 mô phỏng cho Rs, và các điện trở từ R1 đến
mạch điện, nguồn dòng điện Iph mắc song song
R10 kết hợp với công tắc SW2 để thay đổi điểm
với điện trở Rp có thể thay thế tương đương bằng
làm việc V-I đầu ra của pin (dòng điện và điện áp
một nguồn áp Eph nối nối tiếp với điện trở Rp: Eph
được đo tương ứng bằng các khối ampe kế và
= Rp.Iph, như đã được minh họa trong mô phỏng
vôn kế một chiều).
ở mục 3.
Để xác nhận đặc tính của mô hình, thí nghiệm
được tiến hành với sơ đồ nối mạch đơn giản như
trên hình 6.
Hình 4. Sơ đồ mô phỏng pin mặt trời trên phần
mềm Proteus Hình 6. Sơ đồ nguyên lý mạch thí nghiệm
14 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
trong đó: Rp = 217 W, Rs = 0,22 W, R1 =1027 W,
E = 12 V, R2 được thay đổi để tạo ra điện áp đầu (3)
ra thay đổi trong hai trường hợp: Eph = 24 V và Thông số thu được trong hai thí nghiệm như sau:
Eph = 18 V.
Eph = 24 V: A = 5,887; Is = 0,0006416 A;
4.2. Kết quả thí nghiệm
Eph = 18 V: A = 5,991; Is = 0,0005547 A.
Sơ đồ mạch thí nghiệm trên hình 7 được xây dựng
dựa vào sơ đồ nguyên lý ở hình 6. 4.3. Đề xuất nâng cao công suất của mô hình
Thí nghiệm ở mục 4.1 được tiến hành với công
suất bé trên cơ sở các linh kiện hiện có và điện
áp nguồn hạn chế. Mô hình mạch thu được có thể
dùng để mô phỏng cho một pin mặt trời điển hình.
Để nâng cao công suất của mô hình và đáp ứng
các yêu cầu trong thí nghiệm, bên cạnh việc sử
dụng các biến trở có công suất phù hợp, cần nâng
cao công suất của nguồn điện áp một chiều và
Hình 7. Sơ đồ mạch thí nghiệm điện áp của nguồn có thể điều khiển được. Mạch
tăng áp có sơ đồ như hình 9 đáp ứng được yêu
Tiến hành điều chỉnh điểm làm việc của pin bằng cầu trên.
thay đổi điện trở R2 với các tham số trong bảng
3 sẽ thu được kết quả là các đường đặc tính V-I, 1 16
R1
P-V của một bộ pin như hình 8. 2 15 Q1
R4
D1 D3 + C3
3 14
R2
4 TL494 13 R5
Ct 5 12 +
C4
D4
Rt 6 11 D2
Q2
7 10
- 8 9
12V C2 +
+
-
Hình 10. Sơ đồ nguyên lý mạch tăng áp
Trong sơ đồ hình 10, TL494 làm chức năng tạo
xung đóng cắt có thời gian chết để điều khiển
các van Q1 và Q2 đóng cắt. Do có thể điều khiển
Hình 8. Kết quả thí nghiệm đặc tính I-V (trái) và được thời gian đóng cắt của Q1 và Q2, vì vậy điện
P-V (phải) áp đầu ra được tăng lên và điều khiển được.
Công thức tính cho nguồn:
(4)
Vout điện áp đầu ra; Vin điện áp đầu vào; n2 cuộn
dây thứ cấp của máy biến áp xung; n1 cuộn dây sơ
cấp của máy biến áp xung; f tần số đóng cắt; TonQ1
thời gian mở van Q1; Ton,Q2 thời gian mở van Q2.
Hình 9. Đặc tính xấp xỉ của pin mặt trời
Để thay đổi điện áp đầu ra Vout bằng điều khiển độ
Có thể nhận thấy từ kết quả thực nghiệm hình rộng của xung PWM kích mở cho Q1 và Q2, chỉ
9 và kết quả mô phỏng hình 5 giống nhau các cần thay đổi điện áp đặt vào chân 3.
đặc tính tạo ra có dạng của đặc tính pin mặt trời
thường gặp. Hơn nữa việc đóng cắt liên tục hai van bán dẫn Q1
Áp dụng thuật toán tìm đường cong dựa vào dữ và Q2, vì vậy luôn xuất hiện dòng điện liên tục trên
liệu cho trước (“fitting curve”) của Matlab có thể tải, do đó nguồn cho hiệu suất cao. Hình 10 là kết
xác định được phương trình đặc tính có dạng: quả thử nghiệm mạch tăng áp.
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 15
- NGHIÊN CỨU KHOA HỌC
5. KẾT LUẬN
Như vậy, bộ mô phỏng của pin mặt trời đã đáp
ứng được yêu cầu: tạo ra các đường đặc tính
giống với các đường đặc tính của các loại pin
thường gặp ở điều kiện môi trường bất kỳ. Mô
hình đơn giản dễ thực hiện, chi phí thấp. Trên cơ
sở thực hiện mô hình ở công suất thấp và kết quả
mô phỏng trên phần mềm ở công suất cao. Chính
là cơ sở để xây dựng mô hình với công suất cao
hơn phù hợp với môđun pin mặt trời công nghiệp.
Hình 11. Mạch tăng áp
Hình 11 minh họa giá trị đo của mạch tăng áp sử TÀI LIỆU THAM KHẢO
dụng mạch có điều khiển bằng điều biên độ rộng
[1]. http://www.evn.com.vn.
xung dùng TL494 của hãng Texas Instruments, [4]
để nâng điện áp từ 12 V lên khoảng 380 V. Ngoài [2]. Hoàng Dương Hùng (2014). Năng lượng mặt trời
ra các bộ biến đổi tăng áp DC-DC cũng có thể lý thuyết và ứng dụng. Nhà xuất bản ĐH Bách
được sử dụng để nâng điện áp nguồn nhưng đòi khoa Đà Nẵng.
hỏi thiết kế mạch và bộ điều khiển tương ứng.
[3]. H. Abidi, A.B.B. Abdelghani and D. & Montesinos-
Hình 12 và hình 13 là minh chứng sơ đồ và kết Miracle (2012). MPPT algorithm and photovoltaic
quả mô phỏng của một pin mặt trời công nghiệp array emulator using DC/DC converters. In 16th
có các thông số xem trong bảng 2 với nguồn vào
IEEE Mediterranean Electrotechnical Conference.
Vout được lấy từ đầu ra của bộ tăng áp.
[4]. R.G. Wandhare and V. & Agarwal (2011). A low cost,
light weight and accurate photovoltaic emulator. In
37th IEEE Photovoltaic Specialists Conference.
[5]. F.J. Viglus and M.M. & Casaro (2016). Photovoltaic
array emulation using a three-phase DC-DC
converter with galvanic isolation. In 12th IEEE
International Conference on Industry Applications.
[6]. Ö. Özden, Y. Duru, S. Zengin and M. &
Boztepe (2016). Design and implementation of
programmable PV simulator. In International
Symposium on Fundamentals of Electrical
Engineering.
[7]. E. Golubovic, A. Sabanovic and B.C. &
Üstündağ (2015). Internet of things inspired
photovoltaic emulator design for smart grid
Hình 12. Sơ đồ mô phỏng pin mặt trời applications. In 3rd International Istanbul Smart
Grid Congress and Fair.
[8]. J. Gonzalez-Llorente, A. Rambal-Vecino, L.A.
Garcia-Rodriguez, J.C. Balda and E.I. & Ortiz-
Rivera (2016). Simple and efficient low power
photovoltaic emulator for evaluation of power
conditioning systems. In IEEE Applied Power
Electronics Conference and Exposition.
[9]. H.-L. Tsai, C.-S. Tu and Y.-J. Su (2008).
Development of generalized photovoltaic model
using MATLAB/SIMULINK. In Proceedings of the
world congress on Engineering and computer
science.
Hình 13. Đường đặc tính của pin mặt trời [10]. https://computergotx.com.
16 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng
Imbalanced data classification based on DEC-SVM
1 1 2
Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh
Email: ngocquynh.ydhn@gmail.com
1
Trường Đại học Sao Đỏ
2
Trường Cao đẳng Y Dược Hà Nội
Ngày nhận bài: 21/8/2018
Ngày nhận bài sửa sau phản biện: 29/10/2018
Ngày chấp nhận đăng: 27/12/2018
Tóm tắt
Trong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm
phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực
nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.
Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM.
Abstract
In this article, authors study the DEC-SVM algorithm that modulates data by adding elements to the
minority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidence
show that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets.
Keywords: Clustering; classification; imbalanced data; SVM.
1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân
lớp chuẩn thường có xu hướng thiên vị đối với lớp
Ngày nay, khi vấn đề khai thác và xử lý thông tin
đa số và bỏ qua lớp thiểu số (xử lý chúng như là
ngày càng được chú trọng, kỹ thuật phân lớp dữ
nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phân
liệu đã góp phần hữu hiệu giúp con người khai
lớp truyền thống chưa thể xây dựng được một bộ
thác một cách có hiệu quả khối dữ liệu mà họ
phân lớp tốt. Việc phân loại sai các mẫu thuộc lớp
đang nắm giữ. Tuy nhiên, dữ liệu thu thập được
thiểu số có thể gây nên những tổn thất lớn đối với
trong thực tế ngày càng xuất hiện nhiều các bộ
các lĩnh vực thực tế. Để giải quyết vấn đề về phân
dữ liệu mất cân bằng, nghĩa là trong tập dữ liệu
lớp đối với các bộ dữ liệu mất cân bằng, hiện nay
có sự chênh lệch lớn về số lượng các phần tử
có nhiều phương pháp khác nhau, trong đó, có hai
giữa các lớp. Các bộ dữ liệu trong nhiều ứng dụng
hướng tiếp cận chính: tiếp cận ở mức độ dữ liệu
thực tế như phát hiện các giao dịch gian lận, phát
và hướng tiếp cận ở mức độ thuật toán.
hiện xâm nhập mạng, dự đoán rủi ro trong quản
lý, chẩn đoán y khoa,…, đều là các bộ dữ liệu mất Trong [12], tác giả cải tiến thuật toán sinh thêm
cân bằng mà trong đó, lớp người ta cần quan tâm mẫu nhân tạo lớp thiểu số (SMOTE) bằng cách
lại chiếm tỉ lệ rất nhỏ so với lớp còn lại. kết hợp thuật toán nhúng tuyến tính cục bộ (locally
linear embedding - LLE). Thuật toán LLE ánh xạ
Sự chênh lệch về số lượng giữa lớp đa số và lớp
dữ liệu có số chiều cao vào một không gian với số
thiểu số làm cho việc phân lớp đúng các mẫu
chiều thấp hơn. Sau đó, các mẫu nhân tạo sinh
thuộc lớp thiểu số bị giảm hiệu quả. Tỷ lệ mất
ra sẽ được ánh xạ trở lại không gian mẫu ban
cân bằng của tập dữ liệu càng cao thì việc phát
đầu thông qua LLE. Từ bộ dữ liệu đã điều chỉnh,
hiện đúng các mẫu của lớp thiểu số càng khó
thực nghiệm trên 3 bộ dữ liệu với ba kỹ thuật phân
khăn. Trong các ứng dụng thực tế, tỷ lệ mất cân
lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVM
bằng có thể là 1:100, 1:1000, thậm chí có thể hơn
có độ chính xác theo tiêu chí AUC cao nhất với
[11]. Vì thế, phân lớp dữ liệu mất cân bằng đã và
trung bình là 76.5%. Trong [13], tác giả trình bày
đang là bài toán được các nhà khoa học đặc biệt
giải thuật GSVM -RU (Granular Support Vector
quan tâm.
Machines Repetitive Undersampling) sử dụng
SVM cho việc lấy mẫu. Với những mẫu quan trọng
Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn trong quá trình phân lớp, giảm thiểu mất thông tin
2. TS. Trần Trọng Hiếu các mẫu đa số khi loại bỏ và tối đa mẫu thiểu số
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17
- NGHIÊN CỨU KHOA HỌC
khi làm sạch dữ liệu trong quá trình lấy mẫu để nhân tạo. Sinh ngẫu nhiên các phần tử ở lớp thiểu
chỉ giữ lại các mẫu cần thiết và các mẫu khác có số là phương pháp đơn giản nhất nhằm cân bằng
thể được loại bỏ một cách an toàn mà không ảnh phân lớp thông qua việc nhân bản ngẫu nhiên các
hưởng đến phân loại. Việc trích chọn vectơ ít hơn, mẫu lớp thiểu số. Ý tưởng là lựa chọn ngẫu nhiên
do đó tăng tốc độ dự đoán. Kết quả thực nghiệm các mẫu thuộc lớp thiểu số và nhân bản chúng
với các đánh giá G-Mean (85.2%), AUC (92.4%), tạo ra mẫu mới giống hệt chúng. Hình 1 minh họa
F-Measure (66.5%). Trong [14], tác giả đề xuất
phương pháp sinh thêm phần tử cho lớp thiểu số.
phương pháp Bagging of Extrapolation Borderline-
SMOTE SVMs (BEBS) sử dụng phương pháp lấy
mẫu thích nghi Extrapolation Borderline-SMOTE
và tập hợp bootstrapping vào tập dữ liệu không
cân bằng ban đầu. Khi sử dụng SVM, ranh giới
quyết định nghiêng về phía các mẫu thiểu số và
có thể được thay đổi dựa vào các mẫu nhân bản.
Kết quả thực nghiệm đánh giá dựa trên tiêu chí
G-Mean đạt 76.2%. Hình 1. Sinh ngẫu nhiên phần tử lớp thiểu số
Tuy nhiên, với đặc thù của các tập dữ liệu hầu hết Phương pháp sinh thêm mẫu nhân tạo lớp thiểu
không giống nhau, không có giải pháp nào là hữu số SMOTE (Synthetic Minority Over-sampling
hiệu cho mọi tập dữ liệu. Trong bài báo này, chúng Technique) như sau: Với mỗi mẫu thuộc lớp thiểu
tôi đề xuất thuật toán DEC-SVM để phân lớp dữ số, tìm láng giềng gần nhất của nó trong lớp thiểu
liệu. Cụ thể, nghiên cứu thuật toán điều chỉnh dữ số, lựa chọn ngẫu nhiên các láng giềng gần nhất
liệu cho bài toán phân lớp dữ liệu mất cân bằng (hoặc tất cả láng giềng) tùy theo số lượng mẫu
– thuật toán DEC (a novel Differential Evolution cần sinh thêm. Mẫu nhân tạo sẽ được sinh ra theo
Clustering hybrid resampling) được công bố vào
cách sau: lấy độ lệch giữa vector thuộc tính của
năm 2010 của nhóm tác giả Leichen Chen, Zhihua
mẫu đang xét và láng giềng của nó nhân với một
Cai, Lu Chen và Qiong Gu [1]. Thuật toán này là
số ngẫu nhiên trong khoảng (0, 1) rồi cộng kết quả
sự kết hợp giữa phương pháp sinh thêm phần tử
cho lớp thiểu số và sử dụng kỹ thuật phân cụm, thu được với vector thuộc tính của mẫu đang xét.
K-means để loại bỏ bớt phần tử dư thừa, nhiễu Kết quả cuối cùng chính là vector thuộc tính của
trong dữ liệu. Với mỗi mẫu thuộc lớp thiểu số, tạo mẫu nhân tạo, nhãn của mẫu nhân tạo sẽ được
ra một mẫu đột biến từ hai trong số những láng gán là nhãn của lớp thiểu số [9] và được minh họa
giềng gần nó nhất, sau đó sử dụng thuật toán di trong hình 2.
truyền để sinh thêm phần tử cho lớp thiểu số từ
mẫu thiểu số ban đầu và mẫu đột biến mới tạo ra.
Sau khi điều chỉnh dữ liệu bằng thuật toán DEC,
chúng tôi sử dụng kỹ thuật SVM để phân lớp cho
tập dữ liệu huấn luyện mới để tạo ra mô hình phân Hình 2. Minh họa sinh thêm phần tử nhân tạo
lớp. Kết quả cho thấy, khi sử dụng DEC-SVM thì bằng thuật toán SMOTE
hiệu quả phân lớp các bộ dữ liệu mất cân bằng
cao hơn. Giả mã của thuật toán SMOTE [9]:
2. PHƯƠNG PHÁP DEC-SVM CHO BÀI TOÁN SMOTE (N, T, k)
PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG
Input: Số mẫu lớp thiểu số T; tổng số SMOTE
2.1. Hướng tiếp cận ở mức độ dữ liệu N%, số láng giềng gần nhất k.
Tiếp cận ở mức độ dữ liệu mục đích là điều chỉnh Output: (N/100)*T mẫu thiểu số nhân tạo
tỉ lệ mất cân bằng giữa hai lớp trong bộ dữ liệu, cụ
thể sử dụng các hình thức lấy mẫu: sinh thêm các 1. (Nếu N nhỏ hơn 100%, chọn ngẫu nhiên các
phần tử lớp thiểu số (sinh ngẫu nhiên, sinh thêm mẫu lớp thiểu số mà chỉ một phần trăm của chúng
phần tử nhân tạo,…), loại bỏ các phần tử lớp đa sẽ được SMOTE)
số, hoặc kết hợp cả hai phương pháp trên. 2. IF N< 100
2.1.1. Sinh thêm phần tử lớp thiểu số
3. Then chọn ngẫu nhiên T mẫu lớp thiểu số
Có nhiều phương pháp sinh thêm phần tử cho lớp
4. T = (N/100)*T
thiểu số như: sinh ngẫu nhiên phần tử lớp thiểu
số, lựa chọn phần tử lớp thiểu số, sinh thêm mẫu 5. N = 100
18 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
- LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
6. Endif 3. For attr←1 to numattrs
7. N = (int) (N/100) (Số luợng SMOTE được giả 4. Tính dif=Sample[nnarray[n,n]][attr]-Sample[i][attr]
định là bội số của 100)
5. Tính gap = một số ngẫu nhiên giữa 0 và 1
8. k = số láng giềng gần nhất
6. Synthentic[newindex][attr]=Sample[i][ attr]+gap*dif
9. numattrs = số thuộc tính
7. Endfor
10. sample [ ][ ]: mảng các mẫu thiểu số ban đầu
8. ++
11. newindex: chỉ số của mẫu nhân tạo được tạo
9. N=N-1
ra, khởi tạo là 0
10. Endwhile
12. synthetic [ ][ ]: mảng các mẫu nhân tạo
11. Return (kết thúc hàm Populate)
(tính k láng giềng gần nhất cho mỗi mẫu lớp
thiểu số.) Ngoài ra còn có một số thuật toán được cải tiến
13. For to T từ thuật toán SMOTE như: Borderline-SMOTE [6],
Safe-level SMOTE [3] cũng đem lại những hiệu
14. Tính k láng giềng gần nhất cho i và lưu vào
quả nhất định hỗ trợ quá trình phân lớp cho các bộ
mảng nnarray.
dữ liệu mất cân bằng.
15. Populate (N, i, nnarray)
2.1.2. Loại bỏ phần tử lớp đa số
16. Endfor
Là phương pháp điều chỉnh phân bố dữ liệu bằng
Populate (N, i, nnarray) (hàm sinh các mẫu nhân tạo) cách giảm bớt số lượng phần tử lớp đa số. Loại
Input: Số mẫu cần sinh thêm N, mỗi mẫu lớp bỏ một cách ngẫu nhiên các mẫu thuộc lớp đa số
thiểu số i, mảng các láng giềng gần nhất nnarray. là đơn giản nhất. Phương pháp này thực hiện loại
Output: Vector thuộc tính của mẫu nhân tạo bỏ ngẫu nhiên phần tử thuộc lớp đa số trong tập
huấn luyện (hình 3a) cho tới khi có được tỷ lệ phù
1. While N≠0
hợp giữa hai lớp. Với lý do này, số lượng phần tử
2. Chọn ngẫu nhiên một số nn giữa 1 và k trong tập huấn luyện giảm đáng kể (hình 3b).
M
M u thi u s
(a) (b )
Hình 3. Minh họa loại bỏ phần tử lớp đa số
Tuy nhiên, việc loại bỏ mẫu có thể sẽ làm hao mới. Hay đối với phương pháp phân lớp SVM, có
hụt thông tin và có khả năng làm mất đi những thể sử dụng hằng số phạt khác nhau cho các lớp
mẫu mang thông tin quan trọng cho quá trình hoặc điều chỉnh ranh giới lớp dựa trên ý tưởng
xây dựng mô hình phân lớp. Khắc phục hạn chế liên hết hạt nhân [11].
của phương pháp trên, một số phương pháp loại
bỏ mẫu theo mục tiêu được đề xuất như: Tomek Đối với phương pháp phân lớp K-NN, có thể đề
links, One-side Selection, Neighborhood Cleaning xuất một hàm khoảng cách có trọng số. Ý tưởng
Rule [7]. này nhằm bù cho sự mất cân bằng trong mẫu
huấn luyện mà không làm thay đổi sự phân lớp.
2.2. Hướng tiếp cận ở mức độ thuật toán
2.3. Thuật toán DEC-SVM cho bài toán phân
Tiếp cận ở mức độ thuật toán nghĩa là điều chỉnh lớp dữ liệu mất cân bằng
các thuật toán phân lớp để tăng cường độ chính
Phương pháp sinh thêm phần tử nhân tạo cho
xác khi phân lớp đối với dữ liệu mất cân bằng.
lớp thiểu số là phương pháp hiệu quả cho các bài
Chiến lược chung để đối phó với vấn đề mất cân
toán phân lớp dữ liệu mất cân bằng. Tuy nhiên,
bằng trong các bộ dữ liệu là lựa chọn một khuynh
trong nhiều trường hợp, việc sinh thêm mẫu có
hướng quy nạp thích hợp.
thể sẽ tạo ra những mẫu dư thừa hoặc nhiễu làm
Ví dụ như đối với phương pháp cây quyết định, ảnh hưởng tới hiệu quả phân lớp. Thuật toán
cách tiếp cận có thể là điều chỉnh dự đoán xác DEC-SVM dựa trên việc tạo ra phần tử nhân tạo
xuất ở lá, hoặc phát triển phương pháp cắt tỉa trên lớp thiểu số nhằm giảm tỷ lệ mất cân bằng,
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 19
- NGHIÊN CỨU KHOA HỌC
sau đó sử dụng kỹ thuật phân cụm cho tập dữ liệu xi,j nếu rand(j)>CR và j ≠ rand(s) (2)
để loại bỏ những mẫu dư thừa hoặc nhiễu. Bằng xnew,j=
xmu,j nếu rand(j) ≤ CR hoặc j=rand(s)
cách lấy mẫu kết hợp với làm sạch dữ liệu, các
mẫu hữu ích vẫn được giữ lại và nâng cao hiệu trong đó: xi,j là thuộc tính thứ j của mẫu thứ i;
quả phân lớp. CR là hằng số crossover được lựa chọn ngẫu
2.3.1. Điều chỉnh dữ liệu bằng thuật toán DE nhiên trong [0, 1] và được xác định trước bởi
người dùng;
Với thuật toán SMOTE, mẫu mới sẽ được sinh ra
rand(j) là giá trị được lựa chọn ngẫu nhiên trong
từ một mẫu positive (mẫu lớp thiểu số) ban đầu và
khoảng [0, 1].
một trong những láng giềng của nó. Với nền tảng
là thuật toán MOTE, tuy nhiên, trong thuật toán Giá trị của biến rand(s) là chỉ số của các thuộc tính
được lấy một cách ngẫu nhiên, đảm bảo rằng mẫu
DE, từ hai trong số các láng giềng gần nhất của
mới sinh ra sẽ có ít nhất một thuộc tính từ mẫu
một mẫu positive sẽ tạo ra một mẫu “đột biến”, và
đột biến.
mẫu mới được sinh ra bằng cách lai ghép chéo
Số mẫu nhân tạo được tạo ra đúng bằng số mẫu
mẫu đột biến này và mẫu positive ban đầu.
positive ban đầu, và các mẫu nhân tạo này được
2.3.1.1. Đột biến gán nhãn là positive. Tùy thuộc vào số lượng
mẫu positive cần lấy, lặp lại các bước đột biến và
Trong tập dữ liệu huấn luyện, đầu tiên chọn ngẫu
crossover cho dữ liệu huấn luyện.
nhiên một mẫu positive và tìm k láng giềng gần
nhất của nó, sau đó chọn ngẫu nhiên hai láng 2.3.2. Kỹ thuật làm sạch dữ liệu sử dụng
giềng trong láng giềng đó: x n1 và x n 2 . Một phân cụm
mẫu đột biến x mu sẽ được tạo ra bằng cách Sau khi thực hiện thuật toán DE, dữ liệu thu được
đã được cải thiện hơn về tỉ lệ giữa hai lớp. Tuy
sử dụng công thức (1) với rand(0,1) là
nhiên, không loại trừ khả năng sinh ra những mẫu
hằng số ngẫu nhiên trong khoảng [0,1]:
dư thừa hoặc nhiễu. Để khắc phục, ta sẽ sử dụng
x m u = x i + r a nd(0,1) × (x n 1 -x n 2 ) (1) kỹ thuật phân cụm để phân cụm cho tập dữ liệu
2.3.1.2. Crossover với mục đích loại bỏ những mẫu không cần thiết.
Qua bước đột biến, ta tạo ra số lượng mẫu đột Chẳng hạn ta thu được các cụm và giả sử được
đặt tên là A, B, C, D, E, F như hình 4. Trong đó,
biến đúng bằng số lượng mẫu positive ban đầu
một số cụm chứa tất cả các mẫu có cùng nhãn
trong tập dữ liệu huấn luyện. Ở bước này, ta sẽ sử lớp (các cụm C, D, E và F), những cụm khác chứa
dụng các mẫu đột biến cùng với các mẫu positive các mẫu có nhãn lớp khác nhau (cụm A và B), dự
ban đầu để tạo ra mẫu nhân tạo mới. Cụ thể, các đoán rằng có thể siêu phẳng của SVM [2, 8] sẽ đi
mẫu mới sẽ được hình thành dựa theo (2): qua các cụm này.
Hình 4. Minh họa phân cụm tập dữ liệu mất cân bằng
Nếu như tất cả các mẫu trong một cụm đều có có chứa tất cả các mẫu negative, ta làm như sau:
cùng một nhãn lớp (tức là hoặc cùng là positive ‒ Xác định ngưỡng tương đồng trong (0,1]
hoặc cùng là negative), ta sẽ tiến hành loại bỏ
những mẫu dư thừa hoặc nhiễu. Giả sử với cụm F ‒ Tính theo công thức (3):
20 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018
nguon tai.lieu . vn