Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 PHƯƠNG PHÁP LỌC NÂNG CAO HIỆU QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE Nguyễn Quỳnh Diệp1, Lê Thị Tú Kiên2 1 Trường Đại học Thủy lợi, email: diepnq@tlu.edu.vn 2 Khoa Công nghệ thông tin, Đại học Sư Phạm Hà Nội, email: kienltt@hnue.edu.vn 1. GIỚI THIỆU 2. NỘI DUNG Protein là những đại phân tử được cấu tạo 2.1. Dự đoán liên kết Residure- Residure dựa trên phương pháp ipHMM theo nguyên tắc đa phân mà các đơn phân và SVM là axít amin. Để thực hiện các chức năng của mình, các protein tương tác với các protein Trong nghiên cứu [4], chúng tôi đã xây khác hoặc các phân tử khác trong tế bào. Sự dựng phương pháp dự đoán liên kết residue– tương tác này ảnh hưởng đến các hoạt động residue của các protein domain bằng cách sống trong tế bào và các quá trình sống của tích hợp các thông tin liên kết residue từ một động thực vật. Vì vậy, việc nghiên cứu về sự số nguồn. Thứ tự thực hiện của phương pháp tương tác của các protein là một trong những được mô tả tóm tắt như sau: vấn đề quan trọng trong sinh học. Bước thứ nhất, một tập con các cặp protein Trong những năm gần đây, các nhóm domain tương tác (DDIs) cùng với thông tin nghiên cứu Weigt [1] và Marks [2] đã phát liên kết ở mức residue của chúng được lọc ra với điều kiện “khoảng cách” giữa cặp protein triển thuật toán Direct-coupling analysis để domain truy vấn và khoảng cách với từng cặp tìm ra thông tin liên kết trực tiếp giữa các cặp protein domain trong tập này nhỏ hơn một residue và ứng dụng vào dự đoán cấu trúc ngưỡng t. bậc ba của các protein. Bên cạnh đó, các Bước thứ hai, tập các DDIs được lọc ra ở nhóm nghiên cứu của González [3], Tu Kien bước một được dùng để huấn luyện hai mô T. Le [4] đã xây dựng phương pháp dự đoán hình ipHMM. Sau đó, các ipHMMs này được liên kết residue giữa các protein domain bằng dùng để tính véc tơ Fisher cho từng residue. cách tích hợp các thông tin liên kết residue Bước thứ ba, tập dữ liệu huấn luyện được trong các cấu trúc protein phức hợp. Mặc dù sử dụng để huấn luyện một mô hình phân lớp kết quả thực nghiệm đã chứng minh phương SVM. Mô hình phân lớp này sau đó được sử pháp đề xuất trong [4] cho kết quả dự đoán dụng để phân lớp các cặp residue trong tập tốt hơn các phương pháp trước đó, nhưng số đánh giá (chính là các cặp residue của cặp cặp residue không liên kết được dự đoán là chuỗi protein truy vấn) vào hai lớp: liên kết liên kết (false positive samples) thường nhiều hoặc không liên kết. hơn số cặp residue liên kết và được dự đoán Kết quả thực nghiệm trong nghiên cứu [4] là liên kết (true positive samples). Bởi vậy, đã chứng minh độ chính xác của kết quả dự trong nghiên cứu này chúng tôi đề xuất một đoán là cao. Tuy nhiên, phương pháp này còn phương pháp lọc bỏ các mẫu false positive tồn tại một số vấn đề như sau: nhằm nâng cao chất lượng dự đoán liên kết • Thứ nhất, việc kết hợp các cặp residue của giữa các residue. từng cặp chuỗi Protein Domain bằng cách 225
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 lấy tuần tự từng residue ở chuỗi này ghép Output: tuần tự với từng residue của chuỗi kia sẽ - Danh sách Q bao gồm các cặp residue khiến kết quả dự đoán có thể xảy ra khả còn lại sau khi đã lọc bỏ các trường hợp được năng dự đoán sai, hay gọi là mẫu false cho là dự đoán sai (false positive). positive (Hình 1). Phương pháp: Bước 0: Gán danh sách Q rỗng. M Bước 1: Chọn một cặp residue (m, n) trong danh sách P và đưa vào vào danh sách T. N Bước 2: Lọc ra các cặp residue khác trong danh sách P có cùng thứ tự với residue m và đưa vào danh sách T. Hình 1: Ví dụ mô tả dự đoán liên kết residue Bước 3: Sắp xếp danh sách T theo thứ tự bất thường có thể xảy ra trong [9] tăng dần của các residue thuộc vào chuỗi • Thứ hai, với mỗi cặp chuỗi Protein protein domain N. Domain thì số cặp residure liên kết với Bước 4: Chọn cặp residue (x, y) đầu tiên nhau ít hơn nhiều so với số lượng cặp trong danh sách T và đưa vào danh sách Q. residue không liên kết. Sự mất cân bằng Với mỗi cặp residue từ vị trí thứ 2 trở đi này sẽ dẫn đến trường hợp: cho dù tỉ lệ các trong T, tính khoảng cách giữa residue thuộc cặp residue không liên kết được dự đoán là vào chuỗi protein domain N với residue y có liên kết thấp đối với cặp DDI truy vấn (dựa trên thứ tự của residue trên chuỗi). Nếu (khoảng từ 2 đên 5 phần trăm) nhưng số khoảng cách lớn hơn một ngưỡng d thì cặp lượng residue được dự đoán là false residue này được cho là false positive. Ngược positive vẫn nhiều hơn nhiều lần so với số lại, đưa nó vào danh sách Q. cặp residue thực sự liên kết. Bước 5: Cập nhật danh sách P bằng cách Từ những phân tích trên, trong phần tiếp loại bỏ các cặp residue có trong danh sách T theo sau chúng tôi đề xuất phương án để làm từ danh sách P. Sau đó, xóa tất cả các cặp tăng chất lượng kết quả dự đoán cho phương residue trong danh sách T. pháp ở [4] . Bước 6: Nếu danh sách P không còn cặp residue nào chuyển sang bước 7, hoặc P chỉ 2.2. Phương pháp lọc các cặp residue dự còn một cặp residue thì đưa nó vào danh sách đoán sai Q và chuyển sang bước 7. Ngược lại, chuyển Để lọc được các cặp residue false positive, về bước 1. chúng tôi đề xuất một phương án giải quyết Bước 7: Kết thúc. như sau: giả sử một residue ở chuỗi protein domain M được dự đoán liên kết với hai 2.3. Thực nghiệm và đánh giá kết quả residue ở chuỗi protein domain N. Tuy nhiên, Để đánh giá hiệu quả phương pháp đã đề nếu vị trí của hai residue ở chuỗi thứ hai cách xuất trong mục 2.2., chúng tôi thực hiện thực xa nhau thì một trong trong hai cặp residue nghiệm trên ba bộ dữ liệu được liệt kê trong được dự đoán là liên kết này sẽ sẽ được coi là Bảng 1. dự đoán sai. Phương án đề xuất này được Bảng 1. Danh sách dữ liệu thực nghiệm trình bày tường minh như sau: ID DomainM DomainN #DDIs Input: 1 Fib_alpha Fib_alpha 101 Danh sách P các cặp residue đã được dự đoán là liên kết 2 Rhv Rhv 101 Thứ tự của các residue trong hai chuỗi 3 Insulin Insulin 103 protein domain. 4 C1_set C1_set 482 226
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 Trong đó, cột thứ nhất là số thứ tự các bộ dữ Hình 2 cho thấy, với cặp họ Pfam Fib_alpha- liệu, cột thứ hai và thứ ba là tên các họ Pfam Fib_alpha, phép lọc cho kết quả MCC trung protein domain, cột thứ tư là số lượng các cặp bình tốt hơn tại các giá trị t từ 0.1 đến 0.5 protein domain tương tác. Thông tin về khả nhưng lại kém hơn ở các giá trị 0.7 và 0.9. Ở năng liên kết của các cặp amino acid (AAPCPs) cặp họ Pfam Rhv - Rhv, thuật toán của chúng được lấy từ cơ sở dữ liệu Aaindex [5]. tôi cho giá trị MCC trung bình tốt hơn tại tất Với mỗi bộ dữ liệu như trong Bảng 1 và cả giá trị của ngưỡng t. Đặc biệt khi t = 0.1 với mỗi giá trị ngưỡng t (t=0.1, 0.2, 0.3, 0.5, hoặc t = 0.2 thì tất cả các bộ giữ liệu đều cho 0.7, 0.9), chúng tôi thực hiện phương pháp kết quả MCC tốt hơn. đánh giá Odd one out 5 lần. Mỗi lần lựa chọn ngẫu nhiên một cặp DDI làm dữ liệu kiểm tra 3. KẾT LUẬN (DDI truy vấn) và những DDI còn lại làm tập Trong nghiên cứu này, chúng tôi đã đề huấn luyện. Sau khi dự đoán nhãn 1 hoặc 0 xuất một giải pháp làm tăng chất lượng của (liên kết hoặc không liên kết) cho các cặp kết quả dự đoán cặp residue liên kết. Tuy residue của DDI truy vấn, chúng tôi áp dụng nhiên, phương pháp đề xuất chưa thể hiện sự thuật toán đề xuất trong mục 2.3 để loại bỏ hiệu quả rõ rệt trong mọi trường hợp nhưng các cặp residue được cho là False positive. đã mở thêm ra một số vấn đề tiếp theo cần Giá trị ngưỡng d trong thực nghiệm này được phải nghiên cứu. Hy vọng trong những chọn là 10. nghiên cứu tiếp theo chúng tôi sẽ giải quyết Hình 2 biểu diễn kết quả MCC trung bình được những trường hợp này. (trục đứng) trên hai bộ dữ liệu Fib_alpha- Fib_alpha, Rhv- Rhv, tương ứng với các giá 4. TÀI LIỆU THAM KHẢO trị của ngưỡng t (trục ngang) từ 0.1 đến 0.9 [1] M. Weigt, R. A. White, H. Szurmant, J. A. của hai trường hợp trước và sau khi lọc Hoch, and T. Hwa, “Identification of direct các cặp residue false positive. Kết quả trong residue contacts in protein – protein interaction by message passing,” vol. 106, no. 1, 2009. [2] D. S. Marks et al., “Protein 3D structure computed from evolutionary sequence variation,” PLoS One, vol. 6, no. 12, 2011. [3] A. J. González, L. Liao, and C. H. Wu, “Prediction of contact matrix for protein- protein interaction,” Bioinformatics, vol. 29, no. 8, pp. 1018–1025, 2013. [4] T. Kien T. Le et al., “Predicting residue contacts for protein-protein interactions by integration of multiple information,” J. Biomed. Sci. Eng., vol. 07, no. 01, pp. 28– 37, 2014. [5] S. Kawashima, P. Pokarowski, M. Pokarowska, A. Kolinski, T. Katayama, and M. Kanehisa, “AAindex/: amino acid index database , progress report 2008,” vol. 36, Hình 2. So sánh MCC trung bình trên hai no. November 2007, pp. 202–205, 2008. bộ dữ liệu Fib_alpha-Fib_alpha, Rhv-Rhv 227
nguon tai.lieu . vn