Xem mẫu

  1. Ưng dung công nghệ thông tin để quan lý dư liêu sinh vât biên đôi gen ̣ ̉ ̣ ̣ ́ ̉ Nguyên Duy Binha, Đăng Trong Lương b, Hoang Dương Tung c ̃ ̀ ̣ ̣ ̀ ̀ a TS., Việ n Khí tương và Thủy văn, Bộ Môi trương và Tai nguyên. b TS., Viên D i truyên Nông nghiêp, Bộ ̀ ̣ ̀ ̣ Nông nghiêp và Phat triên Nông thôn. c TS., Trung tâm Quan trắc và Dữ liệu Môi trương, Bộ Môi trương và Tai ̣ ́ ̉ ̀ nguyên. An application of informatic technology in management of genetic modified data Abstract In the year 2000, U.S. scientists announced that they had launched what they said was a scientific revolution, that they had opened the book on human life. Three years latter, in April 2003, they delivered a list – chemical by chemical – what the DNA in human genes is made of. And since then, the amount of genomic data revealed by scientists around the world had became such enourmous that without database technology it is impossible to be handled efficiently. The present study is among the first in Vietnam to store and manage GMO data in a database management system (DBMS) with the potentially Web powered access for the Vietnamese scientific community. The system was designed and implemented at the Hanoi Institute of Genomatic Research with the available advanced computer science technologies such as .NET and Web powered database. Our GMO database is opened to be enlarge and its management software is robust and comprises of friendly user interfaces. The paper presents the methods and technologies used to develop the system as well as the primary results of the study. 1 Mơ đâu ̀ Khoang thơi gian cuôi thế kỷ 21 nên khoa hoc kỹ thuât thế giơi đã phat triên vươt bâc, đăc ̉ ́ ̀ ̣ ̣ ́ ̉ ̣ ̣ biêt là hai linh vưc công nghệ thông tin và công nghệ sinh hoc. Công nghệ thông tin đã thuc đây ̣ ̃ ̣ ́ ̉ sư phat triên cua hâu hêt cac linh vưc khoa hoc kỹ thuât, kể cả công nghệ sinh hoc và phat sinh ́ ̉ ̉ ̀ ́ ́ ̃ ̣ ̣ ̣ ́ chuyên nganh mơi có tên goi là tin sinh hoc. Tin sinh học (bioinformatics) là một lĩnh vưc khoa ̀ ̣ ̣ học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học [1] (Bách khoa toàn thư mở Wikipedia). Những lĩnh vưc nghiên cứu chính của nó bao gồm bắt cặp trình tư (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dư đoán cấu trúc protein (protein structure prediction), dư đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Những mối quan tâm chính trong các dư án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu gen thu nhận đươc từ các kĩ thuật sinh học. Khôi ́ lương dữ liêu gen thu nhân đươc từ cac nghiên cứu sinh hoc gen trên toan thế giơi đã trở nên ̣ ̣ ́ ̣ ̀ vô cung to lơn và đăc biêt tôc độ tăng trưởng dữ liêu trong hai năm qua đã vươt quá moi dư ̀ ̣ ̣ ́ ̣ ̣ đoan trươc đây. Từ những năm 90, Hoa ky, Nhât ban và Châu Âu đã phat triên cac công cụ truy ́ ̀ ̣ ̉ ́ ̉ ́ câp và phân tich dữ liêu gen trên cơ sở ứng dung cac tiên bộ về công nghệ tin hoc như GenBank ̣ ́ ̣ ̣ ́ ́ ̣ cua Trung tâm Quôc gia về Công nghệ Tin Sinh hoc (the National Center for Biotechnology ̉ ́ ̣ Information, NCBI), Hoa ky, EMBL cua Việ n Công nghệ Tin Sinh học Châu Âu (the European ̀ ̉ Bioinformatics Institute, EBI), và DDBJ cua Tổ chức Ngân hàng Dữ liệu Gen Nhật bản (the ̉ DNA Data Bank of Japan, DDBJ). Cac CSDL nay cho phep câp nhâp tư do bât cứ day dữ liêu ́ ̀ ́ ̣ ̣ ́ ̃ ̣ gen nao khi vừa mơi phân tich xong. Hiên nay GenBank chứa đưng hơn 30 triêu dữ liêu chuôi ̀ ́ ̣ ̣ ̣ ̃ gen đươc phân tich từ hơn 130 ngan loai giông sinh vât, bao gôm hơn 36 tỉ nucleotit. Ba tổ ́ ̀ ̀ ́ ̣ ̀ chức nay đã liên tục trao đổi dữ liệu gen theo quy định của Tổ chức Hơp tac Dữ liệu Chuỗi ̀ ́ Nucleotit Quốc tế (the International Nucleotide Sequence Database Collaboration, INSDC) và về cơ ban đều bảo trì cùng một CSDL chuỗi gen trong khi việc cập nhập dữ liệu gen vẫn liên tục ̉ diễn ra hàng ngày từ cac nhà nghiên cứu gen trên toàn thế giơi. Hinh 1 diên tả sư phat triên ́ ̀ ̃ ́ ̉ nhanh chong về khôi lương dữ liêu cua ba CSDL gen ở trên. ́ ́ ̣ ̉ 1
  2. Ngoai ba CSDL chinh đã nêu trên con có nhiêu Website khac cung câp khả năng truy câp dữ ̀ ́ ̀ ̀ ́ ́ ̣ liêu gen như cua Viên Whitehead Cam (the Whitehead Institute, TIGR) ở Cambridge, ̣ ̉ ̣ Massachusetts; và WormBase cua Phong Thí nghiêm Jackson (the Jackson Laboratory) ở Bar ̉ ̀ ̣ Harbor, Maine. Thêm vao đo, có nhiêu hệ thông may tinh tư nhân vân thương xuyên tai về tât cả ̀ ́ ̀ ́ ́ ́ ̃ ̉ ́ cac thông tin mơi về gen vừa đươc câp nhâp vao cac site chinh (US CGDBTG, 2003). ́ ̣ ̣ ̀ ́ ́ Cac nghiên cứu về ́ CSDL gen ở Viêt nam hâu ̣ ̀ như mơi băt đâu trong thơi ́ ̀ gian gân đây, trong đó ̀ CSDL protein cua Trương ̉ Đai hoc Khoa hoc Tư ̣ ̣ ̣ nhiên TP. Hồ Chí Minh (Cao Thị Ngoc Phương, ̣ 2003) cho phep truy câp ́ ̣ cac thông tin nghiên cứu ́ trong nươc và nươc ngoai. ̀ Rõ rang là vân đề tao cac ̀ ́ ̣ ́ công cụ tin hoc cân thiêt ̣ ̀ ́ cho cac can bộ trong nươc ́ ́ chuyên về sinh hoc cung ̣ ̃ như về cac khoa hoc kỹ ́ ̣ thuât liên quan truy câp và ̣ ̣ xử lý dữ liêu gen, đang trở ̣ Hinh 1. Sư tăng trưởng đôt biên về khôi lương dữ liêu gen ̀ ̣ ́ ́ ̣ nên rât bức thiêt nhăm ́ ́ ̀ trong thơi gian gân đây ở ba CSDL gen GenBank, EMBL vaf ̀ từng bươc gop phân thu ́ ̀ DDBJ. nhỏ khoang cach trinh độ ̉ ́ ̀ ̀ (Nguôn: NCBI Website) nghiên cứu sinh hoc cua ̣ ̉ Viêt nam vơi thế giơi. ̣ Bai bao nay giơi thiêu kêt quả bươc đâu nhăm xây dưng cơ sở dữ liêu và phân mêm quan lý ̀ ́ ̀ ̣ ́ ̀ ̀ ̣ ̀ ̀ ̉ dữ liêu sinh vât biên đôi gen. CSDL Gen nay có khả năng chia sẽ thông tin và quan trị dữ liêu ̣ ̣ ́ ̉ ̀ ̉ ̣ sinh vât biên đôi gen nhăm đap ứng yêu câu truy nhâp dữ liêu thông qua Internet. Bai bao sẽ băt ̣ ́ ̉ ̀ ́ ̀ ̣ ̣ ̀ ́ ́ đâu vơi phân phương phap và thiêt kế hệ thông CSDL và phân mêm quan lý trên cơ sở những ̀ ̀ ́ ́ ́ ̀ ̀ ̉ yêu câu chung, sau đó sẽ là phân trinh bay kêt quả đã đat đươc và kêt thuc vơi phân kêt luân và ̀ ̀ ̀ ̀ ́ ̣ ́ ́ ̀ ́ ̣ cac nôi dung nghiên cứu trong tương lai. ́ ̣ 2 Phương phap xây dưng hệ thông thông tin dư liêu gen ́ ́ ̣ Trinh tư nghiên cứu thanh lâp hệ thông thông tin dữ liêu sinh vât biên đôi gen trong dề tai ̀ ̀ ̣ ́ ̣ ̣ ́ ̉ ̀ nghiên cứu nay bao gôm đề ra cac yêu câu cơ ban cho hệ thông, xac dinh những công nghệ và ̀ ̀ ́ ̀ ̉ ́ ́ ̣ công cụ sẽ đươc sử dung và thiêt kê, lâp trinh xây dưng CSDL và phân mêm quan ly. Tât cả ̣ ́ ́ ̣ ̀ ̀ ̀ ̉ ́ ́ những vân đề nay đươc trinh bay trong phân tiêp theo. ́ ̀ ̀ ̀ ̀ ́ 2.1 Yêu câu hệ thông CSDL sinh vât biên đôi gen (HTCSDL Gen) ̀ ́ ̣ ́ ̉ Trươc hêt HTCSDL Gen cân đap ứng đươc yêu câu phân loai, nhâp liêu, câp nhâp, xử lý ́ ̀ ́ ̀ ̣ ̣ ̣ ̣ ̣ thông kê, in ân, và quan trị dữ liêu sinh vât biên đôi gen. Ngoai ra HTCSDL Gen cân đap ứng ́ ́ ̉ ̣ ̣ ́ ̉ ̀ ̀ ́ đươc cac yêu câu: (a) Có khả năng đap ứng số lương lơn ngươi sử dung truy câp đông thơi vao ́ ̀ ́ ̣ ̣ ̀ ̀ HTSCDL, tât cả có thể truy câp cung môt thơi điêm thông qua Website; (b) Tich trữ số lương ́ ̣ ̀ ̣ ̉ ́ lơn dữ liêu, kể cả dữ liêu về gen, san phâm sinh vât biên đôi gen và tai liêu tham khao (online ̣ ̣ ̉ ̉ ̣ ́ ̉ ̀ ̣ ̉ book); (c) Thơi gian phan hôi và tôc độ truy câp nhanh; và (d) Yêu câu về bao mât và an toan ̉ ̀ ́ ̣ ̀ ̉ ̣ ̀ cho hệ thông. ́ 2
  3. ́ Chung ta cung cân ̃ ̀ Hệ thống Tin Sinh học Gen    thông Tin Sinh hoc Gen   xac đinh ở đây những ́ ̣ yêu câu quan trong hang ̀ ̣ ̀ đâu để kiêm tra quá ̀ ̉ trinh thiêt kế và xây ̀ ́ dưng CSDL gen: (a) Cung câp môt CSDL ́ ̣ Cây trồng, Biêu thị ̉ Gen có khả năng chia sẽ Vật nuôi, Cơ sở Thông tin thông tin cả trong mang ̣ dữ liêu ̣ Vi sinh vật, nôi bộ cua Viên Di ̣ ̉ ̣ Tài liệu, v.v. truyên Nông nghiêp và ̀ ̣ HT SCDL GEN WEBSITE ̣ mang bên ngoai; (b) ̀ Tich trữ môt cach có hệ ́ ̣ ́ Xuất Nhập thông cac dư liêu sinh́ ́ ̣ Giao diên ̣ ̣ vât biên đôi gen theo ́ ̉ Giao với Người Truy ̀ yêu câu cua Viên Di ̀ ̉ ̣ diên ̣ Tìm kiếm với ̣ câp truyên Nông nghiêp; (c) ̀ ̣ Người Web và CSDL đươc cai đăt tai ̀ ̣ ̣ Quan trị ̉ Báo cáo Liên kêt ́ may chủ cua Viên ́ ̉ ̣ DTNN; phân mêm quan ̀ ̀ ̉ trị có khả năng cai đăt ̀ ̣ đươc cả ở cac đia điêm ́ ̣ ̉ khac theo yêu câu; (d) ́ ̀ Hinh 2 Câu truc tông thể cua Hệ Tin Sinh hoc Gen ̀ ́ ́ ̉ ̉ ̣ Có khả năng đap ứng ́ đươc cac yêu câu về nâng câp và mở rông do công nghệ thông tin về CSDL và Web đang phat ́ ̀ ́ ̣ ́ triên vươt bâc và thay đôi nhanh chong; (e) Bao đam đươc độ tin cây và an toan cua thông tin ̉ ̣ ̉ ́ ̉ ̉ ̣ ̀ ̉ tich trữ; (f) Có khả năng hiên thị tiêng Viêt nhăm đap ứng yêu câu cua ngươi sử dung Viêt nam; ́ ̉ ́ ̣ ̀ ́ ̀ ̉ ̣ ̣ (g) Không đoi hoi yêu câu cao về phân cứng và phân mêm; và (h) Bao đam đươc cac yêu câu về ̀ ̉ ̀ ̀ ̀ ̀ ̉ ̉ ́ ̀ bên vững cua hệ thông (ví dụ sử dung câu truc dữ liêu mở, cac công nghệ thông tin phổ biên về ̀ ̉ ́ ̣ ́ ́ ̣ ́ ́ tiêu chuân phân mêm, không quá phức tap, thân thiên vơi ngươi sử dung, tai liêu hương dân và ̉ ̀ ̀ ̣ ̣ ̣ ̀ ̣ ̃ cai đăt rõ rang, dễ hiêu, v.v.). ̀ ̣ ̀ ̉ 2.2 Câu truc tông thể ́ ́ ̉ Để đat đươc cac muc tiêu và yêu câu trên, hệ thông tin hoc trong nghiên cứu nay bao gôm ̣ ́ ̣ ̀ ́ ̣ ̀ ̀ môt cơ sở dư liêu sinh vât biên đôi gen và san phâm cua chung (CSDL Gen) và môt Website ̣ ̣ ̣ ́ ̉ ̉ ̉ ̉ ́ ̣ hiên thị thông tin, giao tiêp vơi ngươi truy câp và liên kêt vơi cac website khac như đươc trinh ̉ ́ ̣ ́ ́ ́ ̀ bay ở Hinh 2. Cụ thể trong đó: (a) Hệ thông CSDL Gen nhăm tich trữ dữ liêu gen và cac dữ liêu ̀ ̀ ́ ̀ ́ ̣ ́ ̣ liên quan kể cả tai liêu tham khao như cac bai bao, sach điên tử, v.v. và Phân mêm quan lý ̀ ̣ ̉ ́ ̀ ́ ́ ̣ ̀ ̀ ̉ CSDL Gen. Phân mêm quan lý nay bao gôm cac module giao diên vơi ngươi quan trị như nhâp ̀ ̀ ̉ ̀ ̀ ́ ̣ ̉ ̣ xuât, tim kiêm, bao tri, xử lý thông kê và hiên thị dữ liêu; (b) Website liên kêt CSDL vơi internet ́ ̀ ́ ̉ ̀ ́ ̉ ̣ ́ để cung câp thông tin cho ngươi sử dung mà đôi tương chinh là ngươi Viêt nam đông thơi liên ́ ̣ ́ ́ ̣ ̀ kêt vơi cac Websites khac về Gen trên thế gioi. ́ ́ ́ ́ 2.3 Biên phap công nghệ thông tin ̣ ́ Nhăm đap ứng cac yêu câu cua Hệ thông CSDL Gen và phân mêm quan ly, nhât là yêu câu ̀ ́ ́ ̀ ̉ ́ ̀ ̀ ̉ ́ ́ ̀ về khả năng mở rông CSDL trong tương lai, cac công nghệ tin hoc sau đây đã đươc ứng dung ̣ ́ ̣ ̣ trong viêc thiêt kế và xây dưng CSDL Gen và phân mêm quan ly: Microsoft SQL Server 2000 ̣ ́ ̀ ̀ ̉ ́ (Microsoft Corporation, Santa Barbara, CA, My) dung để thiêt kế và xây dưng CSDL kể cả ̃ ̀ ́ module bao mât và quan trị ngươi sử dung; Microsoft Visual Studio .NET 2003 là môi trương ̉ ̣ ̉ ̣ lâp trinh cơ ban; Microsoft NET Framework ver. 1.1 là thư viên và công cụ hỗ trơ lâp trinh; ̣ ̀ ̉ ̣ ̣ ̀ System.Windows.Forms dung để tao lâp cac bang giao diên; DeveXpress.NET ver. 3.0 ̀ ̣ ̣ ́ ̉ ̣ 3
  4. (Developer Express Inc., Las Vegas, My) là công cụ hỗ trơ lâp trinh cho Visual Studio .NET ̃ ̣ ̀ trong viêc thiêt kế giao diên thân thiên vơi ngươi sử dung và biêu thị kêt qua; VBeXpress.NET ̣ ́ ̣ ̣ ̣ ̉ ́ ̉ version 3.0 (Data Cast System, Inc., Dublin, Ireland) cung là công cụ hỗ trơ để xây dưng cac ̃ ́ chương trinh trên nên Net Framewrok đăc biêt rât tiên lơi khi thanh lâp cac CSDL Stored ̀ ̀ ̣ ̣ ́ ̣ ̀ ̣ ́ Procedures. 3 Kêt quả và thao luân ́ ̉ ̣ 3.1 Cơ sơ dư liêu sinh vât biên đôi gen ̣ ̣ ́ ̉ 3.1.1 Phân mêm cơ sơ cho CSDL ̀ ̀ Hiên nay kỹ thuât công nghệ về CSDL chủ yêu bao gôm hai loai: câu truc client–server (như ̣ ̣ ́ ̀ ̣ ́ ́ SQL Server, Oracle, Apche) và câu truc file-server (như Jet 4.0 - Access 2003). Câu truc Jet 4.0 ́ ́ ́ ́ có săn trên hâu hêt may tinh cá nhân nhưng có nhiêu han chê. Câu truc client–server như Oracle ̃ ̀ ́ ́ ́ ̀ ̣ ́ ́ ́ thì có ưu điêm vươt trôi nhưng giá thanh phân mêm quá đăt nên chỉ thich hơp vơi cac công ty ̉ ̣ ̀ ̀ ̀ ́ ́ ́ lơn như cac công ty đa quôc gia. Cac server nguôn mở (như Apche) đang trong quá trinh phat ́ ́ ́ ̀ ̀ ́ triên và tuy đã đươc ứng dung rông rai trên thế giơi và cả ở Viêt nam nhưng vân con vân đề về ̉ ̣ ̣ ̃ ̣ ̃ ̀ ́ bao mât dữ liêu. Sau khi phân tich và xem xet cac yêu tố liên quan, chủ yêu dưa trên cơ sở kinh ̉ ̣ ̣ ́ ́ ́ ́ ́ phí và khả năng cua nhom, hệ thông CSDL gen trong khuôn khổ nghiên cứu nay đã sử dung câu ̉ ́ ́ ̀ ̣ ́ truc client–server (MS SQL Server) nhăm đat đươc cac cac tiêu chuân chinh về số lương ngươi ́ ̀ ̣ ́ ́ ̉ ́ truy câp đông thơi, khôi lương dữ liêu tich trữ, hiêu suât, ghi nhân câp nhâp và sử dung, an ̣ ̀ ́ ̣ ́ ̣ ́ ̣ ̣ ̣ ̣ toan dữ liêu, bao mât, quan tri, bên vững hệ thông, giá thanh và khả năng nâng câp và chuyên ̀ ̣ ̉ ̣ ̉ ̣ ̀ ́ ̀ ́ ̉ đôi dữ liêu. ̉ ̣ 3.1.2 Thiêt kế CSDL ́ Nguyên tăc hang đâu phai tuân thủ trong quá trinh thiêt kế CSDL Gen là phai bao đam cho ́ ̀ ̀ ̉ ̀ ́ ̉ ̉ ̉ sư mở rông cua cả CSDL và cả giao diên quan lý khi có yêu câu. Vân đề thiêt kế hơp lý cac ̣ ̉ ̣ ̉ ̀ ́ ́ ́ bang dư liêu về cơ ban sẽ thoa man đươc nguyên lý nay. Giai phap tiêp theo là thanh lâp cac ̉ ̣ ̉ ̉ ̃ ̀ ̉ ́ ́ ̀ ̣ ́ chương trinh SQL thanh phân trong CSDL (stored procedures) băng ngôn ngữ SQL. Cac ̀ ̀ ̀ ̀ ́ chương trinh con nay có thể tiêp tuc đươc bổ sung trong bât cứ thơi điêm nao. Cơ câu dữ liêu ̀ ̀ ́ ̣ ́ ̉ ̀ ́ ̣ cua hệ thông CSDL Gen đươc trinh bay như ở Hinh 3 và thanh phân cua cac bang dư liêu cung ̉ ́ ̀ ̀ ̀ ̀ ̀ ̉ ́ ̉ ̣ ̃ như cac quan hệ dữ liêu theo dang SQL Server 2000 đươc thể hiên như ở Hinh 4. ́ ̣ ̣ ̣ ̀ 3.1.3 Quan trị SCDL Gen ̉ Cac phương thức quan trị Hệ thông CSDL Gen bao gôm: (a)Sao chep bao trì đinh kỳ và tai ́ ̉ ́ ̀ ́ ̉ ̣ ́ lâp toan bộ CSDL khi cân thiêt; (b) Công cụ để sao chep CSDL sang cac hệ may tinh khac theo ̣ ̀ ̀ ́ ́ ́ ́ ́ ́ yêu câu cua ngươi điêu hanh; (c) Câp nhâp dữ liêu từ cac nguôn khac nhau; (d) Thay đôi tinh ̀ ̉ ̀ ̀ ̣ ̣ ̣ ́ ̀ ́ ̉ ̀ trang cua cac tâp dữ liêu; (e) Thay đôi mức độ sử dung và thay đôi mât khâu hiên hanh; và (f) ̣ ̉ ́ ̣ ̣ ̉ ̣ ̉ ̣ ̉ ̣ ̀ Bổ sung ngươi sử dung, xoa quyên sử dung và mức độ sử dung. Cac công cụ để thưc hiên cac ̣ ́ ̀ ̣ ̣ ́ ̣ ́ quá trinh nêu trên đêu đã đươc hoan thiên vơi MS SQL Server 2000. ̀ ̀ ̀ ̣ 3.1.4 Phương phap thanh lâp cac module SQL ́ ̀ ̣ ́ Viêc thanh lâp cac module SQL hiêu suât cao trươc hêt phai hinh thanh đươc cac dong lênh ̣ ̀ ̣ ́ ̣ ́ ́ ̉ ̀ ̀ ́ ̀ ̣ SELECT chât lương. Lênh SELECT cho phep ta sử dung lênh WHERE để giam bơt lương dữ ́ ̣ ́ ̣ ̣ ̉ liêu phai truy câp. Dong lênh UPDATE và DELETE cung có thể kêt hơp vơi lênh SELECT để ̣ ̉ ̣ ̀ ̣ ̃ ́ ̣ có thể giam bơt hơn nữa lương dữ liêu mà chương trinh phai xem xet. ̉ ̣ ̀ ̉ ́ Trong CSDL dang tich trữ dữ liêu như CSDL GMO thì vân đề truy câp tim kiêm đông thơi ̣ ́ ̣ ́ ̣ ̀ ́ ̀ cua nhiêu ngươi sử dung là điêu đăc biêt quan trong. Do vây mức độ chinh xac cua cac dong ̉ ̀ ̣ ̀ ̣ ̣ ̣ ̣ ́ ́ ̉ ́ ̀ lênh SQL và sư kêt hơp hai hoa cua cac chỉ số danh muc có tâm quan trong sông con. Ngươi lâp ̣ ́ ̀ ̀ ̉ ́ ̣ ̀ ̣ ́ ̀ ̣ trinh module tim kiêm phai giam thiêu đên mức tôi thiêu cac tim kiêm phức tap vì trong tương ̀ ̀ ́ ̉ ̉ ̉ ́ ́ ̉ ́ ̀ ́ ̣ lai số lương sữ liêu có thể sẽ rât lơn và cac tim kiêm phức hơp sẽ gây khó khăn cho module tim ̣ ́ ́ ̀ ́ ̀ kiêm. ́ 4
  5. Hệ thông TT GMO ́ CƠ SỞ DỰ ̣ LIÊU (GMO) ̀ ̣ Tai liêu Tham Dữ liêu Sinh hoc ̣ ̣ Dữ liêu Gen ̣ khaỏ ̀ Loai ̀ Cây trông Giới ̣ ́ Đăc tinh ́ ̣ Sach điên . ́ ̀ Cac Dong (Chiụ Mã Gen ̀ ́ Bai bao ̣ Vât nuôi tử ̣ bênh, Anh, ̉ Vi sinh ̀ Loai v.v.) vât ̣ ̣ ́ Đăc tinh . ̀ ̣ Tai liêu Vector khac ́ ̀ ̣ Tinh trang Hinh 3 Câu truc tông thể cua CSDL Gen và cac Thanh phân Dữ liêu ̀ ́ ́ ̉ ̉ ́ ̀ ̀ ̣ 5
  6. Hinh 4 Câu truc cac bang dư liêu. ̀ ́ ́ ́ ̉ ̣ 6
  7. Hiêu suât tim kiêm cung sẽ rât kem khi module truy vân phai kêt hơp môt số lương lơn cac ̣ ́ ̀ ́ ̃ ́ ́ ́ ̉ ́ ̣ ́ bang dữ liêu. Cac nguyên tăc tiêu chuân (Powel, 2005) nhăm cai thiên hiêu suât module truy vân ̉ ̣ ́ ́ ̉ ̀ ̉ ̣ ̣ ́ ́ sau đây đã đươc ap dung: (a) Thiêt kế CSDL trên cơ sở dong lênh SQL— Chât lương cac dong ́ ̣ ́ ̀ ̣ ́ ́ ̀ lênh SQL phụ thuôc rât nhiêu vao chât lương cua kêt quả giai đoan thiêt kế CSDL, nhât là câu ̣ ̣ ́ ̀ ̀ ́ ̉ ́ ̣ ́ ́ ́ truc cua CSDL; (b) Nguyên tăc đơn gian hoa dong lênh—Bât kỳ chương trinh con nao cung có ́ ̉ ́ ̉ ́ ̀ ̣ ́ ̀ ̀ ̃ thể phân rã thanh cac chương trinh đơn gian hơn (và nêu đôc lâp đươc thì cang tôt). Chương ̀ ́ ̀ ̉ ́ ̣ ̣ ̀ ́ trinh SQL đơn gian sẽ giup cho ngươi lâp trinh dễ dang hiêu rõ ý nghia và vai trò cua môi dong ̀ ̉ ́ ̣ ̀ ̀ ̉ ̃ ̉ ̃ ̀ lênh SQL. (c) Câu truc hơp lý cac bang dữ liêu tao điêu kiên thuân lơi cho viêc lâp trinh SQL; ̣ ́ ́ ́ ̉ ̣ ̣ ̀ ̣ ̣ ̣ ̣ ̀ (d) Chia nhỏ dong lênh SQL—Viêc phân rã có thể thưc hiên đươc vơi cac dong lênh SQL như ̀ ̣ ̣ ̣ ́ ̀ ̣ cac tim kiêm và quan lý dữ liêu (INSERT, UPDATE, và DELETE). Không nên chia nhỏ cac ́ ̀ ́ ̉ ̣ ́ dong lênh không thuôc loai quan lý CSDL. Viêc lâp trinh SQL và hiêu suât tim kiêm phụ thuôc ̀ ̣ ̣ ̣ ̉ ̣ ̣ ̀ ̣ ́ ̀ ́ ̣ hoan toan vao câu truc CSDL. Cac mã nguôn SQL luôn đươc thanh lâp trên cơ sở cac bang dữ ̀ ̀ ̀ ́ ́ ́ ̀ ̀ ̣ ́ ̉ liêu và cac quan hệ giữa cac bang. CSDL GMO hiên nay đã xây dưng đươc tât cả là 90 chương ̣ ́ ́ ̉ ̣ ́ trinh SQL (stored procedures) nhăm quan lý cac dữ liêu và thưc hiên cac tim kiêm. ̀ ̀ ̉ ́ ̣ ̣ ́ ̀ ́ 3.2 Phân mêm quan lý SCDL ̀ ̀ ̉ Phân mêm quan trị CSDL Gen đã đươc thiêt kế theo tiêu chuân thân thiên và dễ sử dung. ̀ ̀ ̉ ́ ̉ ̣ ̣ Phân mêm nay cho phep thưc hiên cac công đoan quan lý dữ liêu băng cac giao diên vơi ngươi ̀ ̀ ̀ ́ ̣ ́ ̣ ̉ ̣ ̀ ́ ̣ sử dung như sau: (a) Nhâp dư liêu vao CSDL; (b) Xem xet và kiêm tra dữ liêu qua bang biêu, ̣ ̣ ̣ ̀ ́ ̉ ̣ ̉ ̉ đồ thị và bao cao; (c ) Sữa đôi và chinh lý dữ liêu; (d) Biên tâp nôi dung dữ liêu; và (e) Truy câp ́ ́ ̉ ̉ ̣ ̣ ̣ ̣ ̣ chức năng quan trị dữ liêu (quyên sử dung, nhâp dữ liêu, v.v.). Như vây cac giao diên cua Phân ̉ ̣ ̀ ̣ ̣ ̣ ̣ ́ ̣ ̉ ̀ mêm quan lý chỉ đươc thiêt kế và xây dưng danh cho những ngươi quan trị và câp nhâp CSDL ̀ ̉ ́ ̀ ̉ ̣ ̣ Gen măc dù ngươi quan trị cung có thể sử dung cac công cụ có săn cua SQL Server để thưc hiên ̣ ̉ ̃ ̣ ́ ̃ ̉ ̣ ́ cac công viêc nay. ̣ ̀ Cac giao diên đã đươc cai đăt cả trong may chủ cua Hệ thông CSDL và cả trong cac may nôi ́ ̣ ̀ ̣ ́ ̉ ́ ́ ́ ́ mang vơi may chủ theo yêu câu cua ngươi điêu hanh, bao gôm 5 giao diên chinh: (a) Giao diên ̣ ́ ̀ ̉ ̀ ̀ ̀ ̣ ́ ̣ điêu khiên chung: Giao diên điêu khiên chinh cung câp cac đương dân đi vao cac chức năng ̀ ̉ ̣ ̀ ̉ ́ ́ ́ ̃ ̀ ́ nhâp xuât dữ liêu, thể hiên, xử lý và quan lý dữ liêu. Hệ thông cac thanh menu cung giup ngươi ̣ ́ ̣ ̣ ̉ ̣ ́ ́ ̃ ́ sử dung câp nhâp đươc cac thông số điêu khiên hệ thông; (b) Giao diên biêu thị và xuât dư ̣ ̣ ̣ ́ ̀ ̉ ́ ̣ ̉ ́ liêu: Giao diên nay cho phep ngươi sử dung xem xet, sữa đôi và xuât dữ liêu ra file ở dang ̣ ̣ ̀ ́ ̣ ́ ̉ ́ ̣ ̣ Microsoft Excel. Tât cả dữ liêu trong CSDL đêu có thể đươc thể hiên trên man hinh may tinh và ́ ̣ ̀ ̣ ̀ ̀ ́ ́ có thể đươc chinh sửa tuy theo quyêt đinh cua ngươi quan trị dữ liêu. Cac thanh phân hiên nay ̉ ̀ ́ ̣ ̉ ̉ ̣ ́ ̀ ̀ ̣ cua CSDL bao gôm dữ liêu về giơi, về loai, tinh trang, phương phap biên nap, nơi phê chuân, ̉ ̀ ̣ ̀ ̀ ̣ ́ ́ ̣ ̉ kiêu phê chuân, phương phap xac đinh GMO, phương phap tach chiêt ADN và căp môi.; (c) ̉ ̉ ́ ́ ̣ ́ ́ ́ ̣ ̀ Giao diên câp nhâp dư liêu mơi: Giao diên nay khi mở ra sẽ thể hiên qua bôn Tab: thông tin ̣ ̣ ̣ ̣ ̣ ̀ ̣ ́ chung về dong, đăc điêm cua dong, những phê chuân biên đôi gen và phương phap xac đinh ̀ ̣ ̉ ̉ ̀ ̉ ́ ̉ ́ ́ ̣ GMO liên quan đên dong biên đôi gen; (d) Giao diên tim kiêm: Phân mêm đươc thiêt kế để ́ ̀ ́ ̉ ̣ ̀ ́ ̀ ̀ ́ ngươi sử dung có thể tim kiêm thông qua cac thông số khac như tên dong, tinh trang, đăc điêm ̣ ̀ ́ ́ ́ ̀ ̀ ̣ ̣ ̉ cua dong, nơi phê chuân cung như kiêu phê chuân; và (e) Công cụ bao cao: Công cụ bao cao có ̉ ̀ ̉ ̃ ̉ ̉ ́ ́ ́ ́ chức năng trinh bay trên man hinh cac bang dư liêu và sau đó có thể chuyên bang đó sang may ̀ ̀ ̀ ̀ ́ ̉ ̣ ̉ ̉ ́ in theo yêu câu cua ngươi sử dung. ̀ ̉ ̣ Nôi dung mã nguôn cua phân mêm quan trị CSDL GMO đươc trinh bay trong bai bao nay ̣ ̀ ̉ ̀ ̀ ̉ ̀ ̀ ̀ ́ ̀ dươi dang cac bang tom tăt thanh phân. Hinh 6 và hinh 7 là ví dụ cac bang tông kêt cac sub và ̣ ́ ̉ ́ ́ ̀ ̀ ̀ ̀ ́ ̉ ̉ ́ ́ ham cua hai thanh phân chinh trong phân mêm quan lý CSDL sinh vât biên đôi gen. Cac sub và ̀ ̉ ̀ ̀ ́ ̀ ̀ ̉ ̣ ́ ̉ ́ ham riêng (chỉ có tac dung trong khuôn khổ bang giao diên hay chương trinh thanh phân) có kí ̀ ́ ̣ ̉ ̣ ̀ ̀ ̀ hiêu [-] ở đâu dong. Con cac sub và ham có hiêu lưc trong cả phân mêm đươc băt đâu băng kí ̣ ̀ ̀ ̀ ́ ̀ ̣ ̀ ̀ ́ ̀ ̀ hiêu [+]. Sơ đồ nay nên đươc nghiên cứu cung vơi mã nguôn để có thể hiêu đươc chi tiêt phân ̣ ̀ ̀ ̀ ̉ ́ ̀ mêm. Module Main() kiêm soat công đoan khởi đông hệ thông, chương trinh và biêu thị cac ̀ ̉ ́ ̣ ̣ ́ ̀ ̉ ́ giao diên cua phân mêm quan ly. Modules vhv.Entities và vhv.Common trong Hinh 6 là cac ̣ ̉ ̀ ̀ ̉ ́ ̀ ́ module có chức năng riêng biêt. ̣ 7
  8. Module Common tâp hơp cac biên sô, ̣ ́ ́ ́ ham số và sub chung ̀ cua ̉ phân ̀ ̀ mêm. Module vhv.Entities bao gôm 51 classes ̀ chia thanh ba loai ̀ ̣ classes: coltbl, daltbl và statbl. Môi loai ̃ ̣ class đươc thiêt kế và ́ xây dưng vơi nhiêu ̀ tinh chât, ham và ́ ́ ̀ chương trinh con ̀ nhăm kế nôi và quan ̀ ́ ̉ lý 17 bang dữ liêu ̉ ̣ trong hệ thông CSDL ́ gen. Loai class coltbḷ kế thừa chức năng cua ̉ Hinh 5 Giao diên câp nhâp dữ liêu ̀ ̣ ̣ ̣ ̣ classes VBeXpress Collection, loai class statbl kế thừa chức năng cua classes VBeXpressStatefull và loai class ̣ ̉ ̣ daltbl kế thừa cac chức năng về xử lý hệ thông. Câu truc mã nguôn cua cac thanh phân modules ́ ́ ́ ́ ̀ ̉ ́ ̀ ̀ và forms con lai cua phân mêm quan lý như cac bang giao diên chức năng, cac bang giao diên ̀ ̣ ̉ ̀ ̀ ̉ ́ ̉ ̣ ́ ̉ ̣ chinh sữa CSDL và module xuât dữ liêu đươc trinh bay chi tiêt trong Nguyên Duy Binh (2006). ̉ ́ ̣ ̀ ̀ ́ ̃ ̀ Module: Main.vb Module: Entities.vb Module: Common.vb + Sub Main () + Property Splash + 17 VBeXpres Collection Classes coltbl + Class Global + Property frmMain + 17 System Classes daltbl + Class MyMess + Property frmLogon + 17 VBeXpress Statefull Classes statbl + Class ProcessNull + Function PreInstances() + Class sqlHelper + Sub DisplayMainScreen() + Class SqlHelperParametrCache + Sub InitClass() + Sub ConnectToDatabase() + Sub DisplaySplashScreen() + Sub DisplayMainScreen() + Function Hinh 6 Nôi dung cac chương trinh thanh phân (modules). ̀ ̣ ́ ̀ ̀ ̀ frmMain: #Region “Danh frmMain: Sub & Functions frmMain: Controls muc” + mnuDMADN_ItemClick () + BarGiaoDien_ItemClick () + BarManager1 () + mnuDMBienNap_ItemClickn() + BarLargeButtonItem5_ItemClick () + DefaultLookAndFeel1 () + mnuDMGioi_ItemClick () + BarButtonItem5_ItemClick () + DockManager1 () + mnuDMLoai_ItemClick () + frmMain_Load () + DockPanel1_Container () + mnuDMGMO_ItemClickn() + DrawBG () + DockPanel1 () + mnuDMGOM_ItemClick () + xMDIClient_Resize () + mnuDMKieuPC_ItemClick () + BarThemMoi_LinkClicked () + mnuDMNoiPC_ItemClick () + BarButtonItem6_ItemClick () + mnuDMTinhTrang_ItemClick() + BarButtonItem7_ItemClick () + BarGioi_LinkClicked () + BarButtonItem8_ItemClick () + BarChucNangChinh_CheckedChanged () + DockPanel1_ClosedPanel () + butAbout_ItemClick () + mnuThemMoi_ItemClick () + mnuTKDong_ItemClick () + BarDong_LinkClicked () 8
  9. ̀ ̣ ̉ ̣ ́ Hinh 7 Nôi dung ban giao diên chinh (form frmMain). 4 Kêt luân và đề xuât ́ ̣ ́ Hệ thông thông tin dữ liêu sinh vât biên đôi gen (HTTTDLGen) đã đươc thiêt kế và xây ́ ̣ ̣ ́ ̉ ́ dưng trên cơ sở ap dung những tiên bộ công nghệ thông tin mơi, kể cả lâp trinh đôi tương trên ́ ̣ ́ ̣ ̀ ́ nên .NET, nhăm đap đap ứng cac yêu câu về nhâp liêu, câp nhâp, xử lý thông kê, in ân, và quan ̀ ̀ ́ ́ ́ ̀ ̣ ̣ ̣ ̣ ́ ́ ̉ trị dữ liêu sinh vât biên đôi gen. Ngoai ra HTTTDL Gen đã đap ứng đươc cac yêu câu khac cua ̣ ̣ ́ ̉ ̀ ́ ́ ̀ ́ ̉ môt hệ thông thông tin liên kêt vơi Web và có khả năng mở rông. ̣ ́ ́ ̣ Công nghệ lâp trinh ứng dung để xây dưng phân mêm có sư kêt hơp vơi cac phân mêm lâp ̣ ̀ ̣ ̀ ̀ ́ ́ ̀ ̀ ̣ trinh có săn trên thị trương nên đã giam thiêu đên mức thâp nhât thơi gian lâp trinh. Hệ thông ̀ ̃ ̉ ̉ ́ ́ ́ ̣ ̀ ́ CSDL và phân mêm quan trị kem theo bao gôm đây đủ cac công cụ giao diên thân thiên vơi ̀ ̀ ̉ ̀ ̀ ̀ ́ ̣ ̣ ngươi sử dung, kể cả cac công cụ tim kiêm, tao điêu kiên kêt nôi và khả năng mở rông trong ̣ ́ ̀ ́ ̣ ̀ ̣ ́ ́ ̣ tương lai. Hệ thông thông tin CSDL sinh vât biên đôi gen đã đươc cai đăt và triên khai nhâp dữ liêu tai ́ ̣ ́ ̉ ̀ ̣ ̉ ̣ ̣ ̣ Viên Di truyên Nông nghiêp băt đâu từ thang 12/2006 và cho đên nay khôi lương dữ liêu đã lên ̣ ̀ ̣ ́ ̀ ́ ́ ́ ̣ đên hơn 20000 bộ gen. Tuy vây, cung giông như bât cứ môt san phâm tin hoc nao khac do tôc ́ ̣ ̃ ́ ́ ̣ ̉ ̉ ̣ ̀ ́ ́ độ biên đôi to lơn cua công nghệ thông tin, hệ thông nay vân cân đươc nghiên cứu bổ sung và ́ ̉ ̉ ́ ̀ ̃ ̀ cai tiên liên tuc. Phân mêm quan lý hiên nay chủ yêu chỉ gôm cac công cụ quan trị CSDL nên ̉ ́ ̣ ̀ ̀ ̉ ̣ ́ ̀ ́ ̉ cân bổ sung cac công cụ xử lý thông kê dữ liêu. Cac công cụ phân tich phân loai so sanh cac căp ̀ ́ ́ ̣ ́ ́ ̣ ́ ́ ̣ gen cung cân đươc hoan thiên. Website khai thac khả năng hệ thông CSDL cung con nhiêu han ̃ ̀ ̀ ̣ ́ ́ ̃ ̀ ̀ ̣ chế như chưa có công cụ câp nhâp và trinh duyêt dữ liêu cua ngươi truy câp. ̣ ̣ ̀ ̣ ̣ ̉ ̣ Phân mêm nguôn mở đã và đang phat triên và rât có khả năng đươc phổ biên rông rai trong ̀ ̀ ̀ ́ ̉ ́ ̀ ́ ̣ ̃ tương lai. CSDL trong HTTTDL Gen đươc xây dưng trên cơ sở phân mêm Microsoft Server ̀ ̀ 2000 nên cân thiêt có thêm công cụ chuyên hoa sang nên phân mêm nguôn mở. ̀ ́ ̉ ́ ̀ ̀ ̀ ̀ ̀ ̣ Tai liêu Tham khao ̉ 1. Ambler, S. W. 2005. User Interface Design: Tips and Techniques. AmbySoft Inc. White Paper. 2. Arthur M. Lesk, 2002. Introduction to Bioinformatics, Oxford University Press Inc., New York, U.S.A. 765 pages. 3. Cao Thị Ngoc Phương, Ngô Phươc Dâu, Đỗ Anh Tuân, Trân Linh Thươc, Jugen ̣ ̣ ́ ̀ Pleiss. 2003. Xây dưng CSDL protein phuc vụ nghiên cứu sinh hoc trương hơp ̣ ̣ chitinase và chitosanase. Bao cao Hôi nghị Công nghệ Sinh hoc Toan quôc, Hà ́ ́ ̣ ̣ ̀ ́ ̣ nôi, tr. 1214-1218. 4. Đăng Trong Lương, 2004. Nghiên cưu ưng dung tin sinh hoc để quan lý an toan ̣ ̣ ̣ ̣ ̉ ̀ sinh hoc sinh vât biên đôi gen và san phâm cua chung. Thuyêt minh Đề tai ̣ ̣ ́ ̉ ̉ ̉ ̉ ́ ́ ̀ NCKH. Hà nôi, Viêt nam. 37 trang. ̣ ̣ 5. David Taniar and Johanna Wenny Rahayu. 2003. Web-Powered Databases. Idea Group Publishing. Australia. 340 pages. 6. Lowy Juval. 2005. Programming .NET Components. O'Reilly Publisher. Sebastopol, CA. U.S.A. 648 pagees. 7. Nguyên Văn Cach, 2006. Giao trinh tin sinh hoc. Đai hoc Bach khoa Hà nôi. 143 ̃ ́ ́ ̀ ̣ ̣ ̣ ́ ̣ trang. 8. Nguyên Duy Binh. 2006. Ưng dung công nghệ thông tin để quan lý dư liêu sinh ̃ ̀ ̣ ̉ ̣ vât biên đôi gen. Bao cao Hôi thao NCKH Viên Di truyên Nông nghiêp Hà nôi, ̣ ́ ̉ ́ ́ ̣ ̉ ̣ ̀ ̣ ̣ ́ thang 1/2006. 9. Smith, Gina. 2005. The genomics age : how DNA technology is transforming the way we live and who we are. American Management Association, New York, U.S.A. 214 pages. 10. The DNA Data Bank of Japan. http:/www.ebi.ac.uk/ index.html. 11. The European BioInformatics Institute. http:/www.ebi.ac.uk/ index.html. 9
  10. 12. The National Center for Biotechnology Information. Genbank http:/www.ncbi.nlm.nih.gov/Genbank/index.html. 13. US Committee on Genomics Databases for Bioterrorism Threat Agents (US CGDBTG), 2004. Seeking security: Pathogens, Open access and Genome databases. The National Academies Press, Washington D.C., U.S.A. 88 pages. 10
nguon tai.lieu . vn