Xem mẫu

  1. BIOINFORMATICS Chuyên đề PHƯƠNG PHÁP TÌM KIẾM CHUỖI TƯƠNG ĐỒNG ĐỐI VỚI DNA VÀ PROTEIN GVHD: Dr Võ Văn Toàn HVTH: Trương Thị Vệ Lớp: Cao học SHTN khóa 12
  2. MỞ ĐẦU Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học. Tin sinh học chính là sự hội tụ, hợp tác của cả ba lĩnh vực công nghệ hàng đầu: tin học – công nghệ thông tin – công nghệ sinh học, cùng cộng tác với nhau để khám phá thế giới sống
  3. • Thực tế cho thấy, từ khi tin sinh học ra đời đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đăc lực và hiệu quả, đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học, chắp cánh cho công nghệ sinh học nói chung và sinh học nói riêng tiến lên một lầm cao mới. Nhờ thành tựu của tin sinh học, thời gian nghiên cứu được rút ngắn “ trước đây bạn phải mất nửa năm trong phòng thí nghiệm bây gời bạn có thể dễ dàng tiết kiệm thời gian chỉ với một buổi chiều trước chiếc máy tính”
  4. • Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ liệu của công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần của các nhà khoa học trên khắp thế giới, mà nó còn bao gồm khả năng khái quát hóa, mô phỏng hóa thành những “đối tượng số” của thế giới sinh học sống động. • Trong nhiều chương trình ứng dụng của tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast là một ứng dụng vô cùng quan trọng, cho biết chính xác sự tương đồng của các Nucleotic, chuỗi AND hay protein
  5. I. ĐẠI CƯƠNG VỀ CHƯƠNG TRÌNH PHÂN TÍCH CẤU TRÚC TƯƠNG ĐỒNG • I.1 . Tìm kiếm tương đồng • Chương trình tìm kiếm tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự tương đồng cho AND hay các chuỗi amino-acid của các protein với AND hay các chuỗi amino-acid của các protein khác trong ngân hàng dữ liệu. Các cơ sở dữ liệu protein hiện có của ngân hàng dữ liệu là 100 triệu dư lượng..
  6. • Đối với việc tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để sản xuất các thuật toán nhanh hơn các chương trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như là một phần nhỏ nhất có thể, trong khi vẫn nhìn vào tất cả các điểm sắp xếp cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng kết hợp chính xác khoa học máy tính
  7. • Tuy nhiên, để tìm thấy sự phù hợp, các phương pháp này khó đem đến sự chính xác tuyệt đối, và cách tiếp cận các công cụ phần mềm đã được sử dụng. • Hầu hết chương trình phổ biến là: BLAST ; FastA
  8. I.2. Chương trình phân tích cấu trúc tương đồng BLAST • Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?.
  9. • BLAST (Basic Local Alignment Công cụ tìm kiếm) là một bộ các chương trình tìm kiếm và so sánh cấu trúc của chuỗi AND, protein, phân tích với các chuỗi tương ứng lưu giữ trong ngân hàng dữ liệu, nhằm tìm kiếm chuỗi (hay một số chuỗi ) tương đồng nhất với chuỗi kiểm tra. Sau đó người phân tích sẽ khai thác thông tin về đặc điểm hay đặc tính đã biết của các chuỗi trong ngân hàng để dự đoán, xác định cấu trúc và đặc tính của chuỗi kiểm tra này.
  10. • Trọng tâm của kỹ thuật phân tích là tìm kiếm và xác định các vùng tương đồng nhau về cấu trúc trên các chuỗi, để xác định mức độ phân ly tương đối của chuỗi phân tích với các chuỗi khác trong ngân hàng dữ liệu. Về phương diện kỹ thuật, chương trình BLAST cho phép phát hiện sự tương đồng cấu trúc của hai mức độ là mang tính cục bộ ở một vùng hay mang tính tổng thể giữa hai chuỗi với nhau.
  11. • Khi được cung cấp một thư viện hay cơ sở dữ liệu các chuỗi đó, một tìm kiếm BLAST sẽ cho phép nhà nghiên cứu tìm kiếm các chuỗi con giống với chuỗi có sẵn mà ta quan tâm. Ví dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗi
  12. • Để chạy, BLAST cần đầu vào là 2 chuỗi: một là chuỗi cần phân tích (hay còn gọi là chuỗi đích) và một cơ sở dữ liệu chuỗi. BLAST sẽ tìm kiếm các chuỗi con trong chuỗi cần phân tích mà giống với các chuỗi con trong cơ sở chuỗi dữ liệu. Thông thường, khi sử dụng, chuỗi cần phân tích là nhỏ hơn rất nhiều so với cơ sở dữ liệu, ví dụ: chuỗi cần phân tích có thể chỉ gồm 1 nghìn nucleotide trong khi cơ sở dữ liệu chuỗi có hàng tỉ nucleotide.
  13. • BLAST tìm kiếm những bắt cặp trình tự có điểm số cao giữa chuỗi cần phân tích và các chuỗi trong cơ sở dữ liệu bằng cách sử dụng phương pháp dựa trên kinh nghiệm (heuristic) để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman. Thuật toán bắt cặp trình tự tối ưu của Smith- Waterman là quá chậm khi tìm kiếm trong một cơ sở dữ liệu gen quá lớn như Ngân Hàng Gen (GenBank).
  14. • Bởi vậy, giải thuật BLAST dùng một hướng tiếp cận heuristic, dù ít chính xác hơn Smith- Waterman nhưng lại cho tốc độ nhanh hơn gấp 50 lần. Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học.
  15. II.PHƯƠNG PHÁP TÌM KIẾM CHUỐI TƯƠNG ĐỒNG BẰNG CHƯƠNG TRÌNH BLAST Thao tác cơ bản khi sử dụng chương trình phân tích cấu trúc chuỗi tương đồng BLAST gồm các bước chính sau:
  16. Bước 1: Lựa chọn chương trình BLAST Các BLAST các trang tìm kiếm cho phép bạn chọn từ các chương trình khác nhau. Dưới đây là một bảng của các chương trình này. • Blastp: Để so sánh cấu trúc một chuỗi amino acid cần phân tích với cấu trúc chuỗi protein trong ngân hàng dữ liệu. • Blastn: Để so sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nucleotide trong ngân hàng dữ liệu .
  17. • Blastx : Để so sánh cấu trúc chuỗi nucleotide cần phân tích (dưới dạng được dịch đầy đủ sang cấu trúc chuỗi amino axit ) với cấu trúc chuỗi protein trong ngân hàng dữ liệu. Phương án so sánh này được sử dụng để tìm hiểu đặc điểm “sản phẩm ” sẽ được tạo ra khi lựa chọn đoạn chuỗi này. • Tblastn: Để So sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein tương ứng được dịch mã bảo toàn trình tự chuỗi nucleotic trong ngân hàng dữ liệu.
  18. • Tblastx : Là phương án so sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein trong ngân hàng dữ liệu. Xin lưu ý rằng chương trình tblastx không thể được sử dụng với cơ sở dữ liệu trên trang BLAST Web bởi vì nó được tính toán chuyên sâu.
  19. Bước 2: Nhập dữ liệu • Chương trình xử lý trực tuyến BLAST cho phép nhập dữ liệu chuỗi phân tích trực tuyến dạng ký tự qua bàn phím hay nhập dữ liệu đã được viết theo một trong 3 ngôn ngữ là “” FASTA sequence format, “Identifiers” và “Bare sequence”
  20. Bước 3: đặt vùng phân tích “Set Subsequence” • Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bàng hai giá trị số chỉ vị trí giới hạn đầu cuối đoạn chuối ấy. Trong trường hợp cần phân tích toàn chuỗi, dữ liệu nhập sẽ có dạng From I to length.
nguon tai.lieu . vn