Xem mẫu

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA Y DƯỢC -------- BÙI THỊ YẾN NGHIÊN CỨU ĐA DẠNG DI TRUYỀN NGUỒN GEN DÂY THƯỜNG XUÂN (HEDERA NEPALENSIS K.KOCH) Ở VIỆT NAM DỰA TRÊN CHỈ THỊ ITS KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC Hà Nội – 2020
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA Y DƯỢC -------- Người thực hiện: Bùi Thị Yến NGHIÊN CỨU ĐA DẠNG DI TRUYỀN NGUỒN GEN DÂY THƯỜNG XUÂN (HEDERA NEPALENSIS K.KOCH) Ở VIỆT NAM DỰA TRÊN CHỈ THỊ ITS KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC (NGÀNH DƯỢC HỌC) Khóa : QH2015.Y Người hướng dẫn : PGS. TS. Đinh Đoàn Long ThS. Phạm Thị Hồng Nhung Hà Nội – 2020
  3. LỜI CẢM ƠN Để hoàn thành khóa luận này, tôi đã may mắn nhận được rất nhiều sự giúp đỡ quý báu cả về vật chất, tinh thần của thầy cô, bạn bè. Lời đầu tiên, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc tới PGS. TS. Đinh Đoàn Long, ThS. Phạm Thị Hồng Nhung – Giảng viên Khoa Y Dược – Đại học Quốc gia Hà Nội, những người đã trực tiếp hướng dẫn tôi, chỉ dạy tận tình trong suốt quá trình thực hiện nghiên cứu và hoàn thành khóa luận. Tôi xin chân thành cảm ơn cô Đỗ Thị Lệ Hằng, bạn Đỗ Hạnh Nguyên đã giúp đỡ, hỗ trợ tôi trong thực hành thí nghiệm. Các thầy cô, các bạn không chỉ trang bị cho tôi kinh nghiệm và kỹ năng chuyên môn mà còn truyền cho tôi tình yêu, lòng nhiệt huyết với nghiên cứu và luôn sẵn sàng giúp đỡ mỗi khi tôi gặp khó khăn. Tôi xin chân thành cảm ơn các thầy cô giáo Bộ môn Y Dược học cơ sở đã hết lòng quan tâm, giúp đỡ và tạo điều kiện tốt nhất cho tôi thực hiện nghiên cứu và hoàn thành khóa luận tốt nghiệp này. Tôi cũng xin cảm ơn những cán bộ tại Viện dược liệu - Bộ Y tế đã không quản ngại khó khăn thu thập và cung cấp mẫu vật giúp đỡ tôi thực hiện đề tài một cách thuận lợi nhất. Tôi xin gửi lời cảm ơn tới Ban chủ nhiệm Khoa, cùng toàn thể các thầy cô giáo Khoa Y Dược - Đại học Quốc gia Hà Nội đã cho tôi những kiến thức quý báu trong quá trình học tập tại nhà trường. Chúng tôi trân trọng cảm ơn sự tài trợ kinh phí của Bộ Khoa học và Công nghệ Việt Nam cho đề tài mã số NVQG-2018/02 do PGS.TS Đinh Đoàn Long chủ trì để thực hiện nghiên cứu này. Cuối cùng, tôi xin được bày tỏ lòng biết ơn và sự yêu thương đến gia đình, người thân và bạn bè, những người đã luôn ở bên cổ vũ, động viên và tạo mọi điều kiện giúp đỡ tôi trong thời gian học tập và thực hiện đề tài khóa luận này. Hà Nội, ngày 20 tháng 05 năm 2020 Tác giả Bùi Thị Yến
  4. DANH MỤC TỪ VIẾT TẮT bp Cặp bazơ (base pair) DNA Deoxyribo Nucleic Acid dNTP Deoxyribonucleotide 5’ Triphosphate Genbank Ngân hàng dữ liệu gen quốc tế H.helix Hedera helix L (Thường xuân) H.nepalensis Hedera nepalensis K.Koch (Dây thường xuân) HPLC Sắc ký lỏng hiệu năng cao (High Performance Liquid Chromatography) ITS Vùng đệm trong được sao mã (Internal transcribed spacer) Kit Thermo GeneJET Plant Genomic DNA Purification Mini Kit (Thermo Scientific, Mỹ) ML Maximum Likelihood NCBI Trung tâm Thông tin Công nghệ sinh học Quốc gia (National Center for Biotechnology Information) NJ Neighbor - Joining OD Mật độ quang học (Optical Density) PCR Phản ứng chuỗi trùng hợp (Polymerase Chain Reaction) RNA Ribo Nucleic Acid UPGMA Unweighted PairGroup with Method using arthmetic Averages
  5. DANH MỤC CÁC BẢNG Bảng 2.1. Thông tin các mẫu thực vật được nghiên cứu ..........................................19 Bảng 3.1. Nồng độ và OD260/280 DNA tổng số của của các mẫu nghiên cứu ..........24 Bảng 3.2.Thành phần và chu trình nhiệt của phản ứng PCR nhân dòng đoạn gen ITS ...................................................................................................................................27 Bảng 3.3. Các haplotype trong nghiên cứu...............................................................30 Bảng 3.4. Khoảng cách di truyền (phía dưới bên trái) và số lượng nucleotide sai khác (phía trên bên phải) giữa 11 nhóm mẫu nghiên cứu và H.nepalen sis (AJ131238.1), H.helix (AM503887.2), H. sinensis (GU054623.1) và Kalopanax septemlobus (MH711151.1) ......................................................................................31 Bảng 3.5. Vị trí các nucleotide sai khác khi so sánh các trình tự trên BioEdit ........32 Bảng 3.6. Các trình tự tham chiếu trên Genbank .....................................................35
  6. DANH MỤC CÁC HÌNH Hình 1.1. Sơ đồ cấu trúc tổng quát của vùng rDNA trong thực vật. ..........................9 Hình 1.2. Dạng cây phát sinh loài biết rõ nguồn gốc ...............................................11 Hình 1.3. Cây Dây thường xuân H. nepalensis . ......................................................13 Hình 1.4. Phân bố địa lý của H. nepalensis tại miền Bắc nước ta ...........................14 Hình 2.1. Sơ đồ thiết kế nghiên cứu .........................................................................21 Hình 2.2. Hiển thị kết quả giải trình tự qua phần mềm BioEdit ..............................23 Hình 3.1. Ảnh điện di DNA tổng số của một số mẫu trên gel agarose 1,2 %. .........24 Hình 3.2. Tối ưu nhiệt độ gắn mồi phản ứng nhân dòng gen ITS ............................26 Hình 3.3. Tối ưu nồng độ DNA phản ứng nhân dòng gen ITS ................................26 Hình 3.4. Tối ưu nồng độ mồi phản ứng nhân dòng gen ITS ...................................27 Hình 3.5. Kết quả PCR nhân dòng gen ITS của một số mẫu ...................................28 Hình 3.6. Kết quả hiển thị giải trình tự của mẫu H1 qua phần mềm BioEdit ..........28 Hình 3.7. Kết quả so sánh BLAST của mẫu H4 và H. nepalensis (AJ131238). ......29 Hình 3.8. Cây phát sinh chủng loại xây dựng bằng phương pháp UPGMA dựa trên chỉ thị phân tử ITS .....................................................................................................35 Hình 3.9. Cây phát sinh chủng loại xây dựng bằng phương pháp NJ dựa trên chỉ thị phân tử ITS ................................................................................................................36 Hình 3.10. Cây phát sinh chủng loại xây dựng bằng phương pháp ML dựa trên chỉ thị phân tử ITS ...........................................................................................................36 Hình 4.1. Phân bố địa lý các haplotype của Dây thường xuân ở các tỉnh Lào Cai, Hà Giang, Lạng Sơn ..................................................................................................46
  7. MỤC LỤC ĐẶT VẤN ĐỀ ............................................................................................................1 CHƯƠNG 1. TỔNG QUAN .....................................................................................3 1.1. Đa dạng và phân loại sinh học .........................................................................3 1.1.1. Khái niệm đa dạng sinh học .....................................................................3 1.1.2. Đa dạng di truyền .....................................................................................3 1.1.3. Thực trạng đa dạng sinh học ở Việt Nam .................................................3 1.1.4. Các phương pháp phân loại học ...............................................................4 1.2. Công cụ phân tích đa dạng di truyền và tiến hóa .............................................6 1.2.1. Tổng quan về chỉ thị DNA .......................................................................6 1.2.2. Các kỹ thuật chỉ chị DNA ........................................................................7 1.2.3. Vùng đệm trong được sao mã (Internal Transcribed Spacer - ITS) ........8 1.2.4. Các phương pháp xây dựng cây phát sinh chủng loại ............................10 1.3. Tổng quan về Dây thường xuân (Hedera nepalensis K. Koch) ....................13 1.3.1. Phân loại học loài Hedera nepalensis K. Koch ......................................13 1.3.2. Đặc điểm hình thái và phân bố địa lý .....................................................14 1.3.3. Giá trị y học ............................................................................................14 CHƯƠNG 2. VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU .......................19 2.1. Vật liệu nghiên cứu ........................................................................................19 2.1.1. Vật liệu thực vật .....................................................................................19 2.1.2. Hóa chất chính sử dụng trong nghiên cứu ..............................................20 2.1.3. Thiết bị ....................................................................................................20 2.2. Phương pháp nghiên cứu ...............................................................................21 2.2.1. Tách chiết DNA tổng số .........................................................................21 2.2.2. Nhân dòng đoạn gen đích bằng kỹ thuật PCR........................................22 2.2.3. Giải trình tự ............................................................................................22 2.3.4. Xử lý số liệu và phân tích kết quả ..........................................................23 CHƯƠNG 3. KẾT QUẢ NGHIÊN CỨU ..............................................................24 i
  8. 3.1. Tách chiết DNA tổng số ................................................................................24 3.2. Kết quả nhân dòng đoạn gen ITS bằng phản ứng PCR..................................25 3.2.1. Kết quả các phản ứng tối ưu ...................................................................25 3.2.2. Kết quả nhân dòng gen ITS từ các mẫu thực vật ...................................28 3.3. Giải trình tự ....................................................................................................28 3.4. Độ tương đồng của trình tự gen ITS được khuếch đại ...................................29 3.5. Cây phát sinh chủng loại dựa trên vùng gen ITS ...........................................30 3.5.1. Lựa chọn mô hình ...................................................................................30 3.5.2. Khoảng cách di truyền ............................................................................30 3.5.3. Xây dựng cây chủng loại ........................................................................35 CHƯƠNG 4. BÀN LUẬN .......................................................................................37 4.1. Tách chiết DNA tổng số ................................................................................37 4.2. Tối ưu quy trình nhân dòng gen ITS bằng phản ứng PCR và giải trình tự ....38 4.3. Khoảng cách di truyền ...................................................................................40 4.5. So sánh giữa các phương pháp xây dựng cây phát sinh chủng loại ..............41 4.5.1. Phương pháp UPGMA ...........................................................................41 4.5.2. Phương pháp Neighbor- Joining.............................................................42 4.5.3. Phương pháp Maximum LikeLihood .....................................................42 4.6. Dự đoán trong bảo tồn và chọn tạo giống......................................................43 4.7. So sánh với phân tích hình thái học ...............................................................44 4.8. Phân tích địa lý của các mẫu nghiên cứu .......................................................45 CHƯƠNG 5. KẾT LUẬN VÀ KIẾN NGHỊ .........................................................47 ii
  9. ĐẶT VẤN ĐỀ Trên thế giới cũng như ở nước ta xu hướng sử dụng dược liệu và các sản phẩm chăm sóc sức khỏe có nguồn gốc từ thực vật ngày một tăng cao. Theo số liệu của Tổ chức Y tế thế giới (WHO), khoảng 80% dân số ở các nước đang phát triển có nhu cầu chăm sóc sức khỏe ban đầu liên quan đến y học cổ truyền [23]. Trong gần 20 năm trở lại đây, ước tính có khoảng 40 - 50% các thuốc được đưa ra thị trường đều trực tiếp hoặc gián tiếp có nguồn gốc từ các hợp chất thiên nhiên [25]. Tại Mỹ, doanh số bán thực phẩm chức năng có nguồn gốc từ thực vật tăng 8,5%, đạt tổng doanh thu khoảng 8 tỷ USD trong năm 2017 [51]. Cây dược liệu được coi là kho tàng vô giá cung cấp các hợp chất sinh học phục vụ nghiên cứu phát triển thuốc, là thành phần không thể thiếu của ngành dược liệu, góp phần phục vụ chăm sóc sức khỏe cộng đồng, nâng cao đời sống và phát triển kinh tế - xã hội [23]. Đây là một trong những lý do ngày càng có nhiều loài cây thuốc được đầu tư nghiên cứu, mở rộng quy mô sản xuất để phát triển thành các sản phẩm chất lượng đáp ứng cho thị trường [23]. Họ Nhân Sâm (Araliaceae) là thực vật cung cấp nhiều cây thuốc quý, được dân gian sử dụng lâu đời. Tuy nhiên, các loài trong chi Hedera của họ này còn ít được biết đến ở Việt Nam. Trong chi này, Thường xuân (Hedera helix) và Dây thường xuân (Hedera nepalensis) là hai loài được nghiên cứu nhiều nhất [19]. Ở châu Âu, Thường xuân đã được sử dụng từ rất lâu đời, một trong những sản phẩm nổi tiếng trên khắp thế giới là siro ho Prospan® của Công ty Engelhard Arzneimitel GmbH&Co.KG (Cộng hòa Liên bang Đức). Ở Việt Nam, Thường xuân không phải cây bản địa nhưng Dây thường xuân được ghi nhận phân bố ở nhiều vùng núi cao miền Bắc và hai loài này có hình thái dễ nhầm lẫn. Một số nghiên cứu dược lý đã ghi nhận Dây thường xuân có nhiều tác dụng như chống ung thư, chống oxy hóa, hạ đường huyết, giảm đau, kháng viêm…[32, 39, 43, 57]. Mặc dù có tiềm năng dược lý như vậy, song nghiên cứu về Dây thường xuân ở Việt Nam còn hạn chế, đặc biệt là nghiên cứu về đa dạng di truyền. Khai thác dược liệu quá mức, không có định hướng và kiểm soát chặt chẽ đã và đang đe dọa trực tiếp đến nguồn tài nguyên cây thuốc ở nước ta. Do đó, công tác bảo tồn đa dạng sinh học, các nguồn gen quý đang là mối quan tâm hàng đầu của các nhà quản lý và Nhà nước. Đánh giá được mức độ đa dạng di truyền nguồn gen cây thuốc kết hợp với các phân tích thành phần hóa học của từng giống cây cho phép chúng ta chọn lọc được giống cây sản xuất hiệu quả hợp chất quan tâm. Qua 1
  10. đó, thông tin về nguồn gen giúp chúng ta đưa ra được chiến lược bảo tồn và phát triển cây thuốc tiềm năng một cách hiệu quả và bền vững. Hiện nay, các chỉ thị DNA đã trở thành một trong những công cụ hỗ trợ đắc lực cho nghiên cứu phân loại, phân tích đa dạng sinh học. Nó giúp xác định khoảng cách di truyền và đặc trưng cấp độ cá thể, quần thể phục vụ bảo tồn và chọn giống [14, 26, 38]. Vùng đệm trong được sao mã (Internal Transcribed Spacer, viết tắt là ITS) là một chỉ thị phân loại tốt ở thực vật. Song ITS có phải là một chỉ thị tốt để đánh giá mức độ đa dạng di truyền nguồn gen Dây thường xuân ở Việt Nam hay không? Để đi tìm lời giải cho câu hỏi này chúng tôi lựa chọn đề tài: “Nghiên cứu đa dạng di truyền nguồn gen Dây thường xuân (Hedera nepalensis K. Koch) ở Việt Nam dựa trên chỉ thị ITS” với hai mục tiêu: 1. Xây dựng quy trình tối ưu nhân dòng vùng gen ITS của cây Dây thường xuân. 2. Định danh khoa học của các mẫu Dây thường xuân thu thập tại Việt Nam thông qua xây dựng cây phát sinh loài dựa trên chỉ thị phân tử ITS. Để thực hiện mục tiêu nghiên cứu trên, tôi tiến hành các nội dung nghiên cứu như sau: 1. Tách chiết DNA tổng số của 45 mẫu Dây thường xuân. 2. Tối ưu quy trình nhân dòng gen ITS với cặp mồi đặc hiệu. 3. Nhân dòng gen ITS bằng kỹ thuật PCR và giải trình tự gen. 4. Phân tích số liệu thu được và xây dựng cây phát sinh chủng loại. 2
  11. CHƯƠNG 1. TỔNG QUAN 1.1. Đa dạng và phân loại sinh học 1.1.1. Khái niệm đa dạng sinh học Theo Công ước đa dạng sinh học năm 1992: Đa dạng sinh học là sự phong phú của mọi cơ thể sống có từ tất cả các nguồn trong các hệ sinh thái mà chúng tạo nên; đa dạng sinh học gồm sự đa dạng trong loài (đa dạng di truyền), giữa các loài (đa dạng loài) và các hệ sinh thái (đa dạng các hệ sinh thái). Đa dạng sinh học có tầm quan trọng to lớn đối với thiên nhiên và con người. Nó mang giá trị sinh thái và môi trường, bảo vệ tài nguyên đất và nước, điều hòa khí hậu, mang giá trị kinh tế lớn nếu biết khai thác và sử dụng đúng cách [9]. 1.1.2. Đa dạng di truyền Đa dạng di truyền hay còn gọi là đa dạng nguồn gen là một phần của đa dạng sinh học. Đa dạng di truyền thể hiện sự phong phú của những biến dị trong cấu trúc di truyền của các cá thể bên trong loài hoặc giữa các loài; bên trong hoặc giữa những quần thể. Đa dạng di truyền xuất phát từ những đột biến nhỏ như thêm, mất, thay thế hoặc đảo vị trí nucleotide trong chuỗi DNA, hoặc từ các đột biến ở cấp độ cao hơn như các đột biến về số lượng hoặc cấu trúc nhiễm sắc thể. Đa dạng di truyền là sự đa dạng ở cấp độ phân tử, là nền tảng cho sự đa dạng của sinh giới [4]. Đây là mức độ nhỏ nhất để cấu thành nên các tổ chức lớn hơn như tế bào hoặc cơ quan. Nghiên cứu đa dạng di truyền chính là nghiên cứu sự biến đổi của sinh vật hay quần thể sinh vật ở cấp độ di truyền (gen, DNA). Ngày nay, nghiên cứu đa dạng sinh học nói chung, đa dạng di truyền nói riêng đang ngày càng được phát triển, góp phần giúp định danh chính xác hệ thống sinh vật khổng lồ. Ngoài ra, đây còn là cơ sở cho bảo tồn phát triển nguồn gen, lai chọn tạo giống mới, nghiên cứu tiến hóa… 1.1.3. Thực trạng đa dạng sinh học ở Việt Nam Việt Nam là một đất nước có khí hậu nhiệt đới gió mùa, trải dài gần 3260 km theo chiều dọc, địa hình ¾ là đồi núi, nên có nguồn tài nguyên sinh vật vô cùng phong phú. Theo các tài liệu thống kê, Việt Nam là một trong 25 nước có mức độ đa dạng sinh học cao trên thế giới, trong đó xếp thứ 16 về mức độ đa dạng sinh học (chiếm 6,5% số loài có trên thế giới). Chỉ kể đến thực vật, Việt Nam có khoảng 20000 loài trên cạn và dưới nước; gần 4000 loài thực vật có giá trị làm thuốc và có nhiều loài thuộc dược liệu quý hiếm. 3
  12. Trên thế giới cũng như ở Việt Nam, suy thoái đa dạng sinh học đang ngày một nặng nề. Đó là một vấn đề gây nhức nhối toàn cầu. Các chuyên gia cho rằng tốc độ tuyệt chủng hiện tại của các loài thực vật đang cao hơn 100 đến 1000 lần so với mức tự nhiên. Cứ sau 2 năm, chúng ta lại mất ít nhất một loại dược liệu [23]. Trong khi đó, còn tới 90% số loài chưa được thống kê, nghiên cứu thì nhiều loài trong số đó đã bị tuyệt chủng. Nhiều nguyên nhân trực tiếp và gián tiếp khác nhau dẫn đến sự suy thoái đó như khai thác, sử dụng không bền vững; cháy rừng, chuyển đổi phương thức sử dụng đất, ô nhiễm môi trường, chiến tranh, yếu kém trong công tác quản lý [4, 9]. Hàng ngày, hàng giờ đều đang có sự gia tăng nguy cơ tuyệt chủng của một số loài nào đó. Do đó, các nghiên cứu phục vụ bảo tồn và phân tích đa dạng sinh học là vô cùng cần thiết, quan trọng, có ý nghĩa khoa học và thực tiễn. Hiện nay, nước ta có nguồn dược liệu lớn, dự báo một nguồn gen phong phú nhưng việc tạo ra giá trị kinh tế từ nguồn dược liệu này còn rất hạn chế. Các sản phẩm từ dược liệu chưa được chuẩn hóa, dẫn đến khó tạo ra các sản phẩm ổn định, có giá trị cao. Đặc biệt, phát triển thuốc từ dược liệu gặp nhiều hạn chế do mối nghi ngại lớn về tác dụng, sự ổn định về chất lượng, khó phân biệt về hình thái. Vì vậy, nghiên cứu đa dạng di truyền càng trở lên có ý nghĩa, giúp xác định chính xác danh pháp khoa học của các loài, từ đó kết hợp với các nghiên cứu dược lý để có biện pháp bảo vệ và phát triển các nguồn gen tạo được các sản phẩm chất lượng tốt. 1.1.4. Các phương pháp phân loại học Phân loại học có vai trò và ý nghĩa đối với nhiều ngành, nhiều lĩnh vực [13]. Có nhiều cách phân chia về các phương pháp phân loại học, phần dưới đây sẽ trình bày một số phương pháp phân loại chính được sử dụng hiện nay. 1.1.4.1. Phương pháp phân loại học truyền thống Trong phân loại học truyền thống có bao hàm phân loại học dựa trên chỉ thị cảm quan (hình thái, màu sắc, mùi vị…) và chỉ thị hóa học (sắc ký lớp mỏng - Thin Layer Chromatography - TLC; sắc ký lỏng cao áp - High-Performance Liquid Chromatography - HPLC...). Phương pháp phân loại bằng đặc điểm hình thái (phương pháp hình thái học) là một phương pháp giữ vai trò rất quan trọng trong nghiên cứu phân loại học. Nó được sử dụng rất rộng rãi và phổ biến. Phương pháp cho phép so sánh các đặc điểm hình thái của các cơ quan trong cơ thể sinh vật, trước hết là cơ quan sinh dưỡng và sinh sản. Nhờ việc làm nổi bật các đặc điểm giống, khác nhau và nhờ tính ổn định 4
  13. của chúng mà ta có thể sắp xếp các sinh vật vào các nấc thang phân loại khác nhau, xác định được mối quan hệ thân cận. Hạn chế lớn nhất của phương pháp là phân biệt các loài đồng hình. Đôi khi do lợi ích kinh tế hoặc lỗi trong khâu thu hái mà người ta có thể nhầm lẫn các sinh vật với nhau một cách vô tình hoặc cố ý; gây hậu quả nghiêm trọng nhất là với các cây có chất độc [3, 6, 8]. Tuy vậy, chúng ta không thể phủ nhận và thay thế được vai trò to lớn của các cách phân loại truyền thống đối với phân loại học nói chung. 1.1.4.2. Phương pháp phân loại học hiện đại Phân loại học phân tử Cùng với sự phát triển của sinh học phân tử và tin sinh học, các kỹ thuật chỉ thị sinh học phân tử ra đời từ thập kỷ 80 của thế kỷ trước đem lại những thành tựu kỳ diệu và bước tiến quan trọng trong phân loại học [13, 14, 26]. Phân loại học phân tử xác định các loài dựa trên các đặc điểm khác biệt về trình tự DNA, protein hoặc isozyme. Phần lớn chỉ thị phân tử được sử dụng hiện này là các chỉ thị DNA, các chỉ thị này nằm gần hay liên kết với gen và không có hoặc ít ảnh hưởng đến kiểu hình. Bằng phương pháp này, sự khác biệt giữa các cơ thể hoặc các loài khác nhau trở nên nhanh và chính xác. Phương pháp đặc biệt có ích trong trường hợp giải quyết các vấn đề về loài đồng hình hay nghiên cứu các biến dị, khắc phục một phần nhược điểm của phương pháp phân loại truyền thống [13]. Phân loại học hiện trạng số (numerical taxonomy) sử dụng các dấu hiệu giống nhau của sinh vật (từ 60 trở lên) mà không xét nguồn gốc của các dấu hiệu. Phương pháp căn cứ vào mức độ giống nhau của các đối tượng để xác định quan hệ phân loại bằng cách dùng các thuật toán. Ưu điểm của phương pháp này là loại bỏ được tính chủ quan và đảm bảo tính tự nhiên của hệ thống phân loại. Tuy nhiên nhược điểm lớn là đã loại trừ yếu tố tiến hóa và không thể thay thế phương pháp phân loại truyền thống [13]. Phân loại học Phylocod xác định các đặc điểm tổ tiên, các đặc điểm phân ly từ tổ tiên và hình thành các bậc tiến hóa đơn dòng xác định như các loài. Khác với phân loại truyền thống phân chia thành nhiều thứ bậc (loài, giống, họ, bộ...), Phylocod chỉ là hệ thống danh pháp. Theo phương pháp này, số lượng loài sẽ tăng lên hay vấn đề mẫu chuẩn của loài sẽ là những điểm hạn chế. Vì vậy, hệ thống danh pháp này chỉ mang tính tham khảo [13]. 5
  14. Cận phân loại học (Parataxonomy) sử dụng để so sánh tổng quát về mức độ phong phú của sinh vật nói chung của một khu vực. Phương pháp phân loại này chủ trương phân thành các đơn vị phân loại mà không thành các loài theo những nguyên tắc chung. Nó có thể phù hợp cả những người không chuyên về phân loại học bằng cách phân loại bằng mắt thường. Vì vậy, nhiều nhà khoa học cho rằng đây sẽ chỉ là một kỹ thuật trợ giúp trong phân loại học [13]. 1.2. Công cụ phân tích đa dạng di truyền và tiến hóa 1.2.1. Tổng quan về chỉ thị DNA Nhiệm vụ chính cho bất kỳ chuyên gia về hệ thống thực vật, sinh thái học, sinh học tiến hóa và bảo tồn hoặc chuyên gia pháp y ứng dụng là định danh chính xác mẫu động thực vật một cách nhanh chóng, có thể lặp lại và độ đáng tin cậy cao. Chỉ thị DNA sử dụng các đoạn trình tự gen hoặc DNA đặc hiệu là một công cụ hữu ích để xác định, nhận dạng loài. Số lượng nghiên cứu sử dụng mã vạch được sử dụng ngày càng nhiều. Bằng cách kết hợp các thế mạnh của di truyền phân tử, công nghệ giải trình tự và tin sinh học, chỉ thị DNA cung cấp một phương tiện nhanh chóng và chính xác để nhận biết các loài đã biết, mô tả và đặt tên trước đó và lấy thông tin về chúng. Cho đến ngày nay, công cụ này khám phá hàng ngàn loài động thực vật chưa được đặt tên, đặc biệt là trong quần xã sinh vật nhiệt đới. Là một công cụ khám phá đa dạng sinh học mang tính cách mạng [26], chỉ thị DNA đã giúp tìm kiếm các loài có tiềm năng mới đối với khoa học, phân tích dữ liệu di truyền của chúng, đặc biệt là với các loài có nguy cơ tuyệt chủng. Dựa trên chỉ thị DNA, nhiều mã vạch DNA được phát triển. Mã vạch DNA là các trình tự đặc hiệu cho phép xác định một đơn vị phân loại nào đó như loài. Đối với những người sử dụng phân loại học ứng dụng, mã vạch DNA đóng vai trò là phương tiện để xác định các loài quy định, các loài xâm lấn và các loài có nguy cơ tuyệt chủng. Ngoài ra nó còn để kiểm tra danh tính và độ tinh khiết của các sản phẩm thực vật, như thuốc thảo dược thương mại và thực phẩm chức năng. Mã vạch DNA hiện đang được sử dụng để giải quyết các vấn đề sinh thái, tiến hóa và bảo tồn. Quá trình tạo và áp dụng mã vạch DNA thực vật cho mục đích nhận dạng đòi hỏi hai bước cơ bản: 1) xây dựng thư viện mã vạch DNA của các loài đã biết và 2) khớp với chuỗi mã vạch DNA của một mẫu chưa biết so với thư viện mã vạch DNA. Bước đầu tiên yêu cầu các nhà phân loại chọn một đến vài cá thể cho mỗi loài để làm mẫu tham chiếu trong thư viện mã vạch DNA. Mô, tế bào có thể được thu trực tiếp từ các mẫu vật tươi hoặc các mẫu khô, không bị nhiễm nấm mốc. Khi 6
  15. thư viện mã vạch DNA hoàn tất, mẫu chưa biết sẽ được tách chiết DNA tổng số và mã vạch DNA được tạo ra của mẫu vật sẽ được so sánh với mã vạch DNA đã biết bằng cách sử dụng một số loại thuật toán phù hợp [38]. Chỉ thị DNA là công cụ hữu ích giúp phân loại các loài [13, 26, 38]. Đoạn gen được sử dụng có thể tìm thấy ở tất cả các sinh vật (hoặc ít nhất là trong các thành viên của một nhóm loài), các trình tự nucleotide sẽ giống nhau hoặc rất giống nhau ở các cá thể trong cùng một loài. Vì vậy khu vực này có thể được sử dụng cho nhận dạng các loài bằng cách so sánh trình tự của chỉ thị DNA trong sinh vật thử nghiệm với trình tự tham khảo từ các cơ sở dữ liệu. Các vùng gen được dùng làm chỉ thị DNA ở thực vật bao gồm các trình tự DNA trong lạp thể và DNA trong nhân. Hiện nay, các chỉ thị dựa trên trình tự DNA là một phương pháp xác định các loài một cách hiệu quả. Tuy nhiên, mỗi phương pháp phân loại đều có những mặt hạn chế. Chỉ thị DNA phân biệt các loài với nhau, nhưng không có đủ dữ liệu để mô tả các loài mới nên có thể gây xáo trộn, làm thay đổi hệ thống phân loại truyền thống đã ổn định với hệ thống danh pháp từ hàng trăm năm nay [13]. 1.2.2. Các kỹ thuật chỉ chị DNA Các kỹ thuật chỉ thị DNA được sử dụng nhiều trong nghiên cứu quan hệ di truyền, phát sinh chủng loại và phân loại phân tử; trong lập bản đồ liên kết di truyền, nhận biết gen; trong chọn giống bao gồm đánh giá đa dạng di truyền, nhận biết giống, chọn lọc các tính trạng kháng bệnh, chống chịu các điều kiện bất lợi của môi trường, năng suất và phẩm chất giống. Mỗi kỹ thuật khác nhau sẽ được ứng dụng vào từng đối tượng mà nhà nghiên cứu hướng đến, hoặc kết hợp nhiều các phương pháp khác nhau để phân tích. Các kỹ thuật không sử dụng PCR như đa hình độ dài đoạn cắt hạn chế (Restriction Fragment Length Polymorphism - RFLP), lấy dấu cắt hạn chế (Restriction Endonuclease Fingerprinting - REF). Các kỹ thuật sử dụng PCR như DNA đa hình được nhân bản ngẫu nhiên (Randomly Amplified Polymorphic - DNA/ RAPD); PCR với mồi ngẫu nhiên (Arbitrarily primed PCR - AP-PCR); đa hình độ dài chuỗi nhân bản (Amplified Sequence Length Polymorphism - ASLP); nhân bản chọn lọc các locus đa hình (Selective Amplification of Polymorphic Loci - SAMPL). Kỹ thuật chỉ thị dựa trên các tiểu vệ tinh gồm có chuỗi lặp lại đơn giản giữa (Inter-Simple Sequence Repeats - ISSR); chuỗi lặp lại ngược được đánh dấu (Inverse Sequence-Tagged Repeats - ISTR). Các kỹ thuật PCR các chuỗi đặc trưng như vị trí chuỗi đánh dấu (Sequence-Tagged-Site - STS); đa hình độ dài chuỗi đơn giản (Single Sequence Length Polymorphism - 7
  16. SSLP); các chuỗi lặp lại đơn giản (Simple Sequence Repeats - SSR). Các kỹ thuật chỉ thị gen nhảy như đa hình gen nhảy ngược giữa được nhân bản (Inter- Retrotrasposon Amplified Polymorphis - IRAP); đa hình sự gắn dựa trên gen nhảy ngược (Retrotrasposon-Based Insertion Polymorphism - RBIP). Các kỹ thuật chỉ thị nhân khác có thể kể đến vùng đệm trong được sao mã (Internal Transcribed Spacer - ITS); đa hình đơn nucleotide (Single Nucleotide Polymorphism - SNP). Các kỹ thuật chỉ thị lục lạp như chuỗi lặp lại đơn giản lục lạp (Chloroplast Simple Sequence Repeats - cpSSR); phân tích đa hình độ dài đoạn cắt giới hạn DNA lục lạp (Restriction Fragment Length Polymorphism Analysis cpDNA - RFLPA cpDNA). Công nghệ hỗ trợ hiện đại như công nghệ sắp xếp đa dạng (Diversity array Technology - DarT); giải trình tự thế hệ thứ hai (Next-geneation sequencing - NGS) [14]. 1.2.3. Vùng đệm trong được sao mã (Internal Transcribed Spacer - ITS) Vùng đệm trong được sao mã (Internal Transcribed Spacer - ITS) nằm giữa gen RNA ribosome tiểu đơn vị nhỏ và gen RNA ribosome tiểu đơn vị lớn là một dấu hiệu phát sinh gen được sử dụng rộng rãi cho phân loại nhiều loài. ITS ở thực vật nhân thực chứa rRNA 5,8S được bảo tồn và các khu vực có thể biến đổi là ITS1 và ITS2. Các vùng này có chiều dài có thể thay đổi và khuếch đại bằng cách sử dụng các đoạn mồi bổ sung cho các vùng được bảo tồn của các gen sườn của chúng. Có nghiên cứu trước đây đã chỉ ra rằng việc loại bỏ các khu vực được bảo tồn dẫn đến phân loại chính xác hơn [47]. Các vùng tổ chức nhân (nucleolar organizing regions – NORs) nằm trong nhiễm sắc thể chứa các DNA ribosome (rDNA) là các phần của các đơn vị lặp lại (Hình 1.1a) được sắp xếp theo thứ tự nhất định với số lượng bản sao lên đến 30000 trong một tế bào [14, 20, 45]. Do đó, vùng rDNA như một công cụ cho các nghiên cứu phát sinh gen do thành phần cấu trúc của nó khác nhau về mức độ bảo tồn [31]. Xen kẽ giữa các rDNA là các vùng intron không được sao mã với chức năng chưa được biết rõ. Mỗi Exon (rDNA) chứa các tiểu phần ribosome nhỏ (16S-18S), vùng ITS và tiểu phần lớn (26S-28S). Theo đó, Hình 1.1b thể hiện được vùng ITS bao gồm ba phần là ITS1, 5,8S và ITS2 nằm xen kẽ giữa các tiểu phần ribosome. Vùng này được gọi chung là vùng đệm trong được sao mã (Internal Transcribed Spacer –ITS). 8
  17. Hình 1.1. Sơ đồ cấu trúc tổng quát của vùng rDNA trong thực vật. (a) Vị trí nhiễm sắc thể của các vùng rDNA. (b) Cấu tạo của vùng Intron, Exon liền kề [45] Hai vùng đệm ITS1 và ITS2 có độ dài không vượt quá 300 bp [20], tổng độ dài vùng ITS dao động từ 600 – 700 bp [14]. Có một điểm lý thú cho vùng gen này là mức độ tiến hóa của nó nhanh nên dễ dàng thay đổi về trình tự cũng như độ dài. Bên cạnh đó, các vùng liền kề thì có trình tự rất bảo thủ, thuận tiện cho việc thiết kế mồi cho phản ứng PCR nhân dòng vùng gen ITS. Ngoài ra, do đoạn trình tự gen không dài, nên việc khuếch đại là không khó khăn. Phân tích vùng gen ITS là một kỹ thuật chỉ thị phân tử quan trọng cho nghiên cứu đa dạng di truyền giúp phân loại phân tử các nhóm taxon có liên kết gần gũi [44]. Bởi vì ITS có tính bảo thủ cao trong loài nhưng lại thay đổi ở các loài khác nhau [22]. Có nhiều nghiên cứu đã tiến hành phân tích riêng biệt từng vùng trình tự ITS1 và ITS2, song kết quả cho thấy chưa đủ bằng chứng để phân tích tiến hóa. Do đó sự kết hợp dữ liệu vùng ITS cho kết quả khả quan hơn. Hầu hết các nghiên cứu được báo cáo, sự khác biệt giữa các chuỗi ITS chủ yếu là do đột biến điểm. Một tỷ lệ tương đối nhỏ của những vị trí bị chèn (insert) hoặc xóa (indels) nucleotide trong các trình tự tương tự nhau để giữ lại tín hiệu đủ cho phân tích phát sinh gen [20]. Nghiên cứu đa dạng di truyền sử dụng vùng gen ITS có thể được tiến hành bằng cách: Sử dụng những cặp mồi đặc hiệu để khuếch đại số lượng bản sao vùng gen mong muốn; tiến hành giải trình tự trực tiếp; xây dựng cây phát sinh phân loài sử dụng các trình tự nghiên cứu và các trình tự tham chiếu có sẵn trên Genbank. Với đặc tính như trên, hiện nay, ITS đã và đang được ứng dụng rất rộng rãi trong nhiều lĩnh vực như phân tích di truyền và phân loại, nghiên cứu phát sinh 9
  18. loài…Điển hình có thể kể tên các nghiên cứu ứng dụng của các chi, họ khác nhau như Sorghum (Poaceae) [53], Glycine [37], họ Rosoideae [27], chi Bambusa [29], thậm chí cả nấm…[50] hoặc các nghiên cứu về sự khác biệt di truyền trong họ Araliaceae [42, 55, 58], Dendropanax [41], sự khác biệt di truyền qua không gian và thời gian của Dây thường xuân (Hedera sp.) [30],… Ngoài ra, hiện nay để dữ liệu phân tích thêm đồ sộ và có độ tin cậy lớn hơn, người ta thường kết hợp phân tích da dạng di truyền của nhiều gen chỉ thị khác nhau. Trong đó, một sự kết hợp phổ biến là sử dụng cả vùng gen nhân ITS và cả cùng gen lục lạp (matK, atpB, ndhF, rbcL, tnrH - tnrK,…) để phân tích. 1.2.4. Các phương pháp xây dựng cây phát sinh chủng loại Theo Darwin, tất cả các loài sinh vật đều tiến hóa từ một tổ tiên chung. Mối quan hệ giữa các loài sinh vật được biểu diễn bởi một cây phân loài. Dữ liệu đầu vào cây tiến hóa hay cây phân loài có thể là một hay nhiều yếu tố chứa thông tin khác nhau liên quan đến chúng, như là thông tin về cấu trúc hoặc là thông tin về hình dáng bên ngoài [16]. Về mặt nguyên tắc, các sinh vật có cấu trúc bên ngoài và hình dáng càng giống nhau thì chúng càng có quan hệ gần gũi. Ngày nay với sự phát triển của công nghệ sinh học, sinh học phân tử cũng như tin sinh học, chúng ta hoàn toàn có thể giải mã bất kỳ một hay nhiều đoạn gen nào chúng ta mong muốn, thậm chí là toàn bộ hệ gen của sinh vật. Đó là dữ liệu quan trọng và là bước tiến vượt bậc hữu ích cho ngành phân loại học. Những gì chúng ta cần là những đoạn DNA hay axit amin của mẫu nghiên cứu để so sánh giữa chúng với nhau và với dữ liệu sẵn có. Từ đó, chúng ta có cơ sở để xây dựng cây phát sinh loài. Đây là một công cụ suy luận giúp các nhà phân loại học tái lập lại sự tiến hóa và phân loài trong tự nhiên. Một cây phân loài thường có cấu trúc nhị phân thể hiện mối quan hệ tiến hóa giữa các loài sinh vật: (1) mỗi đỉnh (nút lá) của cây biểu hiện cho một loài sinh vật hiện tại; (2) mỗi nút bên trong biểu diễn cho một loài sinh vật tổ tiên; (3) mỗi cạnh của cây sẽ nối hai nút của cây và biểu diễn mối quan hệ trực tiếp giữa hai loài sinh vật ở hai nút của cây; (4) độ dài của cạnh cho biết khoảng cách tiến hóa giữa chúng. Có 2 dạng cây thường gặp là cây không gốc (không có thông tin về các loài tổ tiên, cạnh của cây không thể hiện mối quan hệ cha - con giữa các đỉnh của cây) và cây có gốc (các cạnh trên cây thể hiện mối quan hệ cha con giữa các đỉnh của cây) [16]. 10
  19. Hình 1.2. Dạng cây phát sinh loài biết rõ nguồn gốc Cụ thể, có nhiều phương pháp khác nhau sử dụng những thuật toán khác nhau để giúp chúng ta tái hiện mối quan hệ phát sinh có thể có được thể hiện thông qua cây phát sinh chủng loại từ dữ liệu một nhóm các trình tự đã biết. Một số phương pháp hay được sử dụng để xây dựng cây phát sinh chủng loại sẽ được trình bày ở phần dưới đây. 1.2.3.1. Phương pháp Ma trận khoảng cách (Distance Matrix) Đây được cho là một nhóm các thuật toán đơn giản nhất đã được sử dụng từ lâu trong các nghiên cứu phát sinh loài. Được bắt đầu sử dụng từ những năm 1990 các thuật toán này sử dụng để xác định mối quan hệ giữa các loài dựa trên các dấu hiệu hình thái. Trong đó thuật toán lập nhóm không có trọng số dùng trung bình số học (UPGMA - Unweighted PairGroup with Method using arthmetic Averages) [52] phân tích tất cả các dấu hiệu qua đó xác định khoảng cách di truyền giữa tất cả các cặp trình tự, biểu diễn thành dạng ma trận khoảng cách (dạng đối xứng) rồi gộp từng cặp mẫu có khoảng cách di truyền giữa chúng là nhỏ nhất [10]. Ma trận khoảng cách D = (dij) biểu diễn khoảng cách giữa n loài là ma trận trong đó mỗi phần tử dij là khoảng cách giữa 2 nút của cây trong quan hệ phát sinh [16]. Khoảng cách giữa các đỉnh (nút lá) và các nút bên trong cây được chỉ rõ. Khoảng cách dij thỏa mãn 3 điều kiện: Tính đối xứng (dij = dji với mọi i, j); tính phân biệt (dij ≠ 0 chỉ khi i ≠ j); bất đẳng thức tam giác: dij < dik + dkj với mọi i, j. Nhìn chung các thuật toán dựa trên “ma trận khoảng cách” cho kết quả phân tích nhanh, phù hợp để xử lý một lượng dữ liệu lớn, cho biết khoảng cách di truyền tương đối giữa các loài nhưng không phản ánh được sự tiến hóa của mỗi gen [10]. Ngoài ra, một phương pháp khác là Gom cụm lân cận (NJ – Neighbor joining cũng rất được hay dùng trong xây dựng cây phát sinh chủng loại với lượng dữ liệu đồ sộ) [48]. Theo thuật toán này, tỷ lệ tiến hóa được tính toán tự do và khác nhau giữa các dòng khác nhau. Phương pháp này gần như tương tự với UPGMA, 11
  20. tuy nhiên xuất hiện “cụm lân cận” tức là, hai trình tự được gọi là lân cận (gần nhau) trong một cây, nếu như giữa chúng chỉ có duy nhất một nút. 1.2.3.2. Phương pháp Tiết kiệm tối đa (Maximum Parisimony) Dựa trên nguyên tắc sinh học là “đột biến hiếm khi xảy ra”. Thuật toán này cho rằng: Cây tiến hóa phù hợp nhất là cây có đột biến thấp nhất trên tất cả các cây tiến hóa có thể giữa các taxon được phân tích. Do vậy, cây tiến hóa thu được từ phương pháp này được gọi là cây tích phân tiến hóa tối ưu [10]. Chỉ số tin cậy cho từng nhánh cây gọi là giá trị tin cậy (bootstrap), một nhánh chỉ được coi là có độ tin cậy khi giá trị này đạt trên 70% [33]. Ưu điểm của phương pháp này là tốc độ tính toán nhanh và được cho là khách quan nhất. Phương pháp không đưa ra bất kì một giả định nào về quá trình tiến hóa, mà dựa trên nguyên lý giản tiện tối đa: Cây tốt nhất được chọn ra dựa vào việc giảm thiểu hóa số lượng các vị trí thay thế cần thiết để giải thích cho các vị trí mang thông tin. 1.2.3.4. Phương pháp Xác suất tối đa (Maximum Likelihood) Đây là một phương pháp xác suất [10, 60] thuần túy thường được dùng để kiểm chứng lại các cây tiến hóa đã xây dựng bởi các phương pháp khác. Phương pháp này đánh giá một giả thiết tiến hóa bằng xây dựng tất cả các cây tiến hóa có khả năng xảy ra. Tiếp theo, xác định cây tiến hóa nội suy là cây có xác suất xảy ra cao nhất qua việc phân tích các yếu tố tiến hóa. Chẳng hạn, về đại thể tần số đột biến đồng hoán cao hơn khoảng 3 lần so với các đột biến dị hoán [10]. Đây được coi là phương pháp cung cấp thông tin chính xác và chi tiết hơn cả so với các phương pháp khác. Nhưng thực tế, tốc độ xử lí thông tin theo phương pháp này chậm và không khả thi khi phân tích một lượng dữ liệu lớn. Phương pháp này cũng cho ra cây tiến hóa có độ tin cậy khi giá trị độ tin cậy (bootstrap) đạt trên 70% ở mỗi nhánh [33]. Thông thường trong các nghiên cứu được tiến hành dựa trên nhiều phương pháp khác nhau, kết quả nghiên cứu tốt là khi các cây tiến hóa được xây dựng từ nhiều phương pháp nhưng cho cấu trúc tương đồng. Trong nghiên cứu này chúng tôi sử dụng ba phương pháp là: Tiết kiệm tối đa (Maximum Parsimony), hợp lý tối đa (Maximum Likelihood) và phương pháp ma trận khoảng cách với thuật toán UPGMA bằng phần mềm MEGA X. 12
nguon tai.lieu . vn