Xem mẫu

  1. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 LẮP RÁP, CHÚ GIẢI VÀ PHÂN TÍCH HỆ PHIÊN MÃ TÔM SÚ Penaeus monodon Nguyễn Cường1*, Phạm Quang Huy1, Nguyễn Văn Lâm1, Hà Thị Thu1, Phạm Thị Hoa1, Nguyễn Hải Triều1, Đậu Huy Tùng1, Nguyễn Giang Thu2, Nguyễn Hữu Ninh3, Đồng Văn Quyền1, Chu Hoàng Hà1, Đinh Duy Kháng1 TÓM TẮT Tôm sú (Penaeus monodon) là loài thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù công việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú. Tuy nhiên, nhu cầu giải mã và phân tích hệ gene, hệ phiên mã của của tôm sú để tìm ra các chỉ thị phân tử cũng như các dữ liệu quan trọng khác sẽ giúp tăng hiệu suất cho quá trình chọn giống. Trong bài báo này, chúng tôi công bố kết quả giải trình tự hệ phiên mã của tôm sú bằng công nghệ đọc trình tự thế hệ mới. Với 9 Gb dữ liệu thu được từ máy Illumina MiSeq, chúng tôi tiến hành lắp ráp de novo để tạo ra ngân hàng với 51.638 transcript, từ đó thực hiện chú giải chức năng transcript, phát hiện được 7.016 chỉ thị phân tử microsatellite và 17.783 SNP. Chúng tôi xây dựng hệ thống website quản lý các ngân hàng transcript cũng như các công cụ phân tích cần thiết. Kết quả của bài báo là tiền đề cho các nghiên cứu chuyên sâu hơn về loài tôm sú mang lại nguồn lợi lớn này. Từ khóa: hệ phiên mã, lắp ráp de novo, giải trình tự thế hệ mới, chú giải, biểu hiện gene, microsat- ellite, SNP. I. ĐẶT VẤN ĐỀ tử để nâng cao năng suất nuôi về tính trạng Động vật giáp xác chiếm 10% tổng sản tăng trưởng và kháng bệnh là rất cần thiết. lượng thủy sản của cả thế giới và là một trong Hiện nay, nguồn dữ liệu về tôm sú P. những lĩnh vực nuôi trồng thủy sản tăng trưởng monodon còn khá khiêm tốn (Andriantahina và nhanh nhất (trung bình 15% hằng năm từ năm ctv., 2013). Trên ngân hàng Genbank có tổng 1970 và đạt 5 triệu tấn vào năm 2008 (FAO, cộng 39.908 EST được ứng dụng vào tìm các 2010). Trong đó, tôm là sản phẩm thủy sản điểm đa hình (ví dụ như SNP) và có khoảng có giá trị nhất trong nhóm này và được nuôi 600 trình tự microsatellite (cập nhật tháng 10 trồng ở Việt Nam hiện nay là tôm sú Penaeus năm 2013). Trong khi đó, P. monodon có 44 monodon. Mặc dù là ngành sản xuất nuôi trồng nhiễm sắc thể với kích thước hệ gene lớn là thủy sản đem lại nguồn lợi lớn cho quốc gia ~2,17 Gb (You EM và ctv., 2010). nhưng ngành sản xuất này vẫn bị ảnh hưởng Với sự ra đời và phát triển không ngừng nặng nề bởi thiên nhiên nhất là dịch bệnh như của công nghệ đọc trình tự thế hệ mới Next là dịch đốm trắng (WSSV). Do đó, nhu cầu Generation Sequencing (NGS), công suất đọc nghiên cứu sâu hơn về hệ gene và các marker trình tự có thể lên tới từ 8 Gb cho đến 600 Gb, phân tử hỗ trợ chọn giống dựa vào chỉ thị phân cho phép đọc trình tự nguyên bộ gene với mức 1 Viện Công nghệ Sinh học, Viện Hàn lâm KH&CN Việt Nam *Email: cuongnguyen@ibt.ac.vn 2 Vụ Khoa học Công nghệ & Môi trường, Bộ NN&PTNT 3 Viện Nghiên cứu Nuôi trồng Thủy sản I, Bộ NN&PTNT TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 9
  2. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 độ lặp rất lớn lên tới cả 100x. Hơn nữa, chi phí trinityrnaseq.sourceforge.net/) (Grabherr và đọc trình tự và thời gian đọc trình tự của cả hệ ctv., 2011) với các tham số mặc định. Để đánh gene cũng đã giảm đi đáng kể và có thể thực giá chất lượng lắp ráp chúng tôi đưa ra 3 tiêu hiện được ở các phòng thí nghiệm có quy mô chí: N50, phân bố độ dài của các transcript và trung bình. Do đó, NGS là một công cụ mạnh số lượng trình tự đọc được ánh xạ ngược trở để có thể giải trình tự toàn bộ hệ gene hoặc hệ lại hệ phiên mã tham chiếu. phiên mã của một loài nào đó từ đó có thể ứng 2.2.2. Chú giải và phân loại transcript trong dụng rất nhiều trong phân tích sinh học phân hệ phiên mã tử như đánh giá biểu hiện gene, phát hiện chỉ Chú giải chức năng cho các transcript thị phân tử, phân tích SNP/InDel,... hoặc ứng trong hệ phiên mã đòi hỏi phải sử dụng những dụng trong chuẩn đoán bệnh. thuật toán tìm kiếm tương đồng trên các cơ sở Trong nghiên cứu này, chúng tôi đọc trình dữ liệu protein quan trọng. Trong nghiên cứu tự hệ phiên mã của tôm sú Penaeus monodon, này, chúng tôi sử dụng công cụ BLAST+ với tiến hành lắp ráp de novo để thu được ngân chế độ BLASTX để so sánh toàn bộ transcript hàng các transcript. Từ đó, chúng tôi tiến hành lên các cơ sở dữ liệu NCBI non-redundant chú giải các transcript thu được, phân tích protein (Nr, http://www.ncbi.nlm.nih.gov/), biểu hiện gene, tìm kiếm các chỉ thị phân tử Swiss-Prot (http://www.expasy.ch/sprot) với microsatellite và phát hiện các chỉ thị SNP. tham số E-value là 1e-6. Trong trường hợp kết Chúng tôi cũng tiến hành xây dựng hệ thống quả chú giải trên các cơ sở dữ liệu là khác nhau phần mềm quản lý ngân hàng các transcript thì thứ tự ưu tiên kết quả chú giải các vùng cùng với các công cụ phân tích cần thiết. mã hóa protein là Nr, Swiss-Prot. Kết quả chú II. VẬT LIỆU VÀ PHƯƠNG PHÁP giải từ ngân hàng Nr sau đó được phần mềm NGHIÊN CỨU Blast2GO (Conesa và ctv., 2005) sử dụng để 2.1. Vật liệu lấy ra mã Gene Ontology (GO) riêng biệt cho Một cá thể tôm sú Penaeus monodon được mỗi transcript. Toàn bộ transcript trong hệ phiên lấy từ vùng nuôi trồng thủy sản Ninh Thuận, mã sẽ được ánh xạ vào các mã GO và phân loại sau đó mô tim của cá thể này được đem đi tách dựa vào 3 hạng mục: quá trình sinh học, thành chiết mRNA tổng số và đọc trình tự trên máy phần tế bào và phân tử chức năng. Hơn thế nữa, giải trình tự thế hệ mới Illumina Miseq. từ số liệu gene ontology, mỗi một transcript sau khi chú giải sẽ được gán các mã số enzyme 2.2. Phương pháp commission (EC code) tương đương. 2.2.1. Lắp ráp de novo hệ phiên mã 2.2.3. Phân tích biểu hiện gene trong mô tim Dữ liệu trình tự đọc sau khi được giải Trình tự đọc đã tinh sạch từ thư viện mô trình tự sẽ được tiền xử lý để loại bỏ adaptor và tim sẽ được ánh xạ ngược trở lại hệ phiên mã trình tự xấu có chất lượng thấp và độ dài ngắn. vừa lắp ráp sử dụng Bowtie2 (http://bowtie- Những trình tự đọc có chất lượng base thấp bio.sourceforge.net/bowtie2/index.shtml) (chất lượng QC2%) hoặc bị dính adaptor mặc định. Tổng số lượng trình tự đọc ánh xạ sẽ được loại bỏ bằng công cụ được đánh giá được vào mỗi transcript sẽ được đếm xem xuất rất cao Trimmomatic (http://www.usadellab. hiện (biểu hiện) bao nhiêu lần trong mô tim bằng org/cms/?page=trimmomatic). Những trình tự công cụ SAMtools (http://samtools.sourceforge. đọc chất lượng tốt từ mô tim được lắp ráp để net/) (Li và ctv., 2009). Việc đếm những trình tự tạo nên hệ phiên mã bao gồm các transcript đọc như thế này được tiêu chuẩn hóa theo đơn của tôm sú bằng phần mềm Trinity (http:// 10 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
  3. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 vị RPKM (reads per kilobase of transcripts per mẫu nhiễm trình tự lạ chúng tôi áp dụng các million fragments mapped). Toàn bộ các phần tham số sau: chỉ lấy những trình tự đọc có chất mềm phân tích biểu hiện trên đều được tích hợp lượng ánh xạ lớn hơn 20, tần số alen của biến với tham số mặc định trong chương trình viết bởi dị phải lớn hơn 0,1 và độ sâu tối thiểu của alen ngôn ngữ Perlrun_RSEM_align_n_estimate.pl biến dị phải lớn hơn 10. có trong gói phần mềm Trinity. III. KẾT QUẢ 2.2.4. Phát hiện microsatellite marker và 3.1. Lắp ráp de novo và đánh giá chất lượng SNP marker trong ngân hàng transcript lắp ráp Từ các transcript đã lắp ráp, phần Mẫu mô tim từ một cá thể tôm nuôi từ mềm MISA (http://pgrc.ipk-gatersleben. vùng nuôi trồng thủy sản Ninh Thuận. Tổng de/misa/) (Thiel và ctv., 2003) sẽ tìm kiếm cộng 45.063.432 trình tự đọc thô được giải các microsatellite tiềm năng có miền trong trình tự theo phương pháp paired-end từ máy khoảng từ di- cho đến hexanucleotide. Giá giải trình tự Illumina MiSeq với độ dài từ 35- trị lặp nhỏ nhất cho mỗi miền bao gồm: 8 đối 200 bp. Sau khi tiền xử lý thu được 40.313.722 với dinucleotide, sáu cho tri-, năm cho tetra-, trình tự có chất lượng tốt với độ dài trong bốn cho penta- và ba cho hexanucleotide. Với khoảng 70-200 bp (đạt tỉ lệ 89,46%). trường hợp microsatellite là mononucleotide Từ dữ liệu trình tự đọc đã được tiền xử thì không được nghiên cứu vì rất khó để có lý, chúng tôi sử dụng phần mềm Trinity để lắp thế phân biệt được mononucleotide thật sự ráp de novo hệ phiên mã và thu được 51.638 từ những vùng polyadenylation hay đó chỉ là transcript có độ dài trung bình 531,24 bp và mononucleotideđược tạo ra do lỗi giải trình tự. N50 là 726 bp. Phân bố độ dài của các tran- Các trình tự transcript bên cạnh đó cũng script được mô tả như trong (Hình 1) cho thấy sẽ được khai phá các marker đa hình đơn phần lớn các transcript có kích thước nhỏ nucleotide SNP. Chúng tôi ánh xạ các trình (73,94% contig có độ dài từ 200-500 bp). Tuy tự đọc ngược trở lại vào hệ phiên mã tham nhiên có đến 93,66% số lượng read được sử chiếu vừa lắp ráp bằng phần mềm Bowtie2. dụng cho lắp ráp de novo với độ sâu của toàn Kết quả ánh xạ sẽ được 2 công cụ SAMtools bộ hệ phiên mã sau lắp ráp là 139X. Từ 3 tiêu và VarScan (http://varscan.sourceforge.net/) chí là N50, số lượng trình tự đọc sử dụng cho (Koboldt và ctv., 2012) xử lý để tìm ra các loci lắp ráp và phân bố độ dài cho thấy chất lượng tiềm năng bị thay đổi nucleotide. Để sàng lọc lắp ráp de novo là tốt. kết quả dương tính giả do lỗi giải trình tự hoặc Bảng 1. Thống kê số liệu dữ liệu thô và sau khi tiền xử lý Số lượng trình tự đọc Độ dài %GC % Tiền xử lý Mô tim 45.063.432 35-200 59 Mô tim – tinh sạch 40.313.722 70-200 59 89,46% Chú giải chức năng cho hệ phiên mã transcript được chú giải chức năng (Hình 2). Sử dụng công cụ BLAST với chế độ Vì độ dài trung bình của transcript sau khi lắp BLASTX tìm kiếm những transcript vừa lắp ráp khá ngắn (độ dài N50 dài 726 bp) và không ráp trên cơ sở dữ liệu nr NCBI với tham số có hệ gene tham chiếu tôm sú nên sẽ có một E-value 1e-6, chúng tôi đã tìm được 14.601 lượng lớn transcript không thể chú giải chức TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 11
  4. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 năng. Phân bố E-value cho những kết quả tin chiếm 21,1%. Trong khi đó 99,9% transcript cậy nhất thể hiện các transcript được chú giải có độ tương đồng lớn hơn 40% và 0,01% tran- có độ tin cậy rất cao (E-value nhỏ hơn 1e- script có độ tương đồng từ 40% đến 15%. 15) và dải E-value phân bố từ 1e-15 đến 1e-5 Bảng 2. Thống kê chất lượng transcript sau khi lắp ráp de novo Tổng số Transcript Transcript Average N50 N10 %GC Tổng số base % trình tự đọc sử transcript ngắn nhất dài nhất dụng Mô tim 51.638 201 15.659 531,24 726 3.273 49,81 27.432.242 37.760.643 (93,66%) Hình 1. Phân bố độ dài của toàn bộ tran- Hình 2. Thống kê kết quả chú giải lên cơ script sau khi lắp ráp sở dữ liệu NCBI Hình 3. Thống kê loài từ kết quả Tophit BLASTX Phân bố kết quả có độ tương đồng cao tôm sú trên cây phân loài của NCBI trong khi nhất từ cơ sở dữ liệu NR của NCBI được xây đó kết quả ứng với tôm sú Penaeus monodon dựng thành cây phân loài, chỉ ra rằng loài đứng thứ 6 với 330 kết quả (Hình 3). Daphnia pulex chiếm đa số và cũng đứng gần 12 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
  5. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 3.2. Phân tích biểu hiện trong mô tim tính theo công thức như sau: RPKM là một đơn vị biểu hiện thể hiện Số lượng read bám vào transcript mức độ biểu hiện của từng transcript/contig RPKM = (Độ dài transcript) x (Tổng số read) đối với một hệ phiên mã hoàn chỉnh và được Do đó, chúng tôi đưa ra sơ đồ phân bố transcript trong đó có 3.551 transcript có nhiều biểu hiện cho toàn bộ các transcript của mô hơn một microsatellite và 2.759 microsatellite tim trong Hình 4. Những transcript có mức ở dạng compound (Bảng 3). Trong số các độ biểu hiện cao trong mô tim (6,22% toàn bộ microsatellite được tìm thấy chiếm số lượng transcript) là những transcript tiềm năng đặc nhiều nhất là dinucleotide (42%) và trinucleotide hiệu cho riêng mô tim và sẽ được nghiên cứu (52,8%), theo sau đó là tetra- (4,97%), hexa- sâu hơn. (0,16%) và pentanucleotide (0,06%) (Bảng 3.3. Khai phá dữ liệu microsatellite và SNP 4). Trong dinucleotide microsatellite, miền lặp Toàn bộ transcript trong hệ phiên mã mô nhiều nhất là AG/CT (45,6%), theo sau là miền tim tôm sú được khai phá để tìm các locus đa lặp là AC/GT (35,52%). Còn với trinucleotide hình bao gồm microsatellite và SNP, 18.838 microsatellite, miền lặp nhiều nhất là AGG/ microsatellite được tìm thấy trong 13.965 CCT (21,3%), theo sau là miền lặp AGC/CTG (16,95%). Bảng 3. Kết quả tìm kiếm microsatellite Bảng 4. Phân bố miền lặp microsatellite Tổng số transcript thực hiện 51.638 Miền lặp Số lượng microsatellite Độ dài tổng số của toàn bộ transcript 27.432.242 2 2.947 Tổng số microsatellite được phát hiện 7.016 3 3.705 Số lượng transcript có microsatellite 5.711 4 349 Số lượng transcript có nhiều hơn 1 micro- 883 satelltite 5 4 Số lượng microsatellite ở dạng compound 710 6 11 Hình 4. Thống kê mức độ biểu hiện giữa các Hình 5. Thống kê các miền lặp trong hệ phiên transcript trong mô tim mã mô tim tôm sú TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 13
  6. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 Hình 6. Tỉ lệ transition (AG hoặc CT) và transversion (AT, CG) trong các Hình 7. Phân bố tần số thay đổi alen trên các SNP tiềm năng SNP tiềm năng Các tham số được điều chỉnh trong các SNP) (Hình 6). Phân bố của tần số thay đổi alen phần mềm Bowtie2, SAMtools và VarScan, cũng cho thấy phần lớn SNP tiềm năng có tần cùng với đó do hệ phiên mã được xây dựng từ số nằm trong khoảng từ 30 đến 50% (Hình 7). một cá thể tôm nên chúng tôi nhắm đến các vị 3.4. Phần mềm quản lý ngân hàng transcript trí có tần số thay đổi alen là 50% được coi là Chúng tôi đã xây dựng phần mềm quản các vị trí dị hợp về alen. Dựa vào đó chúng tôi lý hệ phiên mã tôm sú hoạt động trực tuyến tại tìm ra được 17.783 SNP tiềm năng trong 6.683 địa chỉ http://tomsu.ibt.ac.vn. Phần mềm cho transcript với mật độ trung bình là 0,648 SNP phép duyệt và xem chi tiết từng transcript cũng mỗi một kb. Hầu hết các SNP tiềm năng này như các microsatellite và SNP của chúng. đều được phân loại vào transition (2/3 tổng số Hình 8. Giao diện phần mềm quản lý hệ phiên mã tôm sú 14 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
  7. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 IV. THẢO LUẬN cắt nối intron, sản phẩm gene mới hay phân Trên thế giới thì tôm sú là loài chưa được tích biểu hiện gene. xây dựng bản đồ hệ gen hoàn chỉnh từ trước Việc tìm ra một số lượng lớn các vùng đến nay mặc dù đã có những thông tin về EST microsatellite và SNP sẽ là nguồn chỉ thị phân trên ngân hàng Genbank của NCBI, do vậy tử hữu ích cho những nghiên cứu trong tương giải trình tự hệ phiên mã (RNA-seq) là một lai để sàng lọc các tính trạng số lượng trong hướng đi đúng đắn cho việc khai phá de novo phân tích quần thể và phả hệ. Hệ gene của tôm những thông tin về hệ gene bên trong tôm sú. sú được coi là có số lượng microsatellite rất Với phương pháp RNA-seq, chúng ta chỉ cần lớn, lớn hơn cả nhiều động vật có xương sống một lượng mẫu RNA rất nhỏ là đã đảm bảo và nhiều gấp 4 lần so với hệ gene cá lóc Fugu chất lượng giải trình tự cho những phân tích (Huang và ctv., 2011; Maneeruttanarungroj và tin sinh tiếp theo. Sự tiến bộ của công nghệ ctv., 2006). Lý do vì sao số lượng microsatellite giải trình tự thế hệ mới đi kèm với đó là độ dài trong tôm sú lại nhiều như vậy thì chưa được trình tự đọc tăng lên cũng như các phần mềm giải thích rõ ràng nhưng có những giả thiết cho lắp ráp tin sinh học được phát triển sâu hơn rằng chắc chắn microsatellite trong tôm sú có đã giúp các kết quả phân tính chính xác hơn liên quan đến vai trò bảo toàn những chức rất nhiều so với trước kia. Lắp ráp de novo hệ năng quan trọng trong tôm sú. Như vậy cần có phiên mã đã thực sự tạo nên sự đột phá với rất những nghiên cứu sâu hơn về việc kết hợp các nhiều trình tự được giải mã trên rất nhiều các vùng lặp lại microsatellite trong gene đã biểu loài khác mà cũng không hề có thông tin hệ hiện với các tính trạng số lượng đã biết của gene tham chiếu như tôm sú (Meyer và ctv., tôm sú. Nhằm hướng đến việc thiếp lập bản 2009; Nielsen và ctv., 2010; Novaes và ctv., đồ di truyền và khai phá được những thông 2008; Wheat, 2010). tin đa hình của tôm sú một cách chính xác, ở Chúng tôi thực hiện phân tích ước chừng những nghiên cứu tiếp theo, chúng tôi sẽ tăng số lượng gene và chú giải chức năng những số lượng mẫu và số lượng mô dùng để tách gene này cho hệ phiên mã tôm sú bằng công chiết RNA cũng như lấy mẫu ở những vùng cụ BLAST, kết quả có 71,72% số lượng địa lý khác nhau. transcript không được chú giải chức năng vì V. KẾT LUẬN không thể tìm thấy các trình tự tương đồng với Trong nghiên cứu này, từ dữ liệu giải chúng trên ngân hàng dữ liệu. Để có thể tìm ra trình tự thế hệ mới của mô tim tôm sú nuôi ở được một trình tự tương đồng có ý nghĩa trên Việt Nam, chúng tôi đã lắp ráp được hệ phiên ngân hàng dữ liệu có một phần phụ thuộc vào mã bằng phương pháp de novo. Từ dữ liệu đã độ dài của trình tự cần tìm kiếm, chủ yếu các lắp ráp, trình tự được so sánh trên các cơ sở dữ trình tự không tìm thấy trên cơ sở dữ liệu có liệu protein của thế giới như Nr NCBI. Cuối độ dài nhỏ hơn 300 bp, các trình tự có độ dải cùng đã xây dựng được website trực quan nhỏ thế này rất thường xuyên xuất hiện trong quản lý dữ liệu trình tự, dữ liệu chú giải và các nghiên cứu của giải trình tự thế hệ mới và dữ liệu phân tích biểu hiện cho tôm sú nuôi ở việc chú giải chức năng cho chúng vẫn còn Việt Nam. Những dữ liệu này rất có ích cho rất khó khăn với các phần mềm tin sinh hiện những phân tích tiếp theo đặc biệt là truy tìm nay (Novaes và ctv., 2008). Tuy nhiên thì các những chỉ thị tiềm năng liên kết với các tính transcipt không được tìm thấy trên ngân hàng trạng quan trọng trên tôm sú như tăng trưởng dữ liệu được coi là nguồn thông tin quý giá và kháng bệnh. cho những nghiên cứu tiếp theo về quá trình TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 15
  8. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 TÀI LIỆU THAM KHẢO Alignment/Map format and SAMtools. Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013. Bioinforma. Oxf. Engl. 25, 2078–2079. Current status of genetics and genomics Maneeruttanarungroj, C., Pongsomboon, S., of reared penaeid shrimp: information Wuthisuthimethavee, S., Klinbunga, S., relevant to access and benefit sharing. Mar. Wilson, K.J., Swan, J., Li, Y., Whan, V., Biotechnol. N. Y. N 15, 399–412. Chu, K.-H., Li, C.P., Tong, J., Glenn, K., Conesa, A., Götz, S., García-Gómez, J.M., Terol, Rothschild, M., Jerry, D., Tassanakajon, A., J., Talón, M., Robles, M., 2005. Blast2GO: 2006. Development of polymorphic expressed a universal tool for annotation, visualization sequence tag-derived microsatellites for and analysis in functional genomics research. the extension of the genetic linkage map of Bioinforma. Oxf. Engl. 21, 3674–3676. the black tiger shrimp (Penaeus monodon). Anim. Genet. 37, 363–368. FAO, 2010. Food and Agriculture Organisation of the United Nations. The state ofworld Meyer, E., Aglyamova, G.V., Wang, S., Buchanan- fisheries and aquaculture. Carter, J., Abrego, D., Colbourne, J.K., Willis, B.L., Matz, M.V., 2009. Sequencing and de Grabherr, M.G., Haas, B.J., Yassour, M., Levin, novo analysis of a coral larval transcriptome J.Z., Thompson, D.A., Amit, I., Adiconis, using 454 GSFlx. BMC Genomics 10, 219. X., Fan, L., Raychowdhury, R., Zeng, Q., Chen, Z., Mauceli, E., Hacohen, N., Nielsen, C.B., Cantor, M., Dubchak, I., Gordon, Gnirke, A., Rhind, N., di Palma, F., Birren, D., Wang, T., 2010. Visualizing genomes: B.W., Nusbaum, C., Lindblad-Toh, K., techniques and challenges. Nat. Methods 7, Friedman, N., Regev, A., 2011. Full-length S5–S15. transcriptome assembly from RNA-Seq data Novaes, E., Drost, D.R., Farmerie, W.G., Pappas, without a reference genome. Nat. Biotechnol. G.J., Grattapaglia, D., Sederoff, R.R., 29, 644–652. Kirst, M., 2008. High-throughput gene and Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T., SNP discovery in Eucalyptus grandis, an Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F., uncharacterized genome. BMC Genomics 9, Kou, G.-H., Ma, G.-C., others, 2011. Fosmid 312. library end sequencing reveals a rarely Thiel, T., Michalek, W., Varshney, R.K., Graner, known genome structure of marine shrimp A., 2003. Exploiting EST databases for the Penaeus monodon. BMC Genomics 12, 242. development and characterization of gene- Koboldt, D.C., Zhang, Q., Larson, D.E., Shen, derived SSR-markers in barley (Hordeum D., McLellan, M.D., Lin, L., Miller, C.A., vulgare L.). TAG Theor. Appl. Genet. Theor. Mardis, E.R., Ding, L., Wilson, R.K., 2012. Angew. Genet. 106, 411–422. VarScan 2: Somatic mutation and copy Wheat, C.W., 2010. Rapidly developing functional number alteration discovery in cancer by genomics in ecological model systems via exome sequencing. Genome Res. 22, 568– 454 transcriptome sequencing. Genetica 576. 138, 433–451. Langmead, B., Salzberg, S.L., 2012. Fast gapped- You, E.M., Liu, K.F., Huang, S.W., Chen, M., read alignment with Bowtie 2. Nat. Methods Groumellec, M.L., 2010. Construction 9, 357–359. of integrated genetic linkage maps of the Li, H., Handsaker, B., Wysoker, A., Fennell, T., tiger shrimp (Penaeus monodon) using Ruan, J., Homer, N., Marth, G., Abecasis, microsatellite and AFLP markers. Anim G., Durbin, R., 1000 Genome Project Data Genet 41, 365–376. Processing Subgroup, 2009. The Sequence 16 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
  9. VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 ASSEMBLING, ANNOTATING AND ANALYZING THE TRANSCRIPTOME OF Penaeus monodon Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1, Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3, Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1 ABSTRACT Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our country and contributes significantly to the export revenues in the recent years, the data of the black tiger shrimp genome and transcriptome are not well documented until now. Although domestication and genetic improvement can be implemented through traditional breeding programs, the molecular markers and other data generated from genome and transcriptome sequencing will greatly improve the efficiency and effectiveness of selection. In this paper, the transcriptome of P. monodon was sequenced using the Next Generation Sequencing technology with the raw data size of 9 Gb. The raw reads were de novo assembled to get 51.638 transcripts. Those transcripts were annotated and analyzed to find 7.016 microsatellites and 17.783 SNPs. A website with helpful utilities had been developed to manage the transcripts. These results would be useful for further research on P. monodon. Keywords: transcriptome, assembling de novo, next generation sequencing, annotating, gene display, microsatellite, SNP. Người phản biện: TS. Nguyễn Văn Sáng Ngày nhận bài: 29/5/2015 Ngày thông qua phản biện: 03/8/2015 Ngày duyệt đăng: 07/8/2015 1 Institute of Biotechnology *Email: cuongnguyen@ibt.ac.vn 2 Sub-Department of Environment and Technology Science 3 Research Institute for Aquaculture No 1 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 17
nguon tai.lieu . vn