Xem mẫu
- TÌM KIẾM TRÌNH
TỰ SINH HỌC VÀ ĐĂNG KÝ
TRÌNH TỰ TRÊN CƠ SỞ DỮ
LIỆU
- Mục tiêu của bài học
Có khả tìm kiếm được những trình tự sinh học như
DNA, RNA, Protein.
Đăng ký những trình tự đã nghiên cứu được lên Cơ
sở dữ liệu sinh học bằng phần mềm Sequin.
2
Tì kim rnh ự i họ
m ế tì t snh c
- Nguyên tắc trong giải trình tự
Phương pháp Sanger: là phương pháp dựa trên sự
tổng hợp gián đoạn DNA.
Dựa theo phương pháp này chúng ta có thể xác định
được trình tự nucleotide của DNA hay RNA (ATGC…
TTT)
3
Tì kim rnh ự i họ
m ế tì t snh c
- Nhiễm sắc thể, DNA, Gene, Nucleotide
4
Gi it ệ mô họ
ớ hiu n c
- Gửi trình tự lên Genebank của NCBI
Sequin
Đưa vào cơ sở dữ liệu sinh học:
Trình tự đã giải
-NCBI
- Các cơ sở dữ liệu khác
5
Gi it ệ mô họ
ớ hiu n c
- Nguyên tắc tìm kiếm trình tự sau khi đã giải trình tự
.Tìm bằng từ khóa: 2.Công cụ tìm kiếm
-Mã số truy cập
Kế t
quả
-Tên (gene hay Protein) cần tìm
-GI
-Độ dài trình tự
-Trọng lượng phân tử
-Tên tác giả giải trình tự
Tì kim rnh ự i họ
m ế tì t snh c 6
- Tìm kiếm trình tự sinh học qua NCBI
Click
7
Tì kim rnh t i họ
m ế tì ự snh c
- Tìm kiếm trình tự DNA
8
Tì kim rnh ự i họ
m ế tì t snh c
- Tìm kiếm trình tự qua mã số truy cập
Mã số truy cập của một trình tự là mã số do các nhà quản trị
CSDLSH đặt cho một trình tự, thường có dạng :
8 ký tự : 2 chữ và 6 số ví dụ như AY690640
6 ký tự : 1 chữ và 5 số ví dụ như U20068
9
Tì kim rnh ự i họ
m ế tì t snh c
- TÌM KIẾM TRÌNH TỰ SINH HỌC QUA MÃ SỐ TRUY CẬP
10
Tì kim rnh ự i họ
m ế tì t snh c
- Kết quả tìm trình tự DNA qua mã số truy
c ập
11
Gi it ệ mô họ
ớ hiu n c
- Tìm kiếm trình tự qua tên gene
12
Tì kim rnh ự i ọ
m ế tì t snh h c
- 13
Tì kim rnh t i ọ
m ế tì ự snh h c
- Cách lấy trình tự theo định dang FASTA
14
Gi it ệ mô họ
ớ hiu n c
- Định dạng FASTA
FASTA là một giải thuật bắt cặp trình tự được
David J. Lipman và William R. Pearson miêu tả lần đầu
tiên vào năm 1985 (
Rapid and sensitive protein similarity searches).
Nhiều phần mềm tin sinh học cần dữ liệu trình tự gene
hoặc protein theo kiểu định dạng FASTA như ví dụ
minh hoạ dưới đây:
>tên trình tự
gattctcacttggtctgctgcaaggacgcggaccattaaaactgttcatggcccttgtggcgttctcgttt
cctaacaatcccaccaacagcagggatactaaaaagatggggaacgatcaaaaaatcaaaagctatc
aatgtcttgagagggttcaggaaagagattggaaggatgctgaacatcttgaacaggagacgcagga
cagcaggcgtgattgttatgttgattccacagcgatggcgttccatttaaccacacgcaatgg
15
Tì kim rnh ự i họ
m ế tì t snh c
- Một số mã số truy cập của RefSeq database
1. mRNAs and Proteins
NM_123456 Curated mRNA
NP_123456 Curated Protein
NR_123456 Curated non-coding RNA
XM_123456 Predicted mRNA
XP_123456 Predicted Protein
XR_123456 Predicted non-coding RNA
2. Chromosome
NC_123455 Microbial replicons, organelle
genomes, human chromosomes
4. Assemblies
NT_123456 Contig
16
Tì kim rnh ự i ọ
m ế tì t snh h c
- Ví dụ 1: NM_123456 Curated mRNA
NM_123456
17
Tì kim rnh i ọ
m ế tì ssnh h c
- V í dụ 2: NC_12345
18
Gi it ệ mô họ
ớ hiu n c
- Kết quả tìm kiếm bộ gene
19
Gi it ệ mô họ
ớ hiu n c
- Thẻ giới hạn phạm vi tìm kiếm DNA
[ALL] : Tất cả các trường tìm kiếm
[ACCN]: Mã số truy cập của trình tự - Accession
number
[GI] : Số gi
[AUTH] : Tên tác giả giải trình tự- author name
[PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình
tự được cập nhật (update) – publication date
[ORGN] : Sinh vật chứa trình tự đó - organism
[TITL] :Định nghĩa trình tự trong mẫu tin – title
[SLEN] :Chiều dài của trình tự - Sequence length
[GENE] : Tên gene
20
Tì kim tì ự n ọ
m ế rnh t mô h c
nguon tai.lieu . vn