这里提供基因组文件及基因组注释文件的多种下载方法,如果想了解不同版本查看:https://zhenglei.blog.csdn.net/article/details/117486244

1、NCBI

这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

可视化下载

  • 进入网址

https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

  • 搜索物种

image.png

  • 下载界面

image.png

FTP下载

随便提一下,Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

这里以下载人的参考基因组 GRCh38 为例:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

人类基因组注释文件:

GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

GFF 格式:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

2、Ensemble

可视化下载

image.png

  • 点击对应名称,下载参考基因组和基因组注释文件

image.png

FTP下载

同样以下载人参考基因组 GRCh38 为例:

http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

GTT 文件:http://ftp.ensembl.org/pub/current_gff3/homo_sapiens/Homo_sapiens.GRCh38.104.gff3.gz

3、GENCODE

如果小伙伴研究的物种只涉及人类和小鼠,极力推荐 GENCOE,这里有着相较其他数据库,最新最全的基因组和其注释信息。

image.png

  • 点击下载基因组注释文件

image.png

  • 点击下载参考基因组文件

image.png

4、UCSC

相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

image.png

5、iGenomes

iGenomes是常见分析生物的参考序列和注释文件的集合。这些文件已从Ensembl,NCBI或UCSC下载。染色体名称已更改为简单且与下载源一致。每个iGenome都可以作为压缩文件使用,其中包含生物体的单个基因组构建的序列和注释文件。

网址:https://support.illumina.com/sequencing/sequencing_software/igenome.html

image.png

由亚马逊资助的生物信息参考基因组下载站点,有各种参考基因组,注释文件,软件索引等常用文件,并且有着极快的下载速度,但是缺点是只有常用的物种。

站点:https://ewels.github.io/AWS-iGenomes/

image.png