下载

http://current.geneontology.org/products/pages/downloads.html

GOC(Gene Ontology Consortium)提供了41种不同模型生物的GAF格式的注释信息。

GAF格式介绍

官网:http://geneontology.org/docs/go-annotation-file-gaf-format-2.1/

GO 注释文件有GOC(Gene Ontology Consortium)负责管理,使用GO术语(GO terms)来代表基因产物的属性。

打开GAF文件首先可以看到 Header 信息:

mark

接下来就是GO注释的详细信息:

mark

GAF(GO Annotation File)的使用tab符号分割,每一行代表一个基因产物与其对应的GO术语,物种等17列信息,每一列的含义如下:

mark

1.DB

基因标识的来源数据库,必须是 参考数据库 里包含的

2.DB Object ID

上述数据库所对应的唯一标识符,比如,上面DB是 UniProtKB 数据库的话,那么DB Object ID是P12345

3.DB Object Symbol

对应的基因名:PHO3

4.Qualifier

可选字段,该注释信息是否被修改。值为基数0,1,> 1;对于基数> 1,使用|分隔条目(例如,NOT | contributes_to)

5.GO ID

使用GO:和7为数字,GO:XXXXXXX格式标识

6.DB:Reference

注释的证据来源,一般为文献参考,格式为DB:accession_number

7.Evidence Code

GO注释的证据码,证据码列表

8.With [or] From

可选字段,此字段用于保存注释的其他标识符,例如,它可以标识被注释的基因产物与之相似的另一基因产物(ISS)或与之相互作用(IPI)。

9.Aspect

属于P (biological process), F (molecular function) or C (cellular component) 的哪种GO注释

10.DB Object Name

可选字段,基因或基因产物的全名

11.DB Object Synonym

可选字段,基因 Symbol ID。考虑到基因别名的存在,该值在构建参考数据库的时候最好使用|分隔,比如YFL039C|ABY1|END7

12.DB Object Type

蛋白产物:protein_complex; protein; transcript; ncRNA; rRNA; tRNA; snRNA; snoRNA; any subtype of ncRNA in the Sequence Ontology

13.Taxon

物种的Taxonomic 标识符,使用数字编号来代表某个物种。

之前的一篇文章中详细介绍了NCBI的物种分类库:https://zhuanlan.zhihu.com/p/90747645

14.Date

注释日期,格式YYYYMMDD

15.Assigned By

注释信息来源数据库

16.Annotation Extension

可选字段,可以包含DB:gene_id DB:sequence_id CHEBI:CHEBI_id Cell Type Ontology:CL_id GO:GO_id

17.Gene Product Form ID

由于DB对象ID(第2列)条目必须是规范实体(即基因或与基因具有1:1对应关系的抽象蛋白质),因此该字段允许注释该基因或基因产物的特定变体。包括通过差异剪接,替代翻译起始,翻译后切割或翻译后修饰产生的不同蛋白质的标识符,以及功能性RNA的标识符。