生信格式 | GAF GO注释文件详解
下载
http://current.geneontology.org/products/pages/downloads.html
GOC(Gene Ontology Consortium)提供了41种不同模型生物的GAF格式的注释信息。
GAF格式介绍
官网:http://geneontology.org/docs/go-annotation-file-gaf-format-2.1/
GO 注释文件有GOC(Gene Ontology Consortium)负责管理,使用GO术语(GO terms)来代表基因产物的属性。
打开GAF文件首先可以看到 Header
信息:
接下来就是GO注释的详细信息:
GAF(GO Annotation File)的使用tab
符号分割,每一行代表一个基因产物与其对应的GO术语,物种等17列信息,每一列的含义如下:
1.DB
基因标识的来源数据库,必须是 参考数据库 里包含的
2.DB Object ID
上述数据库所对应的唯一标识符,比如,上面DB是 UniProtKB
数据库的话,那么DB Object ID是P12345
3.DB Object Symbol
对应的基因名:PHO3
4.Qualifier
可选字段,该注释信息是否被修改。值为基数0,1,> 1;对于基数> 1,使用|
分隔条目(例如,NOT | contributes_to)
5.GO ID
使用GO:和7为数字,GO:XXXXXXX
格式标识
6.DB:Reference
注释的证据来源,一般为文献参考,格式为DB:accession_number
7.Evidence Code
GO注释的证据码,证据码列表
8.With [or] From
可选字段,此字段用于保存注释的其他标识符,例如,它可以标识被注释的基因产物与之相似的另一基因产物(ISS)或与之相互作用(IPI)。
9.Aspect
属于P (biological process), F (molecular function) or C (cellular component) 的哪种GO注释
10.DB Object Name
可选字段,基因或基因产物的全名
11.DB Object Synonym
可选字段,基因 Symbol ID。考虑到基因别名的存在,该值在构建参考数据库的时候最好使用|
分隔,比如YFL039C|ABY1|END7
12.DB Object Type
蛋白产物:protein_complex; protein; transcript; ncRNA; rRNA; tRNA; snRNA; snoRNA; any subtype of ncRNA in the Sequence Ontology 。
13.Taxon
物种的Taxonomic 标识符,使用数字编号来代表某个物种。
之前的一篇文章中详细介绍了NCBI的物种分类库:https://zhuanlan.zhihu.com/p/90747645
14.Date
注释日期,格式YYYYMMDD
15.Assigned By
注释信息来源数据库
16.Annotation Extension
可选字段,可以包含DB:gene_id DB:sequence_id CHEBI:CHEBI_id Cell Type Ontology:CL_id GO:GO_id
17.Gene Product Form ID
由于DB对象ID(第2列)条目必须是规范实体(即基因或与基因具有1:1对应关系的抽象蛋白质),因此该字段允许注释该基因或基因产物的特定变体。包括通过差异剪接,替代翻译起始,翻译后切割或翻译后修饰产生的不同蛋白质的标识符,以及功能性RNA的标识符。