一文极速读懂UniProt数据库

mark

Uniprot （Universal Protein ）是包含蛋白质序列，功能信息，研究论文索引的蛋白质数据库，整合了包括EBI（ European Bioinformatics Institute），SIB（the Swiss Institute of Bioinformatics），PIR（Protein Information Resource）三大数据库的资源。

EBI（ European Bioinformatics Institute）：欧洲生物信息学研究所（EMBL-EBI）是欧洲生命科学旗舰实验室EMBL的一部分。位于英国剑桥欣克斯顿的惠康基因组校园内，是世界上基因组学领域最强的地带之一。
SIB（the Swiss Institute of Bioinformatics）：瑞士日内瓦的SIB维护着ExPASy（专家蛋白质分析系统）服务器，这里包含有蛋白质组学工具和数据库的主要资源。
PIR（Protein Information Resource）：PIR由美国国家生物医学研究基金会（NBRF）于1984年成立，旨在协助研究人员识别和解释蛋白质序列信息。

目前，UniProt由主要由以下子库构成：

数据库名	全名	用途
UniProtKB/Swiss-Prot	Protein knowledgebas (review)	高质量的、手工注释的、非冗余的数据库
UniProtKB/TrEMBL	Protein knowledgebase (unreview)	自动翻译蛋白质序列，预测序列，未验证的数据库
UniParc	Sequence	非冗余蛋白质序列数据库
UniRef	Sequence clusters	聚类序列减小数据库，加快搜索的速度
Proteomes	Protein sets from fully sequenced genomes	为全测序基因组物种提供蛋白质组信息

他们的关系如下：

通过EMBL，GenBank，DDBJ等公共数据库得到原始数据，处理后存入UniParc的非冗余蛋白质序列数据库。UniProt作为数据仓库，再分别给UniProtKB，Proteomes，UNIRef提供可靠的数据集。其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库，也是我们今后常用的蛋白质数据库之一。

mark

UniProtKB/Swiss-Prot

高质量的、手工注释的、非冗余的数据集

Swiss-Prot旨在提供与高水平注释（例如，蛋白质功能，其域结构，翻译后修饰，变体等的描述）相关的可靠蛋白质序列，最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果，有质量保证的数据才被加入该数据库。

Swiss-Prot由Amos Bairoch博士在1986年创建，由瑞士生物信息学研究所开发，随后由欧洲生物信息学研究所的Rolf Apweiler开发。也是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。

Swiss-Prot条目的注释中使用了一系列序列分析工具。包括手动评估，计算机预测，并选择结果包含在相应的条目中。这些预测包括翻译后修饰，跨膜结构域和拓扑，信号肽，结构域识别和蛋白质家族分类。

来自相同基因和相同物种的序列合并到相同的数据库条目中。确定序列之间的差异包含：可变剪接，自然变异，错误的起始位点，错误的外显子边界，移码，未识别的冲突。

注释会用相关出版物通过搜索数据库（例如PubMed）进行识别。阅读每篇论文的全文，然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于：

蛋白质和基因名称
功能
特定于酶的信息，例如催化活性，辅因子和催化残基
亚细胞定位
蛋白质相互作用
表达方式
重要域和站点的位置和角色
离子，底物和辅因子结合位点
通过自然遗传变异，RNA编辑，替代剪接，蛋白水解加工和翻译后修饰产生的蛋白质变异形式

使用：

mark

UniProtKB/Swiss-Prot

高质量的、手工注释的、非冗余的数据集

蛋白质和基因名称
功能
特定于酶的信息，例如催化活性，辅因子和催化残基
亚细胞定位
蛋白质相互作用
表达方式
重要域和站点的位置和角色
离子，底物和辅因子结合位点
通过自然遗传变异，RNA编辑，替代剪接，蛋白水解加工和翻译后修饰产生的蛋白质变异形式

常用的操作

<1>：这里输入基因名，UniProt ID，或者感兴趣的关键字

<2>：筛选：Reviewed：存储在Swiss-Prot数据库中经过验证的蛋白数据，Unreviewed：存储在TrEMBL数据库中没有经过验证的蛋白数据

<3>：筛选某个物种，点击就好切换到该物种

<4>：通过基因名或蛋白名来筛选

<5>：依次是Unprot ID，该蛋白数据库命名，蛋白质名，基因名，物种，序列长

<6>：如果需要Blast来查看某个蛋白有哪些序列相似的蛋白序列，先选中感兴趣蛋白前的方框，点击Blast

<7>：如果需要多序列比对，先选中感兴趣蛋白前的方框，点击Align

<8>：如果要下载信息，先选中感兴趣蛋白前的方框，点击Download下载。这里不选择序列，默认会下载全部序列

下面以 PO5F1_HUMAN 为例，下载对应的fasta序列来看看：

下载到的序列：

>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
  MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
  PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
  AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
  QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
  VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
  AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 后的注释信息

sp：Swiss-Prot数据库的简称，也就是上面说的验证后的蛋白数据库
Q01860：UniProt ID号
PO5F1_HUMAN：是UniProt 的登录名
POU domain, class 5, transcription factor 1：蛋白质名称
OS=Homo sapiens：OS是Organism简称，Homo sapiens为人的拉丁文分类命名，也就是这是人的蛋白质
OX=9606：Organism Taxonomy，也就是物种分类数据库Taxonomy ID
GN=POU5F1：Gene name，基因名为POU5F1
PE=1：Protein Existence，蛋白质可靠性，对应5个数字，数字越小越可靠：
- 1：Experimental evidence at protein level
- 2：Experimental evidence at tranlevel
- 3：Protein inferred from homology
- 4：Protein predicted
- 5：Protein uncertain
SV=1：Sequence Version，序列版本号

UniProtKB/TrEMBL

在认识到序列数据的生成速度超过了Swiss-Prot的注释能力时，为了给不在Swiss-Prot中的那些蛋白质提供自动注释，UniProt创建了TrEMBL（翻译的EMBL核苷酸序列数据库）。在三大核酸数据库（EMBL-Bank/GenBank/DDBJ）中注释的编码序列都会被自动翻译并加入该数据库中。它也有来自PDB数据库的序列，以及Ensembl、Refeq和CCDS基因预测的序列。之前提到的PIR组织制作了蛋白质序列数据库（PIR-PSD）。

UniParc

UniProt Archive（UniParc）包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。蛋白质可能存在于几个不同的来源数据库中，并且在同一数据库中存在多个副本。为了避免冗余，UniParc仅将每个唯一序列存储一次。相同序列被合并，无论它们来自相同还是不同物种。每个序列都有一个稳定且唯一的标识符（UPI），从而可以从不同的来源数据库中识别相同的蛋白质。

UniParc仅包含蛋白质序列，没有注释。 UniParc条目中的数据库交叉引用允许从源数据库检索有关该蛋白质的更多信息。当源数据库中的序列发生更改时，UniParc将跟踪这些更改，并记录所有更改的历史记录。

UniRef

UniProt Reference Clusters（UniRef）：聚类序列可显著减小数据库大小，从而加快序列搜索的速度。用于计算的蛋白质序列来自UniProtKB和部分UniParc记录的序列。UniRef100序列将相同的序列和序列片段（来自任何生物）合并到一个UniRef条目中，用于显示代表性蛋白质的序列。使用CD-HIT算法对UniRef100序列进行聚类，并构建UniRef90和UniRef50。UniRef90和UniRef50分别代表每个簇由与最长序列分别具有至少90％或50％序列同一性的序列组成。