解析 Ensembl 的数据库服务器

Ensembl 对于学习生物信息学的我们来说应该是如数家珍了，但是我们平时常用到的操作一般是去查基因，下载基因组，这些都是通过网页端来完成：http://uswest.ensembl.org/index.html

上面网页展示的就像大家进入某宝商店中的商品展示图，而真正的货物是存放在仓库的。Ensemble 则是将其“货物”是存放在数据库服务器中。

理解 Ensembl 的数据库存储结构与架构，对于我们的今后的生信研究工作大有裨益。

接下来，我们进入 Ensembl 的数据仓库世界，去看看它的货物有哪些，我们怎么来使用这些数据。

一、Ensembl 数据库服务器介绍

Ensembl 一共提供四个数据库服务器访问地址：

ensembldb.ensembl.org：欧洲服务器，只有该服务器可访问 GRCh37 数据集
useastdb.ensembl.org：美洲服务器
asiadb.ensembl.org：亚洲服务器
martdb.ensembl.org：提供对 BioMart 数据库的公共访问

这里提供了数据库匿名访问权限，不同于网页端僵硬的访问操作，数据库中我们可以更灵活地获取更细粒度的信息。

Ensemble 用到的数据库管理系统包括为人熟知的 MySQL 和 MariaDB。

这里说个小故事，便于理解 MySQL 和 MariaDB 的渊源：

MySQL 率先由麦克尔·维德纽斯主导开发，后来以 10 亿美元卖给了 SUN 公司。SUN公司就是那个拥有 java 语言版权的大佬，但经营不善由甲骨文公司收购。甲骨文公司的产品 Oracle 本身也是数据库管理软件，和 MySQL 有竞争。收购后，MySQL 开发社区马上意识到他们的软件 MySQL 有潜在闭源风险。于是，迈克尔率领社区成员构建新分支，并以自己女儿的名字玛利亚命名，即 MariaDB。

总的来看，二者师出同门，在使用方面方面并无本质区别。在存储引擎方面，MariaDB 10.0.9版起使用XtraDB 代替了 MySQL 的 InnoDB。

依据下面的请求信息，我们就可以登录 Ensemble 的数据库服务器。

Server	User	Password	Port(s)	Version	Notes
ensembldb.ensembl.org	anonymous	-	3306 & 5306	MySQL 5.6.33	From Ensembl 48 onwards only
useastdb.ensembl.org	anonymous	-	3306 & 5306	MariaDB 10.0.30	Current and previous Ensembl version only
asiadb.ensembl.org	anonymous	-	3306 & 5306	MariaDB 10.0.30	Current and previous Ensembl version only
martdb.ensembl.org	anonymous	-	5316	MariaDB 10.0.30	From Ensembl 48 onwards only
ensembldb.ensembl.org	anonymous	-	3337	MySQl 5.6.33	Databases for archive GRCh37 - release 79 onwards
ensembldb.ensembl.org	anonymous	-	4306	MySQL 4.1.20	Up to Ensembl 47 only
martdb.ensembl.org	anonymous	-	3316	MySQL 4.1.20	Up to Ensembl 47 only