生物信息之多序列比对，进化树分析，保守位点分析

发表于2017-11-11|生物信息生信分析

|字数总计:844|阅读时长:2分钟|阅读量:

一、序列下载与整理

下载fasta格式序列

0、输入网址：https://www.ncbi.nlm.nih.gov/gene

1、输入你想查找的序列，比如Syp基因 可以点击图片来查看高清图

这里写图片描述

2、进入基因详细信息页面
这里写图片描述

3、点击Genbank
这里写图片描述

4、如图所示可以下载到fasta格式的序列，注意这里下载的是基因或者蛋白质的全序列

如果你有一定的Python编程基础，可以查看这篇文章来批量下载大量基因序列：生物信息中的Python 04 | 批量下载基因与文献

这里写图片描述

当然，你也可以直接用CDS，各种基因元件来做进化树。

如果你有编程基础，可以参考这篇从 Genbank 文件中提取 CDS 等其他特征序列来提取基因特征序列。

这里提供一种提取基因启动子区域的方法

假如你希望得到promoter的基因，可以在如图所示的位置输入起始位点和终止位点

一般promoter的位点不确定，可以通过将起始位点左右2kb基因视为promoter

比如：如图起始位点为7638580，那么起始位点要减500，终止位点加1499，这时需要在from输入7638080，to输入7640079（得到长度为2kb的序列）

点击Update view 按钮

然后和同上一步下载fasta序列

合并多个fasta文件

1、下载多个序列后，我们将下载的序列整理到特定文件夹下，比如D:\Download\fasta_files，就像这样：
mark

2、你的fasta_files文件夹里应该是这样的
这里写图片描述

3、返回D:\Download路径下，在文件夹空白地方Shift+右键，点击在此处打开命令窗口
这里写图片描述

4、输入
type fasta_files\*.fasta > all_sequence.fasta
mark

5、现在，在你的文件夹下应该类似这样的：
mark

6、得到整合文件 all_sequence.fasta（这个文件也可以通过记事本打开，下面软件为UE）
这里写图片描述

二、多序列比对

软件下载安装

Clustalw 下载链接：http://www.clustal.org/download/current/clustalw-2.1-win.msi

Clustalx 下载链接：http://www.clustal.org/download/current/clustalx-2.1-win.msi

MEGA 下载链接：http://www.megasoftware.net/releases/MEGA7.0.26_win64_setup.exe

序列比对

1、打开MEGA，进入序列比对分析
这里写图片描述

2、载入fasta序列
这里写图片描述

3、使用Clustalw 比对序列，参数默认点OK
这里写图片描述

4、跑出来的结果需要编辑第一列只留下物种名，序列去掉5’,3’端的空序列（因为要比对序列同源性，最好把显示 - 的序列去掉，使多序列的两端整齐，类似矩阵）
mark

5、导出fasta格式和MEGA格式两种格式
这里写图片描述

6、打开Clustalx 加载刚刚比对完的fasta格式（注意是比对完的，文件后缀名为.fas）
这里写图片描述

7、导出可视化文件，参数默认点OK
这里写图片描述

8、得到可视化的多序列比对结果，打开类似这样（打开用到的软件为Adobe Acrobat）
这里写图片描述

三、进化树分析

1、打开MEGA，载入meg文件
这里写图片描述

2、参数设置（这里是核酸序列）
这里写图片描述

3、得到进化树
这里写图片描述

这里写图片描述

4、导出与美化
这里写图片描述

美化参考：http://www.sohu.com/a/130616941_278730

四、保守位点分析

1、输入网址

MEME : http://meme-suite.org/tools/meme

2、上传fasta序列（这里的序列是整合后的文件，文件后缀.fasta）,并输入参数（这里设置motif为10）
这里写图片描述

3、得到保守位点分析结果
这里写图片描述

文章作者: 白墨

文章链接: https://ziptop.top/posts/45513/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自白墨！

生物信息生信情报站

打赏

微信
支付宝

相关推荐

KEGG 下载 Pathway 通路数据

Python 自动化提取基因的 CDS

Seurat 包图文详解 | 单细胞转录组(scRNA-seq)分析02

一文极速读懂UniProt数据库

一文极速读懂 Gene Ontology （GO）数据库

二代测序原理（Illumina）

评论

播放音乐

数据库加载中