✅ 操作成功!

多序列比对

发布时间:2023-06-11 作者:admin 来源:文学

多序列比对

多序列比对

-

2023年3月4日发(作者:试卷分析)

信息生物学在序列比对中的应用

2008-11-0600:01

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的

相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核

酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探

索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核

酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质

折叠类型的信息和预测一些新发现基因的功能。

序列两两比对

序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有

共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变

异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化

的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列

中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋

白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨

酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。

但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下

来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具

有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过

大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此

粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。

早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换

而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列

分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残

基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是

Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算

法。在FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多

个不相互交叉的最佳比对结果。

在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的

比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和

功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的

打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性

和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的

取代矩阵有PAM和BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括

PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代

矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低

的序列可采用BLOSUM30矩阵

对于比对计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方法加以说

明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看

看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。

对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这

样就排除了由于偶然的因素产生高比对得分的可能。

Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。

不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,

如最常见的FASTA工具和BLAST工具。FASTA是第一个被广泛应用的序列比对和搜索工具

包,包含若干个独立的程序。FASTA为了提供序列搜索的速度,会先建立序列片段的“字典”,

查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的

ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这

个比对的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点

上找到。

BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并

建立在严格的统计学基础之上。NCBI提供了基于Web的BLAST服务,用户可以把序列填入

网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列

搜索的结果。BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜

索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读

框架转换成蛋白质序列。

BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一行是描述行,第一个字符

必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程

序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部

转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数

字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。此外,对于核酸序列,

除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);

K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B

代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、

C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表

Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻译结

束标志。

BLAST的当前版本是2.0,它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST

的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile

再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST

搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了

BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序

列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如threading相媲美。

PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载

PSI-BLAST的独立程序。

多序列比对

顾名思义,多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对

多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对的思想,在序列两

两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步

处理,例如构建序列模式的profile,将序列聚类构建分子进化树等等。

目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW

是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然

后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两

条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。

CLUSTALW程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位

罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通

过表单提交到服务器上,服务器把计算的结果用Email返回用户。

CLUSTALW对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、

SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、

GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。

用CLUSTALW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个

位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。

核酸与蛋白质结构和功能的预测分析

人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如,

DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息;

蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性

位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类

问题的主要途径,但新的思路是利用已有的对生物大分子结构和功能特性的认识,用生物信

息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息。由于生

物信息学的特点,可以用较低的成本和较快的时间就能获得可靠的结果。近10年来生物学序

列信息的爆炸性增长大大促进了各种序列分析和预测技术的发展,目前已经可以用理论预测

的方法获得大量的结构和功能信息。要注意的是,尽管各种预测方法都基于现有的生物学数

据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范

围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种

方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这

些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。

针对核酸序列的预测方法

针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及

标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据

的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如

果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的

话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律

性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据

包括与“模板”序列的模式相匹配、简单序列模式如TATABox等相匹配等。一般而言,确定基

因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在

进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意

程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度

也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。

重复序列分析

对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出

来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索

的程序。常见的重复序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用

这些程序,或者用Email来进行。如果有大量序列需要处理,可以使用XBLAST程序,它可

以从Internet上下载得到。XBLAST中以及包含了由程序作者收集整理的一些重复序列,此

外还可以从Repbase中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这样就

可以在处理重复序列时顺便把克隆载体也一同除去。经处理的序列中重复序列所在位置会一

律由“X”代替。

多序列比对概述

2008-11-0623:53

多序列比对的定义

为了便于描述,我们对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表

中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)

一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,

即尽可能将序列间相同或相似残基上下对齐(表1)。我们称比对前序列中残基的位置为绝对

位置。如序列Ⅰ的第3位的残基是甘氨酸G,则绝对位置Ⅰ3就是甘氨酸,而不能变成任何其它

氨基酸。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的

相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。需要说明的是,绝

对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,

也就比对过程赋予它的属性。

表1多序列比对的定义,表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大

多数相同或相似残基放入同一列,并保持每个序列残基顺序不变。

多序列比较对的算法复杂性

多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需要的计

算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用O

(m1m2)表示。其中m1、m2是指两条序列的长度。三序列比对则可以理解为将双序列比对

的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成了O

(m1m2m3),其中m3表示第三条序列的长度。

随着序列数量的增加,算法复杂性也不断增加。我们用O(m1m2m3…mn)表示对n个序列

进行比对时的算法复杂性,其中mn是最后一条序列的长度。若序列长度相差不大,则可简

化成O(mn),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增加,

序列比对的算法复杂性按指数规律增长。

降低算法复杂性,是研究多序列比对的一个重要方面。为此,产生了不少很有实用意义的多

序列比对算法。这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以获得一

个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守序列或

序列模板,以及进行聚类(clustering)分析等。有的算法将动态规划和启发性算法结合起来。

例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根据某种给

定的亲源树进行分组比对,等等。必须指出,上述方法求得的结果通常不是最优解,至少需

要经过n-1次双序列比对,其中n为参与比对的序列个数。

多序列比对方法

下面介绍比对采用的几种常用方法。

手工比对方法

手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大

的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以忽视。

在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资料,对

多序列比对结果进行手工修饰,应该说是非常必要的。

多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程序和编

辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残

基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不很直观,

就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结果中迅速

找到某些重要的结构模式和功能位点。例如,如果用某种颜色表示一组高度保守的残基,则

某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择可以根据

主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组件和三维

分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。

表2氨基酸分组方法和代表性颜色

*表中采用的分组方法和用来区分不同组别的颜色与模型构件和三维图形软件中所用方法一

致。

多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化中的亲

缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得到这种

定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。如果

序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之

处。

现有的软件包用的基本上是可用鼠标点击的窗口界面,其中序列编辑器位于窗口中央。这样

的软件包将在以后章节中详细介绍。

使用这些软件我们将会看到,那些长度相仿且相似性程度较高的序列,采用自动比对方法将

会得到相当满意的结果;而当序列长度相差较大而相似性程度较低时,采用自动方法得出的

结果则不很理想。此时,手工序列编辑器就接显得十分有用。通过手工调整,可使结果变得

接近实际。此外,采用多种不同的方法进行分析,再将结果综合,是一种行之有效的方法。

为更好地理解多序列比对的原理和规则,应该尽可能学会手工比对的方法,并把比对结果与

计算机自动比对得到的结果加以比较。

同步法

同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其基本思

想是将一个二维的动态规划矩阵扩展到三维或多维。矩阵的维数反映了参与比对的序列数。

这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对。

步进法

这类方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,

1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现实,因此大多

数实用的多序列比对程序采用启发式算法,以降低运算复杂度。Clustal的基本思想是基于相

似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它

们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计

算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,

相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal

可以输出用于构建进化树的数据。

Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空

位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果

中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。

Clustal是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。Clustal

所支持的数据格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及

Clustal本身定义的格式。它的输出格式可以是Clustal格式,也可以是可用于GDE、Phylip、

GCG等软件的格式。

多序列比对的数据库

多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且

在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵

敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。

目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将一次数据库

按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库。现在我们可

以通过一些例子看看这些数据库序列比对的情况,比如说,Pfam是将一次库通过自动比对来

构建的数据库,它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋

白的基因序列具有一定的相似性,Pfam将这些序列归为一类命名为TRANSFERRIN,我们可

以在Pfam查找TRANSFERRIN来得到原始序列比对信息[链接1.4.1.4],开头是一些注释信息,

然后给出了比对序列的名字,再下是比对结果,以“//”开始,并以“//”结束。对于一个未知的

蛋白质序列在该序列库中查询,该序列库会给出匹配的类及得分供你参考。

我们也可以看看PRINTS数据库关于TRANSFERRIN的比对信息,PRINTS数据库在自动比

对的基础上进行了手工编辑,查寻PRINTS数据库中关于TRANSFERRIN这一类的比对信息,

结果可以用模体(motif)形式显示也可以用点击链接调用JAVAAPPLET进行图形显示,下

图是关于TRANSFERRIN序列比对的局部图形,可见PRINTS数据库中TRANSFERRIN一类

由更多的序列比对形成。

一般来说,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有效的。一旦序

列的亲缘关系变得较远,所得结果就不那么可信。若要得到比较可靠而又具有明确生物学意

义的比对结果,比较有效的方法是对比对结果进行手工编辑和调整。这对于构建二次数据库

是非常重要的信息。在选择现有的序列模式或序列模体公开数据库构建自己的数据库系统时,

对这些现有数据库的可靠性必须采取谨慎的态度。

👁️ 阅读量:0